CN115862897B - 一种基于临床数据的症候群监测方法及系统 - Google Patents

一种基于临床数据的症候群监测方法及系统 Download PDF

Info

Publication number
CN115862897B
CN115862897B CN202310140144.6A CN202310140144A CN115862897B CN 115862897 B CN115862897 B CN 115862897B CN 202310140144 A CN202310140144 A CN 202310140144A CN 115862897 B CN115862897 B CN 115862897B
Authority
CN
China
Prior art keywords
case
vector
preset
feature
syndrome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310140144.6A
Other languages
English (en)
Other versions
CN115862897A (zh
Inventor
王希光
纪峥嵘
何长海
曾忠安
樊海东
叶凯
丁川
鲁冰青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Mandala Software Co ltd
Original Assignee
Jiangxi Mandala Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Mandala Software Co ltd filed Critical Jiangxi Mandala Software Co ltd
Priority to CN202310140144.6A priority Critical patent/CN115862897B/zh
Publication of CN115862897A publication Critical patent/CN115862897A/zh
Application granted granted Critical
Publication of CN115862897B publication Critical patent/CN115862897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于临床数据的症候群监测方法及系统,该方法包括:采集医护人员在书写病历过程中保存的病历文本,对病历文本进行分析以从病历文本中抽取出症候群信息;获取症候群信息对应的患者以及医院信息,并将症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;将单次病例特征向量存入至预设的向量数据库当中,对预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;从病例类群中提取病例类群的向量特征,以生成对应的病例类团指纹;当判断到病例类团指纹满足预设的监控条件时,对病历文本对应的症候群进行监控。本发明解决了现有技术中不能对症候群进行准确监控的问题。

Description

一种基于临床数据的症候群监测方法及系统
技术领域
本发明涉及数据处理领域,特别涉及一种基于临床数据的症候群监测方法及系统。
背景技术
疾病监测系统是用于实时获取与疾病有关的健康数据,对数据进行分析、监测、评估疾病发展趋势和公共卫生突发事件,并指导疾病预防和救治的信息系统。
目前疾病监测是医生根据临床表现和检验检查结果对患者病情进行诊断后,根据管控机构的要求对特定诊断的病例相关数据在规定时间范围内进行上报。管控机构在获取特定疾病的病历数据后依照对应的症候群设定不同的阈值进行监控,根据地理和时间进行特定的预警和通报。
然而,疾控系统根据预先设定好的规则阈值进行报警,整个系统决策中依赖预先设定好的阈值规则。对于突发的新病情特征,系统中尚未人工设定相关的规则,系统无法对其进行相应的监测,进而无法对症候群进行准确监控。
发明内容
有鉴于此,本发明的目的在于提供一种基于临床数据的症候群监测方法及系统,旨在解决现有技术中不能对症候群进行准确监控的问题。
本发明实施例是这样实现的:
一种基于临床数据的症候群监测方法,所述方法包括:
采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息;
获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;
将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;
从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹;
当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控;
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹。
进一步的,上述基于临床数据的症候群监测方法,其中,所述采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息的步骤包括:
将所述病历文本输入至预训练的分析模型当中,以获取病历文本当中的字与上下文特征向量;
将所述字与上下文特征向量输入至预训练的分类模型当中,以获取结合了BIO标识、词性类别、自身语义特点标识以及与上下文特定词性相关性的属性的词义与语义信息;
对所述词义与语义信息进行数据转化,得到相关关系组合以从所述病历文本中抽取出所述症候群信息。
进一步的,上述基于临床数据的症候群监测方法,所述预训练的分类模型的目标函数为:
Figure SMS_1
其中,b为BIO分类概率,s为词性类别分类特征概率,p为语义特征分类概率,la为与上文有关联的对应词性分类特征概率,lb为与下文有关联的对应词性分类特征概率,wb、ws、wp以及wl分别表示BIO、词性类别、语义特征以及上下文有关联的对应词性的输出数据的权重,Fb为BIO分类的目标函数,Fs为词性类别的目标函数,Fp为语义特征的目标函数。
进一步的,上述基于临床数据的症候群监测方法,其中,BIO分类的目标函数为:
Figure SMS_2
其中,x为预测BIO各分类概率结果,y为正确的BIO各分类概率,
Figure SMS_3
为当输入为预测BIO各分类概率结果时输出目标值;
词性与上下文关系的目标函数为:
Figure SMS_4
其中,ai为字所属的第i个词性分类预测概率,bi为字所属的第i个词性分类正确概率,m为词性种类数,
Figure SMS_5
为当输入为词性分类预测概率时输出目标值;
语义特征的目标函数为:
Figure SMS_6
其中,ei为第i个语义特征预测概率,gi为第i个语义特征正确概率,z为语义特征种类数,
Figure SMS_7
为当输入为语义特征预测概率输出目标值。
进一步的,上述基于临床数据的症候群监测方法,其中,所述将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群的步骤包括:
将所述单次病例特征向量存入至预设的向量数据库当中,从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量,根据所述单次病例特征向量以及相似病例向量以得到相似病例类团以得到所述病例类群;或
将所述单次病例特征向量存入至预设的向量数据库当中,定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析,以得到所述病例类群。
进一步的,上述基于临床数据的症候群监测方法,其中,所述从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量的步骤包括:
通过局部敏感哈希或倒排乘积量化将所述单次病例特征向量进行预先处理后保存,求出对应相似特征的病例近似解以获取所述相似病例向量;
所述定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析的步骤包括:
定时扫描所述预设的向量数据库当中的全部单次病例特征向量,通过K近邻聚类挖掘出不同分类的类团集合;
其中,在聚类过程中按预定概率随机隐藏所述单次病例特征向量的部分特征,并分批次进行聚类。
进一步的,上述基于临床数据的症候群监测方法,其中,所述从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹的步骤包括:
获取所述病例类群内的向量,并根据所述病例类群内的向量的均值以计算出所述病例类团指纹。
本发明的另一个目的在于提供一种基于临床数据的症候群监测系统,所述系统包括:
采集模块,用于采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息;
获取模块,用于获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;
处理模块,用于将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;
生成模块,用于从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹;
监控模块,用于当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控;
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹。
本发明的另一个目的在于提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任意一项所述的方法的步骤。
本发明的另一个目的是提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本发明通过采集医护人员在书写病历过程中保存的病历文本,并对病历文本中抽取出的症候群信息进行向量转化以得到单次病例特征向量;通过对单次病例特征向量进行聚类处理得到的病例类群的病例类团指纹;来判断是否需要进行监控,能够实现新发的病情特征监控以及非新发的病情特征监控,从而实现对症状群的准确监控。
附图说明
图1为本发明第一实施例中基于临床数据的症候群监测方法的流程图;
图2为本发明一实施例中基于临床数据的症候群监测方法的病例类团指纹搜索示意图;
图3为本发明一实施例中基于临床数据的症候群监测方法的流程示意图;
图4为本发明一实施例中基于临床数据的症候群监测方法的病历结构化示意图;
图5为本发明一实施例中基于临床数据的症候群监测方法的病历结构化其中一部分示例图;
图6为本发明一实施例中基于临床数据的症候群监测方法的病历结构化另一部分示例图;
图7为本发明一实施例中基于临床数据的症候群监测方法的聚类分析中的随机隐藏示意图;
图8为本发明第四实施例中基于临床数据的症候群监测系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
疾病监测系统是用于实时获取与疾病有关的健康数据,对数据进行分析、监测、评估疾病发展趋势和公共卫生突发事件,并指导疾病预防和救治的信息系统。
目前疾病监测是医生根据临床表现和检验检查结果对患者病情进行诊断后,根据管控机构的要求对特定诊断的病例相关数据在规定时间范围内进行上报。管控机构在获取特定疾病的病历数据后依照对应的症候群设定不同的阈值进行监控,根据地理和时间进行特定的预警和通报。
然而,疾控系统根据预先设定好的规则阈值进行报警,整个系统决策中依赖预先设定好的阈值规则。对于突发的新病情特征,系统中尚未人工设定相关的规则,系统无法对其进行相应的监测。
以下将结合具体实施例和附图来详细说明如何实现对症候群的准确监测。
实施例一
请参阅图1,所示为本发明第一实施例中的基于临床数据的症候群监测方法,所述方法包括步骤S10~S14。
步骤S10,采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息。
其中,医护人员为可以进行书写病历或者进行病历录入的医护从事人员,一般的,医护人员为医生,在具体实施时,症候群监测基于特定的疾控监测系统进行实现,具体的,疾控监测系统至少包括有数据采集系统(用于对病历数据进行采集)、数据处理系统(用于对采集后的数据进行处理)以及数据展示系统(用于对处理后的数据进行展示),在具体实施时,病历文本通过电子版的形式进行保存,以便于疾病监控系统采集器进行采集,医护人员可以基于可编辑的移动终端上的特定的病历编辑界面进行病历的书写,其中,移动终端包括但不限于手机、电脑以及平板等。
具体的,病历文本中一般包含此次患者的关键信息,例如临床症状等,对病历文本进行识别以获取病历文本中的症候群信息。
步骤S11,获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量。
其中,采集系统获取到症候群信息后,对数据进行清洗后,通过特定的向量化方式将临床的症候群信息、患者信息、医院信息转化为单次病例特征向量,具体的,患者的信息至少包括患者年龄以及性别等,医院信息至少包括医院的地理位置以及医院名称等,根据症候群信息、患者信息以及医院信息可以得到单次的病例特征向量。
另外,需要说明的是,在本实施例当中,将症候群信息、患者信息以及医院信息分别进行获取,在本发明一些可选的实施例当中,患者信息以及医院信息还可以统一体现在病历文本上,从而通过对病历文本分析直接采集。
步骤S12,将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群。
具体的,采集系统在对数据转化为单次的病例特征向量后,将该特征向量推送进用于分析的预设的向量数据库中,从而对病例特征向量进行处理得到病例类群,其中,病例类群为病例特征向量较为相似的病例特征向量组成的群体。
步骤S13,从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹。
其中,根据提取出的向量特征生成对应的病例类团指纹和特定的向量组关联系数,具体的,可以获取病例类群团内向量的均值计算出其向量指纹。
步骤S14,当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控。
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹。
具体的,遍历生成的每个病例类团指纹,在历史类团特征库(例如历史指纹库)中搜索匹配每个病例类团指纹,判断该病例类团指纹是否符合需要关注、是否为报警的病例类团以及是否是出现新的病例类团,而对于发现的新病例类团指纹提醒给决策者进行重点关注,人工判断其类团是否有继续关注价值,并保存在历史类团特征库中,在具体实施时,如图2所示,将计算后的向量指纹在历史指纹库中检索,寻找与其欧式距离较近的类团指纹,例如,在本实施例当中,计算后的向量指纹类团A指纹、类团B指纹以及类团C指纹的类团指纹在历史指纹库中查找过程如下,如果查找出与其距离较近的类团则被标记为需要关注,并根据关注级别(L0-L5)做对应的处理,其中,可以根据实际情况设定距离阈值,在满足距离阈值的情况下,将病例类团指纹标记为需要关注,如果历史库中没有与其欧式距离较近指纹,就将其病例类团作为需要介入处理的病例类团,将其包含的病例推送给相关人员,用以提醒和人工标记关注级别。
另外,如图3所示,在从病例类群中提取病例类群的向量特征,以生成对应的病例类团指纹后,还可以根据获取到的病例类团指纹进行特征分析确定相关性,从而作出综合决策。
综上,本发明上述实施例中的基于临床数据的症候群监测方法,通过采集医护人员在书写病历过程中保存的病历文本,并对病历文本中抽取出的症候群信息进行向量转化以得到单次病例特征向量;通过对单次病例特征向量进行聚类处理得到的病例类群的病例类团指纹;来判断是否需要进行监控,从而实现对症状群的准确监控。
实施例二
本实施例也提出一种症候群监测方法,本实施例当中的基于临床数据的症候群监测方法与实施例一当中的基于临床数据的症候群监测方法的不同之处在于:
步骤S10包括:
将所述病历文本输入至预训练的分析模型当中,以获取病历文本当中的字与上下文特征向量;
将所述字与上下文特征向量输入至预训练的分类模型当中,以获取结合了BIO标识、词性类别、自身语义特点标识以及与上下文特定词性相关性的属性的词义与语义信息;
对所述词义与语义信息进行数据转化,得到相关关系组合以从所述病历文本中抽取出所述症候群信息。
具体的,医生书写的病历是符合人类可以看懂的自然语言习惯,而计算机无法从随意书写的病历中准确抽取对应信息。并且每个地方、每家医院、不同科室的病历规范和书写习惯差异很大,通过人工整理出能够理解病历内容的规则非常困难,因此,在本实施例当中,提出了一个融合了词义与语义的病历结构化方案,通过对标注后的病历语料数据进行训练,生成病历结构化。
具体的,可以通过embedding模型将历史病历本中的文字转化为字向量,其中embedding模型选取为bert、GPT2;后通过预设的分类模型对转化为字向量的训练集进行病历语料数据的标注后用于分类模型的训练,其中,语料通过筛选不同省份医院、不同科室的病历,尽量兼容更多医学描述特征。为了提高泛化能力,加入一些非医疗语料(如娱乐、财经、体育类新闻语料)。
具体的,人工对语料进行分词,选取词性,选取该词在当前语境中是否被否定、怀疑等修饰,将该词与其他与他有语义联系的词进行关联(如腹部疼痛呈阵发性,腹部与疼痛有联系,阵发性与疼痛有联系)。
示例性的,如图4所示,病历文本依次经过分析模型、统计学模型以及数据转化而得到最终需要的关系组合成的症候群信息,方案中主体统计学模型部分大多是采用基于RNN变种模型,利用了RNN中能够结合上下文信息的特点,使得病历中不同语境下的词义与语义分析成为可能。
统计学模型的输入端是每个字结合当前语境中的特征,输出端是结合了BIO标识、词性类别、自身语义特点标识、与前后文特定词性相关性四种不同类型属性,系统目标函数在对于这几种不同类型的输出数据赋予了不同的权重,定制化的目标函数为:
Figure SMS_8
;/>
其中,b为BIO分类概率,s为词性类别分类特征概率,p为语义特征分类概率,la为与上文有关联的对应词性分类特征概率,lb为与下文有关联的对应词性分类特征概率,wb、ws、wp以及wl分别表示BIO、词性类别、语义特征以及上下文有关联的对应词性的输出数据的权重,Fb为BIO分类的目标函数,Fs为词性类别的目标函数,Fp为语义特征的目标函数。
其中,BIO中B为实体词中第一个词,I为实体词中非第一个词,O为非实体词,语义特征包括否定、伴随、怀疑等。
进一步的,上述基于临床数据的症候群监测方法,其中,BIO分类的目标函数为:
Figure SMS_9
其中,x为预测BIO各分类概率结果,y为正确的BIO各分类概率,
Figure SMS_10
为当输入为预测BIO各分类概率结果时输出目标值;
词性与上下文关系的目标函数为:
Figure SMS_11
其中,ai为字所属的第i个词性分类预测概率,bi为字所属的第i个词性分类正确概率,m为词性种类数,
Figure SMS_12
为当输入为词性分类预测概率时输出目标值;
语义特征的目标函数为:
Figure SMS_13
其中,ei为第i个语义特征预测概率,gi为第i个语义特征正确概率,z为语义特征种类数,
Figure SMS_14
为当输入为语义特征预测概率输出目标值。
通过机器学习后的统计学模型,可以将输入的病历文本转化为结合了BIO标识、词性类别、自身语义特点标识以及与上下文特定词性相关性的属性的词义与语义信息,然后通过数据转化为我们想要的关系组合,示例性的,如图5、图6所示。
另外,由于采集到的临床数据(包括症状群信息、患者信息以及医院信息)的类型不一,在进行向量化时可以采取如下方式:
一般的,采集端收集的数据有以下几种:
a) 患者年龄、性别
b) 阳性症状
c) 阴性症状
d) 一般情况
e) 体征
f) 检验检查指标
g) 症状发生时间
h) 医院地理信息
对不同数据进行如下处理:
1) 年龄是数值型数据,范围在0-150之间,由于长度上下限固定,将其直接放在向量中,并由于不同年龄身体机能衰减曲线不同,针对大脑、骨骼、心脏、呼吸器官、消化器官、泌尿器官、肌肉皮肤用不同的驼峰曲线处理后加入到特征向量中
2) 性别使用男为1,女为-1,其他或未知为0
3) 对于重点的症候群数据中,症状阳性且没有特殊描述为1,症状阴性为-1,没有涉及到的症状为0。部分阳性症状数据是有对应的性质描述,其中对于几种常用的程度描述设定不同的扩大或衰减值。对于特定症状的常用的性质描述按照不同的症状进行处理。
4) 一般情况参照症候群中的程度进行处理,正常状态为-1,未涉及到的为0,不同程度的问题由低到高0-5递增。
检验检查数据中,部分数据是数值型数据,但数据范围不固定,对其进行标准化处理。又由于不同厂家、批次设备检查出的指标参考值范围也不同,所以针对当次与参考值范围差进行求值
Figure SMS_15
,其中Cmax、Cmin分别为参考值上下限。
5) 时间部分主要由患者就诊日期、症状发现日期组成。日期按照时间戳求出相对于1970年1月1日之后的天数表示发病的绝对时间值。但是部分疾病与一年四季节气有关,所以将日期按照相对于当年1月1日的天数求节气特征值:
Figure SMS_16
6) 医院地理信息获取医院或城市的经纬度数值。
步骤S12包括:
将所述单次病例特征向量存入至预设的向量数据库当中,从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量,根据所述单次病例特征向量以及相似病例向量以得到相似病例类团以得到所述病例类群;或
将所述单次病例特征向量存入至预设的向量数据库当中,定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析,以得到所述病例类群。
其中,对采集到的单次病例特征向量在预设的向量数据库当中寻找相似病例向量,或定时地对数据进行聚类分析,从而得到需要的病例类群。
具体的,对于新加入的病例向量(采集到的单次病例特征向量),可以通过LSH(局部敏感哈希)或倒排乘积量化的方式将向量预先处理保存后,求出对应相似特征的病例近似解,从而找出相似病例向量。
而对于单次病例特征向量的聚类分析,可以定时扫描预设的向量数据库当中的全部病例向量,通过K近邻聚类挖掘出不同分类的类团集合。由于在向量中存在大量的特征与当次患者所患疾病无关,所以在聚类过程中计算欧氏距离的时候,如图7所示,根据设置一个按预定概率随机隐藏部分特征后,分批次进行聚类。
综上,本发明上述实施例中的基于临床数据的症候群监测方法,通过采集医护人员在书写病历过程中保存的病历文本,并对病历文本中抽取出的症候群信息进行向量转化以得到单次病例特征向量;通过对单次病例特征向量进行聚类处理得到的病例类群的病例类团指纹;来判断是否需要进行监控,从而实现对症状群的准确监控。
另外,本发明至少还具有如下的有益效果:
1. 将词义与语义信息通过一个统计学模型中求解,模型会将词义、语义、上下文环境综合在一起考量,避免先进行词义分析后,将词义分析后的结果再进行语义分析,提升了运行效率。
2. 常规的疾病监控预警方式中需要人工整理规则、或通过训练分类器的方式进行预警。两种方式都只能针对已经人工总结、标注过的疾病特征情况,无法应对新出现的特征状况。通过对病情进行聚类的方式找挖掘出成一定规模的病情特征,并于过去历史特征库中进行对比,判断是否是需要注意的新病情或过去已经有对应处理机制的病情。
3. 通过将病例数据进行向量化,形成的特征向量可以很方便的通过计算欧式距离的方式求的不同病历之间的相似度,进而可以快速查找相似病例、对病例进行聚类。
4. 为了避免向量中特征噪音过大,在不同聚类批次中引入了一定概率随机屏蔽部分特征,使得整体聚类的泛化程度更高。
5. 病例向量化的时候,对于年龄数据并没有单纯使用年龄的绝对值,不同身体机能对于年龄驼峰函数是不同的,如果仅仅使用年龄绝对值作为特征,无法体现不同身体机能的衰减情况。
6. 日期类型处理时,由于部分病症对于节气较为敏感。对于特征相近不能以绝对时间相近作为判断,如今年1月份与今年12月份相差11个月,但是实际节气仅仅相差1个月左右。所以通过以年为单位的周期环作为距离计算公式,求日期与7月1日的日期差距值作为特征,越大表示越接近冬季,越小表示越接近夏季。
7. 重点症状特征处理时,对于程度进行对应的削弱、增强,并且对于常见的性质进行额外的特征处理,尽量保持病例中重要的特征因素。阴性症状为负数,阳性症状为整数,没有描述的为0,使得其特征差值与实际意义相符,阳性与阴性的差距大于阳性与未知的差距。
8. 检验检查数值指标如果直接使用绝对值,不同指标范围差别很大,将对计算距离产生很大影响。如果使用传统方式直接对其进行归一化,无法避免不同厂家、批次、检验方式对于指标值的影响。通过引入当次检验指标合理参考值范围,对数据进行归一化,避免了上述不同因素对指标值的影响,也将指标过高、过低的特征引入到了结果向量中。
实施例三
请参阅图8,所示为本发明第四实施例中提出的基于临床数据的症候群监测系统,所述系统包括:
采集模块100,用于采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息;
获取模块200,用于获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;
处理模块300,用于将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;
生成模块400,用于从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹;
监控模块500,用于当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控;
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹。
进一步的,上述基于临床数据的症候群监测系统,其中,所述采集模块包括:
输入单元,用于将所述病历文本输入至预训练的分析模型当中,以获取病历文本当中的字与上下文特征向量;
分类单元,用于将所述字与上下文特征向量输入至预训练的分类模型当中,以获取结合了BIO标识、词性类别、自身语义特点标识以及与上下文特定词性相关性的属性的词义与语义信息;
转化单元,用于对所述词义与语义信息进行数据转化,得到相关关系组合以从所述病历文本中抽取出所述症候群信息。
进一步的,上述基于临床数据的症候群监测系统,其中,所述预训练的分析模型的目标函数为:
Figure SMS_17
其中,b为BIO分类概率,s为词性类别分类特征概率,p为语义特征分类概率,la为与上文有关联的对应词性分类特征概率,lb为与下文有关联的对应词性分类特征概率,wb、ws、wp以及wl分别表示BIO、词性类别、语义特征以及上下文有关联的对应词性的输出数据的权重,Fb为BIO分类的目标函数,Fs为词性类别的目标函数,Fp为语义特征的目标函数。
进一步的,上述基于临床数据的症候群监测系统,其中,所述BIO分类的目标函数为:
Figure SMS_18
其中,x为预测BIO各分类概率结果,y为正确的BIO各分类概率,
Figure SMS_19
为当输入为预测BIO各分类概率结果时输出目标值;
词性与上下文关系的目标函数为:
Figure SMS_20
其中,ai为字所属的第i个词性分类预测概率,bi为字所属的第i个词性分类正确概率,m为词性种类数,
Figure SMS_21
为当输入为词性分类预测概率时输出目标值;
语义特征的目标函数为:
Figure SMS_22
其中,ei为第i个语义特征预测概率,gi为第i个语义特征正确概率,z为语义特征种类数,
Figure SMS_23
为当输入为语义特征预测概率输出目标值。
进一步的,上述基于临床数据的症候群监测系统,其中,所述处理模块具体用于:
将所述单次病例特征向量存入至预设的向量数据库当中,从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量,根据所述单次病例特征向量以及相似病例向量以得到相似病例类团以得到所述病例类群;或
将所述单次病例特征向量存入至预设的向量数据库当中,定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析,以得到所述病例类群。
进一步的,上述基于临床数据的症候群监测系统,其中,所述处理模块具体用于:
通过局部敏感哈希或倒排乘积量化将所述单次病例特征向量进行预先处理后保存,求出对应相似特征的病例近似解以获取所述相似病例向量;
所述定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析的步骤包括:
定时扫描所述预设的向量数据库当中的全部单次病例特征向量,通过K近邻聚类挖掘出不同分类的类团集合;
其中,在聚类过程中按预定概率随机隐藏所述单次病例特征向量的部分特征,并分批次进行聚类。
进一步的,上述基于临床数据的症候群监测系统,其中,所述生成模块具体用于:
获取所述病例类群内的向量,并根据所述病例类群内的向量的均值以计算出所述病例类团指纹。
上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
实施例四
本发明另一方面还提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述实施例一至二中任意一个所述的方法的步骤。
实施例五
本发明另一方面还提供一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例一至二中任意一个所述的方法的步骤。
以上各个实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于临床数据的症候群监测方法,其特征在于,所述方法包括:
采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息;
获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;
将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;
从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹;
当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控;
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹;
所述将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群的步骤包括:
将所述单次病例特征向量存入至预设的向量数据库当中,从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量,根据所述单次病例特征向量以及相似病例向量以得到相似病例类团以得到所述病例类群;或
将所述单次病例特征向量存入至预设的向量数据库当中,定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析,以得到所述病例类群;
其中,所述病例类群为病例特征向量较为相似的病例特征向量组成的群体。
2.根据权利要求1所述的基于临床数据的症候群监测方法,其特征在于,所述采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息的步骤包括:
将所述病历文本输入至预训练的分析模型当中,以获取病历文本当中的字与上下文特征向量;
将所述字与上下文特征向量输入至预训练的分类模型当中,以获取结合了BIO标识、词性类别、自身语义特点标识以及与上下文特定词性相关性的属性的词义与语义信息;
对所述词义与语义信息进行数据转化,得到相关关系组合以从所述病历文本中抽取出所述症候群信息。
3.根据权利要求2所述的基于临床数据的症候群监测方法,其特征在于,所述预训练的分析模型的目标函数为:
Figure QLYQS_1
其中,b为BIO分类概率,s为词性类别分类特征概率,p为语义特征分类概率,la为与上文有关联的对应词性分类特征概率,lb为与下文有关联的对应词性分类特征概率,wb、ws、wp以及wl分别表示BIO、词性类别、语义特征以及上下文有关联的对应词性的输出数据的权重,Fb为BIO分类的目标函数,Fs为词性类别的目标函数,Fp为语义特征的目标函数。
4.根据权利要求3所述的基于临床数据的症候群监测方法,其特征在于,所述BIO分类的目标函数为:
Figure QLYQS_2
其中,x为输入文字特征,
Figure QLYQS_3
为预测BIO各分类概率结果,y为正确的BIO各分类概率;
词性与上下文关系的目标函数为:
Figure QLYQS_4
其中,
Figure QLYQS_5
为字所属的词性分类预测概率,bi为字所属的词性分类正确概率,m为词性种类数;
语义特征的目标函数为:
Figure QLYQS_6
其中,
Figure QLYQS_7
为语义特征预测概率,gi为语义特征正确概率,z为语义特征种类数。
5.根据权利要求1所述的基于临床数据的症候群监测方法,其特征在于,所述从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量的步骤包括:
通过局部敏感哈希或倒排乘积量化将所述单次病例特征向量进行预先处理后保存,求出对应相似特征的病例近似解以获取所述相似病例向量;
所述定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析的步骤包括:
定时扫描所述预设的向量数据库当中的全部单次病例特征向量,通过K近邻聚类挖掘出不同分类的类团集合;
其中,在聚类过程中按预定概率随机隐藏所述单次病例特征向量的部分特征,并分批次进行聚类。
6.根据权利要求1至5中任一项所述的基于临床数据的症候群监测方法,其特征在于,所述从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹的步骤包括:
获取所述病例类群内的向量,并根据所述病例类群内的向量的均值以计算出所述病例类团指纹。
7.一种基于临床数据的症候群监测系统,其特征在于,所述系统包括:
采集模块,用于采集医护人员在书写病历过程中保存的病历文本,对所述病历文本进行分析以从所述病历文本中抽取出症候群信息;
获取模块,用于获取所述症候群信息对应的患者以及医院信息,并将所述症候群、患者以及医院信息进行向量转化以得到单次病例特征向量;
处理模块,用于将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群;
生成模块,用于从所述病例类群中提取所述病例类群的向量特征,以生成对应的病例类团指纹;
监控模块,用于当判断到所述病例类团指纹满足预设的监控条件时,对所述病历文本对应的症候群进行监控;
其中,所述预设的监控条件为所述病例类团指纹是否为需要关注、报警以及新出现的病例类团指纹;
所述处理模块具体用于:
所述将所述单次病例特征向量存入至预设的向量数据库当中,对所述预设的向量数据库当中的所有单次病例特征向量进行预设处理以得到病例类群的步骤包括:
将所述单次病例特征向量存入至预设的向量数据库当中,从所述预设的向量数据库当中查找出与所述单次病例特征向量相似的相似病例向量,根据所述单次病例特征向量以及相似病例向量以得到相似病例类团以得到所述病例类群;或
将所述单次病例特征向量存入至预设的向量数据库当中,定时的对所述预设的向量数据库当中的单次病例特征向量进行聚类分析,以得到所述病例类群;
其中,所述病例类群为病例特征向量较为相似的病例特征向量组成的群体。
8.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任意一项所述的方法的步骤。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任一所述的方法的步骤。
CN202310140144.6A 2023-02-21 2023-02-21 一种基于临床数据的症候群监测方法及系统 Active CN115862897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310140144.6A CN115862897B (zh) 2023-02-21 2023-02-21 一种基于临床数据的症候群监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310140144.6A CN115862897B (zh) 2023-02-21 2023-02-21 一种基于临床数据的症候群监测方法及系统

Publications (2)

Publication Number Publication Date
CN115862897A CN115862897A (zh) 2023-03-28
CN115862897B true CN115862897B (zh) 2023-05-23

Family

ID=85658533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310140144.6A Active CN115862897B (zh) 2023-02-21 2023-02-21 一种基于临床数据的症候群监测方法及系统

Country Status (1)

Country Link
CN (1) CN115862897B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580798B (zh) * 2023-07-13 2023-10-20 南京纳实医学科技有限公司 一种动态精准的受试者药物临床试验遴选的研究方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093106A (zh) * 2013-01-25 2013-05-08 上海市浦东新区疾病预防控制中心 大型活动中多源数据的传染病症状监测与预警方法
CN111916215A (zh) * 2020-06-17 2020-11-10 扬州大学附属医院 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180366221A1 (en) * 2017-06-13 2018-12-20 Radicalogic Technologies Inc. Dba Rl Solutions Platform for context based syndromic surveillance
CN111739634A (zh) * 2020-05-14 2020-10-02 平安科技(深圳)有限公司 相似患者智能分群方法、装置、设备及存储介质
CN111767707B (zh) * 2020-06-30 2023-10-31 平安科技(深圳)有限公司 雷同病例检测方法、装置、设备及存储介质
CN112216402A (zh) * 2020-10-16 2021-01-12 平安国际智慧城市科技股份有限公司 基于人工智能的疫情预测方法、装置、计算机设备及介质
CN112786205B (zh) * 2020-12-31 2022-02-11 医渡云(北京)技术有限公司 基于数据模型的症候群预警方法、装置、介质及设备
CN112951443B (zh) * 2021-04-16 2023-08-04 平安科技(深圳)有限公司 症候群监测预警方法、装置、计算机设备及存储介质
CN114822871A (zh) * 2022-07-01 2022-07-29 北京超数时代科技有限公司 基于自学习与数据保护的发热伴呼吸道症候群的监测系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093106A (zh) * 2013-01-25 2013-05-08 上海市浦东新区疾病预防控制中心 大型活动中多源数据的传染病症状监测与预警方法
CN111916215A (zh) * 2020-06-17 2020-11-10 扬州大学附属医院 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Also Published As

Publication number Publication date
CN115862897A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
Fang et al. Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis.
CN111967495B (zh) 一种分类识别模型构建方法
Tsang et al. Harnessing the power of machine learning in dementia informatics research: Issues, opportunities, and challenges
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
Mamun et al. Deep Learning Based Model for Alzheimer's Disease Detection Using Brain MRI Images
CN115862897B (zh) 一种基于临床数据的症候群监测方法及系统
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
Du et al. Automated prediction of sepsis onset using gradient boosted decision trees
Xie et al. Application of a new one-dimensional deep convolutional neural network for intelligent fault diagnosis of rolling bearings
Zou et al. Intelligent diagnosis method of bearing fault based on ICEEMDAN and Ghost-IRCNN
Uddin et al. a novel approach utilizing machine learning for the early diagnosis of Alzheimer's disease
CN117219127A (zh) 认知状态识别方法以及相关设备
Das et al. Patient questionnaires based Parkinson’s disease classification using artificial neural network
CN110033862B (zh) 一种基于加权有向图的中医量化诊断系统及存储介质
Javeed et al. Breaking barriers: a statistical and machine learning-based hybrid system for predicting dementia
CN114496231A (zh) 基于知识图谱的体质识别方法、装置、设备和存储介质
CN114429822A (zh) 病历质检方法、装置和存储介质
CN114065821A (zh) 基于动态阈值的脑电主观情绪识别方法、系统及存储介质
Orrù et al. Machine learning item selection for short scale construction: A proof-of-concept using the SIMS
CN114649071A (zh) 一种基于真实世界数据的消化性溃疡治疗方案的预测系统
Alkhushayni et al. The application of differing machine learning algorithms and their related performance in detecting skin cancers and melanomas
Hang et al. Electronic medical record based machine learning methods for adverse pregnancy outcome prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Xiguang

Inventor after: He Changhai

Inventor after: Zeng Zhongan

Inventor after: Fan Haidong

Inventor after: Ye Kai

Inventor after: Ding Chuan

Inventor after: Lu Bingqing

Inventor before: Wang Xiguang

Inventor before: Ji Zhengrong

Inventor before: He Changhai

Inventor before: Zeng Zhongan

Inventor before: Fan Haidong

Inventor before: Ye Kai

Inventor before: Ding Chuan

Inventor before: Lu Bingqing