CN116092672A - 谵妄识别装置 - Google Patents
谵妄识别装置 Download PDFInfo
- Publication number
- CN116092672A CN116092672A CN202310273630.5A CN202310273630A CN116092672A CN 116092672 A CN116092672 A CN 116092672A CN 202310273630 A CN202310273630 A CN 202310273630A CN 116092672 A CN116092672 A CN 116092672A
- Authority
- CN
- China
- Prior art keywords
- delirium
- keywords
- target
- electronic case
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010012218 Delirium Diseases 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 56
- LNEPOXFFQSENCJ-UHFFFAOYSA-N haloperidol Chemical compound C1CC(O)(C=2C=CC(Cl)=CC=2)CCN1CCCC(=O)C1=CC=C(F)C=C1 LNEPOXFFQSENCJ-UHFFFAOYSA-N 0.000 description 18
- 229960003878 haloperidol Drugs 0.000 description 9
- 238000012216 screening Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 4
- 238000000540 analysis of variance Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003935 attention Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- KVWDHTXUZHCGIO-UHFFFAOYSA-N olanzapine Chemical compound C1CN(C)CCN1C1=NC2=CC=CC=C2NC2=C1C=C(C)S2 KVWDHTXUZHCGIO-UHFFFAOYSA-N 0.000 description 1
- 229960005017 olanzapine Drugs 0.000 description 1
- 238000001543 one-way ANOVA Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及医疗技术领域,尤其涉及一种谵妄识别装置,用于提高谵妄识别的效率及准确率。主要方案为:从所述存储器获取目标用户的电子病例数据;确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
Description
技术领域
本申请涉及医疗技术领域,尤其涉及一种谵妄识别装置。
背景技术
谵妄是一种常见于住院患者的老年综合征,与不良预后密切相关,谵妄在老年住院患者中常见。有研究报道70岁以上的普通内科老年住院患者有三分之一合并谵妄,然而针对老年谵妄尚未建立起标准化的确定方法。因此,谵妄的研究显得尤为必要,为临床治疗提供参考,提升老年人口的健康水平。
现有的老年谵妄识别研究主要以床旁量表评分为主,然而量表及电子病历问卷难以做到实时评估,评估结果受评估人员的影响。因此,现有谵妄识别的效率以及准确率较低。
发明内容
有鉴于此,本申请提供一种谵妄识别装置,用于提高谵妄识别的效率及准确率。
本申请实施例提供一种谵妄识别装置,该装置包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序以及用户的电子病例数据,当谵妄识别装置运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述计算机程序被所述处理器执行时实现如下步骤:
从所述存储器获取目标用户的电子病例数据;
确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
在本发明提供的一个可选实施例中,所述确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数,包括:
根据谵妄词库和标准词库对所述电子病例数据进行分词得到分词结果,所述谵妄词库中包括有关于谵妄的专有名词、专有形容词;
将所述分词结果属于所述谵妄词库中的专有名词和专有形容词确定为目标关键词,并统计所述目标关键词在所述分词结果中的出现次数。
在本发明提供的一个可选实施例中,在根据谵妄词库和标准词库对所述电子病例数据进行分词得到分词结果之前,还包括:
按照预置时间间隔,依据谵妄词库和标准词库对新出现的电子病例样本数据进行分词得到分词结果,所述新出现的电子病例样本数据的标签为谵妄;
将新出现的电子病例样本数据的分词结果中不属于谵妄词库及标准词库中的名词、形容词确定为潜在名词、潜在形容词;
将在新出现的电子病例样本数据的分词结果中出现次数超过预置数值的潜在名词、潜在形容词确定为有关于谵妄的专有名词、专有形容词;
将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中。
在本发明提供的一个可选实施例中,所述谵妄词库中包括多个类别分别对应的专有名词和/或专有形容词,每个类别的专有名词和/或专有形容词为语义相近的词。
在本发明提供的一个可选实施例中,所述将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中,包括:
将确定的有关于谵妄的专有名词、专有形容词分别与谵妄词库中各个类别下的专有名词和/或专有形容词进行近义词匹配,确定对应的类别;
将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中对应的类别下。
在本发明提供的一个可选实施例中,所述谵妄识别模型通过下述步骤训练得到:
确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
通过电子病例样本数据对应的关键特征变量集和样本标签进行模型训练得到所述谵妄识别模型。
在本发明提供的一个可选实施例中,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的拒绝域的面积或概率P值;
将P值小于第一数值的初始关键词确定为目标关键词,第一数值为预定义的数值。
在本发明提供的一个可选实施例中,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的检验的统计量F值;
将F值小于第二数值的初始关键词确定为目标关键词,第二数值为预定义的数值。
在本发明提供的一个可选实施例中,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
将每个电子病例样本数据中的初始关键词输入到所述谵妄识别模型中得到对应电子病例样本数据的预测结果;
通过对电子病例样本数据的预测结果和样本标签进行递归特征消除交叉验证,从所述初始关键词中确定目标关键词。
本申请实施例提供一种谵妄识别方法,该方法包括:
获取目标用户的电子病例数据;
确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
本申请提供的一种谵妄识别装置,首先从所述存储器获取目标用户的电子病例数据,确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果。由于本申请中的谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的,且目标关键词是用于评述是否为谵妄的关键词,因此本申请在获取到关键词特征变量集之后,将特征关键词特征变量集输入到谵妄识别模型中,便可得到目标用户是否为谵妄的检测结果,从而通过本申请可以提高谵妄识别的效率及准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种谵妄识别装置的结构图;
图2示出了本申请实施例所提供的一种计算机程序的执行流程图;
图3示出了本申请实施例所提供的AUC值随特征组合变化的曲线图。
具体实施方式
本申请说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
在本申请实施例中,至少一个还可以描述为一个或多个,多个可以是两个、三个、四个或者更多个,本申请不做限制。
如图1所示,本申请实施例提供了一种谵妄识别装置,该装置包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序以及用户的电子病例数据。如图2所示,当谵妄识别装置运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述计算机程序被所述处理器执行时实现如下步骤:
S101、从所述存储器获取目标用户的电子病例数据。
其中,存储器中存储有了所有用户的电子病例数据,该电子病例数据包括基本信息、病案首页、医疗文书、既往史、病程记录、护理记录等信息。
S102、确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数。
其中,所述目标关键词用于评述用户是否为谵妄的关键词。具体的,目标关键词可以为描述目标用户在意识、认知、动作行为、注意力、情绪、睡眠、精神、语言能力等方面的关键词,还可以为对目标用户的用药以及会诊等相关关键词,本实施例对此不做具体限定。
需要说明的是,本实施例可将目标关键词划分成多个类别,每个类别下对应有多个小类别的关键词。如下表1所示为本实施例提供的目标关键词划分方式,该表中一共包含了10个大类别,每个类别小都对应有各自的小类别,每个小类别内的关键词之间为语义相近的关键词,该表中的目标关键词仅为常见的用于识别谵妄的关键词,并不是对所有的用于识别谵妄的枚举。
表1
在本发明提供的一个可选实施例中,所述确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数,包括:
S1021、根据谵妄词库和标准词库对所述电子病例数据进行分词得到分词结果。
其中,标准词库中存储有常见词汇的词库。所述谵妄词库中包括有关于谵妄的专有名词、专有形容词,专有药品名等。具体的,所述谵妄词库中包括多个类别分别对应的专有名词和/或专有形容词,每个类别的专有名词和/或专有形容词为语义相近的词。如上表1中所示,表1中的第一至第七类为专有形容词、第八类为专有药品名、第九类至第十类为专有名词。
S1022、将所述分词结果属于所述谵妄词库中的专有名词和专有形容词确定为目标关键词,并统计所述目标关键词在所述分词结果中的出现次数。
如下表2所示,为分词结果属于谵妄词库中的专有名词和专有形容词的部分统计表。如二A为对应表1中第二类别下第A个小类别内关键词出现的次数,也就是属于二A的关键词出现的次数为3,其他类别没有出现对应的关键词则通过0进行表示。
表2
S103、根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集。
S104、将关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
在本实施例中,首先使用关键特征样本变量集及其对应的样本标签进行五折交叉验证,建立6种不同模型,得到各个模型的五折交叉验证AUC平均值如下表3,然后从表3中选出平均AUC最优的Cat Boost模型。
表3
需要说明的是,本实施例针对模型评价部分,可使用灵敏度、特异度、F1值、约登指数、阳性预测值、阴性预测值、阳性似然比、阴性似然比这一系列指标来评估模型在测试集和外部验证集的表现。
其中,灵敏度(Sensitivity,Sen)与少数样本类别有关,它表示了阳性类样本的分类正确率;特异度(Specificity,Spe)与多数样本类别有关,表示了阴性类样本的分类正确率;F1值是统计学中用来衡量二分类模型精确度的一种指标,可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0;约登指数(Youden Index)也称正确指数,是评价筛查试验真实性的方法,假设其假阴性(漏诊率)和假阳性(误诊率)的危害性同等意义时,即可应用约登指数,约登指数是灵敏度与特异度之和减去1,表示筛检方法发现真正的患者与非患者的总能力,指数越大说明筛查实验的效果越好,真实性越大。
阳性预测值(positive predict,PPV)指筛检试验检出的全部阳性例数中,真阳性所占的比例,表示判定为阳性类样本中,有多少分类正确;阴性预测值(negative predict,NPV)指筛检试验检出的全部阴性例数中,真阴性所占的比例,它表示判定为阴性类样本中,有多少分类正确;阳性似然比(positive likelihood ratio, PLR)是筛检结果的真阳性率与假阳性率之比,说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数,比值越大,试验结果阳性时为真阳性的概率越大;阴性似然比(negative likelihood ratio,NLR)是筛检结果的假阴性率与真阴性率之比,表示错误判断阴性的可能性是正确判断阴性可能性的倍数,其比值越小,试验结果阴性时为真阴性的可能性越大。
具体的,本实施例中的谵妄识别模型可通过下述步骤训练得到:
S301、确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数。
在本实施例中,确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数与上述步骤S102相同,本实施例在此不再赘述。
在本发明提供的一个可选实施例中,确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的拒绝域的面积或概率P值;将P值小于第一数值的初始关键词确定为目标关键词。其中,该第一数值为预定义的数值,具体可以为0.01。
在本发明提供的另一个可选实施例中,确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的检验的统计量F值;将F值小于第二数值的初始关键词确定为目标关键词。其中,该第二数值为预定义的数值,具体可以为10。
单因素方差分析的目的是判断一个变量的不同类别是否会对结局变量产生显著性差异。例如,表4为八(A)“是否使用氟哌啶醇”对谵妄的判断是否有显著性差异。(备注:有显著性差异可以简单理解为就是说使用过氟哌啶醇和没有使用过氟哌啶醇的人出现谵妄的可能性差异大)
表4
设i=0,1分别代表患者未使用、使用氟哌啶醇,j=0,1分别代表患者的结局是非谵妄、谵妄。代表采用第i方案出现谵妄或者非谵妄的人次,如代表使用氟哌啶醇出现谵妄的人次;实验的方案类别数C=2(即一种类别代表未使用氟哌啶醇,另一种类别代表使用氟哌啶醇),患者样本容量N=1718。
1)提出原假设H0:
H0——是否使用氟哌啶醇对谵妄的判断无影响,即等于;
H1——是否使用氟哌啶醇对谵妄的判断有影响,即不等于;
2)选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
计算方差分析所需要的基本统计量如下表5:
表5
通过计算下述方差分析表6,得到F值:
表6
当F值越接近于1,代表组间的变异和组内的变异接近,没有理由拒绝H0;反之,F值越大,代表组间的变异远大于组内的变异,拒绝H0的理由更充分。
3)给定显著性水平,计算概率P值:
在显著性水平为0.01的水准下,按自由度=1,=1716查统计学的F界值表,得到=6.64。也就是,如果本案例中当假设H0成立的情况下,当前F=182.73>=6.64,因此P值小于0.01。
4)作出决策
按照显著性水平=0.01的水准,由于P<0.01属于小概率事件,因此有理由拒绝H0,接受H1,是否使用氟哌啶醇对谵妄的判断有影响,因此该变量值得保留。
在本发明提供的又一个可选实施例中,确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;将每个电子病例样本数据中的初始关键词输入到所述谵妄识别模型中得到对应电子病例样本数据的预测结果;通过对电子病例样本数据的预测结果和样本标签进行递归特征消除交叉验证,从所述初始关键词中确定目标关键词。
具体的,本实施例可使用RFE交叉验证进行特征筛选,得到如图3所示的AUC值随特征组合变化的曲线,图3中横坐标代表特征数量,纵坐标代表AUC值的交叉验证,在图3中筛选14个特征之后模型AUC值的提升趋于平缓,所以选择如下表7中的14个特征建立最终模型,筛选出的14个特征为:(八A)是否使用氟哌啶醇、(八B)是否使用奥氮平、(九A)是否有请心理卫生中心会诊医嘱、二A、二B、七C、三A、三D、三E、三F、四A、五A、五D、五E。
表7
S302、根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集。
S303、通过电子病例样本数据对应的关键特征变量集和样本标签进行模型训练得到所述谵妄识别模型。
本申请提供的一种谵妄识别装置,首先从所述存储器获取目标用户的电子病例数据,确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果。由于本申请中的谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的,且目标关键词是用于评述是否为谵妄的关键词,因此本申请在获取到关键词特征变量集之后,将特征关键词特征变量集输入到谵妄识别模型中,便可得到目标用户是否为谵妄的检测结果,从而通过本申请可以提高谵妄识别的效率及准确率。
需要说明的是,由于医学和人类健康密切相关,医学技术在不同时期会有不同的关注点,也不断涌现出新的诊疗技术、新的领域术语。因此谵妄词库也需要随之不断补充,词库的新词发现同时也可以促进谵妄识别模型的假阴性降低。为此本实施例提供了一种谵妄词库的更新方式,包括:
S201、按照预置时间间隔,依据谵妄词库和标准词库对新出现的电子病例样本数据进行分词得到分词结果,所述新出现的电子病例样本数据的标签为谵妄。
其中,初始的谵妄词库内的词汇可以为人工标定的。标准词库中日常生活中所使用的常见词汇以及停用词(语气词、无实际意义的词等)。
S202、将新出现的电子病例样本数据的分词结果中不属于谵妄词库及标准词库中的名词、形容词确定为潜在名词、潜在形容词。
S203、将在新出现的电子病例样本数据的分词结果中出现次数超过预置数值的潜在名词、潜在形容词确定为有关于谵妄的专有名词、专有形容词。
S204、将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中。
具体的,所述将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中,包括:将确定的有关于谵妄的专有名词、专有形容词分别与谵妄词库中各个类别下的专有名词和/或专有形容词进行近义词匹配,确定对应的类别;将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中对应的类别下。
谵妄病历的新词发现采用的方式是每隔一定周期(如一季度或者半年),通过谵妄词库及标准词库对新一轮周期中的谵妄病历进行分词,分词后剩下没能够被切分的词汇作为潜在新词。如果新一轮周期中的谵妄病例潜在新词数量超过了现已分出词汇的一定阈值(如10%),那就再次对这批潜在新词进行串频最大匹配并结合LSTM方法,同时结果专家标注,如果认定为谵妄病历的新词,则补充进入谵妄病历词库。由此,不断扩充谵妄病历的词库。
本申请实施例提供的一种谵妄识别方法,该方法执行的内容为上述谵妄识别内的可执行的计算机程序,该方法具体包括:
S10、从所述存储器获取目标用户的电子病例数据;
S20、确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;
S30、根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
S40、将关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的谵妄识别方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述谵妄识别方法,请在获取到关键词特征变量集之后,将特征关键词特征变量集输入到谵妄识别模型中,便可得到目标用户是否为谵妄的检测结果,从而通过本申请可以提高谵妄识别的效率及准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种谵妄识别装置,其特征在于,所述装置包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序以及用户的电子病例数据,当谵妄识别装置运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述计算机程序被所述处理器执行时实现如下步骤:
从所述存储器获取目标用户的电子病例数据;
确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
2.根据权利要求1所述的装置,其特征在于,所述确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数,包括:
根据谵妄词库和标准词库对所述电子病例数据进行分词得到分词结果,所述谵妄词库中包括有关于谵妄的专有名词、专有形容词;
将所述分词结果属于所述谵妄词库中的专有名词和专有形容词确定为目标关键词,并统计所述目标关键词在所述分词结果中的出现次数。
3.根据权利要求2所述的装置,其特征在于,在根据谵妄词库和标准词库对所述电子病例数据进行分词得到分词结果之前,还包括:
按照预置时间间隔,依据谵妄词库和标准词库对新出现的电子病例样本数据进行分词得到分词结果,所述新出现的电子病例样本数据的标签为谵妄;
将新出现的电子病例样本数据的分词结果中不属于谵妄词库及标准词库中的名词、形容词确定为潜在名词、潜在形容词;
将在新出现的电子病例样本数据的分词结果中出现次数超过预置数值的潜在名词、潜在形容词确定为有关于谵妄的专有名词、专有形容词;
将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中。
4.根据权利要求2或3所述的装置,其特征在于,所述谵妄词库中包括多个类别分别对应的专有名词和/或专有形容词,每个类别的专有名词和/或专有形容词为语义相近的词。
5.根据权利要求3所述的装置,其特征在于,所述将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中,包括:
将确定的有关于谵妄的专有名词、专有形容词分别与谵妄词库中各个类别下的专有名词和/或专有形容词进行近义词匹配,确定对应的类别;
将确定的有关于谵妄的专有名词、专有形容词更新到所述谵妄词库中对应的类别下。
6.根据权利要求1所述的装置,其特征在于,所述谵妄识别模型通过下述步骤训练得到:
确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
通过电子病例样本数据对应的关键特征变量集和样本标签进行模型训练得到所述谵妄识别模型。
7.根据权利要求6所述的装置,其特征在于,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的拒绝域的面积或概率P值;
将P值小于第一数值的初始关键词确定为目标关键词,第一数值为预定义的数值。
8.根据权利要求6所述的装置,其特征在于,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
通过初始关键词对应的存在结果及不同存在结果对应的样本标签计算每个初始关键词的检验的统计量F值;
将F值小于第二数值的初始关键词确定为目标关键词,第二数值为预定义的数值。
9.根据权利要求6所述的装置,其特征在于,所述确定电子病例样本数据中的目标关键词及每个目标关键词的出现次数之前,还包括:
根据谵妄词库从所有的电子病例样本数据中提取初始关键词,及每个初始关键词对应的存在结果;
将每个电子病例样本数据中的初始关键词输入到所述谵妄识别模型中得到对应电子病例样本数据的预测结果;
通过对电子病例样本数据的预测结果和样本标签进行递归特征消除交叉验证,从所述初始关键词中确定目标关键词。
10.一种谵妄识别方法,其特征在于,所述方法包括:
获取目标用户的电子病例数据;
确定所述电子病例数据中的目标关键词及每个目标关键词的出现次数;所述目标关键词用于评述是否为谵妄的关键词;
根据所述目标关键词及每个目标关键词的出现次数确定关键特征变量集;
将所述关键特征变量集输入到谵妄识别模型中得到所述目标用户的谵妄预测结果,所述谵妄识别模型是根据关键特征样本变量集及其对应的样本标签训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310273630.5A CN116092672A (zh) | 2023-03-21 | 2023-03-21 | 谵妄识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310273630.5A CN116092672A (zh) | 2023-03-21 | 2023-03-21 | 谵妄识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092672A true CN116092672A (zh) | 2023-05-09 |
Family
ID=86212247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310273630.5A Pending CN116092672A (zh) | 2023-03-21 | 2023-03-21 | 谵妄识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092672A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110021439A (zh) * | 2019-03-07 | 2019-07-16 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN115374272A (zh) * | 2021-05-21 | 2022-11-22 | 北京中关村科金技术有限公司 | 构建实体词库的方法、装置以及存储介质 |
-
2023
- 2023-03-21 CN CN202310273630.5A patent/CN116092672A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110021439A (zh) * | 2019-03-07 | 2019-07-16 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN115374272A (zh) * | 2021-05-21 | 2022-11-22 | 北京中关村科金技术有限公司 | 构建实体词库的方法、装置以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maier et al. | Applying LDA topic modeling in communication research: Toward a valid and reliable methodology | |
Nakatani et al. | Predicting inpatient falls using natural language processing of nursing records obtained from Japanese electronic medical records: case-control study | |
EP3028190B1 (en) | Identification of surgery candidates using natural language processing | |
CN110069779B (zh) | 医疗文本的症状实体识别方法及相关装置 | |
Badal et al. | Prediction of loneliness in older adults using natural language processing: exploring sex differences in speech | |
Pakhomov et al. | Prospective recruitment of patients with congestive heart failure using an ad-hoc binary classifier | |
Friedlin et al. | A natural language processing system to extract and code concepts relating to congestive heart failure from chest radiology reports | |
Gangavarapu et al. | FarSight: long-term disease prediction using unstructured clinical nursing notes | |
Chhetri et al. | How machine learning is used to study addiction in digital healthcare: A systematic review | |
CN112037909B (zh) | 诊断信息复核系统 | |
CN114912887B (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
Skaik et al. | Using twitter social media for depression detection in the canadian population | |
Sideris et al. | A flexible data-driven comorbidity feature extraction framework | |
Yang et al. | Assessment of natural language processing methods for ascertaining the expanded disability status scale score from the electronic health records of patients with multiple sclerosis: algorithm development and validation study | |
Bayramli et al. | Predictive structured–unstructured interactions in EHR models: A case study of suicide prediction | |
CN115862897B (zh) | 一种基于临床数据的症候群监测方法及系统 | |
Boag et al. | Awe-cm vectors: Augmenting word embeddings with a clinical metathesaurus | |
Dara et al. | Evaluation of preprocessing techniques for chief complaint classification | |
Pereira et al. | Using text mining to diagnose and classify epilepsy in children | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
JP7315165B2 (ja) | 診断支援システム | |
Wang et al. | Personalized Early Stage Alzheimer's Disease Detection: A Case Study of President Reagan's Speeches | |
Zhao et al. | Cascading adverse drug event detection in electronic health records | |
CN116092672A (zh) | 谵妄识别装置 | |
Ketpupong et al. | Applying text mining for classifying disease from symptoms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230509 |