CN111161819A - 一种中医病历数据处理系统及方法 - Google Patents
一种中医病历数据处理系统及方法 Download PDFInfo
- Publication number
- CN111161819A CN111161819A CN201911422083.2A CN201911422083A CN111161819A CN 111161819 A CN111161819 A CN 111161819A CN 201911422083 A CN201911422083 A CN 201911422083A CN 111161819 A CN111161819 A CN 111161819A
- Authority
- CN
- China
- Prior art keywords
- medical record
- record data
- structured
- processing
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及电子病历领域,具体涉及一种中医病历数据处理系统及方法,包括步骤:S1提取病历数据;S2对病历数据进行非结构化处理,得到非结构化病历数据;S3对非结构化病历数据进行半结构化处理,得到半结构化病历数据;S4对半结构化病历数据进行结构化处理,得到结构化病历数据。本发明在对中医电子病历结构化处理前进行非结构化处理和半结构化处理,能够提高数据的准确性,从而为临床诊断提供有效支持。
Description
技术领域
本发明涉及电子病历领域,具体涉及一种中医病历数据处理系统及方法。
背景技术
病历(case history)是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录,也是医务人员对采集到的资料加以归纳、整理、综合分析,按规定的格式和要求书写的患者医疗健康档案。目前电子病历已经广泛用于病人信息的采集、存储、传输、处理和利用,在医疗中逐渐取代纸张病历,中医电子病历主要是非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型;半结构化数据是一种适于数据库集成的数据模型;结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
由于电子病历与传统的手写病历截然不同,需要将其进行结构化处理才便于储存、调用和分析。对此,文件CN110504009A公开了一种电子病历结构化的方法,包括以下步骤:1)进行数据元素文档管理,构建电子病历模板;2)根据步骤1)所述的电子病历模板,医疗人员将电子病历模板数据录入电子病历数据;3)对步骤2)所述的电子病历数据,提供若干以字段形式存在的症状体征字典,可供用户点选式操作;4)对步骤3)所述的点选操作的症状体征数据进行智能推理疾病概率,提醒标准诊疗指南内所需的检查项目、相关诊疗方案及适用药物;5)生成并显示最终的病历文书。该发明电子病历结构化的方法提供了具有灵活性、实用性、可扩展性的电子病历结构化方法;有利于为医学研究者提供完善、权威的知识库体系,为临床决策支持提供有力支持,降低漏诊、误诊率。
中医病历与西医病历相比,无论是病情诊断,还是医生处方,都没有严格的规范。这使得中医病历的格式与内容都难以标准化,给中医病历的整理、管理、储存、归类都造成了一定的困难。另外,中医病历中包含的各种信息繁多,而且因人而异。因此,由于中医病历的内容与格式不如西医病历规范化,直接对中医病历数据进行结构化处理,难免会挂一漏万,从而难以为临床诊断提供有效的支持。
发明内容
本发明提供一种中医病历数据处理方法解决了由于中医病历的内容与格式不如西医病历规范化,导致直接对中医病历数据进行结构化处理,难以为临床诊断提供有效支持的技术问题。
本发明提供的基础方案为:一种中医病历数据处理方法,包括步骤:S1提取病历数据;S2对病历数据进行非结构化处理,得到非结构化病历数据;S3对非结构化病历数据进行半结构化处理,得到半结构化病历数据;S4对半结构化病历数据进行结构化处理,得到结构化病历数据。
本发明的工作原理在于:先对病历数据进行非结构化处理,得到非结构化病历数据;接着对非结构化病历数据进行半结构化处理,得到半结构化病历数据;最后对半结构化病历数据进行结构化处理,得到结构化病历数据。本发明的优点在于:由于中医病历与西医病历相比,没有严格的规范与标准,这使得中医电子病历为非结构化数据。在对中医电子病历结构化处理前进行非结构化处理和半结构化处理,能够提高数据的准确性,从而为临床诊断提供有效支持。
本发明提供一种中医病历数据处理方法,获取各个患者的原始病历,通过非结构化处理、半结构化处理以及结构化处理,形成最终的结构化数据。由于中医病历与西医病历相比没有严格的规范与标准,相比让患者或医生直接提供结构化数据,可以提高数据的准确性。
进一步,步骤S1的具体步骤包括:S11提取历史病历数据;S12提取当前病历数据。绝大多数病症都具有一定的历史性,病史对医生的诊断而言是必不可少的信息。因此,在对病历数据进行处理时,既要包括当前病历数据,又要包括历史病历数据,这样才能为某种病症提供完整的临床信息。
进一步,步骤S2的具体步骤包括:S21切词,将词序列切分成单独的词;S22去除没有实际含义的停用词;S23得到非结构化病历数据。成功地将词序列切分成单独的词,可以提高识别语句含义的效果。将没有实际含义的停用词去掉,可以减少索引量,增加检索效率,提高检索效果。
进一步,步骤S3的具体步骤包括:S31从非结构化病历数据中提取关键词;S32根据关键词对非结构化病历数据分类;S33得到半结构化病历数据。每种病症都有其独特的临床特征,也有其独特的临床处方。通过这些临床特征与临床处方关键词对非结构化病历数据分类,得到的即是半结构化病历数据;既可以为病历数据的结构化处理提供基础,又便于初步地进行病症的确定。
进一步,步骤S31的具体步骤包括:S31a从非结构化病历数据里提取出病情描述、诊断与处方部分的篇章;S31b对该篇章进行预处理,得到若干个词语;S31c获取医学语料库;S31d计算医学语料库中每个词语在病情描述、诊断与处方部分的篇章中的tf值J以及在医学语料库中的idf值K;S31e根据tf值及idf值计算权重γ;γ=K*lg(J*W+1);其中,J为词语的tf值,K为词语的idf值,W为预设的生僻词系数,且W≥1;步骤S31f选出预设个数权重最大的词语作为关键词。tf-idf是一种统计方法,用以评估某字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率呈反比下降。如果某个词或短语在病情描述、诊断与处方部分的篇章中出现的频率tf高,那么该词语作为关键词对于病症具有很好的类别区分能力,该词语就适合用来分类。
进一步,步骤S32的具体步骤包括:S32a输入关键词;S32b随机选取K个关键词作为初始的聚类中心;S32c把每个关键词字分配给距离它最近的聚类中心;S32d重新计算聚类中心;若收敛,输出聚类结果;若不收敛,进行步骤S32b。由于病情描述、诊断与处方中的关键词类别繁多,不同类别甚至相互交叉,这不便于精准确定病症的类型。采用聚类算法对关键词进行聚类,将相似的关键词并入到同一类别中,这有利于提高匹配的准确性。
进一步,步骤S4的具体步骤包括:S41根据病历数据的类别调用数据库的病历模板;S42在调用的模板的基础上根据关键词生成结构化病历数据。病历模板包含医务人员诊断病症所需必要信息的所有栏目,将关键词填入对应栏目所生成的病历数据必是结构化的。这样生成的结构化病历数据信息全又有条理,便于归类、储存与查阅。
进一步,还包括步骤S5,反馈;反馈的具体步骤包括:S51获取所生成的结构化病历数据对应的文本向量A;S52根据该结构化病历数据的病症从数据库里提取对应的标准病历数据,并获取该标准病历数据的文本向量B;S53根据文本向量A与文本向量B计算相关度α,α=cos<A,B>;S54判断相关度α是否满足预设的要求αm;S55若相关度α满足预设的要求,即α>αm,则直接输出该结构化病历数据;若相关度α不满足预设的要求,即α<αm,则返回步骤S3。相关度的大小代表所生成的结构化病历数据与标准病历数据之间的相似性与联系性大小。相关度不满足预设的要求,代表该结构化病历数据与标准病历数据的相似程度达不到预设的要求。这可能是由于关键词的提取、关键词的分类以及病历模板的匹配不准确造成的,有必要重新进行前述步骤,直至满足要求为止。
进一步,还包括步骤S6,将生成的结构化病历数据放入数据库。这样可以提高数据库的样本容量,从而为病症的大数据统计分析提供海量的案件。
附图说明
图1为本发明一种中医病历数据处理方法实施例的流程图。
图2为本发明一种中医病历数据处理方法实施例2的反馈的流程图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例1
本发明一种中医病历数据处理方法实施例基本如附图1所示,包括四个步骤:提取病历数据;对病历数据进行非结构化处理,得到非结构化病历数据;对非结构化病历数据进行半结构化处理,得到半结构化病历数据;对半结构化病历数据进行结构化处理,得到结构化病历数据。
比如,有这样一份病历:
“张三,男,45岁,已婚;主诉:发热、恶寒、咳嗽2天,右胸掣痛半天。
现病史:…因外出衣着不慎而始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次日病情加重,头痛连及项背,周身酸楚无力…
既往史:平素身体尚可,未患过肺结核及肺炎,未患过肝炎,去年查肝功无异常…
急查:T38℃,WBC:28900/mm3(2.8×1010/L),N:97%,L:3%,胸片示右中肺大片阴影,考虑为右中肺大叶性肺炎征象…
神色形态:神识清,精神不振,表情痛苦,面色略红,双目有神,形体消瘦,倦卧于床…
声息气味:语声重浊,气粗而不喘,时有咳嗽,咳声较响,无异常气味闻及…
皮肤毛发:毛发稀疏,间有苍白,尚有光泽;皮肤润泽,肤色无异常,无斑疹…
舌象:舌苔黄微腻略滑,舌质红而无瘀点,舌体大小适中无齿痕,活动自如,舌底脉络色红,未见迂曲…
脉象:六脉弦滑略数,右寸浮,左尺细…
体格检查:T:38℃,P:92次/分,R:26次/分,BP:17.3/12kPa,心率92次/分、律齐,各瓣膜听诊区未闻及病理性杂音;右肺呼吸音低,中部语音传导增强,可闻及中小水泡音,左肺呼吸音略粗,腹部平坦,柔软无压痛,肝脾未触及,肾区无叩击痛,神经系统检查生理反射存在,病理反射未引出…
…综上,考虑为右中肺大叶性肺炎征象….”
首先,提取病历数据。第一步,提取历史病历数据,如“未患过肺结核及肺炎,未患过肝炎,去年查肝功无异常…”。第二步,提取当前病历数据,如“…因外出衣着不慎而始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次日病情加重,头痛连及项背,周身酸楚无力…”
然后,对病历数据进行非结构化处理,得到非结构化病历数据。第一步,切词,将词序列切分成单独的词;如将“…因外出衣着不慎而始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次日病情加重,头痛连及项背,周身酸楚无力…”切为“…因外出衣着不慎而始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次日病情加重,头痛连及项背,周身酸楚无力…”。第二步,去除没有实际含义的停用词;如去掉“因外出、衣着不慎、次日、病情加重…”。第三步,得到非结构化病历数据;如“…始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次头痛连及项背,周身酸楚无力…”。
接着,对非结构化病历数据进行半结构化处理,得到半结构化病历数据。
第一步,从非结构化病历数据中提取关键词:步骤a,从非结构化病历数据里提取出病情描述、诊断与处方部分的篇章;如“…始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次头痛连及项背,周身酸楚无力…”。步骤b,对该篇章进行预处理,得到若干个词语;如对“…始感头痛,连及巅顶,鼻塞声重,时流清涕,微有咳嗽,恶寒发热,无汗;次头痛连及项背,周身酸楚无力…”进行处理,得到“…头痛鼻塞声重咳嗽恶寒发热无汗周身酸楚无力…”这些词语。步骤c,获取医学语料库;如医学大辞典。步骤d,计算医学语料库中每个词语在病情描述、诊断与处方部分的篇章中的tf值以及在医学语料库中的idf值。步骤e,根据tf值及idf值计算权重。步骤f,选出预设个数权重最大的词语作为关键词;如“头痛咳嗽发热无汗周身酸楚无力”。
第二步,根据关键词对非结构化病历数据分类。步骤a,输入关键词:“头痛咳嗽发热无汗周身酸楚无力”。步骤b,随机选取K(K=2)个关键词作为初始的聚类中心,如选取“发热、无汗”。步骤c,把每个关键词字分配给距离它最近的聚类中心。步骤d,重新计算聚类中心;若收敛,输出聚类结果,即将含有“发热、无汗”的病历可以划分到一类;若不收敛,进行步骤b,如令K=3,选取“头痛、发热、无汗”三个关键词作为初始的聚类中心重新进行以上步骤。
第三步,得到半结构化病历数据。比如,含有“发热、无汗”的病历可以划分到一类,这类病症具有“发热、无汗”的临床特征,这时系统会判断大概率是“肺炎”,其临床处方也有相似之处。可见,通过“发热、无汗”类似的关键词对非结构化病历数据分类,得到的即是半结构化病历数据。
最后,对半结构化病历数据进行结构化处理,得到结构化病历数据。
第一步,根据病历数据的类别调用数据库的病历模板;如调用“肺炎”的病历模板,该模板包括下列栏目:“姓名:××,性别:××,年龄:××,是否头痛:××,是否咳嗽:××,是否发热:××,是否无汗:××,是否周身酸楚无力:××,是否鼻塞声重:××,是否时流清涕:××,是否微有咳嗽:××;其中:√代表是,×代表否,—代表还需进行核实…”。
第二步,在调用的模板的基础上根据关键词生成结构化病历数据。前述步骤已得出该病历的关键词,“头痛咳嗽发热无汗周身酸楚无力”。将这些关键词语病人的基本信息填入对应的栏目,可得:“姓名:张三,性别:男,年龄:45,是否头痛:√,是否咳嗽:√,是否发热:√,是否无汗:√,是否周身酸楚无力:√,是否咯血:×,是否呕吐:×,是否微有咳嗽:—;其中:√代表是,×代表否,—代表还需进行核实…”。
可见,病历模板基本包含医务人员诊断病症所需必要信息的所有栏目,将关键词填入对应栏目所生成的病历数据必是结构化的。这样生成的结构化病历数据信息全又有条理,便于归类、储存与查阅。
实施例2
与实施例1不同之处仅在于:生成结构化病历数据后,还包括反馈步骤,如附图2。第一步,获取所生成的结构化病历数据对应的文本向量A。第二步,根据该结构化病历数据的病症类型从数据库里提取对应的人工预设的标准病历数据,并获取该标准病历数据的文本向量B。第三步,根据文本向量A与文本向量B计算相关度α,α=cos<A,B>。第四步,判断相关度α是否满足预设的要求αm。第五步,若相关度α满足预设的要求,即α>αm,则直接输出该结构化病历数据;若相关度α不满足预设的要求,即α<αm,则返回第三步。比如,预设的要求αm=0.8。若计算出的α=0.85,即α>αm,那么直接输出该结构化病历数据;若计算出的α=0.75,即α<αm,那么就重新对非结构化病历数据进行半结构化处理,得到半结构化病历数据,直到相关度α满足预设的要求,即α>αm为止。
由于相关度不满足预设的要求,代表该结构化病历数据与标准病历数据的相似程度达不到预设的要求。这可能是由于关键词的提取、关键词的分类以及病历模板的匹配不准确造成的,有必要重新进行前述步骤,直至满足要求为止。最后,将生成的结构化病历数据放入数据库,从而提高数据库的样本容量,为病症的大数据统计分析提供海量的案件。
实施例3
与实施例2不同之处仅在于:在得到结构化病历数据后,还根据病情描述与医生处方判断是否存在过度医疗的情况。首先,分别计算数据库内该类病历中病情描述部分、医生处方部分的平均相关度α1M、α2M;然后分别比较该病历中病情描述部分、医生处方部分与标准病历的相关度α1、α2与对应的平均相关度α1M、α2M的大小。
由于数据库中病情描述部分的平均相关度α1M和医生处方部分的平均相关度α2M是一种平均的统计结果,某种意义上代表了医生普遍的诊断结果。若出现α1<α1M,α2<α2M,α1<α1M且α2<α2M三种情况中的一种,说明该病历中的病情描述和医生处方与普遍的诊断结果不符合,即可判定存在过度医疗的情况。比如,对于肺炎而言,病情描述部分出现了“怕冷”的描述,导致α1<α1M;同时医生处方出现了“阿莫西林”这样不能明显治疗肺炎的药品,导致α2<α2M。可见,对病情的诊断有误,而且医生开出来不必要的药品,可判定为存在过度医疗。
病历中病情描述部分、医生处方部分与标准病历的相关度α1、α2的计算方法与实施例2中相关度α的计算步骤类似,可参照前文。
假设数据库内该类病历共有N份,计算病情描述部分的平均相关度α1M的具体步骤如下:第一步,从数据库中该类病历中随机提取两个不同的病历,分别为病历I和病历J,病历I和病历J不能相同;第二步,获取病历I病情描述部分的文本向量E和病历J病历描述部分的文本向量J;第三步,计算文本向量E与文本向量F的相关度αIJ,αIJ=cos<E,F>,将I和J分别从1取到N。最后按下列公式计算:
医生处方部分的平均相关度α2M的计算,可参照上述步骤进行。分别计算数据库内该类病历中病情描述部分、医生处方部分的平均相关度α1M、α2M后,就可以比较α1与α1M、α2与α2M的大小,从而判断是否存在过度医疗的情况。
实施例4
与实施例3不同之处仅在于:在得到结构化病历数据后,将具有相同诊断结果的所有病人的检测项目进行对比,筛选出差异化最大的检测项目。将差异化最大的检测项目标记为过度医疗项目,并输出过度医疗告警信息。除此之外,还从病历数据中获取病人的用药量,筛选出差异化最大的药品,将差异化最大的药品标记为过量用药,并输出不合理用药告警信息。另外,根据病历数据统计每个医生单日的病人接待量,根据医生的单日病人接待量判断该医生是否超负荷工作。如果该医生的单日病人接待量超过规定的阈值,输出超负荷告警信息。接着,根据病历数据统计每个医院每天单日的病人接待量超过阈值的医生人数,并统计病人接待量超过阈值的医生人数所占医生总数的百分比。如果该百分比超过预设的阈值,输出可能发生医闹事故的预警。
实施例5
与实施例4不同之处仅在于:还包括:S01、采集医生和患者在医院的表现;S02、根据医生和患者的表现分析医闹的可能性;S03、获取患者和医生的电话号码;S04、若存在医闹风险,执行双方呼叫。在医生和患者进行交谈时,麦克风进行实时录音,然后处理器对录音中的语音信号进行分析与标注。与此同时,摄像头拍摄医生和患者进行交谈时的视频,然后处理器分析医生和患者的面部表情。
本实施例中,处理器搭载有Praat语音分析软件和Face Reader软件。Praat语音分析软件主要获取双当事人会谈过程中音高较高的词、说话时间较长的词以及出现频率较高的词。比如:在医生与患者的对话过程中提到“手术费用”时,当事人的音高较高,高于正常音高的10%;这说明医生和患者对于手术费用产生了分歧。提到“红包”时,当事人的说话时间较长,比如延迟了0.1秒;这说明医生在和患者在讨论送礼的问题。多次提到“××药品”,比如提到“××药品”5次以上;这说明医生和患者在用药上存在分歧。Face Reader主要分析医生和患者的面部表情,如果医生和患者其中一方出现了愤怒或者不悦的表情,表明医生和患者的交流不愉快。
如果获取到医生和患者的谈话中,出现了“手术费用”等音高较高的词、“红包”等说话时间较长的词、“××药品”等被提及5次以上的词,这三种其中的一种;而且同时获取到医生和患者一方或者双方面部出现了愤怒的表情,就判定可能出现医闹。接着获取医生和患者的电话号码,并拨打他们的电话号码,将医生和患者叫到不同的地方去。上述方案一方面对行医规范进行监督,另一方面在冲突发生前,通过同时呼叫双方电话的方式转移双方关注度,从而降低发生医闹的可能性。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.一种中医病历数据处理方法,其特征在于:包括步骤:S1提取病历数据;S2对病历数据进行非结构化处理,得到非结构化病历数据;S3对非结构化病历数据进行半结构化处理,得到半结构化病历数据;S4对半结构化病历数据进行结构化处理,得到结构化病历数据。
2.根据权利要求1所述的中医病历数据处理方法,其特征在于:步骤S1的具体步骤包括:S11提取历史病历数据;S12提取当前病历数据。
3.根据权利要求2所述的中医病历数据处理方法,其特征在于:步骤S2的具体步骤包括:S21切词,将词序列切分成单独的词;S22去除没有实际含义的停用词;S23得到非结构化病历数据。
4.根据权利要求3所述的中医病历数据处理方法,其特征在于:步骤S3的具体步骤包括:S31从非结构化病历数据中提取关键词;S32根据关键词对非结构化病历数据分类;S33得到半结构化病历数据。
5.根据权利要求4所述的中医病历数据处理方法,其特征在于:步骤S31的具体步骤包括:S31a从非结构化病历数据里提取出病情描述、诊断与处方部分的篇章;S31b对该篇章进行预处理,得到若干个词语;S31c获取医学语料库;S31d计算医学语料库中每个词语在病情描述、诊断与处方部分的篇章中的tf值以及在医学语料库中的idf值;S31e根据tf值及idf值计算权重;S31f选出预设个数权重最大的词语作为关键词。
6.根据权利要求5所述的中医病历数据处理方法,其特征在于:步骤S32的具体步骤包括:S32a输入关键词;S32b随机选取K个关键词作为初始的聚类中心;S32c把每个关键词字分配给距离它最近的聚类中心;S32d重新计算聚类中心;若收敛,输出聚类结果;若不收敛,进行步骤S32b。
7.根据权利要求6所述的中医病历数据处理方法,其特征在于:步骤S4的具体步骤包括:S41根据病历数据的类别调用数据库的病历模板;S42在调用的模板的基础上根据关键词生成结构化病历数据。
8.根据权利要求7所述的中医病历数据处理方法,其特征在于:还包括步骤S5,反馈;反馈的具体步骤包括:S51获取所生成的结构化病历数据对应的文本向量A;S52根据该结构化病历数据的病症从数据库里提取对应的标准病历数据,并获取该标准病历数据的文本向量B;S53根据文本向量A与文本向量B计算相关度α,α=cos<A,B>;S54判断相关度α是否满足预设的要求αm;S55若相关度α满足预设的要求,即α>αm,则直接输出该结构化病历数据;若相关度α不满足预设的要求,即α<αm,则返回步骤S3。
9.根据权利要求8所述的中医病历数据处理方法,其特征在于:还包括步骤S6,将生成的结构化病历数据放入数据库。
10.一种中医病历数据处理系统,其特征在于:包括:
提取模块,用于提取病历数据;
非结构化模块:用于对病历数据进行非结构化处理,得到非结构化病历数据;
半结构化模块:用于对非结构化病历数据进行半结构化处理,得到半结构化病历数据;
结构化模块:用于对半结构化病历数据进行结构化处理,得到结构化病历数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911422083.2A CN111161819B (zh) | 2019-12-31 | 2019-12-31 | 一种中医病历数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911422083.2A CN111161819B (zh) | 2019-12-31 | 2019-12-31 | 一种中医病历数据处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161819A true CN111161819A (zh) | 2020-05-15 |
CN111161819B CN111161819B (zh) | 2023-06-30 |
Family
ID=70560631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911422083.2A Active CN111161819B (zh) | 2019-12-31 | 2019-12-31 | 一种中医病历数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161819B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021120688A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 医疗误诊检测方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003097123A2 (en) * | 2002-05-16 | 2003-11-27 | Scott Laboratories, Inc. | User authorization system and method for a sedation and analgesia system |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
US20160314246A1 (en) * | 2015-04-22 | 2016-10-27 | Cyberpulse L.L.C. | System and methods for medical reporting |
CN106067029A (zh) * | 2016-05-24 | 2016-11-02 | 哈尔滨工程大学 | 面向数据空间的实体分类方法 |
CN106228000A (zh) * | 2016-07-18 | 2016-12-14 | 北京千安哲信息技术有限公司 | 过度医疗检测系统及方法 |
US20170193185A1 (en) * | 2016-01-06 | 2017-07-06 | International Business Machines Corporation | Clinically relevant medical concept clustering |
CN106980767A (zh) * | 2017-03-31 | 2017-07-25 | 上海森亿医疗科技有限公司 | 一种基于结构化医学数据库的数据搜索方法及系统 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107403068A (zh) * | 2017-07-31 | 2017-11-28 | 合肥工业大学 | 融合临床思维的智能辅助问诊方法及系统 |
CN107731269A (zh) * | 2017-10-25 | 2018-02-23 | 山东众阳软件有限公司 | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 |
CN110032617A (zh) * | 2019-03-05 | 2019-07-19 | 中电科软件信息服务有限公司 | 基于规则的卒中数据抽取管理系统及方法 |
US20190236492A1 (en) * | 2018-01-30 | 2019-08-01 | Wipro Limited | Systems and methods for initial learning of an adaptive deterministic classifier for data extraction |
-
2019
- 2019-12-31 CN CN201911422083.2A patent/CN111161819B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003097123A2 (en) * | 2002-05-16 | 2003-11-27 | Scott Laboratories, Inc. | User authorization system and method for a sedation and analgesia system |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN102955857A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 |
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
US20160314246A1 (en) * | 2015-04-22 | 2016-10-27 | Cyberpulse L.L.C. | System and methods for medical reporting |
US20170193185A1 (en) * | 2016-01-06 | 2017-07-06 | International Business Machines Corporation | Clinically relevant medical concept clustering |
CN106067029A (zh) * | 2016-05-24 | 2016-11-02 | 哈尔滨工程大学 | 面向数据空间的实体分类方法 |
CN106228000A (zh) * | 2016-07-18 | 2016-12-14 | 北京千安哲信息技术有限公司 | 过度医疗检测系统及方法 |
CN106980767A (zh) * | 2017-03-31 | 2017-07-25 | 上海森亿医疗科技有限公司 | 一种基于结构化医学数据库的数据搜索方法及系统 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107403068A (zh) * | 2017-07-31 | 2017-11-28 | 合肥工业大学 | 融合临床思维的智能辅助问诊方法及系统 |
CN107731269A (zh) * | 2017-10-25 | 2018-02-23 | 山东众阳软件有限公司 | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 |
US20190236492A1 (en) * | 2018-01-30 | 2019-08-01 | Wipro Limited | Systems and methods for initial learning of an adaptive deterministic classifier for data extraction |
CN110032617A (zh) * | 2019-03-05 | 2019-07-19 | 中电科软件信息服务有限公司 | 基于规则的卒中数据抽取管理系统及方法 |
Non-Patent Citations (1)
Title |
---|
孙艳秋等: ""中医电子病历中科研数据的结构化研究"", 《信息系统工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021120688A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 医疗误诊检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111161819B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Athota et al. | Chatbot for healthcare system using artificial intelligence | |
Velardi et al. | Twitter mining for fine-grained syndromic surveillance | |
US9165116B2 (en) | Patient data mining | |
CN112331298B (zh) | 开具药方的方法、装置、电子设备及存储介质 | |
CN111048167B (zh) | 一种层级式病例结构化方法及系统 | |
CN106251865A (zh) | 一种基于语音识别的医疗健康记录自动填写方法 | |
CN111191048A (zh) | 基于知识图谱的急诊问答系统构建方法 | |
CN107480135B (zh) | 数据处理方法、医学用语处理系统和医学诊疗系统 | |
Abouelenien et al. | Gender-based multimodal deception detection | |
CN106709520A (zh) | 一种基于主题模型的医案分类方法 | |
Parker et al. | Health-related hypothesis generation using social media data | |
CN114218955A (zh) | 基于医疗知识图谱的辅助参考信息的确定方法及系统 | |
CN111161819B (zh) | 一种中医病历数据处理系统及方法 | |
CN110752027A (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
Revathy | Health care counselling via voicebot using multinomial naive bayes algorithm | |
Patel et al. | Automatic identification of self-reported COVID-19 vaccine information from vaccine adverse events reporting system | |
Yu et al. | Fusion model for tentative diagnosis inference based on clinical narratives | |
EP4081924B1 (en) | Privacy preservation in a queryable database built from unstructured texts | |
Breazu et al. | The Level of Resources and Quality of the Health System in the Romanian Country | |
Marchenko et al. | Examining the historical development of techno-scientific biomedical communication in Russia | |
CN113111048A (zh) | 一种基于大数据技术的临床科研专病库构建方法 | |
Oh et al. | AB-XLNet: Named Entity Recognition Tool for Health Information Technology Standardization | |
Shabbeer et al. | Prediction of Sudden Health Crises Owing to Congestive Heart Failure with Deep Learning Models. | |
Duangsuwan et al. | Semi-automatic classification based on ICD code for Thai text-based chief complaint by machine learning techniques | |
US20230315989A1 (en) | Readmission model based on social determinants of health |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |