CN117520751A - 临床数据标准化方法、装置、存储介质及电子设备 - Google Patents
临床数据标准化方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117520751A CN117520751A CN202311568876.1A CN202311568876A CN117520751A CN 117520751 A CN117520751 A CN 117520751A CN 202311568876 A CN202311568876 A CN 202311568876A CN 117520751 A CN117520751 A CN 117520751A
- Authority
- CN
- China
- Prior art keywords
- clinical data
- text
- data
- clinical
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 30
- 238000013075 data extraction Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000013461 design Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 4
- 239000003814 drug Substances 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003862 health status Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013523 data management Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 201000010099 disease Diseases 0.000 description 34
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 34
- 238000001514 detection method Methods 0.000 description 22
- 208000024891 symptom Diseases 0.000 description 14
- 238000003759 clinical diagnosis Methods 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000001797 obstructive sleep apnea Diseases 0.000 description 3
- 208000004998 Abdominal Pain Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 206010021133 Hypoventilation Diseases 0.000 description 1
- 241000533950 Leucojum Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种临床数据标准化方法、装置、存储介质及电子设备,属于临床数据治理技术领域。该方法包括:获取当前临床数据文本;根据当前临床数据文本,遍历标准化临床术语库,得到与当前临床数据文本相似度最高的标准化临床术语;根据与当前临床数据文本相似度最高的标准化临床术语,结合当前临床数据文本的个性化特征,对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。该装置、存储介质及电子设备能够用于实现该方法。其能够针对不同的临床数据资源进行标准化处理,得到标准化的临床数据,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
Description
技术领域
本发明涉及临床数据治理技术领域,特别是涉及一种临床数据标准化方法、装置、存储介质及电子设备。
背景技术
临床研究数据由于分散存储在不同的医院内部服务器上,同时出于保障数据隐私的需求各个医院内的临床数据基本不对外公开,不同医院之间无法互相进行数据交流。这种信息孤岛现象导致临床研究数据出现了数据种类多样化、数据质量层次不齐、数据标准不规范和数据缺乏关联性等问题。
发明内容
有鉴于此,本发明提供了一种临床数据标准化方法、装置、存储介质及电子设备,其能够针对不同的临床数据资源进行标准化处理,得到标准化的临床数据,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究,从而更加适于实用。
为了达到上述第一个目的,本发明提供的临床数据标准化方法的技术方案如下:
本发明提供的临床数据标准化方法包括以下步骤:
获取当前临床数据文本;
根据所述当前临床数据文本,遍历标准化临床术语库,得到与所述当前临床数据文本相似度最高的标准化临床术语;
根据与所述当前临床数据文本相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据文本相对应的标准化临床数据文本。
本发明提供的临床数据标准化方法还可采用以下技术措施进一步实现。
作为优选,所述当前临床数据文本为病例报告表,所述病例报告表上记载的数据包括患者基本信息、体尺测量数据、家族史、健康状况、生命体征、出院用药。
作为优选,所述获取当前临床数据文本的步骤过程中,所述当前临床数据包括结构化、半结构化的文本数据,图片数据,音频数据中的一种或者几种,其中,
针对所述结构化、半结构化的文本数据,通过代码解析方法,转换为纯文本数据;
针对所述图片数据,通过OCR算法,转换为纯文本数据;
针对所述音频数据,通过语音识别算法,转换为纯文本数据。
作为优选,根据与所述当前临床数据相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据相对应的标准化临床数据文本是由经过训练的纠偏模型实现的。
作为优选,所述经过训练的纠偏模型的训练方法包括以下步骤:
针对相同或者相近似的临床数据,获取历史临床数据文本,作为训练样本;
针对所述训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准;
根据所述数据提取标准,对所述训练样本进行临床数据提取,得到所述训练样本的标准数据文本;
针对所述训练样本的标准数据文本,进行语句切分,得到目标语义向量;
根据所述目标语义向量,进行语义扩展,得到经过扩展的目标语义向量;
根据所述训练样本,以及,所述经过扩展的目标语义向量,得到所述训练样本与所述目标语义向量之间的关联关系映射模型,以所述训练样本与所述目标语义向量之间的关联关系映射模型作为所述纠偏模型的纠偏依据。
作为优选,所述根据所述目标语义向量,进行语义扩展,得到经过扩展的目标语义向量的步骤过程中,所述语义扩展包括同义词、近义词扩展,以及,上下文学习扩展。
作为优选,所述临床数据标准化方法还包括以下步骤:
针对每个当前临床数据文本,以及,根据所述纠偏模型纠偏所得的目标文本,不断优化训练样本与所述目标语义向量之间的关联关系映射模型。
作为优选,针对所述训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准的步骤过程中,针对所述病例报告表配置项中的问题,还提供带有标签的数据集,使得临床领域的专业术语被引入。
作为优选,根据所述数据提取标准,对所述训练样本进行临床数据提取,得到所述训练样本的标准数据文本的步骤过程中,对所述训练样本进行临床数据提取过程中,产生的提示词及提取结果,同步更新到历史临床数据文本中。
为了达到上述第二个目的,本发明提供的临床数据标准化装置的技术方案如下:
本发明提供的临床数据标准化装置包括:
当前临床数据文本获取单元,用于获取当前临床数据文本;
标准化临床术语搜索单元,用于根据所述当前临床数据文本,遍历标准化临床术语库,得到与所述当前临床数据文本相似度最高的标准化临床术语;
纠偏单元,用于根据与所述当前临床数据文本相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据文本相对应的标准化临床数据文本。
为了达到上述第三个目的,本发明提供的计算机可读存储介质的技术方案如下:
本发明提供的计算机可读存储介质上存储有临床数据标准化程序,所述临床数据标准化程序在被处理器执行时,实现本发明提供的临床数据标准化方法的步骤。
为了达到上述第四个目的,本发明提供的电子设备的技术方案如下:
本发明提供的电子设备包括存储器和处理器,所述处理器上存储有临床数据标准化程序,所述临床数据标准化程序在被处理器执行时,实现本发明提供的临床数据标准化方法的步骤。
本发明提供的临床数据标准化方法、装置、存储介质及电子设备首先获取当前临床数据文本;然后,根据获取到的当前临床数据文本,从标准化临床术语库中搜索得到与当前临床数据文本相似度最高的标准化临床术语;最后,针对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。在这种情况下,由于根据本发明提供的技术方案,标准化临床数据文本是与当前临床数据文本相似度最高的标准化临床术语进行个性化纠偏得到的,因此,其既能保证与当前临床数据文本高度吻合,也更加能够符合标准化临床术语的要求。因此,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的临床数据标准化方法的步骤流程图;
图2为本发明实施例提供的临床数据标准化方法涉及的纠偏模型的训练方法的步骤流程图;
图3为本发明实施例提供的临床数据标准化装置中各功能模块之间的信号流向关系示意图;
图4为本发明实施例提供的硬件运行环境的临床数据标准化设备结构示意图。
具体实施方式
本发明为解决现有技术存在的问题,提供一种临床数据标准化方法、装置、存储介质及电子设备,其能够针对不同的临床数据资源进行标准化处理,得到标准化的临床数据,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究,从而更加适于实用。
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的临床数据标准化方法、装置、存储介质及电子设备,其具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特征、结构、或特点可由任何合适形式组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,具体的理解为:可以同时包含有A与B,可以单独存在A,也可以单独存在B,能够具备上述三种任一种情况。
临床数据标准化方法
本发明实施例提供的临床数据标准化方法包括以下步骤:
步骤S1:获取当前临床数据文本。
具体而言,当前临床数据文本主要包括临床上,医生对当前就诊患者及其患病状态的语言描述。例如,患者甲,性别男,年龄40岁,患者所患疾病的主诉症状,生化指标检测数据,临床医生对患者所患疾病的临床诊断结论等多种描述文本。其中,针对患者所患疾病的主诉症状,由于患者的年龄、受教育程度、国籍等原因,换着所患疾病的主诉症状是患者根据自己的感受描述出来的,每个人的表达方式都不一样,因此,会得到多种表达文本。针对生化指标检测检测数据,由于不同的医院、不同的医生针对相同年龄段、相同疾病、相同性别的生化指标检测标准不同,各指标的计量单位也不同,因此,会导致针对相同年龄段、相同疾病、相同性别的检测指标、指标的计量单位所得的数据具有一定的差别,因此,若需要两个或者两个以上的患者进行数据研究和比较的过程中,还需要进行指标转换、数据单位转换,研究效率较低。针对临床医生对患者所患疾病的临床诊断结论,不同的临床医生对同种疾病的书面记载并不相同,例如,OSA、阻塞性睡眠呼吸暂停、睡眠呼吸暂停低通气综合征表达的是同种疾病。因此,需要针对当前临床数据文本进行标准化处理。
步骤S2:根据当前临床数据文本,遍历标准化临床术语库,得到与当前临床数据文本相似度最高的标准化临床术语。
具体而言,当临床医生将当前就诊患者及其患病状态的语言描述输入时,标准化临床术语库即可进行自动遍历搜索,得到与当前临床数据文本相似度最高的标准化临床术语。其中,为了能够得到相似度最高的标准化临床术语,标准化临床术语库中的术语收录越齐全越好。对于生化指标检测数据,一般而言,需要针对不同的疾病设置固定检测指标数据组,并针对各检测指标定义国际单位为标准的国际单位,其中,针对不同的疾病设置固定检测指标数据组进行选取时,还应当针对患者本人的个性化数据进行调整,例如,针对患者本人的性别、年龄、家族史等进行个性化调整,例如,针对女性,当患者主诉症状为腹痛时,还应当考虑妇科有关疾病的检查、检测,而如果是男性,则无需探讨妇科有关疾病的检查、检测。对于临床医生对患者所患疾病的临床诊断结论,可以根据不同临床医生的表达习惯,提供复选框,让临床医生从复选框里选择自己认为的疾病或者症状名称,从而,相对于临床医生主动、手动输入临床诊断结论而言,能够得到标准化的临床诊断结论。
步骤S3:根据与当前临床数据文本相似度最高的标准化临床术语,结合当前临床数据文本的个性化特征,对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。
具体而言,即使是对于同样的患者主诉症状、生化指标检测数据、临床医生对患者所患疾病的临床诊断结论相似之处较多,其仍然由于症状、数据指标等差异,会得出不同的诊断结论,例如癌症患者,分为0期、1期、2期等多种评价维度,因此,还需要根据症状、数据指标等差异进行纠偏,从而得到与患者所患疾病吻合度更高的标准化临床数据文本。
本发明实施例提供的临床数据标准化方法首先获取当前临床数据文本;然后,根据获取到的当前临床数据文本,从标准化临床术语库中搜索得到与当前临床数据文本相似度最高的标准化临床术语;最后,针对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。在这种情况下,由于根据本发明提供的技术方案,标准化临床数据文本是与当前临床数据文本相似度最高的标准化临床术语进行个性化纠偏得到的,因此,其既能保证与当前临床数据文本高度吻合,也更加能够符合标准化临床术语的要求。因此,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
其中,当前临床数据文本为病例报告表,病例报告表上记载的数据包括患者基本信息、体尺测量数据、家族史、健康状况、生命体征、出院用药。在这种情况下,能够根据患者基本信息、体尺测量数据、家族史、健康状况、生命体征、出院用药这些个性化特征,得到与患者、其主诉症状,以及,症状更加吻合的标准化临床数据文本。
其中,获取当前临床数据文本的步骤过程中,当前临床数据包括结构化、半结构化的文本数据,图片数据,音频数据中的一种或者几种。其中,针对结构化、半结构化的文本数据,通过代码解析方法,转换为纯文本数据;针对图片数据,通过OCR算法,转换为纯文本数据;针对音频数据,通过语音识别算法,转换为纯文本数据。其中,OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的文本的计算机输入技术。可应用于银行票据、大量文字资料等、档案卷宗、文案的录入和处理领域。在这种情况下,能够将结构化、半结构化的文本数据、图片数据、音频数据均转换问纯文本数据,在此基础上,进行临床数据标准化处理时,只需要针对转换后的纯文本数据进行处理,更加便捷。
其中,根据与当前临床数据相似度最高的标准化临床术语,结合当前临床数据文本的个性化特征,对与当前临床数据相似度最高的标准化临床术语进行纠偏,得到与当前临床数据相对应的标准化临床数据文本是由经过训练的纠偏模型实现的。在这种情况下,由经过训练的纠偏模型对与当前临床数据相似度最高的标准化临床术语进行纠偏,能够实现自动纠偏,从而,避免人工纠偏造成的人力资源浪费,或者,人工纠偏过程中造成的纠偏标准不统一的情况发生,使得最终得到的标准化临床数据文本更加统一,标准化程度更高。
其中,经过训练的纠偏模型的训练方法包括以下步骤:
步骤S301:针对相同或者相近似的临床数据,获取历史临床数据文本,作为训练样本。
步骤S302:针对训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准。
具体而言,数据设计包括元数据设计、字段规范设计、字段映射设计、雪花型架构设计等多种数据设计,元数据设计,即定义表结构的字段信息,实现元数据的录入、管理功能。字段规范设计,即一组数据单元,其可由属性定义、标识、标识和运行,可用于规范数据的字段信息,同时也是数据交换的基础。字段映射设计,用于处理原始表同一业务属性下的不同需求场景,可以通过标准化命名规则达到映射替换原始表数据值的目的。通过以上的设计方法,可以确保最终提取的临床研究数据符合标准。
步骤S303:根据数据提取标准,对训练样本进行临床数据提取,得到训练样本的标准数据文本。
步骤S304:针对训练样本的标准数据文本,进行语句切分,得到目标语义向量。
具体而言,语义向量模型通常基于深度学习方法,这些模型使用词嵌入和神经网络来表示和比较句子的语义。常见的语义向量模型有Word2Vec、FastText、BERT、Siames和instruct-xl,本系统集成了多种语义向量模型供用户实行个性化配置。
步骤S305:根据目标语义向量,进行语义扩展,得到经过扩展的目标语义向量。
具体而言,在进行语义扩展时,有多种相似性计算方法可供选择,本系统集成了诸如余弦相似度、Jaccard相似度、曼哈顿距离等多种算法供用户选择,默认算法为余弦相似度。更具体地,包括:
临床术语提取,使用命名实体识别技术从临床数据中提取出术语名词,并将这些提取出来的术语实体存储到数据库中;
关系提取,遍历每张CRF表单具体配置项中的临床研究主题词,将提取出的临床术语与研究主题词比较,模型判断意思相近的,则与研究主题词建立关系;
数据库存储,将与CRF表单具体配置项中临床研究主题词具有相似关系的临床术语,存入临床术语库中;
术语库自动更新,后续从源数据中提取出的新的临床术语时,可以利用预训练模型判断与CRF表单具体配置项中的临床研究主题词是否构成链接关系。如果是,则更新到临床术语库中;
利用临床术语库,对每张CRF表单具体配置项中问题提到的临床术语进行兼容。
步骤S306:根据训练样本,以及,经过扩展的目标语义向量,得到训练样本与目标语义向量之间的关联关系映射模型,以训练样本与目标语义向量之间的关联关系映射模型作为纠偏模型的纠偏依据。更具体地,
建立案例库,项目启动时需人工根据每张CRF表单中具体配置项标注一到三个例子用于配置样例,后期可用系统提取的案例更新、丰富案例库;
往临床术语库纠偏后的模型提示词中拼接样例,帮助模型明确理解问题、以及回答问题所需的格式。
其中,根据目标语义向量,进行语义扩展,得到经过扩展的目标语义向量的步骤过程中,语义扩展包括同义词、近义词扩展,以及,上下文学习扩展。
具体而言,上下文学习(in-context learning)是一种新的自然语言处理的学习范式,在不对模型参数更新的情况下,只在输入中加入示例就能让模型理解任务。模型通过理解给定的一个或多个任务示例,根据示例学习并完成对应任务。根据积累的临床案例库,通过小样本提示的策略,不仅节约了昂贵的人工标注、模型训练成本,也能提高模型的逻辑推理能力,同时减少模型可能出现的幻觉与输出格式的不确定性。
其中,本发明实施例提供的临床数据标准化方法还包括以下步骤:
步骤S4:针对每个当前临床数据文本,以及,根据纠偏模型纠偏所得的目标文本,不断优化训练样本与目标语义向量之间的关联关系映射模型。在这种情况下,能够不断优化训练模型,使得标准化临床术语库中的语料资源更加丰富,从而,使得后续针对当前临床数据文本进行标准化的过程中,与当前临床数据文本的吻合程度更高。
其中,针对训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准的步骤过程中,针对病例报告表配置项中的问题,还提供带有标签的数据集,使得临床领域的专业术语被引入。在这种情况下,能够提升模型在提取任务上的性能。
其中,根据数据提取标准,对训练样本进行临床数据提取,得到训练样本的标准数据文本的步骤过程中,对训练样本进行临床数据提取过程中,产生的提示词及提取结果,同步更新到历史临床数据文本中。其可以用于后续作为微调基座模型的数据集语料,充分挖掘临床数据的价值,并实现了基座模型的持续更新与进化。
临床数据标准化装置
本发明实施例提供的临床数据标准化装置包括:
当前临床数据文本获取单元,用于获取当前临床数据文本。
具体而言,当前临床数据文本主要包括临床上,医生对当前就诊患者及其患病状态的语言描述。例如,患者甲,性别男,年龄40岁,患者所患疾病的主诉症状,生化指标检测数据,临床医生对患者所患疾病的临床诊断结论等多种描述文本。其中,针对患者所患疾病的主诉症状,由于患者的年龄、受教育程度、国籍等原因,换着所患疾病的主诉症状是患者根据自己的感受描述出来的,每个人的表达方式都不一样,因此,会得到多种表达文本。针对生化指标检测检测数据,由于不同的医院、不同的医生针对相同年龄段、相同疾病、相同性别的生化指标检测标准不同,各指标的计量单位也不同,因此,会导致针对相同年龄段、相同疾病、相同性别的检测指标、指标的计量单位所得的数据具有一定的差别,因此,若需要两个或者两个以上的患者进行数据研究和比较的过程中,还需要进行指标转换、数据单位转换,研究效率较低。针对临床医生对患者所患疾病的临床诊断结论,不同的临床医生对同种疾病的书面记载并不相同,例如,OSA、阻塞性睡眠呼吸暂停、睡眠呼吸暂停低通气综合征表达的事同种疾病。因此,需要针对当前临床数据文本进行标准化处理。
标准化临床术语搜索单元,用于根据当前临床数据文本,遍历标准化临床术语库,得到与当前临床数据文本相似度最高的标准化临床术语。
具体而言,当临床医生将当前就诊患者及其患病状态的语言描述输入时,标准化临床术语库即可进行自动遍历搜索,得到与当前临床数据文本相似度最高的标准化临床术语。其中,为了能够得到相似度最高的标准化临床术语,标准化临床术语库中的术语收录越齐全越好。对于生化指标检测数据,一般而言,需要针对不同的疾病设置固定检测指标数据组,并针对各检测指标定义国际单位为标准的国际单位,其中,针对不同的疾病设置固定检测指标数据组进行选取时,还应当针对患者本人的个性化数据进行调整,例如,针对患者本人的性别、年龄、家族史等进行个性化调整,例如,针对女性,当患者主诉症状为腹痛时,还应当考虑妇科有关疾病的检查、检测,而如果是男性,则无需探讨妇科有关疾病的检查、检测。对于临床医生对患者所患疾病的临床诊断结论,可以根据不同临床医生的表达习惯,提供复选框,让临床医生从复选框里选择自己认为的疾病或者症状名称,从而,相对于临床医生主动、手动输入临床诊断结论而言,能够得到标准化的临床诊断结论。
纠偏单元,用于根据与当前临床数据文本相似度最高的标准化临床术语,结合当前临床数据文本的个性化特征,对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。
具体而言,即使是对于同样的患者主诉症状、生化指标检测数据、临床医生对患者所患疾病的临床诊断结论相似之处较多,其仍然由于症状、数据指标等差异,会得出不同的诊断结论,例如癌症患者,分为0期、1期、2期等多种评价维度,因此,还需要根据症状、数据指标等差异进行纠偏,从而得到与患者所患疾病吻合度更高的标准化临床数据文本。
本发明实施例提供的临床数据标准化装置首先获取当前临床数据文本;然后,根据获取到的当前临床数据文本,从标准化临床术语库中搜索得到与当前临床数据文本相似度最高的标准化临床术语;最后,针对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。在这种情况下,由于根据本发明提供的技术方案,标准化临床数据文本是与当前临床数据文本相似度最高的标准化临床术语进行个性化纠偏得到的,因此,其既能保证与当前临床数据文本高度吻合,也更加能够符合标准化临床术语的要求。因此,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
计算机可读存储介质
本发明提供的计算机可读存储介质上存储有临床数据标准化程序,临床数据标准化程序在被处理器执行时,实现本发明提供的临床数据标准化方法的步骤。
本发明实施例提供的计算机可读存储介质首先获取当前临床数据文本;然后,根据获取到的当前临床数据文本,从标准化临床术语库中搜索得到与当前临床数据文本相似度最高的标准化临床术语;最后,针对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。在这种情况下,由于根据本发明提供的技术方案,标准化临床数据文本是与当前临床数据文本相似度最高的标准化临床术语进行个性化纠偏得到的,因此,其既能保证与当前临床数据文本高度吻合,也更加能够符合标准化临床术语的要求。因此,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
电子设备
本发明提供的电子设备包括存储器和处理器,处理器上存储有临床数据标准化程序,临床数据标准化程序在被处理器执行时,实现本发明提供的临床数据标准化方法的步骤。
本发明实施例提供的电子设备首先获取当前临床数据文本;然后,根据获取到的当前临床数据文本,从标准化临床术语库中搜索得到与当前临床数据文本相似度最高的标准化临床术语;最后,针对与当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与当前临床数据文本相对应的标准化临床数据文本。在这种情况下,由于根据本发明提供的技术方案,标准化临床数据文本是与当前临床数据文本相似度最高的标准化临床术语进行个性化纠偏得到的,因此,其既能保证与当前临床数据文本高度吻合,也更加能够符合标准化临床术语的要求。因此,有利于医、患理解临床数据,并且,能够使得临床数据能够被更加广泛地用于后续研究。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的临床数据标准化设备结构示意图。
如图1所示,该临床数据标准化设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对临床数据标准化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及临床数据标准化程序。
在图1所示的临床数据标准化设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明临床数据标准化设备中的处理器1001、存储器1005可以设置在临床数据标准化设备中,临床数据标准化设备通过处理器1001调用存储器1005中存储的临床数据标准化程序,并执行本发明实施例提供的临床数据标准化方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种临床数据标准化方法,其特征在于,包括以下步骤:
获取当前临床数据文本;
根据所述当前临床数据文本,遍历标准化临床术语库,得到与所述当前临床数据文本相似度最高的标准化临床术语;
根据与所述当前临床数据文本相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据文本相对应的标准化临床数据文本。
2.根据权利要求1所述的临床数据标准化方法,其特征在于,所述当前临床数据文本为病例报告表,所述病例报告表上记载的数据包括患者基本信息、体尺测量数据、家族史、健康状况、生命体征、出院用药。
3.根据权利要求1所述的临床数据标准化方法,其特征在于,所述获取当前临床数据文本的步骤过程中,所述当前临床数据包括结构化、半结构化的文本数据,图片数据,音频数据中的一种或者几种,其中,
针对所述结构化、半结构化的文本数据,通过代码解析方法,转换为纯文本数据;
针对所述图片数据,通过OCR算法,转换为纯文本数据;
针对所述音频数据,通过语音识别算法,转换为纯文本数据。
4.根据权利要求1所述的临床数据标准化方法,其特征在于,根据与所述当前临床数据相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据相对应的标准化临床数据文本是由经过训练的纠偏模型实现的。
5.根据权利要求4所述的临床数据标准化方法,其特征在于,所述经过训练的纠偏模型的训练方法包括以下步骤:
针对相同或者相近似的临床数据,获取历史临床数据文本,作为训练样本;
针对所述训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准;
根据所述数据提取标准,对所述训练样本进行临床数据提取,得到所述训练样本的标准数据文本;
针对所述训练样本的标准数据文本,进行语句切分,得到目标语义向量;
根据所述目标语义向量,进行语义扩展,得到经过扩展的目标语义向量;
根据所述训练样本,以及,所述经过扩展的目标语义向量,得到所述训练样本与所述目标语义向量之间的关联关系映射模型,以所述训练样本与所述目标语义向量之间的关联关系映射模型作为所述纠偏模型的纠偏依据。
6.根据权利要求5所述的临床数据标准化方法,其特征在于,所述根据所述目标语义向量,进行语义扩展,得到经过扩展的目标语义向量的步骤过程中,所述语义扩展包括同义词、近义词扩展,以及,上下文学习扩展。
7.根据权利要求5所述的临床数据标准化方法,其特征在于,还包括以下步骤:
针对每个当前临床数据文本,以及,根据所述纠偏模型纠偏所得的目标文本,不断优化训练样本与所述目标语义向量之间的关联关系映射模型;
作为优选,针对所述训练样本中的每个临床数据文本的病例报告表,进行数据设计,得到临床数据提取标准的步骤过程中,针对所述病例报告表配置项中的问题,还提供带有标签的数据集,使得临床领域的专业术语被引入;
作为优选,根据所述数据提取标准,对所述训练样本进行临床数据提取,得到所述训练样本的标准数据文本的步骤过程中,对所述训练样本进行临床数据提取过程中,产生的提示词及提取结果,同步更新到历史临床数据文本中。
8.一种临床数据标准化装置,其特征在于,包括:
当前临床数据文本获取单元,用于获取当前临床数据文本;
标准化临床术语搜索单元,用于根据所述当前临床数据文本,遍历标准化临床术语库,得到与所述当前临床数据文本相似度最高的标准化临床术语;
纠偏单元,用于根据与所述当前临床数据文本相似度最高的标准化临床术语,结合所述当前临床数据文本的个性化特征,对与所述当前临床数据文本相似度最高的标准化临床术语进行纠偏,得到与所述当前临床数据文本相对应的标准化临床数据文本。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有临床数据标准化程序,所述临床数据标准化程序在被处理器执行时,实现权利要求1-7中任一所述的临床数据标准化方法的步骤。
10.一种电子设备,其特征在于,包括存储器和处理器,所述处理器上存储有临床数据标准化程序,所述临床数据标准化程序在被处理器执行时,实现权利要求1-7中任一所述的临床数据标准化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311568876.1A CN117520751A (zh) | 2023-11-23 | 2023-11-23 | 临床数据标准化方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311568876.1A CN117520751A (zh) | 2023-11-23 | 2023-11-23 | 临床数据标准化方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520751A true CN117520751A (zh) | 2024-02-06 |
Family
ID=89747352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311568876.1A Pending CN117520751A (zh) | 2023-11-23 | 2023-11-23 | 临床数据标准化方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520751A (zh) |
-
2023
- 2023-11-23 CN CN202311568876.1A patent/CN117520751A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
US20190035506A1 (en) | Intelligent auxiliary diagnosis method, system and machine-readable medium thereof | |
US20220044812A1 (en) | Automated generation of structured patient data record | |
US11275985B2 (en) | Artificial intelligence advisory systems and methods for providing health guidance | |
US20090259487A1 (en) | Patient Data Mining | |
Spadaro et al. | The Cooperation Databank: machine-readable science accelerates research synthesis | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
US11581094B2 (en) | Methods and systems for generating a descriptor trail using artificial intelligence | |
US20190325300A1 (en) | Artificial intelligence querying for radiology reports in medical imaging | |
EP4170670A1 (en) | Medical data processing method and system | |
US20180365297A1 (en) | Method and system for performing context-based search | |
US10936962B1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
US20150227714A1 (en) | Medical information analysis apparatus and medical information analysis method | |
JP2004157623A (ja) | 検索システム及び検索方法 | |
CN115858886B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
US11875884B2 (en) | Expression of clinical logic with positive and negative explainability | |
CN112837772A (zh) | 一种预问诊病历生成方法及装置 | |
Ju et al. | Doctor recommendation model based on ontology characteristics and disease text mining perspective | |
EP3901875A1 (en) | Topic modelling of short medical inquiries | |
CN111524515A (zh) | 语音交互方法、装置、电子设备及可读存储介质 | |
US11238988B2 (en) | Large scale identification and analysis of population health risks | |
US20230032180A1 (en) | Method and system for empowering cancer patient(s) | |
CN117520751A (zh) | 临床数据标准化方法、装置、存储介质及电子设备 | |
US20230044106A1 (en) | Method and apparatus for querying questions, device, and storage medium | |
US20210133627A1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |