CN115618817A - 医疗文本时间数据规范化处理方法及装置 - Google Patents
医疗文本时间数据规范化处理方法及装置 Download PDFInfo
- Publication number
- CN115618817A CN115618817A CN202211153591.7A CN202211153591A CN115618817A CN 115618817 A CN115618817 A CN 115618817A CN 202211153591 A CN202211153591 A CN 202211153591A CN 115618817 A CN115618817 A CN 115618817A
- Authority
- CN
- China
- Prior art keywords
- time
- text
- expression
- event
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims abstract description 315
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000003745 diagnosis Methods 0.000 claims description 75
- 238000011282 treatment Methods 0.000 claims description 75
- 230000000875 corresponding effect Effects 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 230000002123 temporal effect Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 4
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 238000011160 research Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 5
- 206010006187 Breast cancer Diseases 0.000 description 4
- 208000026310 Breast neoplasm Diseases 0.000 description 4
- 241000700605 Viruses Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种医疗文本时间数据规范化处理方法及装置,通过本申请提供的方案,从待处理的目标患者的医疗文本中提取出时间表达文本;时间表达文本中包括事件时间表达文本,然后将事件时间表达文本转换为对应的第一直接时间表达文本,更便于用户获取到直观的时间描述信息,且无需人工进行转换,节约了人力成本。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种医疗文本时间数据规范化处理方法及装置。
背景技术
医疗领域中源源不断地产生大量的医疗数据,例如:患者的病历、对患者的病例的分析、患者疾病的治疗方案等。医生群体在做科研时,会按时间维度收集各医疗数据,以进行科研课题研究。比如医生要研究患者的相关病情数据,就需要先获取到该患者的病例,以查看相关病情数据,由于每个患者就诊时间都不一样,所以需要比较患者入方舱前后的身体情况,在入院这个大时间框架下,可能还有术前术后等时间描述,各时间描述可能还会存在文字与数字结合的情况,而患者的手术记录可能是存储在另外的手术相关档案中的。所以医生基于当前的病例文本是难以直观的获取到相应诊疗事件发生的时间信息的,由人工进行转换会浪费大量人力成本。
发明内容
本申请实施例的目的在于提供一种医疗文本时间数据规范化处理方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供一种医疗文本时间数据规范化处理方法,包括:从待处理的目标患者的医疗文本中提取出时间表达文本;所述时间表达文本中包括事件时间表达文本;所述事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词;确定所述诊疗事件的发生时间;根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,所述第一直接时间表达文本为所述医疗文本中直接表示时间的文本。
在上述实施方式中,可以将医疗文本中的事件时间表达文本转化为对应的第一直接时间表达文本,更便于用户获取到直观的时间描述信息,且无需人工进行转换,节约了人力成本,并且根据诊疗事件的发生时间,将事件时间表达文本转换为对应的第一直接时间表达文本,保证转换得到的时间描述信息的准确性。
作为一种可能的实现方式,所述确定所述诊疗事件的发生时间,包括:获取所述医疗文本的类型;根据所述医疗文本的类型,确定所述医疗文本的时间记录位置;根据所述时间记录位置,确定所述诊疗事件的发生时间。
在上述实施方式中,根据预先建立诊疗事件与时间记录位置的对应关系,使得根据医疗文本的类型,即可确定诊疗事件的发生时间,减少查找诊疗事件的发生时间的数据处理,提升确定诊疗事件的发生时间的效率。
作为一种可能的实现方式,所述确定所述诊疗事件的发生时间,包括:计算所述诊疗事件的表达式与各标准表达式之间的相似度值;所述标准表达式为预先针对所述目标患者的实际诊疗事件记录的表达式;将与所述诊疗事件的表达式相似度值最高的所述标准表达式对应的实际诊疗事件的实际发生时间,作为所述事件时间表达文本中的诊疗事件的发生时间;所述实际发生时间为预先针对所述目标患者的实际诊疗事件的实际发生时间记录的时间。
在上述实施方式中,将与事件时间表达文本中的诊疗事件的表达式相似度最高的标准表达式对应的实际诊疗事件的实际发生时间,作为事件时间表达文本中的诊疗事件的发生时间。
作为一种可能的实现方式,所述目标患者的信息、相似度最高的所述标准表达式及所述实际发生时间,关联存储在预设的标准文本数据库中。
在上述实施方式中,由于目标患者的信息、标准表达式及实际发生时间,关联存储在预设的标准文本数据库中,因此可以根据目标患者的信息直接从该标准文本数据库中获取到与该目标患者的实际诊疗事件对应的相似度最高的标准表达式,以及各实际诊疗事件的实际发生时间,可以提升文本转换的效率。
作为一种可能的实现方式,所述时间表达文本分为时间点表达文本和时长时间表达文本,在将所述事件时间表达文本转换为对应的第一直接时间表达文本之前,所述方法还包括:在确定所述时间表达文本为时长时间表达文本时,将所述时间表达文本的时长时间表达式转换为以预设标量为单位的标准时长时间表达式。
在上述实施方式中,可以将用于表征时长的时长时间表达式转化为以预设标量为单位的标准时长时间表达式,可以将各时长时间表达式统一维度,更便于用户进行分析。
作为一种可能的实现方式,所述从待处理的目标患者的医疗文本中提取出时间表达文本,还包括:判断所述医疗文本中是否包含预设时间表达文本,所述预设时间表达文本表征与预设时间相对应的文本,若所述医疗文本包含预设时间表达文本,则提取所述预设时间表达文本的预设时间文本,并将预设时间文本作为所述时间关键词。
在上述实施方式中,通过确定医疗文本包含预设时间表达文本,使得预设时间文本能被提取,避免遗漏处理时间表达文本,提高从医疗文本提取时间表达文本的准确性。
作为一种可能的实现方式,所述时间关键词位于所述诊疗事件的表达式之后,所述时间关键词包括以下信息中的至少一种:前、后、第;所述根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,包括:根据所述时间关键词和所述发生时间确定与所述事件时间表达文本对应的绝对时间文本;将所述绝对时间文本作为所述事件时间表达文本转换后的第一直接时间表达文本。
在上述实施方式中,根据时间关键词和发生时间确定与事件时间表达文本对应的绝对时间文本,将绝对时间文本作为事件时间表达文本转换后的第一直接时间表达文本,以便于用户通过该绝对时间文本可以直观的获取到相应诊疗事件发生的时间。
作为一种可能的实现方式,所述时间关键词位于所述诊疗事件的表达式之后,所述时间关键词包括以下信息中的至少一种:前、后;所述根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,包括:根据预设的时间关键词与符号的对应关系,确定与所述时间关键词对应的符号;根据所述发生时间和所述符号生成与所述事件时间表达文本对应的第一直接时间表达文本。
在上述实施方式中,可以将事件时间表达文本转化为通过对应符号进行时间描述的第一直接时间表达文本,时间表达方式更加直观,更便于用户读取。
在上述实施方式中,医疗文本中包括多个文本,通过提取医疗文本的时间表达文本,确定时间表达文本的事件时间表达文本,其中,按照患者经历的时间前后顺序从医疗文本中确定患者的医疗文本中包括多个时间表达文本。
第二方面,本申请实施例提供一种医疗文本时间数据规范化处理装置,包括:提取模块,用于从待处理的目标患者的医疗文本中提取出时间表达文本;所述时间表达文本中包括事件时间表达文本;所述事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词;转换模块,用于将所述事件时间表达文本转换为对应的第一直接时间表达文本;所述第一直接时间表达文本为直接表达时间的文本。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任一所述医疗文本时间数据规范化处理方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一所述医疗文本时间数据规范化处理方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的医疗文本时间数据规范化处理方法的流程示意图;
图2为本申请实施例二中某一患者医疗信息按时间轴展示示意图;
图3为本申请实施例三提供的医疗文本时间数据规范化处理装置的结构示意图;
图4为本申请实施例四提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一
本申请实施例提供一种可以应用于电子设备的医疗文本时间数据规范化处理方法,请参见图1所示,该方法具体的可以包括如下步骤:
S11:从待处理的目标患者的医疗文本中提取出时间表达文本;时间表达文本中包括事件时间表达文本;事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词。
S12:确定诊疗事件的发生时间。
S13:根据发生时间将事件时间表达文本转换为对应的第一直接时间表达文本,第一直接时间表达文本为医疗文本中直接表示时间的文本。
为便于理解,下面对上述步骤进行详细的说明。
本申请步骤S11中的医疗文本可以是任意用于记载患者病情相关信息的文本。比如,可以是患者的病例、医嘱、手术档案等。
事件时间表达文本包括诊疗事件的表达式和用于表征时间节点的时间关键词,事件时间表达文本基于诊疗事件和时间关键词进行时间表达。诊疗事件是指患者在就诊过程中与诊疗相关的事件,比如“术前”、“入院时”、“手术中”均属于本申请实施例中的事件时间表达文本,可以理解的是,此处的举例并不构成对事件时间表达文本的限制。
基于诊疗事件进行时间表达使得用户无法直接获取到确切的时间节点,通常来说,都需要用户采用人工的方式,将时间进行转换,而本申请实施例中,可以自动将事件时间表达文本转换为对应的第一直接时间表达文本。其中,第一直接时间表达文本是指直接表达时间的文本,比如“9月 2日前”、“18:00后”、“7月2日时”等等都是直接表达时间的文本,由于第一直接时间表达文本可以直接体现出确切的时间节点,因此相比于现有方案而言,无需用户人工进行时间转换,提升了用户体验的满意度,并且根据诊疗事件的发生时间,将事件时间表达文本转换为对应的第一直接时间表达文本,保证转换得到的时间描述信息的准确性。其中,时间关键词中“前”“后”、“时”、“中”为某具体时间的时间修饰词。
一实施例中,S12的实施方式可以包括:获取医疗文本的类型;根据医疗文本的类型,确定医疗文本的时间记录位置;根据时间记录位置,确定诊疗事件的发生时间。
可以理解,考虑到一些特殊的诊疗事件的时间通常记录在医疗文本中的特定位置上,比如,对于“入院”这一诊疗事件而言,其时间可以固定记录在医疗文本中的左上角或右下角,或者可以固定记录在医疗文本中正文的特定位置处。
进一步地,为提升确定诊疗事件的发生时间的效率,可以针对这种特殊诊疗事件,预先建立特殊诊疗事件与记录位置的对应关系,该记录位置是指用于记录特殊诊疗事件的发生时间的位置,该记录位置通常是医疗文本中的特定位置。示例性的,在不同类型的医疗文本中,特殊诊疗事件的发生时间可能记录在不同的位置处,因此,可以针对不同类型的医疗文本,分别设置特殊诊疗事件与记录位置的对应关系。
需要说明的是,特殊诊疗事件以及特殊诊疗事件与记录位置的对应关系都可以由开发人员根据实际应用场景的需要灵活设置。
另一实施例中,S12的实施方式可以包括:计算事件时间表达文本中诊疗事件的表达式与各标准表达式之间的相似度值;将与该诊疗事件的表达式相似度值最高的标准表达式对应的实际诊疗事件的实际发生时间,作为事件时间表达文本中的诊疗事件的发生时间;实际发生时间为预先针对目标患者的实际诊疗事件的实际发生时间记录的时间。
其中,该标准表达式为预先针对目标患者的实际诊疗事件记录的表达式。
示例性的,本实施方式中可以计算事件时间表达文本中诊疗事件的表达式的文本向量,计算该文本向量与各标准表达式对应的文本向量的相似度值。例如,如果从医疗文本中提取出来的事件时间表达文本是“乳腺癌术后”,而针对诊疗事件“乳腺癌术”,目标患者的手术记录中记录的标准表达式是“乳癌改良根治手术”,则可以把“乳腺癌术”输入至BERT(Bidirectional Encoder Representations from Transformers)模型获得待匹配的文本向量,如果此患者做过多台手术,则该目标患者对应有多个实际诊疗事件,也即会对应多个标准表达式,可以计算该待匹配的文本向量与各标准表达式的文本向量的余弦相似度。
一实施例中,可以通过疾病数据库和药品数据库构建标准表达式。
疾病库可以包括疾病分类库和疾病症状库,其中,疾病分类库可以是疾病实体所对应的国际疾病分类(international Classification of diseases, ICD)数据库ICD-10,疾病症状库可以是症状实体所对应的基于医学知识构建的症状数据库,而药品库可以是药品实体所对应的国家药品监督局的药品库。
可以理解,通过对疾病数据库和药品数据库的数据进行结构化处理,使得结构化后的数据可以作为标准表达式,并且方便对医学术语标准化。
需要说明的是,上文标准表达式的类型可以根据技术人员根据应用场景进行设置,本申请并不以此为限。
可以理解,如果诊疗事件的表达式是唯一的,例如“入院”、“出院”等等,且医疗文本中的某些文本内容中记录有该诊疗事件的发生时间,则可以通过语义识别技术从该医疗文本中获取该诊疗事件的发生时间。
一些诊疗事件对应的表达式并不是唯一的,不同的医生可能会根据自己的习惯对同一诊疗事件采用不同的表达式,甚至有些医生会在同一医疗文本中,针对同一诊疗事件采用不同的表达式。
应当说明的是,本实施方式中的标准表达式与对应的实际发生时间可以记录在该医疗文本中,也可以记录在另外的标准文本数据库中。可选的,可以将目标患者的信息、标准表达式及实际发生时间,关联存储在预设的标准文本数据库中。
可以理解,可以将医疗文本中的事件时间表达文本转化为对应的第一直接时间表达文本,更便于用户获取到直观的时间描述信息,且无需人工进行转换,节约了人力成本。
一实施例中,时间表达文本中还可以分为时间点表达文本和时长时间表达文本,在S13之前,该方法还可以包括:在确定时间表达文本为时长时间表达文本时,将时间表达文本的时长时间表达式转换为以预设标量为单位的标准时长时间表达式。
可以理解,对时间表达文本进行识别,判断该时间表达文本属于时间点表达文本,还是时长时间表达文本,当时间表达文本中包含时长时间表达式时,该时间表达文本属于时长时间表达文本;当时间表达文本中包含时间点表达式时,则该时间表达文本属于时间点表达文本。当第一直接时间表达文本中包括用于表征时长的时长时间表达式时,可以将该时长时间表达式转化为以预设标量为单位的标准时长时间表达式。
本申请实施例中的预设标量可以由开发人员灵活设置,比如可以为秒、分、时、天、月、季度、年等。本申请实施例中可以将时长时间表达式统一到同一时间标量下,更便于用户横向对比各时间点。
为便于理解,假设预设标量为“天”,如果医疗文本中记录了“2个月”,而这2个月分别为7月和8月,则可以以“天”为标量将这2个月转化为 2*31=62天。有时候医疗文本中也可能存在1年2个月这种表达,若该年为平年,次年也为平年,2个月分别为1月和2月,则此时可以计算完之后相加,将1年2个月转化为365+31+28=424天,若医疗文本中存在12小时的表达,则可以将12小时转换为12/24=0.5天。
需要说明的是,为了提高数据处理效率,可以默认将年设定为365天、一个月为30天,季度为3个月(90天),具体可以根据应用场景进行设置,本申请并不以此为限。
另外,若将秒、分、时、月、季度、年作为预设标量,类似步骤可以参考上文,在此不再赘述。
可以理解的,当事件时间表达文本中也包括用于表征时长的时长时间表达式时,也可以将事件时间表达文本中的时长时间表达式转化为以预设标量为单位的标准时长时间表达式。比如,事件时间表达文本为“术后3月”,当预设标量为“天”时,该事件时间表达文本可以转化为“术后90天”。将医疗文本中各时长时间表达式转化到同一时间标量下,更便于横向对比时间进行科研分析。
示例性的,本申请中的时间关键词可以位于诊疗事件的表达式之后,时间关键词包括以下信息中的至少一种:前、后、第。
在本示例的步骤S13中,可以根据时间关键词和发生时间确定与事件时间表达文本对应的绝对时间文本;将绝对时间文本作为事件时间表达文本转换后的第一直接时间表达文本。
本申请实施例中的绝对时间文本可以是一个绝对时间点,也可以是一个绝对时间范围。比如,当从医疗文本中提取的事件时间表达文本为“手术后第3天”,则在确定出“手术”这一诊疗事件的发生时间之后,根据该发生时间以及时间关键词则可以确定出对应的绝对时间,假设确定出的手术发生时间为5月2日,则在此基础上往后计算3天,将5月5日作为绝对时间文本。再比如,比如,当从医疗文本中提取的事件时间表达文本为“手术后3天”,假设确定出的手术发生时间为5月2日,则可以将“5月2日至5月5日”作为绝对时间文本。
示例性的,本申请中的时间关键词可以位于诊疗事件的表达式之后,时间关键词包括以下信息中的至少一种:前、后。
在本示例的步骤S13中,可以根据预设的时间关键词与符号的对应关系,确定与时间关键词对应的符号,根据所述发生时间和所述符号生成与所述事件时间表达文本对应的第一直接时间表达文本。
示例性的,可以预先设置符号“-”对应时间关键词“前”,设置符号“+”对应时间关键词“后”,在得到事件时间表达文本中诊疗事件的发生时间之后,确定与该事件时间表达文本中时间关键词对应的符号,将该符号与发生时间对应的时间文本拼接,得到所述第一直接时间表达文本。可选的,可以将符号“+”拼接在该发生时间对应的时间文本之后,将符号“-”拼接在该发生时间对应的时间文本前,这种拼接方式更便于用户阅读。
比如,当从医疗文本中提取的事件时间表达文本为“手术后”,假设确定出的手术发生时间为5月2日,则可以将“5月2日+”作为所述第一直接时间表达文本。应当理解的是,此处列举的符号以及符号与时间关键词的对应关系并不构成对符号以及该对应关系的限定,在其他的实施例中,可以根据应用场景的需要设置其他的符号以及符号与时间关键词的对应关系。
本申请实施例中可以基于用于进行训练的医疗文本样本进行模型训练,得到时间表达文本提取模型。每一医疗文本样本中标注有需要提取出来的时间表达文本。
需要说明的是,医疗文本样本可以基于医学原文获取,医学原文包含 CDR(Clinical Data Repository,临床数据中心)数据库中的病历文书信息,其中,病历文书信息可以是一句话或一段话的形式,通过将病历文书信息输入至医学实体抽取模型,得到医疗文本样本。另外,也可以从云端获得预先存储的医疗文本样本,本申请并不限定医疗文本样本的获取方式。
示例性地,可以将医疗文本样本中的直接时间表达文本以及事件时间表达文本均标注出来。例如,“术前”、“术后”、“入院前”、“入院后”、“3 月余”、“3个多月”、“3年前”、“持续3个月”等。因此,通过本申请实施例提供的时间表达文本提取模型可以从待处理的目标患者的医疗文本中提取出时间表达文本。
在实际应用中,根据医疗文本内容的不同,可以提取出事件时间表达文本和直接时间表达文本中的至少一种。当提取出事件时间表达文本时,将该事件时间表达文本转化为对应的直接时间表达文本,这样就可以将医疗文本中的时间统一通过直接时间表达文本的方式进行表达,更便于用户获取到直接的时间信息。
一实施例中,步骤S11还可以包括:判断医疗文本中是否包含预设时间表达文本,预设时间表达文本表征与预设时间相对应的文本,若医疗文本包含预设时间表达文本,则提取预设时间表达文本的预设时间文本,并将预设时间文本作为时间关键词。
示例性的,在对时间表达文本提取模型进行模型训练之前,还可以将医疗文本样本中的特殊时间表达文本标注出来,并且将这些特殊时间表达文本作为预设时间文本,这些特殊时间表达文本通常是非结构化的时间表达文本,包括但不限于“目前”、“既往”、“今晨”、“昨夜”等等。
当待处理的目标患者的医疗文本中包含该预设时间表达文本时,可以通过该时间表达文本提取模型提取出其中的预设时间文本。
示例性的,在提取得到特殊时间表达文本之后,可以基于预设的时间文本转化规则对该预设时间表达文本进行转化,得到满足预设时间文本要求格式的时间表达文本。比如,当医疗文本的记录时间为5月8日,从该医疗文本中提取出“昨夜”这一特殊时间表达文本,则可以将该特殊时间表达文本转化为“5月7日夜里”、或“昨天夜里”等事件时间表达文本,进一步地,预设“昨夜”的时间为20:00,则该事件时间表达文本转换为5月7日20:00 的第一直接时间表达文本。
可以理解的是,本申请实施例中的第一直接时间表达文本包括通过间接的方式进行时间表达的文本,比如“2天前”,也包括通过绝对的方式进行时间表达的文本,比如“9月2日”。当提取出来的时间表达文本中包含通过间接的方式进行时间表达的文本时,可以基于该医疗文本的记录时间确定出与该直接时间表达文本对应的绝对时间文本。比如,2022年4月20日记录的医疗文本中记载的是“2天前”,则可以计算出确切时间为“2022年4月 18日”,将该确切时间作为与该第一直接时间表达文本对应的绝对时间文本。
示例性的,当从医疗文本中提取出来的第一直接时间表达文本中包含预设的时间描述词时,也可以将其转化为通过预设符号进行时间表达的文本。比如,当从医疗文本中提取出“2个多月”、“不到3天”这一时间表达文本时,可以将其转化为“2个月+”、“3天-”。
一实施例中,在本申请实施例的步骤S12之后,还可以包括如下步骤:确定参考时间,根据该参考时间将各第一直接时间表达文本统一至同一时间维度下。可选的,当从医疗文本中提取出第一直接时间表达文本时,还可以将该各第一直接时间表达文本统一至该时间维度下。本示例中的参考时间可以是入院时间,也可以是其他时间,确定参考时间的规则可以由开发人员灵活设置。
本申请实施例提供的医疗文本时间数据规范化处理方法适用于医疗文本处理,基于医疗文本语义表达,可以解决医疗文本中的各种非规范或特殊时间表达文本不统一的问题。从医疗整体需求来看,本申请实施例提供的医疗文本时间数据规范化处理方法解决了科研场景中不同样本时间维度不统一的问题,最终提取的时间可以横向比较,为科研提供支持。示例性的,最终提取的时间节点可以为-XXXX年XX月XX日XX时XX分XX 秒,或XXXX年XX月XX日XX时XX分XX秒+,+代表后,-代表前。最终提取的持续时间可以为XX(年/月/日/时/分)+/-,+代表大于这个持续时间,-代表小于这个持续时间。
实施例二
为便于进一步理解本申请实施例所提供的方案。本实施例在实施例一的基础上,以图2为例,为本申请做进一步示例性说明。图2对患者A的医疗文本以时间轴进行展示。
医疗文本中包括许多文本,通过提取医疗文本的时间表达文本,确定时间表达文本的事件时间表达文本,示例性地,按照患者A经历的时间前后顺序展开,可以从医疗文本中确定患者A的医疗文本中包括5个时间表达文本:1.入院前2天抗原阳性,伴有发烧症状;2.入院前1天检测阳性; 3.2021.4.20入院;4.入院后第1天服用XX药;5.入院后第3天采用XX疗法。
进一步地,针对时间表达文本2,诊疗事件表达式为“检测阳性”,时间关键词为“入院前1天”。将时间表达文本2与时间表达文本3关联存储在预设的标准文本数据库中,以将时间表达文本2转化,即“2021.4.19 检测阳性”。
进一步地,针对“入院前1天检测阳性”,计算诊疗事件的表达式“检测阳性”与各标准表达式的相似度,确定“病毒检测阳性”的标准表达式的相似度最高,因此,可以确定“病毒检测阳性”与“检测阳性”为同一诊疗事件,结合之前对时间表达文本的转换,可以确定第一直接时间表达文本为“2021.4.19病毒检测阳性”。
本实施例中,列举患者A为例子,该患者A的医疗文本的时间文本在时间轴上被进行上述规范化的处理,本案也可对同一患者的多个医疗文本涉及的多个时间进行规范处理,也可以,多个患者的多个医疗文本涉及的多个时间进行规范处理,视具体应用需求,本案对规范化的具体应用目的、场景不予以限制,例如医疗科研中临床数据或患者数据比对、医院运营管理、科研项目管理等。
实施例三
基于同一发明构思,请参照图3所示,本申请实施例提供一种医疗文本时间数据规范化处理装置,包括:
提取模块31,用于从待处理的目标患者的医疗文本中提取出时间表达文本;所述时间表达文本中包括事件时间表达文本;所述事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词。
转换模块32,用于将所述事件时间表达文本转换为对应的第一直接时间表达文本;所述第一直接时间表达文本为直接表达时间的文本。
示例性的,转换模块32用于确定诊疗事件的发生时间;根据发生时间将事件时间表达文本转换为对应的第一直接时间表达文本。
示例性的,转换模块32用于计算诊疗事件的表达式与各标准表达式之间的相似度值;标准表达式为预先针对目标患者的实际诊疗事件记录的表达式;将与诊疗事件的表达式相似度值最高的标准表达式对应的实际诊疗事件的实际发生时间,作为事件时间表达文本中的诊疗事件的发生时间;实际发生时间为预先针对所述目标患者的实际诊疗事件的实际发生时间记录的时间。
示例性的,目标患者的信息、标准表达式及实际发生时间,关联存储在预设的标准文本数据库中。
示例性的,时间表达文本中还包括第一直接时间表达文本,第一直接时间表达文本包括用于表征时长的时长时间表达式;转换模块32还用于将时长时间表达式转化为以预设标量为单位的标准时长时间表达式。
示例性的,时间关键词位于诊疗事件的表达式之后,时间关键词包括以下信息中的至少一种:前、后、第;转换模块32用于根据时间关键词和发生时间确定与事件时间表达文本对应的绝对时间文本;将绝对时间文本作为事件时间表达文本转换后的第一直接时间表达文本。
示例性的,时间关键词位于所述表达式之后,时间关键词包括以下信息中的至少一种:前、后;转换模块32用于根据预设的时间关键词与符号的对应关系,确定与时间关键词对应的符号;根据发生时间和符号生成与事件时间表达文本对应的第一直接时间表达文本。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例三
基于同一发明构思,请参照图4所示,本申请实施例提供一种电子设备,请参见图4所示,包括处理器401和存储器402,所述存储器402中存储有计算机程序,所述处理器401执行所述计算机程序,以实现上述实施例一中方法的步骤,在此不再赘述。
可以理解,图4所示的结构仅为示意,设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(CPU)、网络处理器(NP) 等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。
存储器402可以包括但不限于随机存取存储器(RAM),只读存储器 (ROM),可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储器(EEPROM)等。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、安全数码(SD)卡、多媒体(MMC)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种医疗文本时间数据规范化处理方法,其特征在于,包括:
从待处理的目标患者的医疗文本中提取出时间表达文本;所述时间表达文本中包括事件时间表达文本;所述事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词;
确定所述诊疗事件的发生时间;
根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,所述第一直接时间表达文本为所述医疗文本中直接表示时间的文本。
2.如权利要求1所述的医疗文本时间数据规范化处理方法,其特征在于,所述确定所述诊疗事件的发生时间,包括:
获取所述医疗文本的类型;
根据所述医疗文本的类型,确定所述医疗文本的时间记录位置;
根据所述时间记录位置,确定所述诊疗事件的发生时间。
3.如权利要求1所述的医疗文本时间数据规范化处理方法,其特征在于,所述确定所述诊疗事件的发生时间,包括:
计算所述诊疗事件的表达式与各标准表达式之间的相似度值;所述标准表达式为预先针对所述目标患者的实际诊疗事件记录的表达式;
将与所述诊疗事件的表达式相似度值最高的所述标准表达式对应的实际诊疗事件的实际发生时间,作为所述事件时间表达文本中的诊疗事件的发生时间;所述实际发生时间为预先针对所述目标患者的实际诊疗事件的实际发生时间记录的时间。
4.如权利要求3所述的医疗文本时间数据规范化处理方法,其特征在于,所述目标患者的信息、相似度最高的所述标准表达式及所述实际发生时间,关联存储在预设的标准文本数据库中。
5.如权利要求1所述的医疗文本时间数据规范化处理方法,其特征在于,所述时间表达文本分为时间点表达文本和时长时间表达文本,在将所述事件时间表达文本转换为对应的第一直接时间表达文本之前,所述方法还包括:
在确定所述时间表达文本为时长时间表达文本时,将所述时间表达文本的时长时间表达式转换为以预设标量为单位的标准时长时间表达式。
6.如权利要求1所述的医疗文本时间数据规范化处理方法,其特征在于,所述从待处理的目标患者的医疗文本中提取出时间表达文本,还包括:
判断所述医疗文本中是否包含预设时间表达文本,所述预设时间表达文本表征与预设时间相对应的文本,
若所述医疗文本包含预设时间表达文本,则提取所述预设时间表达文本的预设时间文本,并将预设时间文本作为所述时间关键词。
7.如权利要求2-6任一项所述的医疗文本时间数据规范化处理方法,其特征在于,所述时间关键词位于所述诊疗事件的表达式之后,所述时间关键词包括以下信息中的至少一种:前、后、第;
所述根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,包括:
根据所述时间关键词和所述发生时间确定与所述事件时间表达文本对应的绝对时间文本;
将所述绝对时间文本作为所述事件时间表达文本转换后的第一直接时间表达文本。
8.如权利要求2-6任一项所述的医疗文本时间数据规范化处理方法,其特征在于,所述时间关键词位于所述诊疗事件的表达式之后,所述时间关键词包括以下信息中的至少一种:前、后;
所述根据所述发生时间将所述事件时间表达文本转换为对应的第一直接时间表达文本,包括:
根据预设的时间关键词与符号的对应关系,确定与所述时间关键词对应的符号;
根据所述发生时间和所述符号生成与所述事件时间表达文本对应的第一直接时间表达文本。
9.如权利要求1所述的医疗文本时间数据规范化处理方法,其特征在于,
医疗文本中包括多个文本,通过提取医疗文本的时间表达文本,确定时间表达文本的事件时间表达文本,其中,按照患者经历的时间前后顺序从医疗文本中确定患者的医疗文本中包括多个时间表达文本。
10.一种医疗文本时间数据规范化处理装置,其特征在于,包括:
提取模块,用于从待处理的目标患者的医疗文本中提取出时间表达文本;所述时间表达文本中包括事件时间表达文本;所述事件时间表达文本中包括诊疗事件的表达式和用于表征时间节点的时间关键词;
转换模块,用于将所述事件时间表达文本转换为对应的第一直接时间表达文本;所述第一直接时间表达文本为直接表达时间的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211153591.7A CN115618817B (zh) | 2022-09-21 | 2022-09-21 | 医疗文本时间数据规范化处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211153591.7A CN115618817B (zh) | 2022-09-21 | 2022-09-21 | 医疗文本时间数据规范化处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618817A true CN115618817A (zh) | 2023-01-17 |
CN115618817B CN115618817B (zh) | 2024-03-08 |
Family
ID=84858841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211153591.7A Active CN115618817B (zh) | 2022-09-21 | 2022-09-21 | 医疗文本时间数据规范化处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618817B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170235784A1 (en) * | 2016-02-17 | 2017-08-17 | Korea Institute Of Science And Technology Information | System and method for improving performance of unstructured text extraction |
CN110852105A (zh) * | 2019-11-06 | 2020-02-28 | 天津开心生活科技有限公司 | 时间数据的归一化方法、装置、介质及电子设备 |
CN111429989A (zh) * | 2020-04-21 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 一种生成诊前病历的方法及装置 |
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
-
2022
- 2022-09-21 CN CN202211153591.7A patent/CN115618817B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170235784A1 (en) * | 2016-02-17 | 2017-08-17 | Korea Institute Of Science And Technology Information | System and method for improving performance of unstructured text extraction |
CN110852105A (zh) * | 2019-11-06 | 2020-02-28 | 天津开心生活科技有限公司 | 时间数据的归一化方法、装置、介质及电子设备 |
CN111429989A (zh) * | 2020-04-21 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 一种生成诊前病历的方法及装置 |
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115618817B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111863267B (zh) | 数据信息获取方法、数据分析方法、装置以及存储介质 | |
WO2021184729A1 (zh) | 一种药品分类方法、装置、存储介质和智能设备 | |
US20090259487A1 (en) | Patient Data Mining | |
CN111785383B (zh) | 数据处理方法及相关设备 | |
WO2021151302A1 (zh) | 基于机器学习的药品质控分析方法、装置、设备及介质 | |
CN110689939A (zh) | 一种用药序列的推荐方法、装置、可读介质及电子设备 | |
CN113488180B (zh) | 一种临床指南知识建模方法及系统 | |
CN115346634A (zh) | 一种体检报告解读预测方法、系统、电子设备和存储介质 | |
CN111383726B (zh) | 电子病历数据处理方法、装置、电子设备及可读介质 | |
CN114048343A (zh) | 一种涵盖患者全病程医学影像信息的分类平台 | |
CN113436725A (zh) | 数据处理方法、系统、计算机设备及计算机可读存储介质 | |
CN113094477A (zh) | 数据结构化方法、装置、计算机设备及存储介质 | |
CN110245242B (zh) | 医学知识图谱构建方法、装置以及终端 | |
CN116304186A (zh) | 一种医疗文档后结构化处理方法及系统 | |
CN109545319B (zh) | 基于知识关系分析的处方告警方法及终端设备 | |
CN111724873B (zh) | 一种数据处理方法及装置 | |
CN110335654A (zh) | 一种电子病历的信息抽取方法、系统及计算机设备 | |
CN115618817B (zh) | 医疗文本时间数据规范化处理方法及装置 | |
CN113033177A (zh) | 一种电子病历数据的解析方法及装置 | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history | |
CN111383725A (zh) | 不良反应数据鉴别方法、装置、电子设备及可读介质 | |
Wang et al. | Opioid2FHIR: A system for extracting FHIR-compatible opioid prescriptions from clinical text | |
CN114242262A (zh) | 一种基于大数据记录的医疗科研信息快速处理系统 | |
CN115662607B (zh) | 一种基于大数据分析的互联网线上问诊推荐方法及服务器 | |
CN113658009A (zh) | 理赔信息处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |