CN116578711B - 腹痛特征提取方法、装置、电子设备及存储介质 - Google Patents
腹痛特征提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116578711B CN116578711B CN202310822531.8A CN202310822531A CN116578711B CN 116578711 B CN116578711 B CN 116578711B CN 202310822531 A CN202310822531 A CN 202310822531A CN 116578711 B CN116578711 B CN 116578711B
- Authority
- CN
- China
- Prior art keywords
- abdominal pain
- feature
- target
- candidate
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000004998 Abdominal Pain Diseases 0.000 title claims abstract description 790
- 238000000605 extraction Methods 0.000 title claims abstract description 150
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 35
- 230000014509 gene expression Effects 0.000 claims description 97
- 238000012790 confirmation Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000003187 abdominal effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims 1
- 230000036760 body temperature Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 238000003745 diagnosis Methods 0.000 description 17
- 201000010099 disease Diseases 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 206010000087 Abdominal pain upper Diseases 0.000 description 11
- 208000028659 discharge Diseases 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000001154 acute effect Effects 0.000 description 8
- 206010000084 Abdominal pain lower Diseases 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 208000002193 Pain Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 206010008479 Chest Pain Diseases 0.000 description 3
- 206010047700 Vomiting Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 208000000197 Acute Cholecystitis Diseases 0.000 description 2
- 206010003011 Appendicitis Diseases 0.000 description 2
- 208000008035 Back Pain Diseases 0.000 description 2
- 206010008614 Cholecystitis acute Diseases 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 2
- 208000034507 Haematemesis Diseases 0.000 description 2
- 206010028391 Musculoskeletal Pain Diseases 0.000 description 2
- 206010028813 Nausea Diseases 0.000 description 2
- 206010033645 Pancreatitis Diseases 0.000 description 2
- 206010033647 Pancreatitis acute Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 208000007613 Shoulder Pain Diseases 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 201000010312 acute cholangitis Diseases 0.000 description 2
- 201000003229 acute pancreatitis Diseases 0.000 description 2
- 201000001352 cholecystitis Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000013872 defecation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 201000003511 ectopic pregnancy Diseases 0.000 description 2
- 208000003243 intestinal obstruction Diseases 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008693 nausea Effects 0.000 description 2
- 208000025661 ovarian cyst Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008673 vomiting Effects 0.000 description 2
- 206010016100 Faeces discoloured Diseases 0.000 description 1
- 208000001953 Hypotension Diseases 0.000 description 1
- 206010033557 Palpitations Diseases 0.000 description 1
- 208000009911 Urinary Calculi Diseases 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 210000000436 anus Anatomy 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036543 hypotension Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001635 urinary tract Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种腹痛特征提取方法、装置、电子设备及存储介质,该方法先获取目标对象的原始腹痛病历并处理为结构化腹痛病历,然后获取腹痛疾病的参考腹痛特征,根据各类参考腹痛特征的属性将特征分为四类;第一类特征直接从结构化腹痛病历中进行检索和简单判断得到;第二类特征通过关键词匹配和否定关系抽取方式得到;第三类特征通过关键词匹配和值抽取得到;第四类特征通过训练后的特征标记模型对特征名+特征类型名组+特征描述文本的组合数据进行语义理解和特征类型名标记得到;最后综合这四类特征得到目标对象的腹痛特征。本申请中腹痛特征的提取难度得到有效降低,提取准确率得到显著提升。
Description
技术领域
本申请涉及医疗辅助技术领域,尤其涉及一种腹痛特征提取方法、装置、电子设备及存储介质。
背景技术
急性腹痛是一种常见的临床疾病,全球每年有超过3000万患者因为急性腹痛而就诊。然而急性腹痛病症复杂,可能引起急性腹痛的病因有95种之多,其中高致死率病因达12种,而急性腹痛患者的表现也错综复杂,诊断不准确或者不及时不仅会浪费医疗资源而且更有可能导致患者病情延误,这些问题给医务人员带来了繁重的工作和高水平的要求。然而,由于我国目前有经验的医务人员普遍缺乏,而且医生的培养需要漫长的周期,如何能够高质量、快速的对急性腹痛进行诊断成了一个迫切的需求。
医院病历数据包含了患者的现病史、既往史、家族史、体格检查,以及患者从入院、治疗直至出院期间的病程数据,这些数据有着丰富的疾病、检查、诊断、治疗等医学相关信息,这些信息对于急性腹痛的诊治起着关键的作用。然而,一方面由于病历数据往往并非是完全的键值对这种结构化形式,很多信息包含在自由书写的病历文本中,如现病史、病史小结,使得直接提取这些特征变得非常困难,有些特征需要通过语义理解的方式提取,如“无法排气排便”、“食欲差”等,当前常用的语义理解方式为直接对病历文本进行理解,但该方式的准确性较低,提取效果不佳;另一方面,不同医院的病历格式各异,使得从病历中获取信息的难度也较大。
因此,当前在从病历中提取腹痛特征过程中存在提取困难且提取准确性不高的技术问题,需要改进。
发明内容
本申请实施例提供一种腹痛特征提取方法、装置、电子设备及存储介质,用以缓解当前在从病历中提取腹痛特征过程中提取困难且提取准确性不高的技术问题。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请提供一种腹痛特征提取方法,包括:
获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
同时,本申请实施例还提供了一种腹痛特征提取装置,包括:
第一获取模块,用于获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
第二获取模块,用于获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
第一得到模块,用于基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
第二得到模块,用于基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
第三得到模块,用于基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
第四得到模块,用于基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
第五得到模块,用于根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
本申请还提供一种电子设备,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行上述任一项所述的腹痛特征提取方法中的步骤。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述腹痛特征提取方法中的步骤。
有益效果:本申请提供一种腹痛特征提取方法、装置、电子设备及存储介质,该方法先将目标对象的原始腹痛病历进行结构化处理,使其成为具有统一标准的结构化腹痛病历,以降低特征提取难度,然后得到腹痛疾病的参考腹痛特征,根据各类参考腹痛特征的属性将其分为四类,并分别采用不同的方式进行提取;对第一类参考腹痛特征,可直接从结构化腹痛病历中进行检索和简单判断得到第一类目标腹痛特征,该方式较为简单快捷;对第二类参考腹痛特征,可通过正则表达式从结构化腹痛病历中得到第二类目标腹痛特征关键词,进而抽取得到由第二类目标腹痛特征关键词、对应目标否定描述词以及对应目标中间文本组成的第一候选组合数据,同时采用两种不同方式分别对第一候选组合数据进行处理,从两种不同角度对第二类目标腹痛特征关键词的否定关系进行抽取,最后综合两方面的否定关系抽取结果得到第二类目标腹痛特征,该方式对与否定关系相关的特征具有较高的提取准确率;对第三类参考腹痛特征,可通过正则表达式从结构化腹痛病历中得到第三类目标腹痛特征关键词和特征值,进而得到第三类目标腹痛特征,该方式对以键值对存在的特征具有较高的提取准确率;对第四类参考腹痛特征,可先从结构化腹痛病历中获取候选腹痛特征描述文本,然后以候选特征名+候选特征类型名组(包含阴性、阳性和未提及三个候选特征类型名)+候选腹痛特征描述文本的形式得到第二候选组合数据,并调用训练后的特征标记模型对第二候选组合数据进行处理,得到候选特征类型名组中目标特征类型名的标记结果,根据标记结果得到第四类目标腹痛特征,该方式对于需要语义理解才能提取的特征,不是仅对特征描述文本进行语义理解和分类,而是对组合数据的整体进行语义理解,并对与理解结果一致的目标特征类型名进行标记,再根据标记结果来确定第四类目标腹痛特征,通过将特征分类问题转化为对特征类型名的识别标记问题,使得语义理解的准确率得到提升,该方式对需要语义理解才能得到的特征具有较高的提取准确率;最后组合四类目标腹痛特征,得到目标对象的腹痛特征。综合以上方式,使得腹痛特征的提取难度得到有效降低,提取准确率得到显著提升。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1是本申请实施例提供的腹痛特征提取方法的第一种流程示意图。
图2为本申请实施例提供的腹痛特征提取方法的第二种流程示意图。
图3为本申请实施例中第一种结构化处理方式的流程示意图。
图4为本申请实施例中第一参考结构关键词以及各第一参考结构关键词之间参考层级结构关系的示意图。
图5为本申请实施例中层级结构栈的示意图。
图6为本申请实施例中结构化腹痛病历的示意图。
图7为本申请实施例中第二种结构化处理方式的流程示意图。
图8为本申请实施例中预设病历模板的示意图。
图9为本申请实施例中原始腹痛病历的示意图。
图10为本申请实施例中全局最优算法的示意图。
图11为本申请实施例中腹痛疾病及各种参考腹痛特征的示意图。
图12为本申请实施例中参考腹痛特征关键词的描述方式示意图。
图13为本申请实施例中参考腹痛特征值的匹配规则示意图。
图14为本申请实施例中否定关系抽取模型的结构示意图。
图15为本申请实施例中特征标记模型的结构示意图。
图16为本申请实施例提供的腹痛特征提取装置的结构示意图。
图17为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种腹痛特征提取方法、装置、电子设备和计算机可读存储介质,其中,该腹痛特征提取装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
请参阅图1,图1为本申请实施例提供的腹痛特征提取方法的第一种流程示意图,该示意图用于对流程进行整体说明。
具体地,先从医院获取原始病历数据,从中筛选出包含腹痛的原始腹痛病历,并对其进行结构化处理,得到结构化腹痛病历,以降低特征提取难度。然后从结构化腹痛病历的出院诊断数据中提取各类疾病的诊断次数,整理出现次数>50次的疾病作为腹痛疾病,并从疾病诊断指南中获取这些腹痛疾病的参考腹痛特征,根据各类参考腹痛特征的属性将想要提取的特征分为四类,并分别采用不同的方式进行提取。对第一类特征,直接从结构化腹痛病历中进行检索和简单判断得到;对第二类特征,通过关键词匹配和否定关系抽取得到,且否定关系抽取时采用两种不同方式分别抽取再综合;对第三类特征,通过对关键词匹配和值抽取得到;对第四类特征,通过训练后的特征标记模型对特征名+特征类型名组+特征描述文本的组合数据进行语义理解和特征类型名标记得到。最后综合这四类特征,得到目标对象的腹痛特征,为后续诊疗过程提供有效和全面的参考。
请参阅图2,图2是本申请实施例提供的腹痛特征提取方法的第二种流程示意图,该示意图用于对流程进一步具体说明,该方法包括:
S1:获取目标对象的原始腹痛病历,对原始腹痛病历进行结构化处理,得到目标对象的结构化腹痛病历。
目标对象是指需要对病历中的腹痛特征进行提取的患者群体,原始腹痛病历是指目标对象在就诊过程中由医院开出的所有原始病历中筛选得到的与腹痛相关的原始病历。原始腹痛病历由于直接由医院开出,受就诊医院、就诊科室、医师书写习惯等多种因素的影响,表现形式较为杂乱,难以从中提取特征。在本申请实施例中,先对原始腹痛病历进行结构化处理,使其成为具有统一标准的结构化腹痛病历,后续再基于该病历进行特征的提取,可以大大降低特征提取的难度,并有利于提升特征提取的准确性。对原始腹痛病历进行结构化处理的方式有两种,在以下实施例中分别对这两种方式进行详细说明。
在一种实施例中,结合图3中所示,通过第一种方式进行结构化处理时,S1具体包括:
S111:从参考病历集中获取多个第一参考结构关键词、以及各第一参考结构关键词之间的参考层级结构关系。
参考病历集是指存储在医院病历系统中的各种历史病历,通过人工整理从参考病历集中得到第一参考结构关键词,并记录各第一参考结构关键词之间的参考层级结构关系。第一参考结构关键词是指从不同层级和维度对特征进行描述时反映该维度的关键词,参考层级结构关系包括各第一参考结构关键词属于哪个层级、各第一参考结构关键词之间的层级高低关系和从属关系等,例如,如图4所示,生命体征、体温、脉搏、头部、眼、耳等所有词语均为第一参考结构关键词,且同一个第一参考结构关键词也可以有多种文本,如“生命体征”和“生命体格特征”均视为同一个第一参考结构关键词,以增大后续匹配的覆盖面,生命体征和体温之间的参考层级结构关系为生命体征属于第w层级,体温属于第w+1层级,生命体征的层级高于体温的层级,且体温从属于生命体征,体温、脉搏、呼吸、血压之间的参考层级结构关系均为同一层级。
S112:获取目标对象的原始腹痛病历,根据第一参考结构关键词,从原始腹痛病历中得到多个第一候选结构关键词,根据参考层级结构关系,确定各第一候选结构关键词之间的节点关系。
根据第一参考结构关键词,使用简单文本匹配方式,从原始腹痛病历中查找得到与第一参考结构关键词匹配的多个第一候选结构关键词,如第一参考结构关键词为“生命体征”或“生命体格特征”,则从原始腹痛病历中查找文本同样为“生命体征”或“生命体格特征”的词语作为第一候选结构关键词。在得到各第一候选结构关键词后,可根据参考层级结构关系,确定任意两个第一候选结构关键词之间的节点关系,节点关系可包括父子关系和兄弟关系,父子关系表示两个第一候选结构关键词中其中一个层级比另一个层级高一级,且层级较低者直接从属于该层级较高者,如“生命体征”和“体温”之间的节点关系即为父子关系,“生命体征”为“体温”的直接父亲关键词,“体温”为生命体征”的直接儿子关键词,兄弟关系表示两个第一候选结构关键词处于同一层级,且均从属于同一个高一层级的第一候选结构关键词,如“体温”和“脉搏”之间的节点关系即为兄弟关系,两者互为兄弟关键词,两者具有完全相同的父亲关键词“生命体征”。
S113:遍历所有第一候选结构关键词,根据第i个第一候选结构关键词后的候选符号与第一符号集和第二符号集的匹配结果、第i个第一候选结构关键词的相邻第一候选结构关键词的确认状态、以及相邻第一候选结构关键词与第i个第一候选结构关键词之间的节点关系,确定第i个第一候选结构关键词的确认状态,i为正整数。
在得到所有的第一候选结构关键词后,还需要进一步对其进行确认。具体地,获取第一符号集和第二符号集,第一符号集中包括中文冒号、英文冒号、换行符和制表符,第二符号集中包括中文句号、中文分号和英文分号,对每个第一候选结构关键词,将该关键词之后的第一个字符作为候选符号,将候选符号与第一符号集和第二符号集进行匹配,如果候选符号为第一符号集中的任意一个符号,则该第一候选结构关键词的确认状态由候选转为已确认,如果候选符号为第二符号集中的任意一个符号,则该第一候选结构关键词的确认状态由候选转为淘汰。此外,对于第i个第一候选结构关键词,如果与其相邻的第i-1个第一候选结构关键词的确认状态为已确认,并且第i-1个第一候选结构关键词为第i个第一候选结构关键词的直接父亲关键词或者兄弟关键词,则第i个第一候选结构关键词由候选转为确认;如果与第i个第一候选结构关键词相邻的第i+1个第一候选结构关键词的确认状态为已确认,并且第i+1个第一候选结构关键词是第i个第一候选结构关键词的直接儿子关键词或者兄弟关键词,则第i个第一候选结构关键词由候选转为确认。
对每个第一候选结构关键词均执行一次上述匹配和判断操作,得到每个第一候选结构关键词的确认状态。
S114:根据各第一候选结构关键词的确认状态,得到多个第一目标结构关键词,并从原始腹痛病历中获取各第一目标结构关键词的值。
在得到每个第一候选结构关键词的确认状态后,将确认状态为淘汰的第一候选结构关键词移除,同时将确认状态为已确认的第一候选结构关键词保留作为第一目标结构关键词。通过上述方式,对第一候选结构关键词进行了筛选,从中去除了一部分干扰数据,以提高后续特征提取的准确率。在本申请实施例中,定义第i个第一目标结构关键词结束到第i+1个第一目标结构关键词之间的病历文本作为第i个第一目标结构关键词的值,通过对原始腹痛病历进行文本切分可得到各第一目标结构关键词的值。
S115:根据各第一目标结构关键词之间的节点关系,确定各第一目标结构关键词之间的目标层级结构关系,根据各第一目标结构关键词和值、以及目标层级结构关系,得到目标对象的结构化腹痛病历。
每一第一目标结构关键词和值形成一个键值对,从前到后遍历原始腹痛病历中的所有键值对,结合各第一目标结构关键词之间的节点关系,得到各第一目标结构关键词之间的目标层级结构关系。如图5所示,先定义一个栈结构Stack用来存放该目标层级结构关系,该层级结构栈初始化时存放病历类型,如“入院记录”,或者默认“root”表示通用结构。同时,定义一个树状结构Tree用于存放层级结构数据,也即上述各键值对,该方法在python中使用字典实现。对各第一目标结构关键词,根据不同条件确认其目标层级结构关系,具体地:对第i个第一目标结构关键词,如果其直接父亲关键词Parent在层级结构栈中,则层级结构栈做弹出操作,直至Parent为栈尾元素,然后使用第i个第一目标结构关键词和值形成的键值对构建节点,在树中添加为Parent节点的子节点,并将第i个第一目标结构关键词加入层级结构栈中;如果第i个第一目标结构关键词和第i+1个第一目标结构关键词的共同父亲关键词Parent的父亲关键词PParent在层级结构栈中,则层级结构栈做弹出操作,直至PParent为栈尾元素,然后使用Parent构建节点(值为空),在树中添加为PParent节点的子节点,并将Parent加入层级结构栈中,再使用第i个第一目标结构关键词和值形成的键值对构建节点,在树中添加为Parent节点的子节点,并将第i个第一目标结构关键词加入层级结构栈中。
例如,如图5中所示,假设第i个第一目标结构关键词为“体温”,值为36.5℃,该键值对为“体温36.5℃”,其直接父亲关键词Parent“生命体征”在层级结构栈中,则树中也会存在Parent“生命体征”和其值组成的键值对的节点A。将“生命体征”上的各关键词如“血压”出栈,直至“生命体征”为栈尾元素,然后用“体温36.5℃”构建节点B,在树中将该节点B添加为“生命体征”对应节点A的子节点,并将“体温”进行入栈,使得“体温”成为层级结构栈中的栈尾元素。通过该操作,在树中得到了节点B的数据(键值对)以及节点A和节点B的层级结构关系。
再例如,如果第i个第一目标结构关键词为“体温”,值为36.5℃,该键值对为“体温36.5℃”,第i+1个第一目标结构关键词为“脉搏”,“体温”和“脉搏”的共同父亲关键词Parent为“生命体征”,生命体征的父亲关键词PParent为“体格检查”,如果“体格检查”当前在层级结构栈中,则树中当前也会存在“体格检查”和其值组成的键值对的节点C。层级结构栈将“体格检查”上的各关键词(生命体征和血压)弹出,直至“体格检查”为栈尾元素,然后使用Parent“生命体征”构建节点D(值为空),在树中将节点D添加为“体格检查”对应节点C的子节点,并将“生命体征”加入层级结构栈中,再使用“体温36.5℃”构建节点E,在树中将节点E添加为“生命体征”对应节点D的子节点,并将“体温”加入层级结构栈中。通过该操作,在树中得到了节点D(关键词)和节点E的数据(键值对)、以及节点C、节点D和节点E的层级结构关系。
对不同第一目标结构关键词,根据不同条件选择上述两种方式中的其中一种来执行相应操作,依次对所有第一目标结构关键词执行操作后,最终得到的树中每个节点的数据为某个第一目标结构关键词,或者某个第一目标结构关键词和值形成的键值对,各节点之间的连接关系为各第一目标结构关键词之间的目标层级结构关系,则该树即为目标对象的结构化腹痛病历,其可视化效果如图6中所示。
通过上述方式,可以迅速将杂乱无章的原始腹痛病历转换成具有标准结构和格式的结构化腹痛病历,实现不同格式、任意层次以及复杂度的病历文本结构化,最终得到的结构化腹痛病历的质量也较高,使得后续特征提取的准确性得到提升,提取难度得到降低。
在一种实施例中,结合图7中所示,通过第二种方式进行结构化处理时,S1具体包括:
S121:获取预设病历模板,预设病历模板包括M个第二参考结构关键词和各第二参考结构关键词的值属性信息,根据各第二参考结构关键词的文本内容和文本长度,得到各第二参考结构关键词的参考正则表达式,M为正整数。
预设病历模板为人工构建,预设病历模板从前到后由M组键值对组成,每组键值对包括一个第二参考结构关键词和对应的值属性信息,第二参考结构关键词是指从不同层级和维度对特征进行描述时反映该维度的关键词,值属性信息用于通过值的属性对值抽取方式进行限定,具体可以包括预设格式、自定义格式或预设病历子模板,其中预设格式是指日期、数字、性别、年龄、普通文本等常出现的格式,自定义格式是指与常用格式不同,但也能通过自定义正则匹配公式实现特定文本内容抽取的格式,预设病历子模板是指与预设病历模板的结构类似的嵌套子模板,从前到后也由多组键值对组成,每组键值对包含一个参考子结构关键词和对应的值属性信息,预设病历子模板可以表征当前第二参考结构关键词包含多个参考子结构关键词。如图8所示,为预设病历模板的示意图,其中“体格检查”、“生命体征”、“体温”、“发育”等词语为第二参考结构关键词,“36.6℃”为“体温”的值,“正常”为“发育”的值。
对每个第二参考结构关键词,根据其文本内容和文本长度定义参考正则表达式,用于后续匹配,参考正则表达式如下:
(公式1)
其中,为第j个第二参考结构关键词的文本内容,/>为第j个第二参考结构关键词的文本长度,公式1用于表示在原始腹痛病历中匹配包含第j个第二参考结构关键词中一半连续字符及以上的所有内容。M个第二参考结构关键词可以得到M个参考正则表达式。
S122:获取目标对象的原始腹痛病历,遍历所有第二参考结构关键词,基于第j个第二参考结构关键词的第j参考正则表达式对原始腹痛病历进行匹配,得到第j组第二候选结构关键词,第j组第二候选结构关键词包括至少一个第二候选结构关键词,j为正整数。
如图9所示,为目标对象的原始腹痛病历,对第j个第二参考结构关键词,通过其对应的第j参考正则表达式在原始腹痛病历中进行全文匹配,可以找到n段文本,n为正整数,这些文本形成了第j组第二候选结构关键词,其中的每段文本均为一个第二候选结构关键词。遍历所有的第二参考结构关键词,共得到M组第二候选结构关键词,每组均包括n个第二候选结构关键词,但不同组的n值不完全相同。
S123:遍历所有第二候选结构关键词,根据第j组第二候选结构关键词中各第二候选结构关键词的文本长度和第j个第二参考结构关键词的文本长度,得到第j组第二候选结构关键词中各第二候选结构关键词的局部匹配分数。
对第j组第二候选结构关键词中的第i个第二候选结构关键词,设其文本长度为,第j个第二参考结构关键词的文本长度为/>,则第i个第二候选结构关键词的局部匹配分数/>满足下列公式:
(公式2)
遍历所有的第二候选结构关键词,执行上述计算过程,得到所有的局部匹配分数。在公式2中,局部匹配分数的取值范围为0.5到1,其值越大,表示第二候选结构关键词的与第二参考结构关键词的匹配度越高。
S124:从各组第二候选结构关键词中分别取一个第二候选结构关键词,将M个第二候选结构关键词的局部匹配分数相加得到全局匹配分数,基于全局最优算法得到最大全局匹配分数,并将最大全局匹配分数对应的取词方案中M个第二候选结构关键词确定为第二目标结构关键词。
上述步骤中得到的M组第二候选结构关键词中,每组第二候选结构关键词均包括至少一个第二候选结构关键词,则每组会有至少一个局部匹配分数,按照M组第二候选结构关键词从前到后的顺序,依次从每组第二候选结构关键词中任意选择一个第二候选结构关键词,共得到M个第二候选结构关键词,将这M个第二候选结构关键词的局部匹配分数相加,可以得到全局匹配分数/>,具体为:
(公式3)
由于每组第二候选结构关键词均有至少一个第二候选结构关键词,对应的局部匹配分数也均有至少一种选择,则对于不同的取词方案,最终计算得到的全局匹配分数/>的值是不同的。在本申请实施例中,利用全局最优算法从所有组合中确定出使得全局匹配分数/>最大的一种取词方案,该取词方案中的M个第二候选结构关键词为第二目标结构关键词。该方式能够在一定程度上有效地处理包含错别字的原始腹痛病历的结构化。
具体地,使用全局最优文本节点切分算法,将任务递归分解为在选定了j=0时的关键词时,求解j=1时第二组候选结构关键词中的最优匹配k,也即第二目标候选结构关键词,使得在j=1时的n个局部匹配分数中,第二目标结构关键词/>的局部匹配分数/>与其后的j=2..M个局部匹配分数之和的最大值/>相加后的值最大,该过程用公式表示为:
(公式4)
由于病历文本中各第二候选结构关键词具有固定的前后位置关系,在选择第j个第二目标结构关键词时,第j+1个第二目标结构关键词的位置需要满足以下公式:
(公式5)
递归计算过程如下:
首先定义j=0时起始关键词(该关键词仅用于提供起始节点所需的数据,而不是真实存在于上述M组第二候选结构关键词中),此时只有一个匹配,定义其局部匹配分数为0,匹配位置为-1,则最大全局匹配分数/>为:
(公式6)
展开j=1时第二目标结构关键词的局部匹配分数/>的计算,则最大全局匹配分数/>为:
(公式7)
其中,j=1时第二目标结构关键词的位置需满足:
(公式8)
对j=1时第二目标结构关键词的每个可能匹配递归计算上述步骤,最终求解,得到M个第二目标结构关键词。
具体地,如图10所示,设M值为5,用a表示j=0时的一个初始关键词,b1和b2表示j=1时的2个第二候选结构关键词,c1至c4表示j=2时的4个第二候选结构关键词,d1至d3表示j=3时的3个第二候选结构关键词,e1至e3表示j=4时的3个第二候选结构关键词,f1和f2表示j=5时的2个第二候选结构关键词。a到b1之间的数值0.66表示第二候选结构关键词b1的局部匹配分数,a到b2之间的数值0.75表示第二候选结构关键词b2的局部匹配分数,依次类推。在图11中,全局匹配分数的取词方案包括1x2x4x3x3x3共216种,通过上述全局最优算法,可以迅速确定出最大全局匹配分数对应的最优取词方案,从b1和b2中确定第1个第二目标结构关键词,从c1至c4中确定第2个第二目标结构关键词,从d1至d3中确定第3个第二目标结构关键词,从e1至e3中确定第4个第二目标结构关键词,从f1和f2中确定第5个第二目标结构关键词。
S125:基于各第二参考结构关键词的值属性信息,对各第二目标结构关键词的值进行抽取,根据抽取结果得到目标对象的结构化腹痛病历。
在得到M个第二目标结构关键词后,可以根据每个第二目标结构关键词的参考匹配对象,也即第二参考结构关键词的值属性信息,确定各第二目标结构关键词的值的抽取方式,并基于该抽取方式进行值得抽取,在抽取后每个第二目标结构关键词和值形成一个键值对,M组键值对形成了目标对象的结构化腹痛病历。
在一种实施例中,S125具体包括:遍历所有第二参考结构关键词,在第j个第二参考结构关键词的值属性信息包括预设格式或自定义格式时,基于预设格式或自定义格式正则表达式对第j个第二目标结构关键词的值进行抽取,得到第j个第二目标结构关键词的值;在第j个第二参考结构关键词的值属性信息包括预设病历子模板时,获取预设病历子模板,预设病历子模板包括N个参考子结构关键词和各参考子结构关键词的值属性信息,以原始腹痛病历的结构化处理方式为参考,基于预设病历子模板对第j个第二目标结构关键词的原始腹痛子病历进行结构化处理,得到第j个第二目标结构关键词的结构化腹痛子病历,N为正整数。
在上述实施例中提到,对于每个第二参考结构关键词,其值属性信息可以包括预设格式、自定义格式或者嵌套的预设病历子模板,对不同的值属性信息,采用不同的提取方式。具体地,当第j个第二参考结构关键词的值属性信息包括预设格式时,可以直接按照该预设格式进行抽取,如日期按照日期的格式抽取,年龄按照年龄的格式抽取。当第j个第二参考结构关键词的值属性信息包括自定义格式时,则通过对应的自定义格式正则表达式来进行抽取。
当第j个第二参考结构关键词的值属性信息包括嵌套的预设病历子模板时,将第j个第二目标结构关键词的值作为原始腹痛子病历,然后以上述S121至S124中的处理方式为参考,对预设病历子模板中的N个参考子结构关键词,先得到每个参考子结构关键词的子参考正则表达式,然后基于遍历每个子参考正则表达式对原始腹痛子病历进行全文匹配,并进行后续的局部匹配分数计算、最大全局匹配分数计算等,最终从原始腹痛子病历中确定出多个目标子结构关键词,然后再次基于各参考子结构关键词的值属性信息对各目标子结构关键词的值进行抽取,各目标子结构关键词和值形成键值对,多组键值对形成第j个第二目标结构关键词的结构化腹痛子病历。在对各目标子结构关键词的值进行抽取时,抽取方式也可以包括预设格式、自定义格式或者嵌套的预设病历子模板三种,具体抽取方式与上述实施例中类似,在此不再赘述,对存在嵌套子模板的情况,逐层进行抽取,直至最后一层。
上述实施例中采用正则匹配方式从原始腹痛病历中得到各候选结构关键词,除此之外,也可以采用命名实体识别等方式来得到。另外,上述实施例中采用值属性信息来实现值的抽取,除此之外,也可以采用训练后的模型如Bert等来进行抽取。
在本申请实施例中,通过设置预设病历模板,可以适用任何格式、层次以及复杂度的原始腹痛病历,兼容性较强。由于第二参考结构关键词的参考正则表达式用于匹配包含第二参考结构关键词中一半连续字符及以上的所有内容,而不是全部内容,则对于关键词的某个字符出现漏写、重写、误写等情况时,也可以匹配上,避免了信息遗漏。在此基础上,基于全局最优算法得到的结构化病历中,各第二目标结构关键词的顺序与预设病历模板中的顺序一致,且与预设病历模板中所有第二参考结构关键词的总匹配程度最高,因此实现了对原始腹痛病历的全局最优切分,得到的结构化病历的质量较高。
在一种实施例中,还可以将两种结构化方式进行结合,得到质量更高的结构化腹痛病历。具体地,取一部分原始腹痛病历(如所有原始腹痛病历的20%),先通过第一种结构化方式得到初始结构化腹痛病历。由于目标对象为一个群体,得到的初始结构化腹痛病历有多份,根据每份初始结构化腹痛病历的目标层级结构关系和各第一目标结构关键词,将所有初始结构化腹痛病历分为K类,每类包括Q份初始结构化腹痛病历(不同类的Q值不完全相等),且每类的数量总占比均不小于预设比例。具体地,如果两份初始结构化腹痛病历的目标层级结构关系和各第一目标结构关键词均完全相同,则分为一类,如果不完全相同,则分为两类,在分类后如果某一类的数量占比小于预设比例,则将其作为噪声,不计入K类中。在分类后,对每一类中所有初始结构化腹痛病历的第一目标结构关键词和值、以及目标层级结构关系进行整理,得到该类对应的预设病历模板,其中,根据各第一目标结构关键词可以确定预设病历模板中的第二参考结构关键词,根据目标层级结构关系和各第一目标结构关键词的值,可以确定各第二参考结构关键词的值属性信息。K类初始结构化腹痛病历可以得到K个预设病历模板。
在得到预设病历模板后,对每类预设病历模板,分析其对应的Q份原始腹痛病历的共同属性信息,然后基于该共同属性信息,对所有的原始腹痛病历进行分类,得到K+1类原始腹痛病历,其中前K类原始腹痛病历中的每一类原始腹痛病历均对应K类预设病历模板中的某一类,最后多出的一类原始腹痛病历则与上述分类过程中的噪声对应,单独作为一类。
由于每类预设病历模板对应的初始结构化腹痛病历的数量占比均不小于预设比例,也即这些预设病历模板与上述20%部分的原始腹痛病历的适配性最高,则基于此,这些预设病历模板在整个原始腹痛病历的适配性也是最高的,相对于人工自行创建的模板,本实施例中模板更加准确,匹配效果也更佳。对K类原始腹痛病历中的每一类,均基于该类预设病历模板采用上述第二种结构化方式进行处理,得到最终的结构化腹痛病历。对单独的这一类原始腹痛病历,则将其基于每类预设病历模板均进行一次结构化,得到K个最大全局匹配分数,最后将这K个最大全局匹配分数中最大值作为最终的最大全局匹配分数,并得到最终的结构化腹痛病历。
由于初始结构化腹痛病历中的各第一目标结构关键词主要通过第一参考结构关键词匹配而来,而原始腹痛病历中如果出现关键词错字、重复字、漏写字等情况,这些错误的关键词通过第一种结构化方式难以匹配到,会造成信息遗漏。因此,本实施例中先取一部分原始腹痛病历作为样本,根据第一种结构化方式得到K类最适合的预设病历模板,再分析每类预设病历模板对应的原始腹痛病历的共同属性信息,对全部的原始腹痛病历进行一次分类,则如果某类原始腹痛病历中有关键词出现错误,错误的关键词也很大概率是该类预设病历模板中的第二参考结构关键词的基础上错的,而第二种结构化处理方式中的关键词匹配方式和全局最优算法则很好地解决了错别字的问题,因此得到的最终结构化病历,可以最大程度保证准确性和完整性,质量较高。对于最后一类原始腹痛病历,由于其没有最适合的预设病历模板,则将其与所有的预设病历模板仅进行一次计算,从中得到最优解。
S2:获取腹痛疾病类型数据,根据腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征。
腹痛疾病类型数据用于表征与腹痛相关的疾病具体是什么类型,也即哪些疾病会导致腹痛,本实施例中将这些疾病称之为腹痛疾病,根据腹痛疾病类型数据可确定各类腹痛疾病,具体包括急性阑尾炎、急性胰腺炎、肠梗阻、异位妊娠、急性胆管炎、急性胆囊炎、上尿路结石、卵巢囊肿、消化道穿孔9种疾病,然后从权威渠道获取这些腹痛疾病的参考腹痛特征,如图11所示,急性阑尾炎中厌食、恶心呕吐、右下腹疼痛、转移性右下腹疼痛、反跳痛或肌紧张、体温>37.5℃等均为该类型腹痛疾病的参考腹痛特征。在得到上述9种腹痛疾病的176个参考腹痛特征后,根据这些参考腹痛特征的属性特点将所有参考腹痛特征分为四类,在后续对四类特征分别用不同的方式进行提取。
在一种实施例中,S2具体包括:
S21:从结构化腹痛病历中获取出院诊断数据,并统计出院诊断数据中各类疾病的诊断次数,根据诊断次数大于预设值的各类疾病,得到腹痛疾病类型数据。
从结构化腹痛病历中取出所有的出院诊断数据,统计出院诊断中各个疾病出现的次数,选择出现次数大于50次的疾病,最终得到急性阑尾炎、急性胰腺炎、肠梗阻、异位妊娠、急性胆管炎、急性胆囊炎、上尿路结石、卵巢囊肿、消化道穿孔9种疾病,则根据9种疾病的类型得到腹痛疾病类型数据。
S22:根据腹痛疾病类型数据,从参考诊断指南中获取各类腹痛疾病的参考腹痛特征。
在权威的医学资料查找这9种疾病的参考诊断指南,从中整理出176个相关症状,得到176个参考腹痛特征。
S3:基于第一类参考腹痛特征对结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征。
第一类参考腹痛特征是指表达方式固定且比较明显的一类特征,如脉搏显著加快、低血压等,这类特征可以直接在结构化腹痛病历进行检索,再通过简单的规则判断即可得到。例如,对于第一类参考腹痛特征“脉搏显著加快”,可以先检索结构化腹痛病历中的入院记录->体格检查->生命体征->脉搏,然后再通过判断具体脉搏值是否在合理范围内,即可实现“脉搏显著加快”特征的抽取。该方式较为简单快捷,不需要花费大量的精力去做较为复杂的匹配,但也能保证较高的准确性和较全的覆盖面。
S4:基于第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于第一正则表达式对结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从结构化腹痛病历中提取第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及第二类目标腹痛特征关键词和目标否定描述词之间的目标中间文本,组合每一第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一第一候选组合数据进行处理,得到各第二类目标腹痛特征关键词的第二否定关系抽取结果;根据第一否定关系抽取结果和第二否定关系抽取结果,得到第二类目标腹痛特征。
第二类参考腹痛特征是指由关键词和否定关系来共同确定含义,或者否定关系会影响整体含义的特征,如“恶心”、“呕吐”等,如果前面具有否定词“不”,则与原本想要表达的含义会完全相反,因此在提取“恶心”、“呕吐”该类特征时,除了关键词本身,还需要对关键词的否定关系也进行确认。
对这类特征的提取进行提取时,预先整理出这些特征的描述方式(如图12所示),得到第二类目标腹痛特征关键词的第一正则表达式,然后先将结构化腹痛病历中可能出现的自由文本拼接为整段自由文本,然后用第二类参考腹痛特征关键词的第一正则表达式来进行匹配。第二类参考腹痛特征中每个参考腹痛特征均包括一个或多个第二类参考腹痛特征关键词,因此对于某一个参考腹痛特征,如果整段自由文本中没有任何文本可以成功匹配该参考腹痛特征下的任意一个第二类参考腹痛特征关键词,则定义该腹痛特征为未提及;如果整段自由文本中有一个或多个第二类目标腹痛特征关键词与该参考腹痛特征下的第二类参考腹痛特征关键词成功匹配,则对每个匹配上的第二类目标腹痛特征关键词,逐个判断其否定关系是否成立,如果出现一个第二类目标腹痛特征关键词的否定关系不成立,则停止判断,定义该腹痛特征为阳性;反之,如果所有第二类目标腹痛特征关键词的否定关系均成立,则定义该腹痛特征为阴性,该腹痛特征即为提取某个第二类目标腹痛特征。
在判断否定关系是否成立时,本申请实施例通过两种方式从不同角度进行否定关系的抽取,再综合两种抽取结果进行综合评估。具体地,先由人工整理出病历中可能出现的所有参考否定描述词,然后使用中文句号拆分上述步骤中得到的整段自由文本,得到多个语句,从中选择第二类目标腹痛特征关键词出现的候选语句,将各候选语句与所有参考否定描述词进行匹配,从中找到成功匹配的目标否定描述词及对应的目标语句。再然后,从结构化腹痛病历中提取第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及第二类目标腹痛特征关键词和目标否定描述词之间的目标中间文本,组合每个第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据。如果目标否定描述词在第二类目标腹痛特征关键词之后,则第一候选组合数据为:第二类目标腹痛特征关键词、目标中间文本和目标否定描述词,如果目标否定描述词在第二类目标腹痛特征关键词之前,则第一候选组合数据为:目标否定描述词、目标中间文本和第二类目标腹痛特征关键词。
在第一种方式中,对于每个第一候选组合数据,先获取目标否定描述词和第二类目标腹痛特征关键词的位置关系,位置关系包括目标否定描述词在第二类目标腹痛特征关键词之前还是之后,以及两者之间间隔了多少字符。然后,将目标中间文本与预设符号集进行匹配,预设符号集包括中文逗号、中文顿号、中文分号和中文句号,如果目标中间文本中出现了这些符号中的任意一个,则表示匹配,反之则不匹配。最后,将目标中间文本与预设文本集进行匹配,预设文本集中包括了一些会改变否定含义的特殊文本,如“明显诱因”等,如果目标中间文本中出现了这些特殊文本,则表示匹配,反之则不匹配。综合这三方面的因素,对各第二类目标腹痛特征关键词的第一否定关系进行抽取。具体地,如果目标否定描述词在第二类目标腹痛特征关键词前,且两者之间间隔小于20个字符,并且目标中间文本中没有中文逗号、中文顿号、中文分号和中文句号这些符号中的任意一个,则否定关系成立,反正不成立;如果目标否定描述词在第二类目标腹痛特征关键词后,且两者之间间隔小于10个字符,并且目标中间文本中没有中文逗号、中文顿号、中文分号和中文句号这些符号中的任意一个,则否定关系成立,反正不成立;目标中间文本中没有出现特殊文本如“明显诱因”的,否定关系成立,反之则不成立。
在第二种方式中,调用训练后的否定关系抽取模型对第二类目标腹痛特征关键词的否定关系进行抽取来实现。具体地,将每个目标语句中的第一候选组合数据作为一个预测数据,输入至训练后的否定关系抽取模型中,根据模型的识别结果来确定各第二类参考腹痛特征关键词的否定关系是否成立。
如图14所示,否定关系抽取模型采用Bert+前馈神经网络组成,其中Bert用于提取文字的特征向量,前馈网络包括输入层、隐藏层和输出层,隐藏层维度为(3072,512),激活函数为ReLU,输出层维度为(512,1),激活函数为Sigmoid。Bert分别提取第一候选组合数据中三部分数据的特征向量,得到3*1024维度的特征向量,将3*1024维特征向量展开为3072维向量,输入前馈网络中,前馈网络输出0、1值预测否定关系是否成立。例如,图14中的输入数据为“患者昨日无明显诱因出现中上腹疼痛,呈持续性疼痛”,其中“中上腹疼痛”为第二类参考腹痛特征关键词,“无”为目标否定描述词,位于两者之前的为目标中间文本,经过模型处理后,识别到否定关系成立,则输出为1。
最后,根据第一否定关系抽取结果和第二否定关系抽取结果来共同确定每个第二类目标腹痛特征关键词的否定关系抽取结果,只有两者抽取结果均为否定关系成立/不成立时,才判断否定关系成立/不成立,如果有一者成立而一者不成立,则需要进入人工确认流程进行最终的判定。
由于在结构化腹痛病历中,对于带有否定描述含义的句子,大多具有较为固定的表达方式,通过第一种方式可以从表达方式角度进行否定关系的判定,但由于在表达时可能有字符或符号的漏写误写情况,则会造成一定的误差。通过第二种方式则可以从特征向量角度进行否定关系的判定,准确性较高,但模型判定受训练效果和模型精度等因素影响也会存在一定的误差。在本申请实施例中,从表达方式角度进行了一次否定关系抽取,同时从特征向量的角度又进行了一次否定关系抽取,再综合两者进行最终的判定,由于两者的切入点不同,判断机制也不相同,则综合两者得到的判定结果,可以将误差进一步降低,准确性会得到显著提升,对第二类目标腹痛特征可以达到将近98%的特征提取准确率。
在一种实施例中,在调用否定关系抽取模型之前还需要先对模型进行训练,则在S4之前还包括:
S81:获取第一历史病历文本集,第一历史病历文本集包括多个历史病历文本句,历史病历文本句中包含历史否定描述词、第二类历史腹痛特征关键词、以及历史否定描述词与第二类历史腹痛特征关键词之间的历史中间文本。
先由人工整理出病历中可能出现的所有参考否定描述词,同时获取第二类参考腹痛特征关键词的第一正则表达式。从医院系统获取历史病历集,对历史病历集中的自由文本,使用中文句号分割,得到多个文本语句。然后,基于所有参考否定描述词对这些文本语句进行匹配,在各文本语句中标记所有的历史否定描述词,且基于第一正则表达式对这些文本语句进行匹配,在各文本语句中标记所有第二类历史腹痛特征关键词、以及历史否定描述词与第二类历史腹痛特征关键词之间的历史中间文本。将同时标记有历史否定描述词、第二类历史腹痛特征关键词和历史中间文本的语句作为一个历史病历文本句,则可以得到多个历史病历文本句,形成第一历史病历文本集。
S82:根据预设否定关系成立规则,对各历史病历文本句的否定关系进行标记。
对第一历史病历文本集中的每个历史病历文本句,均基于预设否定关系成立规则标记进行否定关系的标记,标记具体可包括否定关系成立和否定关系不成立。基于预设否定关系成立规则标记后,从第一历史病历文本集中随机选择一部分历史病历文本句给人工审核,审核完的数据作为最终的训练和验证数据。
S83:基于标记后的历史病历文本句对原始否定关系抽取模型进行训练,得到训练后的否定关系抽取模型。
将上述得到的所有历史病历文本句分为训练集和测试集对原始否定关系抽取模型进行训练,直至损失函数收敛至预设值,得到训练后的否定关系抽取模型,该模型对否定关系具有较高的识别率。模型损失函数为BCE(Binary Cross Entropy Loss),具体如下:
(公式9)
S5:基于第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于第二正则表达式对结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于第三正则表达式对第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征。
第三类参考腹痛特征是指需要由关键词和值共同决定含义的特征,比如实验室检查数据中的白血球指标等,对于此类特征,同样需要预先整理出这些特征的描述方式(如图12所示)以及其值的匹配规则(如图13所示),得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,然后先将结构化腹痛病历中可能出现该类特征的自由文本拼接成整段自由文本,然后用第二正则表达式进行匹配,得到第三类目标腹痛特征的所有特征描述词,再使用第三正则表达式抽取特征描述词后的相邻文本,得到第三类目标腹痛特征值,第三类目标腹痛特征关键词和第三类目标腹痛特征值共同形成第三类目标腹痛特征。
S6:基于第四类参考腹痛特征,从结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一第二候选组合数据进行处理,得到候选特征类型名组中目标特征类型名的标记结果,根据标记结果,得到第四类目标腹痛特征。
第四类参考腹痛特征是指表达方式不固定,无法直接提取得到,需要先对整段描述进行语义理解才能确定含义并提取的特征,比如排气排便困难等。对于该类特征,先从结构化腹痛病历中获取候选腹痛特征描述文本,候选腹痛特征描述文本是指可能包含有第四类候选腹痛特征的描述文本,然后根据描述文本中可能包含的候选腹痛特征,生成对应的候选特征名和候选特征类型名组,并将每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组合形成第二候选组合数据,其中,候选特征名是指该描述文本中候选腹痛特征的具体名称,如下腹痛,候选特征类型名组包括三个候选特征类型名,分别为阴性、阳性和未提及。
例如,某段候选腹痛特征描述文本为“患者1天前无明显诱因突发下腹部疼痛,伴肛门停止排气排便,无呕血黑便,无胸闷心慌,无肩背部放射痛,无发热,无咳嗽等不适......”,则其对应的候选特征名为“上腹痛”,候选特征类型名组为“阴性,阳性,未提及”。将“上腹痛[阳性,阴性,未提及]”与“患者1天前无明显诱因突发下腹部疼痛,伴肛门停止排气排便,无呕血黑便,无胸闷心慌,无肩背部放射痛,无发热,无咳嗽等不适......”组合后得到第二候选组合数据。
特性标记模型用于对第二候选组合数据的语义进行理解,且根据理解结果,从候选腹痛特征类型名组的三个候选特征类型名中确定目标候选特征名,并进行标记。如果标记结果为阴性,则表示当前候选腹痛特征描述文本中包含第四类目标腹痛特征,且该特征为阴性,如果标记结果为阳性,则表示当前候选腹痛特征描述文本中包含第四类目标腹痛特征,且该特征为阳性,如果标记结果为未提及,则表示前候选腹痛特征描述文本中不包含第四类目标腹痛特征。
如图15所示,特征标记模型采用Bert+前馈神经网络组成,其中Bert用于提取文字的特征向量,前馈网络包括输入层、隐藏层和输出层,隐藏层维度为(1024,512),激活函数为ReLU,输出层维度为(512,1),激活函数为Softmax。模型使用候选特征名、候选特征类型名组、候选腹痛特征描述文本作为前馈神经网络的输入,输出组合数据中各字符的BIEO字符来预测目标历史特征类型名。例如,图中的输入数据为“上腹痛[阳性,阴性,未提及]患者昨日无明显诱因出现中上腹疼痛,呈持续性疼痛”,其中“上腹痛”为候选特征名,“[阳性,阴性,未提及]”为候选特征类型名组,其他为候选腹痛特征描述文本,经过模型处理后,输出字符“阳”为标签B,字符“性”为标签E,其他字符为标签O,则根据标签B和标签E,可以确定其预测的目标候选特征名为阳性,表示当前候选腹痛特征描述文本中包含“上腹痛”这个第四类目标腹痛特征,且特征为阳性。
在现有的语义理解方式中,均为直接对特征描述文本进行识别和分类,但该方式的准确性不高。在本申请实施例中,不是仅对特征描述文本进行语义理解和分类,而是对组合数据的整体进行语义理解,并对与理解结果一致的目标特征类型名进行标记,再根据标记结果来确定第四类目标腹痛特征,通过将特征分类问题转化为对特征类型名的识别标记问题,使得语义理解的准确率得到提升,该方式对需要语义理解才能得到的特征具有较高的提取准确率,相对于现有的直接识别和分类方式提升了10%左右。
此外,第四类目标腹痛特征包含多个不同类型的特征,现有的语义理解和分类方式中,对这种不同类型的特征需要用不同的分类模型,而采用本申请实施例中的方式,可以实现用一个特征标记模型来实现所有类型第四类目标腹痛特征的提取,无需每类特征设置一个分类模型,从而节省了模型成本。
在一种实施例中,在调用特征标记模型之前还需要先对模型进行训练,则在S6之前还包括:
S91:获取第二历史病历文本集,第二历史病历文本集包括多个历史腹痛特征描述文本,历史腹痛特征描述文本中包含第四类参考腹痛特征。
从医院系统获取历史病历集,从中找到包含第四类参考腹痛特征的历史腹痛特征描述文本,形成第二历史病历文本集。
S92:根据各历史腹痛特征描述文本中的第四类参考腹痛特征,确定各历史腹痛特征描述文本的目标历史特征名和目标历史特征类型名。
人工对每个历史腹痛特征描述文本中的第四类参考腹痛特征进行识别,确定其正确的特征名如上腹痛、中上腹疼等,以及正确的历史特征类型名阴性、阳性或未提及等,然后,根据训练需要确定各历史腹痛特征描述文本的历史特征名和目标历史特征类型名。具体地,对某个历史腹痛特征描述文本,如果需要阴性或阳性的训练数据,则将该历史腹痛特征描述文本的正确特征名作为其目标历史特征名,例如某个历史腹痛特征描述文本中描述的是上腹痛相关的特征,且为阴性,则该文本的目标历史特征名为阴性,对于阳性也同理。而对某个历史腹痛特征描述文本,如果需要未提及的训练数据,则可以将一个错误的特征名作为其目标历史特征名,如某个历史腹痛特征描述文本中描述的是上腹痛相关的特征,将下腹痛作为其目标历史特征名,此时的目标历史特征类型名为未提及。除此之外,也可以用一个不包含上腹痛的文本,为其生成一个属于上腹痛的目标特征名,对应的目标历史特征类型名也是未提及。
S93:组合每一历史腹痛特征描述文本与其对应的目标历史特征名和历史特征类型名组,得到历史组合数据,历史特征类型名组包括三个历史特征类型名,基于BIEO标签集对历史组合数据中目标历史特征类型名的各字符进行标记。
历史特征类型名组包括阴性、阳性和未提及这三个历史特征类型名,组合目标历史特征名+历史特征类型名组+历史腹痛特征描述文本,得到历史组合数据。然后,对每个历史组合数据,对其历史特征类型名组中的目标历史特征类型名进行标记,在标记时基于BIEO标签集进行,在BIEO标签集中,标签B表示目标历史特征类型名的开始位置字符,标签I表示目标历史特征类型名的中间位置字符,标签E表示目标历史特征类型名的结束位置字符,标签O表示其它字符。数据的标记先由人工完成,标记后再使用python代码根据模型所需的输入输出格式生成对应的训练数据。
S94:基于标记后的历史组合数据对原始特征标记模型进行训练,得到训练后的特征标记模型。
将上述得到的所有历史组合数据分为训练集和测试集对原始特征标记模型进行训练,直至损失函数收敛至预设值,得到训练后的特征标记模型,该模型对特征标记具有较高的准确率。模型损失函数为交叉熵损失函数CEL(Cross Entropy Loss,具体如下:
(公式10)
在一种实施例中,得到第二候选组合数据的步骤具体包括:
S61:基于第四类参考腹痛特征,得到第四类目标腹痛特征关键词的第四正则表达式,并得到每种第四类目标腹痛特征的特征名与第四类目标腹痛特征关键词的对应关系。
第四类参考腹痛特征包括多种,每种的表达方式不固定,但每种也会存在某些特定且高频出现的特征关键词,如排气排便等,对这些特征关键词进行整理,得到每种第四类目标腹痛特征中第四类目标腹痛特征关键词的第四正则表达式。同时,对于每种第四类目标腹痛特征均有其对应的特征名,因此可以获取每种第四类目标腹痛特征的特征名与第四类目标腹痛特征关键词的对应关系。
S62:从结构化腹痛病历中获取候选腹痛特征描述文本,基于第四正则表达式对每一候选腹痛特征描述文本进行匹配,根据匹配结果,确定每一候选腹痛特征描述文本对应的候选特征名集,候选特征名集包括至少一个候选特征名。
从结构化腹痛病历中获取各候选腹痛特征描述文本,对每个候选腹痛特征描述文本,基于上述第四正则表达式进行匹配,则每个候选腹痛特征描述文本可以匹配得到一个或多个第四类目标腹痛特征关键词,对于这些第四类目标腹痛特征关键词,根据上述对应关系,可以确定其对应一种或多种特征名,则这些特征名可以作为该候选腹痛特征描述文本对应的候选特征名,各候选特征名组成了该候选腹痛特征描述文本的候选特征名集。
S63:遍历候选特征名集中的各候选特征名,对每一候选特征名分别生成对应的第二候选组合数据。
对于每个候选腹痛特征描述文本,均通过上述步骤得到对应的候选特征名集,对候选特征名集中的每个候选特征名,均将其与对应的候选腹痛特征描述文本与候选特征类型名组进行组合,得到一个第二候选组合数据,设候选特征名集中包含n个候选特征名,则每个候选腹痛特征描述文本可以得到n个第二候选组合数据(不同候选腹痛特征描述文本的n值不完全相等)。在后续步骤中,对每个第二候选组合数据,均调用特征标记模型进行处理。
在得到第二候选组合数据时,如果特征名与候选腹痛特征描述文本不匹配,则有可能造成候选腹痛特征描述文本实际上属于第四类目标腹痛特征中的A特征,但第二候选组合数据中的特征名为B特征的特征名,此时模型识别到在候选特征类型名组中也会标记未提及,但却造成了对A特征的遗漏。而在本实施例中,先根据第四正则表达式对每个候选腹痛特征描述文本进行匹配,并根据对应关系为其选定可能性最大的一个或多个候选特征名,则这些候选特征名与候选腹痛特征描述文本的匹配度较高,后续进行标记时,n个第二候选组合数据中出现一个特征名与模型识别到的特征名一致的概率大大提升,此时标记结果不会发生遗漏,因此提高了第四类目标腹痛特征的提取准确性。
S7:根据第一类目标腹痛特征、第二类目标腹痛特征、第三类目标腹痛特征和第四类目标腹痛特征,得到目标对象的腹痛特征。
上述提取到的四类目标腹痛特征共同作为目标对象的腹痛特征,为后续诊疗过程提供有效和全面的参考。
根据上述实施例可知,本申请的腹痛特征提取方法,使得腹痛特征的提取难度得到有效降低,提取准确率得到显著提升。
在上述实施例所述方法的基础上,本实施例将从腹痛特征提取装置的角度进一步进行描述,请参阅图16,腹痛特征提取装置可以包括:
第一获取模块10,用于获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
第二获取模块20,用于获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
第一得到模块30,用于基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
第二得到模块40,用于基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
第三得到模块50,用于基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
第四得到模块60,用于基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
第五得到模块70,用于根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
在一种实施例中,第一获取模块10包括:
第一获取子模块,用于从参考病历集中获取多个第一参考结构关键词、以及各第一参考结构关键词之间的参考层级结构关系;
第二获取子模块,用于获取目标对象的原始腹痛病历,根据所述第一参考结构关键词,从所述原始腹痛病历中得到多个第一候选结构关键词,根据所述参考层级结构关系,确定各第一候选结构关键词之间的节点关系;
第一确定子模块,用于遍历所有第一候选结构关键词,根据第i个第一候选结构关键词后的候选符号与第一符号集和第二符号集的匹配结果、所述第i个第一候选结构关键词的相邻第一候选结构关键词的确认状态、以及所述相邻第一候选结构关键词与所述第i个第一候选结构关键词之间的节点关系,确定所述第i个第一候选结构关键词的确认状态,i为正整数;
第三获取子模块,用于根据各第一候选结构关键词的确认状态,得到多个第一目标结构关键词,并从所述原始腹痛病历中获取各第一目标结构关键词的值;
第一得到子模块,用于根据各第一目标结构关键词之间的节点关系,确定各第一目标结构关键词之间的目标层级结构关系,根据各第一目标结构关键词和值、以及所述目标层级结构关系,得到所述目标对象的结构化腹痛病历。
在一种实施例中,第一获取模块10包括:
第四获取子模块,用于获取预设病历模板,所述预设病历模板包括M个第二参考结构关键词和各第二参考结构关键词的值属性信息,根据各第二参考结构关键词的文本内容和文本长度,得到各第二参考结构关键词的参考正则表达式,M为正整数;
第五获取子模块,用于获取目标对象的原始腹痛病历,遍历所有第二参考结构关键词,基于第j个第二参考结构关键词的第j参考正则表达式对所述原始腹痛病历进行匹配,得到第j组第二候选结构关键词,所述第j组第二候选结构关键词包括至少一个第二候选结构关键词,j为正整数;
第二得到子模块,用于遍历所有第二候选结构关键词,根据所述第j组第二候选结构关键词中各第二候选结构关键词的文本长度和第j个第二参考结构关键词的文本长度,得到所述第j组第二候选结构关键词中各第二候选结构关键词的局部匹配分数;
第二确定子模块,用于从各组第二候选结构关键词中分别取一个第二候选结构关键词,将M个第二候选结构关键词的局部匹配分数相加得到全局匹配分数,基于全局最优算法得到最大全局匹配分数,并将所述最大全局匹配分数对应的取词方案中M个第二候选结构关键词确定为第二目标结构关键词;
第三得到子模块,用于基于各第二参考结构关键词的值属性信息,对各第二目标结构关键词的值进行抽取,根据抽取结果得到所述目标对象的结构化腹痛病历。
在一种实施例中,第三得到子模块包括:
第一得到单元,用于遍历所有第二参考结构关键词,在第j个第二参考结构关键词的值属性信息包括预设格式或自定义格式时,基于所述预设格式或自定义格式正则表达式对第j个第二目标结构关键词的值进行抽取,得到第j个第二目标结构关键词的值;
第一得到单元,用于在第j个第二参考结构关键词的值属性信息包括预设病历子模板时,获取所述预设病历子模板,所述预设病历子模板包括N个参考子结构关键词和各参考子结构关键词的值属性信息,以所述原始腹痛病历的结构化处理方式为参考,基于所述预设病历子模板对第j个第二目标结构关键词的原始腹痛子病历进行结构化处理,得到所述第j个第二目标结构关键词的结构化腹痛子病历,N为正整数。
在一种实施例中,第二获取模块20包括:
第四得到子模块,用于从所述结构化腹痛病历中获取出院诊断数据,并统计所述出院诊断数据中各类疾病的诊断次数,根据诊断次数大于预设值的各类疾病,得到腹痛疾病类型数据;
第六获取子模块,用于根据所述腹痛疾病类型数据,从参考诊断指南中获取各类腹痛疾病的参考腹痛特征。
在一种实施例中,腹痛特征提取装置还包括:
第三获取模块,用于获取第一历史病历文本集,所述第一历史病历文本集包括多个历史病历文本句,所述历史病历文本句中包含历史否定描述词、第二类历史腹痛特征关键词、以及所述历史否定描述词与所述第二类历史腹痛特征关键词之间的历史中间文本;
第一标记模块,用于根据预设否定关系成立规则,对各历史病历文本句的否定关系进行标记;
第六得到模块,用于基于标记后的历史病历文本句对原始否定关系抽取模型进行训练,得到训练后的否定关系抽取模型。
在一种实施例中,腹痛特征提取装置还包括:
第四获取模块,用于获取第二历史病历文本集,所述第二历史病历文本集包括多个历史腹痛特征描述文本,所述历史腹痛特征描述文本中包含第四类参考腹痛特征;
确定模块,用于根据各历史腹痛特征描述文本中的第四类参考腹痛特征,确定各历史腹痛特征描述文本的目标历史特征名和目标历史特征类型名;
第二标记模块,用于组合每一历史腹痛特征描述文本与其对应的目标历史特征名和历史特征类型名组,得到历史组合数据,所述历史特征类型名组包括三个历史特征类型名,基于BIEO标签集对所述历史组合数据中目标历史特征类型名的各字符进行标记;
第七得到模块,用于基于标记后的历史组合数据对原始特征标记模型进行训练,得到训练后的特征标记模型。
在一种实施例中,第四得到模块60包括:
第五得到子模块,用于基于所述第四类参考腹痛特征,得到第四类目标腹痛特征关键词的第四正则表达式,并得到每种第四类目标腹痛特征的特征名与第四类目标腹痛特征关键词的对应关系;
第三确定子模块,用于从所述结构化腹痛病历中获取候选腹痛特征描述文本,基于所述第四正则表达式对每一所述候选腹痛特征描述文本进行匹配,根据匹配结果和所述对应关系,确定每一所述候选腹痛特征描述文本对应的候选特征名集,所述候选特征名集包括至少一个候选特征名;
生成子模块,用于遍历所述候选特征名集中的各候选特征名,对每一候选特征名分别生成对应的第二候选组合数据。
区别于现有技术,本申请提供的腹痛特征提取装置,先将目标对象的原始腹痛病历进行结构化处理,使其成为具有统一标准的结构化腹痛病历,以降低特征提取难度,然后得到腹痛疾病的参考腹痛特征,根据各类参考腹痛特征的属性将其分为四类,并分别采用不同的方式进行提取;对第一类参考腹痛特征,可直接从结构化腹痛病历中进行检索和简单判断得到第一类目标腹痛特征,该方式较为简单快捷;对第二类参考腹痛特征,可通过正则表达式从结构化腹痛病历中得到第二类目标腹痛特征关键词,进而抽取得到由第二类目标腹痛特征关键词、对应目标否定描述词以及对应目标中间文本组成的第一候选组合数据,同时采用两种不同方式分别对第一候选组合数据进行处理,从两种不同角度对第二类目标腹痛特征关键词的否定关系进行抽取,最后综合两方面的否定关系抽取结果得到第二类目标腹痛特征,该方式对与否定关系相关的特征具有较高的提取准确率;对第三类参考腹痛特征,可通过正则表达式从结构化腹痛病历中得到第三类目标腹痛特征关键词和特征值,进而得到第三类目标腹痛特征,该方式对以键值对存在的特征具有较高的提取准确率;对第四类参考腹痛特征,可先从结构化腹痛病历中获取候选腹痛特征描述文本,然后以候选特征名+候选特征类型名组(包含阴性、阳性和未提及三个候选特征类型名)+候选腹痛特征描述文本的形式得到第二候选组合数据,并调用训练后的特征标记模型对第二候选组合数据进行处理,得到候选特征类型名组中目标特征类型名的标记结果,根据标记结果得到第四类目标腹痛特征,该方式对于需要语义理解才能提取的特征,不是仅对特征描述文本进行语义理解和分类,而是对组合数据的整体进行语义理解,并对与理解结果一致的目标特征类型名进行标记,再根据标记结果来确定第四类目标腹痛特征,通过将特征分类问题转化为对特征类型名的识别标记问题,使得语义理解的准确率得到提升,该方式对需要语义理解才能得到的特征具有较高的提取准确率;最后组合四类目标腹痛特征,得到目标对象的腹痛特征。综合以上方式,使得腹痛特征的提取难度得到有效降低,提取准确率得到显著提升。
相应的,本申请实施例还提供一种电子设备,如图17所示,该电子设备可以包括射频(RF,Radio Frequency)电路1001、包括有一个或一个以上计算机可读存储介质的存储器1002、输入单元1003、显示单元1004、传感器1005、音频电路1006、WiFi模块1007、包括有一个或者一个以上处理核心的处理器1008、以及电源1009等部件。本领域技术人员可以理解,图17中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
射频电路1001可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1008处理;另外,将涉及上行的数据发送给基站。存储器1002可用于存储软件程序以及模块,处理器1008通过运行存储在存储器1002的软件程序以及模块,从而执行各种功能应用以及病灶深度数据。输入单元1003可用于接收输入的数字或字符信息,以及产生与客户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
显示单元1004可用于显示由客户输入的信息或提供给客户的信息以及服务器的各种图形客户接口,这些图形客户接口可以由图形、文本、图标、视频和其任意组合来构成。
电子设备还可包括至少一种传感器1005,比如光传感器、运动传感器以及其他传感器。音频电路1006包括扬声器,扬声器可提供客户与电子设备之间的音频接口。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块1007可以帮助客户收发电子邮件、浏览网页和随访流式媒体等,它为客户提供了无线的宽带互联网随访。虽然图17示出了WiFi模块1007,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器1008是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器1002内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。
电子设备还包括给各个部件供电的电源1009(比如电池),优选的,电源可以通过电源管理系统与处理器1008逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器1008会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中,并由处理器1008来运行存储在存储器1002中的应用程序,从而实现以下功能:
获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以实现以下功能:
获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
以上对本申请实施例所提供的一种腹痛特征提取方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (10)
1.一种腹痛特征提取方法,其特征在于,包括:
获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
2.根据权利要求1所述的腹痛特征提取方法,其特征在于,获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历的步骤,包括:
从参考病历集中获取多个第一参考结构关键词、以及各第一参考结构关键词之间的参考层级结构关系;
获取目标对象的原始腹痛病历,根据所述第一参考结构关键词,从所述原始腹痛病历中得到多个第一候选结构关键词,根据所述参考层级结构关系,确定各第一候选结构关键词之间的节点关系;
遍历所有第一候选结构关键词,根据第i个第一候选结构关键词后的候选符号与第一符号集和第二符号集的匹配结果、所述第i个第一候选结构关键词的相邻第一候选结构关键词的确认状态、以及所述相邻第一候选结构关键词与所述第i个第一候选结构关键词之间的节点关系,确定所述第i个第一候选结构关键词的确认状态,i为正整数;
根据各第一候选结构关键词的确认状态,得到多个第一目标结构关键词,并从所述原始腹痛病历中获取各第一目标结构关键词的值;
根据各第一目标结构关键词之间的节点关系,确定各第一目标结构关键词之间的目标层级结构关系,根据各第一目标结构关键词和值、以及所述目标层级结构关系,得到所述目标对象的结构化腹痛病历。
3.根据权利要求1所述的腹痛特征提取方法,其特征在于,获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历的步骤,包括:
获取预设病历模板,所述预设病历模板包括M个第二参考结构关键词和各第二参考结构关键词的值属性信息,根据各第二参考结构关键词的文本内容和文本长度,得到各第二参考结构关键词的参考正则表达式,M为正整数;
获取目标对象的原始腹痛病历,遍历所有第二参考结构关键词,基于第j个第二参考结构关键词的第j参考正则表达式对所述原始腹痛病历进行匹配,得到第j组第二候选结构关键词,所述第j组第二候选结构关键词包括至少一个第二候选结构关键词,j为正整数;
遍历所有第二候选结构关键词,根据所述第j组第二候选结构关键词中各第二候选结构关键词的文本长度和第j个第二参考结构关键词的文本长度,得到所述第j组第二候选结构关键词中各第二候选结构关键词的局部匹配分数;
从各组第二候选结构关键词中分别取一个第二候选结构关键词,将M个第二候选结构关键词的局部匹配分数相加得到全局匹配分数,基于全局最优算法得到最大全局匹配分数,并将所述最大全局匹配分数对应的取词方案中M个第二候选结构关键词确定为第二目标结构关键词;
基于各第二参考结构关键词的值属性信息,对各第二目标结构关键词的值进行抽取,根据抽取结果得到所述目标对象的结构化腹痛病历。
4.根据权利要求3所述的腹痛特征提取方法,其特征在于,基于各第二参考结构关键词的值属性信息,对各第二目标结构关键词的值进行抽取的步骤,包括:
遍历所有第二参考结构关键词,在第j个第二参考结构关键词的值属性信息包括预设格式或自定义格式时,基于所述预设格式或自定义格式正则表达式对第j个第二目标结构关键词的值进行抽取,得到第j个第二目标结构关键词的值;
在第j个第二参考结构关键词的值属性信息包括预设病历子模板时,获取所述预设病历子模板,所述预设病历子模板包括N个参考子结构关键词和各参考子结构关键词的值属性信息,以所述原始腹痛病历的结构化处理方式为参考,基于所述预设病历子模板对第j个第二目标结构关键词的原始腹痛子病历进行结构化处理,得到所述第j个第二目标结构关键词的结构化腹痛子病历,N为正整数。
5.根据权利要求1所述的腹痛特征提取方法,其特征在于,在调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理的步骤之前,还包括:
获取第一历史病历文本集,所述第一历史病历文本集包括多个历史病历文本句,所述历史病历文本句中包含历史否定描述词、第二类历史腹痛特征关键词、以及所述历史否定描述词与所述第二类历史腹痛特征关键词之间的历史中间文本;
根据预设否定关系成立规则,对各历史病历文本句的否定关系进行标记;
基于标记后的历史病历文本句对原始否定关系抽取模型进行训练,得到训练后的否定关系抽取模型。
6.根据权利要求1所述的腹痛特征提取方法,其特征在于,在调用训练后的特征标记模型对每一所述第二候选组合数据进行处理的步骤之前,还包括:
获取第二历史病历文本集,所述第二历史病历文本集包括多个历史腹痛特征描述文本,所述历史腹痛特征描述文本中包含第四类参考腹痛特征;
根据各历史腹痛特征描述文本中的第四类参考腹痛特征,确定各历史腹痛特征描述文本的目标历史特征名和目标历史特征类型名;
组合每一历史腹痛特征描述文本与其对应的目标历史特征名和历史特征类型名组,得到历史组合数据,所述历史特征类型名组包括三个历史特征类型名,基于BIEO标签集对所述历史组合数据中目标历史特征类型名的各字符进行标记;
基于标记后的历史组合数据对原始特征标记模型进行训练,得到训练后的特征标记模型。
7.根据权利要求1所述的腹痛特征提取方法,其特征在于,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据的步骤,包括:
基于所述第四类参考腹痛特征,得到第四类目标腹痛特征关键词的第四正则表达式,并得到每种第四类目标腹痛特征的特征名与第四类目标腹痛特征关键词的对应关系;
从所述结构化腹痛病历中获取候选腹痛特征描述文本,基于所述第四正则表达式对每一所述候选腹痛特征描述文本进行匹配,根据匹配结果和所述对应关系,确定每一所述候选腹痛特征描述文本对应的候选特征名集,所述候选特征名集包括至少一个候选特征名;
遍历所述候选特征名集中的各候选特征名,对每一候选特征名分别生成对应的第二候选组合数据。
8.一种腹痛特征提取装置,其特征在于,包括:
第一获取模块,用于获取目标对象的原始腹痛病历,对所述原始腹痛病历进行结构化处理,得到所述目标对象的结构化腹痛病历;
第二获取模块,用于获取腹痛疾病类型数据,根据所述腹痛疾病类型数据得到各类腹痛疾病的参考腹痛特征,根据各参考腹痛特征的属性对所述参考腹痛特征进行分类,得到第一类参考腹痛特征、第二类参考腹痛特征、第三类参考腹痛特征和第四类参考腹痛特征;
第一得到模块,用于基于所述第一类参考腹痛特征对所述结构化腹痛病历进行检索和判断,根据检索结果和判断结果,得到第一类目标腹痛特征;
第二得到模块,用于基于所述第二类参考腹痛特征,得到第二类目标腹痛特征关键词的第一正则表达式,基于所述第一正则表达式对所述结构化腹痛病历进行匹配,得到第二类目标腹痛特征关键词,从所述结构化腹痛病历中提取所述第二类目标腹痛特征关键词之前或之后的目标否定描述词、以及所述第二类目标腹痛特征关键词和所述目标否定描述词之间的目标中间文本,组合每一所述第二类目标腹痛特征关键词、对应的目标否定描述词以及对应的目标中间文本,得到第一候选组合数据;根据每一所述第一候选组合数据中目标否定描述词和第二类目标腹痛特征关键词的位置关系、目标中间文本与预设符号集的匹配结果、以及目标中间文本与预设文本集的匹配结果,得到各所述第二类目标腹痛特征关键词的第一否定关系抽取结果;调用训练后的否定关系抽取模型对每一所述第一候选组合数据进行处理,得到各所述第二类目标腹痛特征关键词的第二否定关系抽取结果;根据所述第一否定关系抽取结果和所述第二否定关系抽取结果,得到第二类目标腹痛特征;
第三得到模块,用于基于所述第三类参考腹痛特征,得到第三类目标腹痛特征关键词的第二正则表达式、以及第三类目标腹痛特征值的第三正则表达式,基于所述第二正则表达式对所述结构化腹痛病历进行匹配,得到第三类目标腹痛特征关键词,基于所述第三正则表达式对所述第三类目标腹痛特征值进行抽取,根据抽取结果,得到第三类目标腹痛特征;
第四得到模块,用于基于所述第四类参考腹痛特征,从所述结构化腹痛病历中获取候选腹痛特征描述文本,并生成各候选腹痛特征描述文本的候选特征名和候选特征类型名,组合每一候选腹痛特征描述文本与其对应的候选特征名和候选特征类型名组,得到第二候选组合数据,所述候选特征类型名组包括三个候选特征类型名,调用训练后的特征标记模型对每一所述第二候选组合数据进行处理,得到所述候选特征类型名组中目标特征类型名的标记结果,根据所述标记结果,得到第四类目标腹痛特征;
第五得到模块,用于根据所述第一类目标腹痛特征、所述第二类目标腹痛特征、所述第三类目标腹痛特征和所述第四类目标腹痛特征,得到所述目标对象的腹痛特征。
9.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至7任一项所述的腹痛特征提取方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的腹痛特征提取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822531.8A CN116578711B (zh) | 2023-07-06 | 2023-07-06 | 腹痛特征提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822531.8A CN116578711B (zh) | 2023-07-06 | 2023-07-06 | 腹痛特征提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116578711A CN116578711A (zh) | 2023-08-11 |
CN116578711B true CN116578711B (zh) | 2023-10-27 |
Family
ID=87538128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310822531.8A Active CN116578711B (zh) | 2023-07-06 | 2023-07-06 | 腹痛特征提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578711B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155275A (ja) * | 2004-11-30 | 2006-06-15 | Denso It Laboratory Inc | 情報抽出方法及び情報抽出装置 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
EP3441849A1 (en) * | 2017-08-09 | 2019-02-13 | Nagravision S.A. | Pointing input device for personal computer based on fingers ' movements |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109923614A (zh) * | 2016-10-31 | 2019-06-21 | 首选网络株式会社 | 疾病的罹患判定装置、疾病的罹患判定方法及疾病的罹患判定程序 |
CN110916606A (zh) * | 2019-11-15 | 2020-03-27 | 武汉楚精灵医疗科技有限公司 | 一种基于人工智能的实时肠道清洁度评分系统和方法 |
CN114613460A (zh) * | 2022-01-27 | 2022-06-10 | 人和未来生物科技(长沙)有限公司 | 一种中文电子病历识别中否定域判定方法 |
CN115424692A (zh) * | 2022-09-05 | 2022-12-02 | 科凌力智能医学软件(深圳)有限公司 | 一种结构化电子病历的构建方法、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496743B2 (en) * | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US10380251B2 (en) * | 2016-09-09 | 2019-08-13 | International Business Machines Corporation | Mining new negation triggers dynamically based on structured and unstructured knowledge |
US10362949B2 (en) * | 2016-10-17 | 2019-07-30 | International Business Machines Corporation | Automatic extraction of disease-specific features from doppler images |
-
2023
- 2023-07-06 CN CN202310822531.8A patent/CN116578711B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155275A (ja) * | 2004-11-30 | 2006-06-15 | Denso It Laboratory Inc | 情報抽出方法及び情報抽出装置 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN109923614A (zh) * | 2016-10-31 | 2019-06-21 | 首选网络株式会社 | 疾病的罹患判定装置、疾病的罹患判定方法及疾病的罹患判定程序 |
EP3441849A1 (en) * | 2017-08-09 | 2019-02-13 | Nagravision S.A. | Pointing input device for personal computer based on fingers ' movements |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN110916606A (zh) * | 2019-11-15 | 2020-03-27 | 武汉楚精灵医疗科技有限公司 | 一种基于人工智能的实时肠道清洁度评分系统和方法 |
CN114613460A (zh) * | 2022-01-27 | 2022-06-10 | 人和未来生物科技(长沙)有限公司 | 一种中文电子病历识别中否定域判定方法 |
CN115424692A (zh) * | 2022-09-05 | 2022-12-02 | 科凌力智能医学软件(深圳)有限公司 | 一种结构化电子病历的构建方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116578711A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
US10678816B2 (en) | Single-entity-single-relation question answering systems, and methods | |
US10593423B2 (en) | Classifying medically relevant phrases from a patient's electronic medical records into relevant categories | |
US10553308B2 (en) | Identifying medically relevant phrases from a patient's electronic medical records | |
US11321363B2 (en) | Method and system for extracting information from graphs | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
CN110364234B (zh) | 电子病历智能存储分析检索系统及方法 | |
US20200160510A1 (en) | Automated Patient Complexity Classification for Artificial Intelligence Tools | |
US8935155B2 (en) | Method for processing medical reports | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN111078875A (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
US11250212B2 (en) | System and method for interpreting contextual meaning of data | |
US11468989B2 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN112307337B (zh) | 基于标签知识图谱的关联推荐方法、装置及计算机设备 | |
Ahmed et al. | Short text clustering algorithms, application and challenges: A survey | |
Singh et al. | Utilizing Advanced Artificial Intelligence for Early Detection of Epidemic Outbreaks through Global Data Analysis | |
US20220121824A1 (en) | Method for determining text similarity, method for obtaining semantic answer text, and question answering method | |
CN116578711B (zh) | 腹痛特征提取方法、装置、电子设备及存储介质 | |
CN112732863B (zh) | 电子病历标准化切分方法 | |
CN114676258A (zh) | 一种基于患者症状描述文本的疾病分类智能服务方法 | |
US20200285804A1 (en) | Systems and Methods for Generating Context-Aware Word Embeddings | |
CN114068028A (zh) | 医疗问诊数据处理方法及装置、可读存储介质及电子设备 | |
Zhang et al. | Medical Q&A statement NER based on ECA attention mechanism and lexical enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |