CN118133784A - 基于大模型的文本结构化方法、系统、终端及存储介质 - Google Patents
基于大模型的文本结构化方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN118133784A CN118133784A CN202410262884.1A CN202410262884A CN118133784A CN 118133784 A CN118133784 A CN 118133784A CN 202410262884 A CN202410262884 A CN 202410262884A CN 118133784 A CN118133784 A CN 118133784A
- Authority
- CN
- China
- Prior art keywords
- text
- case
- information
- structuring
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012795 verification Methods 0.000 claims abstract description 81
- 238000012937 correction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 13
- 239000003814 drug Substances 0.000 claims description 102
- 229940079593 drug Drugs 0.000 claims description 84
- 238000001514 detection method Methods 0.000 claims description 66
- 238000003745 diagnosis Methods 0.000 claims description 65
- 238000011282 treatment Methods 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 19
- 238000002474 experimental method Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 206010020772 Hypertension Diseases 0.000 description 4
- 206010000891 acute myocardial infarction Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 3
- 238000011269 treatment regimen Methods 0.000 description 3
- 206010011086 Coronary artery occlusion Diseases 0.000 description 2
- 206010013710 Drug interaction Diseases 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于大模型的文本结构化方法、系统、终端及存储介质,该方法包括:根据模型微调样本对预训练后的大模型进行对齐微调;获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。本发明实施例,能对大模型提供更明确的结构化指导,以引导大模型生成对应特定类型的结构化文本,防止了非预期输出的生成,提高了文本结构化的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于大模型的文本结构化方法、系统、终端及存储介质。
背景技术
电子病历数据后治理的第一步便是对大段文本进行信息提取,包括从入院记录、出院小结、手术记录、病程记录等提取医生需要的临床指标数据。与直接提取词语的实体识别技术不同,医学文本结构化需要大模型理解文本段落,输出文本段落对应的信息,进而将非结构化的输入最终转化为结构化输出。
现有的文本结构化过程中,大模型的结构化输出容易生成非预期输出(幻觉现象),降低了文本结构化的准确率。
发明内容
本发明实施例的目的在于提供一种基于大模型的文本结构化方法、系统、终端及存储介质,旨在解决现有的文本结构化容易生成非预期输出的问题。
本发明实施例是这样实现的,一种基于大模型的文本结构化方法,所述方法包括:
获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调;
获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;
对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
优选的,将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本,包括:
根据对齐微调后的所述大模型对所述待识别病例文本进行实体识别,得到文本实体,并查询所述结构提示词对应的实体含义;
根据所述实体含义对所述文本实体进行筛选,得到目标实体,并在所述待识别病例文本中,对所述目标实体进行关系抽取,得到实体关系组;
根据所述实体关系组对所述待识别病例文本进行信息抽取,得到结构化信息,并对所述结构化信息进行属性标注,得到所述病例结构化文本。
优选的,对所述结构化信息进行属性标注,得到所述病例结构化文本,包括:
分别获取所述实体关系组中各文本实体的属性标签,并分别查询各属性标签对应的属性值范围;
根据所述属性值范围和所述实体关系组中各文本实体的实体属性值,确定属性标注信息,并根据所述属性标注信息对所述结构化信息进行信息标注,得到所述病例结构化文本。
优选的,对所述病例结构化文本进行逻辑校验,包括:
获取所述病例结构化文本中的入院日期和出院日期,并根据所述入院日期和所述出院日期对所述病例结构化文本进行日期校验,得到日期校验结果;
获取所述病例结构化文本中的主要诊断信息和次要诊断信息,并根据所述主要诊断信息和所述次要诊断信息对所述病例结构化文本进行诊断一致性校验,得到诊断校验结果;
获取所述病例结构化文本中的治疗计划,并根据所述主要诊断信息和所述治疗计划对所述病例结构化文本进行治疗验证,得到治疗验证结果;
将所述病例结构化文本中的用户信息和所述待识别病例文本中的用户信息进行信息校验,得到用户校验结果。
优选的,对所述病例结构化文本进行逻辑校验,还包括:
获取所述病例结构化文本中的用药信息,并根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果;
获取所述待识别病例文本中的实验检测信息,并根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果。
优选的,根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果,包括:
分别将各用药药物进行组合,得到药物组,并将各药物组与药物黑名单进行匹配,得到黑名单匹配结果;
分别查询各药物组的组合药性,并获取所述主要诊断信息对应的药性危害列表;
将各药物组的组合药性与所述药性危害列表进行匹配,得到药性匹配结果;
其中,所述用药校验结果包括所述黑名单匹配结果和所述药性匹配结果。
优选的,根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果,包括:
分别查询所述主要诊断信息和所述治疗计划对应的检测值信息,得到诊断检测值信息和治疗检测值信息;
分别将所述诊断检测值信息、所述治疗检测值信息与所述实验检测信息进行检测值匹配,得到所述实验检测检验结果。
本发明实施例的另一目的在于提供一种基于大模型的文本结构化系统,所述系统包括:
对齐调整策略模块,用于获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调;
多提示词模块,用于获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;
业务逻辑校验模块,用于对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例,通过模型微调样本对预训练后的大模型进行对齐微调,提高了大模型对待识别病例文本结构化的准确性,基于结构提示词,能有效地对待识别病例文本进行优化,能对大模型提供更明确的结构化指导,以引导大模型生成对应特定类型的结构化文本,防止了非预期输出的生成,提高了文本结构化的准确率,通过对病例结构化文本进行逻辑校验,并根据逻辑校验结果对病例结构化文本进行文本矫正,进一步提高了病例结构化文本的准确性。
附图说明
图1是本发明第一实施例提供的基于大模型的文本结构化方法的流程图;
图2是本发明第二实施例提供的基于大模型的文本结构化方法的流程图;
图3是本发明第三实施例提供的基于大模型的文本结构化系统的结构示意图;
图4是本发明第四实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的基于大模型的文本结构化方法的流程图,该基于大模型的文本结构化方法可以应用于任一车载终端设备或系统,该基于大模型的文本结构化方法包括步骤:
步骤S10,获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调;
其中,该模型微调样本和大模型可以根据需求进行设置,通过模型微调样本对预训练后的大模型进行对齐微调,有效地提高了对齐微调后大模型对指定类型文本结构化的准确性,本实施例中的大模型采用BERT模型(Bidirectional Encoder Representationsfrom Transformers)。
具体的,对于待识别病例文本,可以使用一个示例入院记录文本作为模型微调样本,对BERT模型进行微调以执行实体识别任务,例如,对待识别病例文本需要提取结构化的主要诊断和次要诊断,示例入院记录文本为:
患者信息:姓名-张三、性别-男、年龄-45岁;入院日期:2023-09-01;主要诊断-急性心肌梗塞;次要诊断-高血压。
入院症状描述:患者抱怨胸痛、呼吸困难、恶心。经过初步检查,诊断为急性心肌梗塞。同时,患者已被诊断患有高血压多年。
治疗计划:患者将接受冠状动脉疏通手术以缓解心肌梗塞。同时,将调整高血压药物治疗方案。
对BERT模型进行对齐微调,以便能够识别待识别病例文本中的主要诊断和次要诊断的实体,即"急性心肌梗塞"和"高血压"。
步骤S20,获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;
其中,针对待识别病例文本的结构提示词可以根据需求进行设置,该结构提示词能有效地对待识别病例文本进行优化,能对大模型提供更明确的结构化指导,以引导大模型生成对应特定类型的结构化文本,防止了非预期输出的生成,提高了文本结构化的准确率。
该步骤中,当需要识别待识别病例文本中的患者信息时,结构提示词可以包括患者的姓名、性别、年龄等个人信息,例如,结构提示词可以为"患者姓名:"、"性别:"、"年龄:"。结构提示词可以引导大模型查找并提取患者信息,以便后续的文本理解和处理。
当需要识别待识别病例文本中的诊断和症状时,结构提示词可以包括患者的疾病诊断、症状描述以及与诊断相关的关键词。例如,结构提示词可以为"主要诊断:"、"次要诊断:"、"患者主诉:"。结构提示词可以帮助大模型找到和理解与患者健康状况相关的信息。
当需要识别待识别病例文本中的治疗和用药时,结构提示词可以包括与治疗方案、用药和手术相关的词汇。例如,结构提示词可以为"治疗计划:"、"用药信息:"、"手术记录:"。结构提示词可以引导大模型提取与治疗和药物管理相关的信息。
当需要识别待识别病例文本中的时间和日期时,结构提示词可以帮助大模型识别入院记录中的时间和日期信息。例如,结构提示词可以为"入院日期:"、"出院日期:",有助于确定患者住院的时间范围。
当需要识别待识别病例文本中的医疗团队信息时,结构提示词可以包括医生、护士和其他医疗专业人员的姓名和职称。例如:结构提示词可以为"主治医生:"、"护士长:"。结构提示词有助于提取与医疗团队成员相关的信息。
可选的,将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本,包括:
根据对齐微调后的所述大模型对所述待识别病例文本进行实体识别,得到文本实体,并查询所述结构提示词对应的实体含义;其中,将结构提示词与含义查询表进行匹配,得到该实体含义;
根据所述实体含义对所述文本实体进行筛选,得到目标实体,并在所述待识别病例文本中,对所述目标实体进行关系抽取,得到实体关系组;将文本实体的实体类型与实体含义进行匹配,若文本实体的实体类型与实体含义相匹配,则将该文本实体确定为目标实体,通过在待识别病例文本中,对目标实体进行关系抽取,能有效地获取到与目标实体相关联的词,并将获取到的相关联的词与对应目标实体进行组合,得到该实体关系组;
根据所述实体关系组对所述待识别病例文本进行信息抽取,得到结构化信息,并对所述结构化信息进行属性标注,得到所述病例结构化文本;其中,获取各实体关系组在待识别病例文本中对应的文本信息,得到结构化信息,该步骤中,通过对结构化信息进行属性标注,能有效地标记结构化信息中的异常信息。
进一步地,对所述结构化信息进行属性标注,得到所述病例结构化文本,包括:
分别获取所述实体关系组中各文本实体的属性标签,并分别查询各属性标签对应的属性值范围;
根据所述属性值范围和所述实体关系组中各文本实体的实体属性值,确定属性标注信息,并根据所述属性标注信息对所述结构化信息进行信息标注,得到所述病例结构化文本。
步骤S30,对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
其中,通过对病例结构化文本进行逻辑校验,以确保从待识别病例文本中提取的信息满足医疗标准和临床实践的要求。
可选的,对所述病例结构化文本进行逻辑校验,包括:
获取所述病例结构化文本中的入院日期和出院日期,并根据所述入院日期和所述出院日期对所述病例结构化文本进行日期校验,得到日期校验结果;其中,对病例结构化文本进行日期合法性检查,校验入院日期和出院日期是否合法,日期应该在逻辑上合理,例如,入院日期不能晚于出院日期。
获取所述病例结构化文本中的主要诊断信息和次要诊断信息,并根据所述主要诊断信息和所述次要诊断信息对所述病例结构化文本进行诊断一致性校验,得到诊断校验结果;其中,对病例结构化文本进行诊断一致性检查,校验主要诊断和次要诊断之间的一致性。主要诊断通常应该更严重或更紧急,与治疗方案相符。
获取所述病例结构化文本中的治疗计划,并根据所述主要诊断信息和所述治疗计划对所述病例结构化文本进行治疗验证,得到治疗验证结果;其中,对病例结构化文本进行治疗计划验证,确保提取的治疗计划与诊断一致,并符合医疗标准。例如,如果主要诊断是急性心肌梗塞,治疗计划应包括相关的冠状动脉疏通手术。
将所述病例结构化文本中的用户信息和所述待识别病例文本中的用户信息进行信息校验,得到用户校验结果;其中,对病例结构化文本进行年龄和性别验证,校验患者的年龄和性别是否与文本中提到的信息一致。某些治疗方案可能会因年龄和性别而有所不同。
步骤S40,根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
本实施例中,通过模型微调样本对预训练后的大模型进行对齐微调,提高了大模型对待识别病例文本结构化的准确性,基于结构提示词,能有效地对待识别病例文本进行优化,能对大模型提供更明确的结构化指导,以引导大模型生成对应特定类型的结构化文本,防止了非预期输出的生成,提高了文本结构化的准确率,通过对病例结构化文本进行逻辑校验,并根据逻辑校验结果对病例结构化文本进行文本矫正,进一步提高了病例结构化文本的准确性。
实施例二
请参阅图2,是本发明第二实施例提供的基于大模型的文本结构化方法的流程图,该实施例用于对第一实施例中的步骤S30作进一步细化,包括步骤:
步骤S31,获取所述病例结构化文本中的用药信息,并根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果;
其中,对病例结构化文本进行药物相互作用检查,如果文本中包含了用药信息,进行药物相互作用检查以确保治疗计划中的药物组合是安全的。
可选的,根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果,包括:
分别将各用药药物进行组合,得到药物组,并将各药物组与药物黑名单进行匹配,得到黑名单匹配结果;其中,该药物黑名单可以根据需求进行设置,若药物组存在药物黑名单中,则判定该药物组内的药物存在药性异常;
分别查询各药物组的组合药性,并获取所述主要诊断信息对应的药性危害列表;
将各药物组的组合药性与所述药性危害列表进行匹配,得到药性匹配结果;其中,用药校验结果包括黑名单匹配结果和药性匹配结果,若组合药性与药性危害列表相匹配,则判定该组合药性对应的药物组与主要诊断之间存在错误。
步骤S32,获取所述待识别病例文本中的实验检测信息,并根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果;
其中,对病例结构化文本进行实验室数据一致性检查,如果入院记录包含实验室数据(例如,血压、心率等),校验上述实验室数据是否与诊断和治疗计划一致。
可选的,根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果,包括:
分别查询所述主要诊断信息和所述治疗计划对应的检测值信息,得到诊断检测值信息和治疗检测值信息;其中,该诊断检测值信息和治疗检测值信息用于分别表示主要诊断信息和治疗计划对应的标准的检测值范围;
分别将所述诊断检测值信息、所述治疗检测值信息与所述实验检测信息进行检测值匹配,得到所述实验检测检验结果;其中,通过分别将诊断检测值信息、治疗检测值信息与实验检测信息进行检测值匹配,以检测该诊断检测值信息、治疗检测值信息与实验检测信息之间的数据是否一致。
本实施例中,通过用药信息中的用药药物对病例结构化文本进行用药校验,以检测病例结构化文本中药物组合是否安全,通过实验检测信息、主要诊断信息和治疗计划对病例结构化文本进行实验检测校验,以检测病例结构化文本中的检测值数据是否一致。
实施例三
请参阅图3,是本发明第三实施例提供的基于大模型的文本结构化系统100的结构示意图,包括:
对齐调整策略模块10,用于获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调。
多提示词模块11,用于获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本。
可选的,多提示词模块11还用于:根据对齐微调后的所述大模型对所述待识别病例文本进行实体识别,得到文本实体,并查询所述结构提示词对应的实体含义;
根据所述实体含义对所述文本实体进行筛选,得到目标实体,并在所述待识别病例文本中,对所述目标实体进行关系抽取,得到实体关系组;
根据所述实体关系组对所述待识别病例文本进行信息抽取,得到结构化信息,并对所述结构化信息进行属性标注,得到所述病例结构化文本。
进一步地,多提示词模块11还用于:分别获取所述实体关系组中各文本实体的属性标签,并分别查询各属性标签对应的属性值范围;
根据所述属性值范围和所述实体关系组中各文本实体的实体属性值,确定属性标注信息,并根据所述属性标注信息对所述结构化信息进行信息标注,得到所述病例结构化文本。
业务逻辑校验模块12,用于对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
可选的,业务逻辑校验模块12还用于:获取所述病例结构化文本中的入院日期和出院日期,并根据所述入院日期和所述出院日期对所述病例结构化文本进行日期校验,得到日期校验结果;
获取所述病例结构化文本中的主要诊断信息和次要诊断信息,并根据所述主要诊断信息和所述次要诊断信息对所述病例结构化文本进行诊断一致性校验,得到诊断校验结果;
获取所述病例结构化文本中的治疗计划,并根据所述主要诊断信息和所述治疗计划对所述病例结构化文本进行治疗验证,得到治疗验证结果;
将所述病例结构化文本中的用户信息和所述待识别病例文本中的用户信息进行信息校验,得到用户校验结果。
进一步地,业务逻辑校验模块12还用于:获取所述病例结构化文本中的用药信息,并根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果;
获取所述待识别病例文本中的实验检测信息,并根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果。
更进一步地,业务逻辑校验模块12还用于:分别将各用药药物进行组合,得到药物组,并将各药物组与药物黑名单进行匹配,得到黑名单匹配结果;
分别查询各药物组的组合药性,并获取所述主要诊断信息对应的药性危害列表;
将各药物组的组合药性与所述药性危害列表进行匹配,得到药性匹配结果;
其中,所述用药校验结果包括所述黑名单匹配结果和所述药性匹配结果。
优选的,业务逻辑校验模块12还用于:分别查询所述主要诊断信息和所述治疗计划对应的检测值信息,得到诊断检测值信息和治疗检测值信息;
分别将所述诊断检测值信息、所述治疗检测值信息与所述实验检测信息进行检测值匹配,得到所述实验检测检验结果。
可选的,本实施例还包括反馈循环模块,反馈循环模块主要通过以下几种方式实现反馈循环识别入院记录:
收集反馈:与医疗专家、医疗记录审核人员或系统用户建立渠道,收集反馈和意见。可以通过定期会议、在线反馈表格、邮件或专门的反馈系统来实现。
标记和验证:医疗专家可以标记模型输出的示例入院记录,指出模型提取的信息中的错误或不准确之处。标记的示例可以用于模型性能评估和改进。
错误分析:对收集到的反馈进行分析,识别常见的错误模式和问题。有助于理解模型的弱点,并确定改进的方向。
本实施例,通过模型微调样本对预训练后的大模型进行对齐微调,提高了大模型对待识别病例文本结构化的准确性,基于结构提示词,能有效地对待识别病例文本进行优化,能对大模型提供更明确的结构化指导,以引导大模型生成对应特定类型的结构化文本,防止了非预期输出的生成,提高了文本结构化的准确率,通过对病例结构化文本进行逻辑校验,并根据逻辑校验结果对病例结构化文本进行文本矫正,进一步提高了病例结构化文本的准确性。
实施例四
图4是本申请第四实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如基于大模型的文本结构化方法的程序。处理器20执行所述计算机程序22时实现上述各个基于大模型的文本结构化方法各实施例中的步骤。
示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于大模型的文本结构化方法,其特征在于,所述方法包括:
获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调;
获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;
对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
2.如权利要求1所述的基于大模型的文本结构化方法,其特征在于,将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本,包括:
根据对齐微调后的所述大模型对所述待识别病例文本进行实体识别,得到文本实体,并查询所述结构提示词对应的实体含义;
根据所述实体含义对所述文本实体进行筛选,得到目标实体,并在所述待识别病例文本中,对所述目标实体进行关系抽取,得到实体关系组;
根据所述实体关系组对所述待识别病例文本进行信息抽取,得到结构化信息,并对所述结构化信息进行属性标注,得到所述病例结构化文本。
3.如权利要求2所述的基于大模型的文本结构化方法,其特征在于,对所述结构化信息进行属性标注,得到所述病例结构化文本,包括:
分别获取所述实体关系组中各文本实体的属性标签,并分别查询各属性标签对应的属性值范围;
根据所述属性值范围和所述实体关系组中各文本实体的实体属性值,确定属性标注信息,并根据所述属性标注信息对所述结构化信息进行信息标注,得到所述病例结构化文本。
4.如权利要求1所述的基于大模型的文本结构化方法,其特征在于,对所述病例结构化文本进行逻辑校验,包括:
获取所述病例结构化文本中的入院日期和出院日期,并根据所述入院日期和所述出院日期对所述病例结构化文本进行日期校验,得到日期校验结果;
获取所述病例结构化文本中的主要诊断信息和次要诊断信息,并根据所述主要诊断信息和所述次要诊断信息对所述病例结构化文本进行诊断一致性校验,得到诊断校验结果;
获取所述病例结构化文本中的治疗计划,并根据所述主要诊断信息和所述治疗计划对所述病例结构化文本进行治疗验证,得到治疗验证结果;
将所述病例结构化文本中的用户信息和所述待识别病例文本中的用户信息进行信息校验,得到用户校验结果。
5.如权利要求4所述的基于大模型的文本结构化方法,其特征在于,对所述病例结构化文本进行逻辑校验,还包括:
获取所述病例结构化文本中的用药信息,并根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果;
获取所述待识别病例文本中的实验检测信息,并根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果。
6.如权利要求5所述的基于大模型的文本结构化方法,其特征在于,根据所述用药信息中的用药药物对所述病例结构化文本进行用药校验,得到用药校验结果,包括:
分别将各用药药物进行组合,得到药物组,并将各药物组与药物黑名单进行匹配,得到黑名单匹配结果;
分别查询各药物组的组合药性,并获取所述主要诊断信息对应的药性危害列表;
将各药物组的组合药性与所述药性危害列表进行匹配,得到药性匹配结果;
其中,所述用药校验结果包括所述黑名单匹配结果和所述药性匹配结果。
7.如权利要求5所述的基于大模型的文本结构化方法,其特征在于,根据所述实验检测信息、所述主要诊断信息和所述治疗计划对所述病例结构化文本进行实验检测校验,得到实验检测检验结果,包括:
分别查询所述主要诊断信息和所述治疗计划对应的检测值信息,得到诊断检测值信息和治疗检测值信息;
分别将所述诊断检测值信息、所述治疗检测值信息与所述实验检测信息进行检测值匹配,得到所述实验检测检验结果。
8.一种基于大模型的文本结构化系统,其特征在于,所述系统包括:
对齐调整策略模块,用于获取模型微调样本,并根据所述模型微调样本对预训练后的大模型进行对齐微调;
多提示词模块,用于获取待识别病例文本和针对所述待识别病例文本的结构提示词,并将所述待识别病例文本和所述结构提示词输入对齐微调后的所述大模型进行结构化处理,得到病例结构化文本;
业务逻辑校验模块,用于对所述病例结构化文本进行逻辑校验,并根据逻辑校验结果对所述病例结构化文本进行文本矫正;
根据文本矫正后的所述病例结构化文本,生成所述待识别病例文本的文本结构化结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262884.1A CN118133784A (zh) | 2024-03-07 | 2024-03-07 | 基于大模型的文本结构化方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410262884.1A CN118133784A (zh) | 2024-03-07 | 2024-03-07 | 基于大模型的文本结构化方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118133784A true CN118133784A (zh) | 2024-06-04 |
Family
ID=91243964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410262884.1A Pending CN118133784A (zh) | 2024-03-07 | 2024-03-07 | 基于大模型的文本结构化方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118133784A (zh) |
-
2024
- 2024-03-07 CN CN202410262884.1A patent/CN118133784A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200126667A1 (en) | Automated clinical indicator recognition with natural language processing | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
US20150066537A1 (en) | Automated clinical indicator recognition with natural language processing | |
US20130311201A1 (en) | Medical record generation and processing | |
US20160210426A1 (en) | Method of classifying medical documents | |
EP3928322A1 (en) | Automated generation of structured patient data record | |
CN110704631A (zh) | 医疗知识图谱的构建方法及装置 | |
Pearce et al. | Coding and classifying GP data: the POLAR project | |
CN111081329A (zh) | 临床数据自动录入方法及装置、电子设备、存储介质 | |
CN116992839B (zh) | 病案首页自动生成方法、装置及设备 | |
CN114912887A (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
CN112560400B (zh) | 医学数据的处理方法、装置及存储介质 | |
US20060150086A1 (en) | Computerized system and method for rendering reports in a healthcare environment | |
CN111724873B (zh) | 一种数据处理方法及装置 | |
Nair et al. | Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients | |
CN118133784A (zh) | 基于大模型的文本结构化方法、系统、终端及存储介质 | |
Kang et al. | Mapping Korean National Health Insurance reimbursement claim codes for therapeutic and surgical procedures to SNOMED-CT to facilitate data reuse | |
Harkema et al. | Mining and modelling temporal clinical data | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history | |
CN114443852A (zh) | 病历质控方法、系统及相应设备和存储介质 | |
CN117493642B (zh) | 相似电子病历检索方法、装置、终端及存储介质 | |
KR100781210B1 (ko) | 의료정보 표준코드 검출방법 및 장치 | |
Richesson et al. | Patient registries for clinical research | |
CN111209742A (zh) | 诊断依据数据的确定方法、装置、可读介质及电子设备 | |
CN111241834A (zh) | 一种医护质量评价获取方法、装置、介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |