CN117577350B - 医疗大语言模型的训练及推理的方法、装置、设备及介质 - Google Patents

医疗大语言模型的训练及推理的方法、装置、设备及介质 Download PDF

Info

Publication number
CN117577350B
CN117577350B CN202311548939.7A CN202311548939A CN117577350B CN 117577350 B CN117577350 B CN 117577350B CN 202311548939 A CN202311548939 A CN 202311548939A CN 117577350 B CN117577350 B CN 117577350B
Authority
CN
China
Prior art keywords
medical
text data
language model
llm
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311548939.7A
Other languages
English (en)
Other versions
CN117577350A (zh
Inventor
张程剀
刘泽恩
刘晓华
陈小梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyong Technology Co ltd
Original Assignee
Beijing Yiyong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyong Technology Co ltd filed Critical Beijing Yiyong Technology Co ltd
Priority to CN202311548939.7A priority Critical patent/CN117577350B/zh
Publication of CN117577350A publication Critical patent/CN117577350A/zh
Application granted granted Critical
Publication of CN117577350B publication Critical patent/CN117577350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了医疗大语言模型的训练及推理的方法、装置、设备及介质。该训练方法包括获取医疗文本数据;基于正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题;基于关键词对医学知识库进行索引以获得相关联医学知识,其中相关联医学知识根据关键词所属的主题被分类成相关联医学知识集合;对医疗文本数据与相关联医学知识集合进行聚类分析,以标识医疗文本数据和相关联医学知识集合的相关性;基于医疗文本数据和相关联医学知识集合的相关性,过滤相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合;以及基于经过滤的相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗LLM的参数。

Description

医疗大语言模型的训练及推理的方法、装置、设备及介质
技术领域
本发明涉及数据处理领域,更具体地,涉及基于医疗大语言模型(Large LanguageModel,LLM)的训练及推理的方法、装置、设备及介质。
背景技术
随着信息产业的发展,利用人工智能技术的智慧医疗越来越普及。
大语言模型是一种人工智能模型,旨在理解和生成人类语言。大语言模型通过在大量文本数据的基础上进行训练,可以执行广泛的任务,包括文本总结、推理等等。目前大语言模型涌现的能力是其他机器学习模型不具备的–例如,包括上下文、指令遵循和循序渐进的推理能力。因此,借助大语言模型可以对病理关键信息提炼和抽取以实现医疗逻辑推理,进而帮助医疗工作者更快地获取期望得到的医疗信息,从而使得医疗工作者快速和准确地进行诊断和治疗。
然而,常规的医学文本的内容之间的逻辑通常较为复杂。此外,在大数据环境下,医疗机构的各种类型的文本数据各不相同(例如,不同的医院可能使用不同的医疗文本模板,不同的医疗工作者的记录风格也各自迥异)。换句话说,由于海量的非结构化的医疗文本数据之间存在复杂的逻辑关系、格式和内容也各不相同,利用医疗文本数据来训练大语言模型可能无法准确地提炼和抽取到文本数据中关键的病理信息,进而导致经过医疗文本数据训练的大语言模型的输出精度较低,无法为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息。
因此,需要一种新的医疗大语言模型的训练及医疗逻辑推理的方法来解决上述技术问题。
发明内容
针对上述问题,本发明提供了一种医疗大语言模型LLM的训练及医疗逻辑推理的方法、装置、设备及介质,该方法通过确定与医疗文本数据相关联的医学知识,并且去除掉无关的医学知识,从而实现将检索到的医学知识作为医疗文本数据的一种提示,以增强医疗大语言模型的输入,使得医疗大语言模型可以准确地提炼和抽取到文本数据中关键的病理信息,从而提高医疗大语言模型的输出精度,为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息。
根据本发明的一个方面,提供了一种医疗大语言模型LLM的训练方法。所述医疗大语言模型LLM的训练方法方法包括获取与用户相关联的医疗文本数据;基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
根据本发明的一些实施例,对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性包括:利用分词器对所述医疗文本数据与所述一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合;以及对所述经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性。
根据本发明的一些实施例,基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合包括:基于所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性,过滤所述经token化的一个或多个相关联医学知识集合中与所述经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
根据本发明的一些实施例,基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数包括:基于经过滤的所述经token化的一个或多个相关联医学知识集合以及所述经token化的医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
根据本发明的一些实施例,所述预定医学规则包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理。基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词包括:基于以预定医学规则生成的正则表达式来从所述医疗文本数据中确定包含有具体主题的内容,以及基于所述包含有具体主题的内容确定所述医疗文本数据中的关键词。
根据本发明的一些实施例,所述医学知识库是基于医学知识构建的,其中所述医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个;以及所述医学知识库中的医学知识按照主题被分类。
根据本发明的一些实施例,所述方法还包括:对所述医疗文本数据进行词频分析以确定所述医疗文本数据中的词汇频率;以及基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词。
根据本发明的一些实施例,基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词包括:标识所述医疗文本数据中的具有高于阈值词汇频率的词汇;以及基于未包括在基于所述正则表达式提取的所述医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,更新所述医疗文本数据中的关键词。
根据本发明的一些实施例,获取与用户相关联的医疗文本数据包括:对与用户相关联的医疗文本数据进行数据清洗,以过滤所述医疗文本数据中的乱码以及特殊字符;获取经过滤的医疗文本数据。
根据本发明的一些实施例,获取与用户相关联的医疗文本数据包括:从多个数据源获取与同一用户相关联的医疗文本信息,其中从所述多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;以及将从所述多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
根据本发明的一些实施例,所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM,并且所述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。
根据本发明的一些实施例,所述聚类分析使用无监督学习聚类算法,利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。
根据本发明的另一方面,提供了一种基于医疗大语言模型LLM的医疗逻辑推理方法。所述基于医疗大语言模型LLM的医疗逻辑推理方法包括:获取与第一用户相关联的医疗文本数据;基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及使用如前述医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据处理以进行医疗逻辑推理。
根据本发明的另一方面,提供了一种医疗大语言模型LLM的训练装置。所述医疗大语言模型LLM的训练装置包括:数据获取单元,被配置为获取与用户相关联的医疗文本数据;关键词提取单元,被配置为基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;关联医学知识索引单元,被配置为基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;相关性标识单元,被配置为对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;数据过滤单元,被配置为基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及医疗大语言模型LLM训练单元,被配置为基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
根据本发明的一些实施例,所述相关性标识单元还被配置为:利用分词器对所述医疗文本数据与所述一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合;以及对所述经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性。
根据本发明的一些实施例,所述数据过滤单元还被配置为:基于所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性,过滤所述经token化的一个或多个相关联医学知识集合中与所述经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
根据本发明的一些实施例,所述医疗大语言模型LLM训练单元还被配置为:基于经过滤的所述经token化的一个或多个相关联医学知识集合以及所述经token化的医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
根据本发明的一些实施例,所述预定医学规则包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理。所述关键词提取单元还被配置为基于以预定医学规则生成的正则表达式来从所述医疗文本数据中确定包含有具体主题的内容,以及基于所述包含有具体主题的内容确定所述医疗文本数据中的关键词。
根据本发明的一些实施例,所述医学知识库是基于医学知识构建的,其中所述医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个;以及所述医学知识库中的医学知识按照主题被分类。
根据本发明的一些实施例,所述装置还包括关键词优化单元,被配置为:对所述医疗文本数据进行词频分析以确定所述医疗文本数据中的词汇频率;以及基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词。
根据本发明的一些实施例,所述关键词优化单元还被配置为:标识所述医疗文本数据中的具有高于阈值词汇频率的词汇;以及基于未包括在基于所述正则表达式提取的所述医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,更新所述医疗文本数据中的关键词。
根据本发明的一些实施例,所述数据获取单元还被配置为:对与用户相关联的医疗文本数据进行数据清洗,以过滤所述医疗文本数据中的乱码以及特殊字符;获取经过滤的医疗文本数据。
根据本发明的一些实施例,所述数据获取单元还被配置为:从多个数据源获取与同一用户相关联的医疗文本信息,其中从所述多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;以及将从所述多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
根据本发明的一些实施例,所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM,并且所述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。
根据本发明的一些实施例,所述聚类分析使用无监督学习聚类算法,利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。
根据本发明的另一方面,提供了一种基于医疗大语言模型LLM的医疗逻辑推理装置。所述基于医疗大语言模型LLM的医疗逻辑推理装置包括:数据获取单元,被配置为获取与第一用户相关联的医疗文本数据;关键词提取单元,被配置为基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;关联医学知识索引单元,被配置为基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;相关性标识单元,被配置为对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;数据过滤单元,被配置为基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及医疗逻辑推理单元,被配置为使用如前述的医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据处理以进行医疗逻辑推理。
根据本发明的另一方面,提供了一种电子设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述处理器执行时,实现前述的医疗大语言模型LLM的训练方法或者前述的基于医疗大语言模型LLM的医疗逻辑推理方法。
根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,存储有计算机可读指令,其中,当所述计算机可读指令在由处理器执行时,实现前述的医疗大语言模型LLM的训练方法或者前述的基于医疗大语言模型LLM的医疗逻辑推理方法。
因此,根据本发明实施例的医疗大语言模型的训练及推理的方法、装置、设备及介质,可以提取医疗文本数据中的关键词并对关键词的分类,并且可以在医学知识库中检索与关键词的主题相对于的相关联医学知识集合;然后通过对医疗文本数据与联医学知识集合进行聚类分析,来确定与医疗文本数据相关性高的相关联的医学知识集合并且过滤掉相关性低的医学知识集合;最后利用经过滤的医学知识集合作为医疗文本数据的一种提示,可以增强医疗大语言模型的输入,使得医疗大语言模型可以准确地提炼和抽取到文本数据中关键的病理信息,从而提高医疗大语言模型的输出精度,为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一些实施例的医疗大语言模型的架构图;
图2示出了根据本发明的一些实施例的改进的医疗大语言模型的架构图;
图3示出了根据本发明的一些实施例的医疗大语言模型训练方法的流程图;
图4示出了根据本发明的一些实施例的医疗大语言模型医疗逻辑推理方法的流程图;
图5示出了根据本发明的一些实施例的医疗大语言模型训练装置的框图;
图6示出了根据本发明的一些实施例的医疗大语言模型医疗逻辑推理装置的框图;
图7示出了根据本发明的一些实施例的电子设备的结构图。
具体实施方式
为了使得本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本发明实施例的以下说明清楚且简明,本发明省略了部分已知功能和已知部件的详细说明。
本发明中使用了流程图用来说明根据本发明的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
在本发明的说明书和附图中,根据实施例,元素以单数或复数的形式来描述。然而,单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本发明限制于此。因此,单数形式可以包括复数形式,并且复数形式也可以包括单数形式,除非上下文另有明确说明。
下面将参照附图对本发明提供的医疗大语言模型的训练及推理的方法、装置、设备及介质进行详细的说明。
第一实施例
图1示出了根据本发明的一些实施例的医疗大语言模型的架构图。如图1所示,可以以用户(例如,可以是患者)的医疗文本数据作为训练数据来训练医疗大语言模型,也可以将用户的医疗文本数据输入医疗大语言模型来获得期望的输出结果。大语言模型是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、推理等等。目前大语言模型的涌现的能力是其他机器学习模型不具备的-包括例如上下文、指令遵循和循序渐进的推理能力,是用于关键信息提炼和抽取的理想工具。然而,由于病理关键信息提炼和抽取较为复杂,需要足够的专业知识加上缜密的医学推理,因此利用医疗文本数据来训练大语言模型可能使得大语言模型无法准确地提炼和抽取到文本数据中关键的病理信息,进而导致经过医疗文本数据训练的大语言模型的输出精度较低,无法为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息,暂时还不能满足医学应用场景需求
因此,在图1所示的医疗大语言模型的架构的基础上,本发明的图2和图3分别示出了根据本发明的一些实施例的改进的医疗大语言模型的架构图和流程图。下面将结合图2和图3来详细描述本发明的改进的医疗大语言模型。
首先,在步骤S302,可以获取与用户相关联的医疗文本数据。
根据本发明的一个示例,与用户相关联的医疗文本数据可以是描述用户就诊、疾病诊断、检查、病历等情况的文本数据。在一个示例中,与用户相关联的医疗文本数据可以是用户的病历、处方、检查报告等。例如,一个医疗文本数据可以包括以下内容:
“患者于XX日XX医院行右乳癌改良根治术;术后病理示:浸润性癌II级,混合性癌(浸润性小叶癌及浸润性导管癌),肿物大小3*2x2cm,腋下淋巴结未见癌:0/6,免疫组化:ER100%+PR 10%+her-2 2+,ki-67 30%+。今为求进一步化疗以“右乳癌”收入我科”。
根据本发明的一个示例,用户的数据是经过脱敏处理的,以保证用户的数据安全。在一个示例中,用户的医疗文本数据可以例如是基于患者的身份信息通过患者主索引(EMPI)来获取的。EMPI是指为同一个患者提供不同ID之间的相互索引。根据用户的身份信息,使用EMPI来获取用户相关的医疗数据,可以保证患者隐私的安全性。
根据本发明的一个示例,与用户相关联的医疗文本数据可以是一个集合,其中可以包括一个或多个医疗文本数据,每个文本数据可以包含非结构化的文本信息。
在一个示例中,可以存在多个与用户相关联的医疗文本数据用于训练医疗大语言模型。多个与用户相关联的医疗文本数据可以包括与多个用户相关联的医疗文本数据或者与同一用户相关联的多个医疗文本数据,或者包括两者。
根据本发明的一个实施例,为了保证数据的准确性以及多样性,可以从多个数据源获取与同一用户相关联的医疗文本信息,其中从多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;并且可以将从多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
根据本发明的一个示例,医疗文本数据可以是经过数据清洗和NLP预处理之后的医疗文本数据,以避免未经处理的医疗文本数据中的不期望的信息对训练过程产生干扰。
根据本发明的一个实施例,还可以对与用户相关联的医疗文本数据进行数据清洗,以过滤医疗文本数据中的乱码以及特殊字符;然后获取经过滤的医疗文本数据以输入大语言模型。
然后,在步骤S304,可以基于以预定医学规则生成的正则表达式来提取医疗文本数据中的关键词,其中关键词可以被分类为一个或多个主题。预定医学规则可以包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理。根据本发明的一个实施例,可以基于以预定医学规则生成的正则表达式来从医疗文本数据中确定包含有具体主题的内容,并且可以基于所述包含有具体主题的内容确定医疗文本数据中的关键词。其中,基于预定医学规则来确定正则表达式,可以更准确地提取医疗文本数据中的关键词。如图2所示,可以从与用户相关联的医疗文本数据中提取关键词A至关键词X。
在一个示例中,用于对关键词进行分类的主题可以例如是基于医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个来进行分类的。在一个示例中,关键词的主题的类别例如可以是乳腺癌类、肝癌类。关键词的主题也可以以其他分类方式进行分类,或者可以按照某一大类下的细分类别进行分类(例如根据某一类型的癌症的亚型,等等)。在一个示例中,一个关键词可以根据分类方式的不同属于不同类别,以针对不同的训练和/或不同分类目的。
根据本发明的一个实施例,为了进一步准确地提取关键词,还可以使用例如TF-IDF(term frequency–inverse document frequency)对医疗文本数据进行词频分析以确定医疗文本数据中的词汇频率。然后,可以基于医疗文本数据中的词汇频率优化医疗文本数据中的关键词。具体地,例如可以标识医疗文本数据中的具有高于阈值词汇频率的词汇,然后基于未包括在基于正则表达式提取的医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,来更新医疗文本数据中的关键词。在一个示例中,阈值词汇频率可以基于期望的准确度进行修正。
在一个示例中,在存在多个与用户相关联的医疗文本数据的情况下,可以先在步骤S302处获取一个医疗文本数据,并在步骤S304提取该医疗文本数据中的关键词,然后重复地执行步骤S302和S304;或者,可以在步骤S302处获取所有医疗文本数据,然后在步骤S304提取所有医疗文本数据中的关键词;或者,可以步骤S302和步骤S304可能存在并行的情况,例如步骤S304在提取已经由步骤S302获取的第一医疗文本数据中的关键词的同时,步骤S302可以同时获取第二医疗文本数据以供后续使用。因此,步骤S302和S304执行的顺序不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理这些步骤。
类似地,后续的步骤S306、S308、S310以及S312中所实现的方法也可以如步骤S302和S304地执行方式类似,它们执行的顺序不一定按照顺序来精确的进行。相反,可以按照倒序或并行处理这些步骤。
在获取医疗文本数据中的关键词并将关键词分类为一个或多个主题后,在步骤S306,可以基于所确定的医疗文本数据中的关键词对医学知识库进行索引以获得医学知识库中的相关联医学知识,其中医学知识库中的相关联医学知识可以根据关键词所属的一个或多个主题被分类成与该一个或多个主题相对应的一个或多个相关联医学知识集合。如图2所示,基于医疗文本数据中的关键词A至关键词X,可以从医学知识库中提取到多个医学知识集合(A相关主题医学知识至X相关主题医学知识)。
根据本发明的一个实施例,医学知识库是基于医学知识构建的,其中医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个;以及医学知识库中的医学知识按照主题被分类。根据本发明的一个示例,医学知识库的主题的分类与医疗文本数据的关键词的分类对应。如前所述,主题的类别例如可以是乳腺癌类、肝癌类。主题也可以以其他分类方式进行分类,或者可以按照某一大类下的细分类别进行分类(例如根据某一类型的癌症的亚型,等等)。
在一个示例中,还可以对用于构建医学知识库的医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息进行数据清洗以及预处理。
在获得医学知识库中与医疗文本数据的关键词相对应的一个或多个相关联医学知识集合之后,在步骤S308,可以对医疗文本数据与一个或多个相关联医学知识集合进行聚类分析,以标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性。
根据本发明的一个实施例,为了对关键词和医学知识集合进行更准确地聚类分析,可以利用分词器对医疗文本数据与一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合。然后,可以对经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的相关性。通过分词器对医疗文本数据和一个或多个相关联医学知识集合进行token化,可以生成医疗文本数据和一个或多个相关联医学知识集合的最小语义单元(即,词元),保证各个词元拥有相对完整和独立的语义,从而可以更准确地将这些词元进行聚类分析以标识标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性。其中,分词器可以是使用预先粗筛出的医疗文本数据进行训练而生成的专用于医学场景的定制化分词器。
根据本发明的一个实施例,聚类分析可以使用无监督学习的聚类算法,利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。
在标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性之后,在步骤S310,可以基于医疗文本数据和一个或多个相关联医学知识集合的相关性,过滤该一个或多个相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合。
根据本发明的一个实施例,在使用分词器对医疗文本数据与一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的情况下,还可以基于经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的相关性,过滤经token化的一个或多个相关联医学知识集合中与经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
在过滤该一个或多个相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合之后,在步骤S312,可以基于经过滤的一个或多个相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗大语言模型LLM的参数。
根据本发明的一个实施例,医疗大语言模型LLM可以用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。通过对病理关键信息提炼和抽取,可以建立高质量可用数据库。通过使用医疗知识库内容增强医疗文本信息全面度,可以使用医疗语言大模型LLM更准确地来实现医疗领域实体识别(例如临床发现(症状、体征等)、检验、检查等)以及逻辑分析,完成对于非结构化文本的结构化输出,同时针对医生/医院需求(诊疗规范化检验,以及根据临床发现,检验、检查等进行病理推断以及辅助决策等),实现高质量的数据采集、自动化数据质控以及深度的医疗数据治理。
根据本发明的一个实施例,在使用分词器对医疗文本数据与一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的情况下,还可以基于经过滤的经token化的一个或多个相关联医学知识集合以及经token化的医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
在一个示例中,如前所述,与用户相关联的医疗文本数据可以例如包括““患者于XX日XX医院行右乳癌改良根治术;术后病理示:浸润性癌II级,混合性癌(浸润性小叶癌及浸润性导管癌),肿物大小3*2x2cm,腋下淋巴结未见癌:0/6,免疫组化:ER100%+PR 10%+her-2 2+,ki-67 30%+。今为求进一步化疗以“右乳癌”收入我科”。
通过对上述医疗文本数据进行关键词提取和分类,可以在医学知识库中寻找到如下的医学知识集合(已经经过过滤):
集合1:“乳腺癌发生在乳腺导管衬细胞(上皮)(85%)或乳腺腺体组织的小叶(15%)里。最开始时,癌细胞生长局限于导管或小叶里(“原位”),通常不会出现症状,扩散(转移)的可能性极小。随着时间的推移,这些原位(0期)癌细胞可能会逐渐发展并侵袭周围的乳腺组织(侵袭性乳腺癌),然后扩散到附近的淋巴结(特定区域性转移)或体内的其他器官(远处转移)。如果一个女人死于乳腺癌,那是因为出现了广泛的转移。乳腺癌的治疗可能非常有效,尤其是在早发现这种疾病的时候。乳腺癌的治疗通常包括手术切除、放射治疗和药物治疗(激素治疗、化疗和/或靶向生物治疗)相结合,以治疗从乳腺肿瘤通过血液扩散的微小癌症。这种治疗可以防止恶性肿瘤的生长和扩散,从而挽救生命”。
集合2:“乳腺癌免疫组化主要包含四个指标:ER、PR、HER2、Ki67。ER、PR关乎患者是否适于接受内分泌治疗;HER2关乎患者是否适于接受靶向治疗;Ki67则可以用来衡量肿瘤增长速度”。
集合3:“指标ER代表雌激素受体,(-)表示为阴性;(+,%)表示阳性,百分比越高,表示患者的雌激素受体水平越高,患者进行内分泌治疗的效果越好。PR代表孕激素受体,(-)表示为阴性;(+,%)表示阳性,百分比越高,表示患者的孕激素受体水平越高,患者进行内分泌治疗的效果越好。如果ER和(或)PR阳性,则该乳腺癌细胞的生长和增殖仍然受内分泌的调控,称为激素依赖性乳腺癌;如果ER和(或)PR阴性,则该乳腺癌细胞的生长和增殖不再受内分泌的调控,称为非激素依赖性乳腺癌。两者同时阳性预后最好,如一个阳性一个阴性中,雌激素阳性要好于孕激素阳性。两者都是阴性预后不好。阳性者可以术后或术前使用内分泌治疗”。
基于医疗文本数据中的关键词以及经过滤的相关联的医学知识集合,医疗大语言模型例如可以判断患者是否存在{乳腺癌病理原发灶大小变化/乳腺病灶关联},并且提取与{乳腺癌病理原发灶大小变化/乳腺病灶关联}的证据。
附加地,根据本发明的一个实施例,医疗大语言模型LLM可以是先基于无标注的医学文本训练的大语言模型LLM,使得这样的医疗大语言模型LLM可以具备基本的医学知识。然后,可以基于经过滤的一个或多个相关联医学知识集合以及医疗文本数据对该医疗大语言模型进行进一步训练以优化该医疗大语言模型的参数。
附加地或替代地,在基于经过滤的一个或多个相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗大语言模型LLM的参数之后,还可以将更新的医疗大语言模型用于对医疗文本数据进行医疗逻辑推理。
如图4所示,为了进行关于第一用户进行医疗逻辑推理,可以在步骤S402取与第一用户相关联的医疗文本数据。然后在步骤S404基于以预定医学规则生成的正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题。在步骤S406,基于所确定的医疗文本数据中的关键词对医学知识库进行索引以获得医学知识库中的相关联医学知识,其中医学知识库中的相关联医学知识根据关键词所属的一个或多个主题被分类成与一个或多个主题相对应的一个或多个相关联医学知识集合。在步骤S408,对医疗文本数据与一个或多个相关联医学知识集合进行聚类分析,以标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性。在步骤S410,基于医疗文本数据和一个或多个相关联医学知识集合的相关性,过滤一个或多个相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合。最后,在步骤S412,使用如前所述的医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的一个或多个相关联医学知识集合以及医疗文本数据处理以进行关于第一用户的医疗逻辑推理。
以上结合图2至图4细描述了医疗大语言模型LLM训练和逻辑推理方法,可以提取医疗文本数据中的关键词并对关键词的分类,并且可以在医学知识库中检索与关键词的主题相对于的相关联医学知识集合;然后通过对医疗文本数据与联医学知识集合进行聚类分析,来确定与医疗文本数据相关性高的相关联的医学知识集合并且过滤掉相关性低的医学知识集合;最后利用经过滤的医学知识集合作为医疗文本数据的一种提示,可以增强医疗大语言模型的输入,使得医疗大语言模型可以准确地提炼和抽取到文本数据中关键的病理信息,从而提高医疗大语言模型的输出精度,为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息。
第二实施例
本发明除了提供上述医疗大语言模型训练和逻辑推理方法,还提供了医疗大语言模型训练和逻辑推理装置,接下来将结合图5和图6对此进行详细描述。
图5示出了根据本发明的一些实施例的医疗大语言模型训练装置的框图。如图5所示,本发明所述的医疗大语言模型训练装置500可以包括数据获取单元510、关键词提取单元520、关联医学知识索引单元530、相关性标识单元540、数据过滤单元550以及医疗大语言模型LLM训练单元560。
根据本发明的一些实施例,数据获取单元510可以被配置为获取与用户相关联的医疗文本数据。
关键词提取单元520可以被配置为基于以预定医学规则生成的正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题。
关联医学知识索引单元530可以被配置为基于所确定的医疗文本数据中的关键词对医学知识库进行索引以获得医学知识库中的相关联医学知识,其中医学知识库中的相关联医学知识根据关键词所属的一个或多个主题被分类成与一个或多个主题相对应的一个或多个相关联医学知识集合。
相关性标识单元540可以被配置为对医疗文本数据与一个或多个相关联医学知识集合进行聚类分析,以标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性。
数据过滤单元550可以被配置为基于医疗文本数据和一个或多个相关联医学知识集合的相关性,过滤一个或多个相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合。
医疗大语言模型LLM训练单元560可以被配置为基于经过滤的一个或多个相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗大语言模型LLM的参数。
根据本发明的一些实施例,相关性标识单元540还可以被配置利用分词器对医疗文本数据与一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合;以及对经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的相关性。
根据本发明的一些实施例,数据过滤单元550还可以被配置为基于经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合的相关性,过滤经token化的一个或多个相关联医学知识集合中与经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
根据本发明的一些实施例,医疗大语言模型LLM训练单元560还可以被配置为基于经过滤的经token化的一个或多个相关联医学知识集合以及经token化的医疗文本数据训练医疗大语言模型LLM以更新医疗大语言模型LLM的参数。
根据本发明的一些实施例,预定医学规则可以包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理。关键词提取单元520还可以被配置为基于以预定医学规则生成的正则表达式来从医疗文本数据中确定包含有具体主题的内容,以及基于包含有具体主题的内容确定医疗文本数据中的关键词。
根据本发明的一些实施例,医学知识库可以是基于医学知识构建的,其中医学知识可以包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个;以及医学知识库中的医学知识可以按照主题被分类。
根据本发明的一些实施例,医疗大语言模型LLM的训练装置500还包括关键词优化单元,其可以被配置为对医疗文本数据进行词频分析以确定医疗文本数据中的词汇频率;以及基于医疗文本数据中的词汇频率优化医疗文本数据中的关键词。
根据本发明的一些实施例,关键词优化单元还可以被配置为标识医疗文本数据中的具有高于阈值词汇频率的词汇;以及基于未包括在基于正则表达式提取的医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,更新医疗文本数据中的关键词。
根据本发明的一些实施例,数据获取单元510还可以被配置为对与用户相关联的医疗文本数据进行数据清洗,以过滤医疗文本数据中的乱码以及特殊字符;获取经过滤的医疗文本数据。
根据本发明的一些实施例,数据获取单元510还可以被配置为从多个数据源获取与同一用户相关联的医疗文本信息,其中从多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;以及将从多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
根据本发明的一些实施例,医疗大语言模型LLM可以是基于无标注的医学文本训练的大语言模型LLM,并且医疗大语言模型LLM可以用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。
根据本发明的一些实施例,聚类分析可以使用无监督学习聚类算法,利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。
图6示出了根据本发明的一些实施例的医疗大语言模型的医疗逻辑推理装置的框图。如图6所示,本发明所述的医疗大语言模型医疗逻辑推理装置600可以包括数据获取单元610、关键词提取单元620、关联医学知识索引单元630、相关性标识单元640、数据过滤单元650以及医疗逻辑推理单元660。
根据本发明的一些实施例,数据获取单元610可以被配置为获取与用户相关联的医疗文本数据。
关键词提取单元620可以被配置为基于以预定医学规则生成的正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题。
关联医学知识索引单元630可以被配置为基于所确定的医疗文本数据中的关键词对医学知识库进行索引以获得医学知识库中的相关联医学知识,其中医学知识库中的相关联医学知识根据关键词所属的一个或多个主题被分类成与一个或多个主题相对应的一个或多个相关联医学知识集合。
相关性标识单元640可以被配置为对医疗文本数据与一个或多个相关联医学知识集合进行聚类分析,以标识医疗文本数据和一个或多个类别的相关联医学知识集合的相关性。
数据过滤单元650可以被配置为基于医疗文本数据和一个或多个相关联医学知识集合的相关性,过滤一个或多个相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合。
医疗逻辑推理单元660,被配置为使用如前所述的医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据处理以进行医疗逻辑推理。
关于图5至图6所示的医疗大语言模型训练和逻辑推理装置的一些具体细节还可以参考图2至图4中所示的医疗大语言模型训练和逻辑推理方法的内容。
图7示出了根据本发明的一些实施例的电子设备的结构图。
参见图7,电子设备700可以包括处理器701和存储器702。处理器701和存储器702都可以通过总线703相连。电子设备700可以是任何类型的便携式设备(如智能相机、智能手机、平板电脑等)也可以是任何类型的固定设备(如台式计算机、服务器等)。
处理器701可以根据存储在存储器702中的程序执行各种动作和处理。具体地,处理器701可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
存储器702存储有计算机可执行指令,在计算机可执行指令被处理器701执行时实现上述医疗大语言模型训练和逻辑推理方法。存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
此外,根据本发明的医疗大语言模型训练和逻辑推理方法可被记录在计算机可读记录介质中。具体地,根据本发明,可提供一种存储有计算机可执行指令的计算机可读记录介质,当所述计算机可执行指令被处理器执行时,可促使处理器执行如上所述的医疗大语言模型训练和逻辑推理方法。
需要说明的是,附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备,或其某些组合中实施。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (24)

1.一种医疗大语言模型LLM的训练方法,包括:
获取与用户相关联的医疗文本数据;
基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题,其中所述预定医学规则包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理;
对所述医疗文本数据进行词频分析以确定所述医疗文本数据中的词汇频率;
标识所述医疗文本数据中的具有高于阈值词汇频率的词汇;
基于未包括在基于所述正则表达式提取的所述医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,更新所述医疗文本数据中的关键词;
基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;
对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;
基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及
基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数,其中述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。
2. 根据权利要求1所述的医疗大语言模型LLM的训练方法,其中,对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性包括:
利用分词器对所述医疗文本数据与所述一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合;以及
对所述经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性。
3.根据权利要求2所述的医疗大语言模型LLM的训练方法,其中,基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合包括:
基于所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性,过滤所述经token化的一个或多个相关联医学知识集合中与所述经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
4.根据权利要求3所述的医疗大语言模型LLM的训练方法,其中,基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数包括:
基于经过滤的所述经token化的一个或多个相关联医学知识集合以及所述经token化的医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
5. 根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中, 基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词包括:基于以预定医学规则生成的正则表达式来从所述医疗文本数据中确定包含有具体主题的内容,以及基于所述包含有具体主题的内容确定所述医疗文本数据中的关键词。
6.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中,所述医学知识库是基于医学知识构建的,其中所述医学知识包括医学相关文本信息,所述医学相关文本信息包括医学文档、药品表、症状体征表、病理学百科信息中的一个或多个;以及所述医学知识库中的医学知识按照主题被分类。
7.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中,获取与用户相关联的医疗文本数据包括:
对与用户相关联的医疗文本数据进行数据清洗,以过滤所述医疗文本数据中的乱码以及特殊字符;
获取经过滤的医疗文本数据。
8. 根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中,获取与用户相关联的医疗文本数据包括:
从多个数据源获取与同一用户相关联的医疗文本信息,其中从所述多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;以及
将从所述多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
9.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中,所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM。
10.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法,其中,所述聚类分析使用无监督学习聚类算法,利用向量空间距离、主题相似性和/或规则相似性进行聚类。
11.一种基于医疗大语言模型LLM的医疗逻辑推理方法,包括:
获取与第一用户相关联的医疗文本数据;
基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;
基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;
对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;
基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及
使用如权利要求1所述的医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据处理以进行医疗逻辑推理。
12.一种医疗大语言模型LLM的训练装置,包括:
数据获取单元,被配置为获取与用户相关联的医疗文本数据;
关键词提取单元,被配置为基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题,其中所述预定医学规则包括以下各项中的一个或多个:检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理;
关键词优化单元,被配置为对所述医疗文本数据进行词频分析以确定所述医疗文本数据中的词汇频率,标识所述医疗文本数据中的具有高于阈值词汇频率的词汇,以及基于未包括在基于所述正则表达式提取的所述医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇,更新所述医疗文本数据中的关键词;
关联医学知识索引单元,被配置为基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;
相关性标识单元,被配置为对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;
数据过滤单元,被配置为基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及
医疗大语言模型LLM训练单元,被配置为基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数,其中述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。
13. 根据权利要求12所述的医疗大语言模型LLM的训练装置,其中,所述相关性标识单元还被配置为:
利用分词器对所述医疗文本数据与所述一个或多个相关联医学知识集合进行变换,以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合;以及
对所述经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析,以标识所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性。
14.根据权利要求13所述的医疗大语言模型LLM的训练装置,其中,所述数据过滤单元还被配置为:
基于所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性,过滤所述经token化的一个或多个相关联医学知识集合中与所述经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。
15.根据权利要求14所述的医疗大语言模型LLM的训练装置,其中,所述医疗大语言模型LLM训练单元还被配置为:
基于经过滤的所述经token化的一个或多个相关联医学知识集合以及所述经token化的医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。
16. 根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述关键词提取单元还被配置为:
基于以预定医学规则生成的正则表达式来从所述医疗文本数据中确定包含有具体主题的内容,以及
基于所述包含有具体主题的内容确定所述医疗文本数据中的关键词。
17.根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述医学知识库是基于医学知识构建的,其中所述医学知识包括医学相关文本信息,所述医学相关文本信息包括医学文档、药品表、症状体征表、病理学百科信息中的一个或多个;以及所述医学知识库中的医学知识按照主题被分类。
18.根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述数据获取单元还被配置为:
对与用户相关联的医疗文本数据进行数据清洗,以过滤所述医疗文本数据中的乱码以及特殊字符;
获取经过滤的医疗文本数据。
19. 根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述数据获取单元还被配置为:
从多个数据源获取与同一用户相关联的医疗文本信息,其中从所述多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度;以及
将从所述多个数据源获取的与同一用户相关联的医疗文本信息合并,以生成非结构化的医疗文本数据。
20.根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM。
21.根据权利要求12-15中任一项所述的医疗大语言模型LLM的训练装置,其中,所述聚类分析使用无监督学习聚类算法,利用向量空间距离、主题相似性和/或规则相似性进行聚类。
22.一种基于医疗大语言模型LLM的医疗逻辑推理装置,包括:
数据获取单元,被配置为获取与第一用户相关联的医疗文本数据;
关键词提取单元,被配置为基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;
关联医学知识索引单元,被配置为基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;
相关性标识单元,被配置为对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;
数据过滤单元,被配置为基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及
医疗逻辑推理单元,被配置为使用如权利要求1所述的医疗大语言模型LLM的训练方法获得的医疗大语言模型LLM对经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据处理以进行医疗逻辑推理。
23. 一种电子设备,包括:
处理器;以及
存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述处理器执行时,实现权利要求1-10中任一项所述的医疗大语言模型LLM的训练方法或者权利要求11所述的基于医疗大语言模型LLM的医疗逻辑推理方法。
24.一种非暂时性计算机可读存储介质,存储有计算机可读指令,其中,当所述计算机可读指令在由处理器执行时,实现权利要求1-10中任一项所述的医疗大语言模型LLM的训练方法或者权利要求11所述的基于医疗大语言模型LLM的医疗逻辑推理方法。
CN202311548939.7A 2023-11-20 2023-11-20 医疗大语言模型的训练及推理的方法、装置、设备及介质 Active CN117577350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311548939.7A CN117577350B (zh) 2023-11-20 2023-11-20 医疗大语言模型的训练及推理的方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311548939.7A CN117577350B (zh) 2023-11-20 2023-11-20 医疗大语言模型的训练及推理的方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117577350A CN117577350A (zh) 2024-02-20
CN117577350B true CN117577350B (zh) 2024-06-11

Family

ID=89891278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311548939.7A Active CN117577350B (zh) 2023-11-20 2023-11-20 医疗大语言模型的训练及推理的方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117577350B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786536B (zh) * 2024-02-23 2024-05-10 北京壹永科技有限公司 大语言模型训练方法、装置、设备及介质
CN118132683A (zh) * 2024-05-07 2024-06-04 杭州海康威视数字技术股份有限公司 文本抽取模型的训练方法、文本抽取方法和设备
CN118173215A (zh) * 2024-05-14 2024-06-11 北京壹永科技有限公司 小模型训练方法、治理肿瘤临床记录数据的方法及其装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955807A (zh) * 2011-08-26 2013-03-06 华为软件技术有限公司 一种关联信息的检索方法及装置
CN109190125A (zh) * 2018-09-14 2019-01-11 广州达美智能科技有限公司 医学语言文本的处理方法、装置和存储介质
CN116313120A (zh) * 2022-12-30 2023-06-23 讯飞医疗科技股份有限公司 模型预训练方法、医学应用任务处理方法及其相关装置
JP7313757B1 (ja) * 2023-05-11 2023-07-25 Spiral.AI株式会社 文章生成装置および文章生成方法
CN116501845A (zh) * 2023-03-30 2023-07-28 杨子言 一种基于llm模型的人智交互方法和系统
CN116701431A (zh) * 2023-05-25 2023-09-05 东云睿连(武汉)计算技术有限公司 一种基于大语言模型的数据检索方法及系统
CN116737879A (zh) * 2023-06-20 2023-09-12 平安科技(深圳)有限公司 知识库查询方法、装置、电子设备及存储介质
CN117033571A (zh) * 2023-06-27 2023-11-10 山东新一代信息产业技术研究院有限公司 知识问答系统构建方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860840A (zh) * 2019-11-12 2021-05-28 百度在线网络技术(北京)有限公司 一种搜索处理方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955807A (zh) * 2011-08-26 2013-03-06 华为软件技术有限公司 一种关联信息的检索方法及装置
CN109190125A (zh) * 2018-09-14 2019-01-11 广州达美智能科技有限公司 医学语言文本的处理方法、装置和存储介质
CN116313120A (zh) * 2022-12-30 2023-06-23 讯飞医疗科技股份有限公司 模型预训练方法、医学应用任务处理方法及其相关装置
CN116501845A (zh) * 2023-03-30 2023-07-28 杨子言 一种基于llm模型的人智交互方法和系统
JP7313757B1 (ja) * 2023-05-11 2023-07-25 Spiral.AI株式会社 文章生成装置および文章生成方法
CN116701431A (zh) * 2023-05-25 2023-09-05 东云睿连(武汉)计算技术有限公司 一种基于大语言模型的数据检索方法及系统
CN116737879A (zh) * 2023-06-20 2023-09-12 平安科技(深圳)有限公司 知识库查询方法、装置、电子设备及存储介质
CN117033571A (zh) * 2023-06-27 2023-11-10 山东新一代信息产业技术研究院有限公司 知识问答系统构建方法及系统

Also Published As

Publication number Publication date
CN117577350A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN117577350B (zh) 医疗大语言模型的训练及推理的方法、装置、设备及介质
Ruffle et al. Artificial intelligence-assisted gastroenterology—promises and pitfalls
CN105940401B (zh) 用于提供可执行注释的系统和方法
US11464455B2 (en) Method and apparatus of context-based patient similarity
Dafni Rose et al. Computer-aided diagnosis for breast cancer detection and classification using optimal region growing segmentation with MobileNet model
EP3117353A1 (en) System and method for scheduling healthcare follow-up appointments based on written recommendations
CN117637189B (zh) 多模态大语言模型的训练及推理方法、装置、设备及介质
CN112699230A (zh) 一种恶性肿瘤诊疗知识获取方法及装置
Oyelade et al. ST-ONCODIAG: A semantic rule-base approach to diagnosing breast cancer base on Wisconsin datasets
Li et al. [Retracted] Automated Diagnosis and Localization of Melanoma from Skin Histopathology Slides Using Deep Learning: A Multicenter Study
Kim et al. Development and evaluation of an obesity ontology for social big data analysis
Kim et al. Inconsistency in the use of the term “validation” in studies reporting the performance of deep learning algorithms in providing diagnosis from medical imaging
Yu et al. Clinical coverage of an archetype repository over SNOMED-CT
CN116525125B (zh) 一种虚拟电子病历的生成方法及装置
Ouf et al. An enhanced deep learning approach for breast cancer detection in histopathology images
BE1027433B1 (nl) Werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten, een bijbehorend systeem en een verwerkingsinrichting
Lee et al. Resting state functional MR imaging of language function
Guo et al. Generalizable natural language processing framework for migraine reporting from social media
Depeursinge et al. Lung tissue classification in HRCT data integrating the clinical context
Liyanage et al. Ontologies in big health data analytics: application to routine clinical data
CN117786536B (zh) 大语言模型训练方法、装置、设备及介质
CN112735584A (zh) 一种恶性肿瘤诊疗辅助决策生成方法及装置
Athira et al. Multi-label topic classification of patient generated content in a breast-cancer community forum
Panahiazar et al. The Role of Natural Language Processing in Intelligence‐Based Medicine
Majidfar Automation of knowledge work in medicine and health care: future and challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant