CN117556808A - 基于大语言模型和影像知识库的语料自动生成方法及装置 - Google Patents
基于大语言模型和影像知识库的语料自动生成方法及装置 Download PDFInfo
- Publication number
- CN117556808A CN117556808A CN202410044461.2A CN202410044461A CN117556808A CN 117556808 A CN117556808 A CN 117556808A CN 202410044461 A CN202410044461 A CN 202410044461A CN 117556808 A CN117556808 A CN 117556808A
- Authority
- CN
- China
- Prior art keywords
- image
- corpus
- corpora
- language model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013507 mapping Methods 0.000 claims abstract description 192
- 238000012549 training Methods 0.000 claims abstract description 107
- 238000007619 statistical method Methods 0.000 claims abstract description 14
- 238000002372 labelling Methods 0.000 claims description 60
- 238000012216 screening Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 210000004072 lung Anatomy 0.000 description 14
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 210000003734 kidney Anatomy 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 206010056342 Pulmonary mass Diseases 0.000 description 4
- 238000012550 audit Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229920002451 polyvinyl alcohol Polymers 0.000 description 3
- 206010008118 cerebral infarction Diseases 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 208000019425 cirrhosis of liver Diseases 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000001147 pulmonary artery Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010011732 Cyst Diseases 0.000 description 1
- 208000026292 Cystic Kidney disease Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 206010016654 Fibrosis Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 241000219000 Populus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 210000001841 basilar artery Anatomy 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000002308 calcification Effects 0.000 description 1
- 210000004004 carotid artery internal Anatomy 0.000 description 1
- 230000007882 cirrhosis Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000001652 frontal lobe Anatomy 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 210000002216 heart Anatomy 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 201000000306 sarcoidosis Diseases 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 210000002385 vertebral artery Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于大语言模型和影像知识库的语料自动生成方法及装置,包括:给定语料生成格式;基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。从而将本申请所生成的多个第三语料用作训练影像报告结构化NLP模型的语料,能够极大的提升影像报告结构化NLP模型的训练效率和输出质量。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于大语言模型和影像知识库的语料自动生成方法及装置。
背景技术
医学影像报告作为临床诊断越来越重要的诊断依据,其影像报告内容的规范性,时刻影响着医生阅读医学影像报告的效率。利用NLP结构化的影像报告内容,能够有效提高医生阅读医学影像报告的效率。但是作为训练医学影像报告结构化NLP模型的关键因素—训练语料(即,训练样本)的获取却成为了一大难题。
传统的训练语料的获取主要采用人工模式(即,人工标注以及人工筛选等)。但是利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况。从而,上述利用人工模式获取到的训练语料极大的限制了影像报告结构化NLP模型的训练效率和输出质量。
公开号为CN117314562A,名称为请求信息处理方法、系统、设备和存储介质。方法包括:响应于第一用户对目标物品的议价服务请求,获取目标物品的物品信息;根据物品信息和预设的议价策略信息,确定目标物品对应的第一议价语料;根据第一用户的身份信息发送第一议价语料给目标物品所属的第二用户;在预设时间段内检测是否接收到第二用户对第一议价语料的第一回复信息;若在预设时间段内接收到第一回复信息,根据第一回复信息反馈议价结果信息给第一用户。
公开号为CN117290485A,名称为一种基于LLM的问答增强方法。将原始语料文本经过Text2Vec模型转换成对应的语料文本向量并存入至向量数据库,同时记录与原始语料文本信息匹配的映射;将提问问题文本经过Text2Vec模型转化为对应的问题文本向量,并与向量数据库中的语料文本向量进行相似度匹配搜索,得到相似度最高语料文本向量对应的原始语料文本,将该原始语料文本与提问问题文本一同输入LLM(Large Language Model)得到最终回答。
针对上述的现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况,从而极大的限制了影像报告结构化NLP模型的训练效率和输出质量的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种基于大语言模型和影像知识库的语料自动生成方法及装置,以至少解决现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况,从而极大的限制了影像报告结构化NLP模型的训练效率和输出质量的技术问题。
根据本公开实施例的一个方面,提供了一种基于大语言模型和影像知识库的语料自动生成方法,包括:给定语料生成格式;基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上所述的方法。
根据本公开实施例的另一个方面,还提供了一种基于大语言模型和影像知识库的语料自动生成装置,包括:格式给定模块,用于给定语料生成格式;第一语料生成模块,用于基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;样本获取模块,用于获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;第二语料生成模块,用于基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及第三语料生成模块,用于基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
根据本公开实施例的另一个方面,还提供了一种基于大语言模型和影像知识库的语料自动生成装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:给定语料生成格式;基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
本申请提供了一种基于大语言模型和影像知识库的语料自动生成方法。首先,操作人员给定语料生成格式。然后,基于影像词库和给定的语料生成格式对多个第一影像报告样本进行统计分析,从而生成用作初始语料的多个第一语料。之后操作人员获取多个第二影像报告样本。然后,基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料。最后,基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成训练影像报告结构化NLP模型的第三语料。
由于本申请是基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成的多个第二语料,因此最终生成的多个第二语料较为精确。
进一步由于本申请是基于大语言模型和影像知识库对多个第二语料进行训练,从而生成的多个第三语料,因此相较于传统的基于人工筛选和人工标注生成多个第三语料来说,基于大语言模型和影像知识库生成多个第三语料的效率较高,并且最终生成的多个第三语料是可用作训练影像报告结构化NLP模型的高质量语料。
从而将本申请所生成的多个第三语料用作训练影像报告结构化NLP模型的语料,能够极大的提升影像报告结构化NLP模型的训练效率和输出质量。进而解决了现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况,从而极大的限制了影像报告结构化NLP模型的训练效率和输出质量的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本申请实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本申请实施例1所述的基于大语言模型和影像知识库的语料自动生成系统的示意图;
图3是根据本申请实施例1所述的基于大语言模型和影像知识库的语料自动生成方法的流程示意图;
图4是根据本申请实施例1所述的基于大语言模型和影像知识库的语料自动生成的计算框图;
图5是根据本申请实施例2所述的基于大语言模型和影像知识库的语料自动生成装置的示意图;以及
图6是根据本申请实施例3所述的基于大语言模型和影像知识库的语料自动生成装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种基于大语言模型和影像知识库的语料自动生成的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现基于大语言模型和影像知识库的语料自动生成方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、用于通信功能的传输装置以及输入/输出接口。其中存储器、传输装置以及输入/输出接口通过总线与处理器连接。除此以外,还可以包括:与输入/输出接口连接的显示器、键盘以及光标控制设备。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的基于大语言模型和影像知识库的语料自动生成方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的基于大语言模型和影像知识库的语料自动生成方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
图2是根据本实施例所述的基于大语言模型和影像知识库的语料自动生成方法的系统的示意图。参照图2所示,该系统包括:终端设备100和处理器200。
其中,终端设备100用于接收操作人员输入的语料生成格式,并向处理器200发送语料生成格式以及第一语料生成请求(即,初始语料生成请求)。
处理器200响应于第一语料生成请求,调用多个第一影像报告样本,并基于所存储的影像词库和语料生成格式对多个第一影像报告样本进行统计分析,从而生成多个第一语料(即,初始语料)。其中,第一影像报告样本例如可以是预先存储至终端设备100的大批量影像报告。
处理器200还用于获取多个第二影像报告样本。其中,第二影像报告样本不同于第一影像报告样本。
处理器200还用于基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成高质量及可信任的多个第二语料。
处理器200还用于基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成可以用作训练影像报告结构化NLP模型的多个第三语料。
需要说明的是,系统中的终端设备100和处理器200均可适用上面所述的硬件结构。
在上述运行环境下,根据本实施例的第一个方面,提供了一种基于大语言模型和影像知识库的语料自动生成方法,该方法由图2中所示的处理器200实现。图3示出了该方法的流程示意图,参考图3所示,该方法包括:
S302:给定语料生成格式;
S304:基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;
S306:获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;
S308:基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及
S310:基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
具体地,首先,操作人员通过终端设备100给定语料生成格式(S302)。例如,操作人员可以根据影像报告表述的特点和侧重点,自定义实体数据结构以及实体关系数据结构,从而确定最终输出的语料的格式(即,多个第三语料的格式)。表1示出了自定义的实体数据结构。
表1
参考表1所示,操作人员给定了多个实体类型、与各个实体类型对应的英文表示、与各个实体类型对应的说明以及与各个实体类型对应的示例。例如,实体类型可以是征象描述实体。征象描述实体可用ntcf表示。征象描述实体表示对解剖部位的病变描述,包括疾病名词。征象描述实体例如可以是楔形变、高密度影、低密度影、肺结节、脑梗死以及肝硬化等。
此外,值得注意的是,本领域技术人员应当清楚,上述只是示例性的写明可能的实体类型、与各个实体类型对应的英文表示、与各个实体类型对应的说明以及与各个实体类型对应的示例,实际情况并不以此为限。
表2示出了自定义的实体关系数据结构。
表2
参考表2所示,操作人员给定了多个实体关系、与各个实体关系对应的英文表示、与各个实体关系对应的前元实体、与各个实体关系对应的后元实体以及与各个实体关系对应的示例。例如,实体关系可以是阳性征象关系(阳性R)。阳性征象关系可用PSR表示。阳性征象关系包括部位实体(nsf)和征象实体(ntcf)。阳性征象关系例如可以是胸椎向后突出等。
此外,值得注意的是,本领域技术人员应当清楚,上述只是示例性的写明可能的实体关系、与各个实体关系对应的英文标识、与各个实体关系对应的前元实体、与各个实体关系对应的后元实体以及与各个实体关系对应的示例,实际情况并不以此为限。
然后,处理器200基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料(S304)。其中,第一影像报告样本例如可以是预先存储至终端设备100的大批量影像报告。具体地,首先,处理器200基于影像词库和语料生成格式中的实体数据结构,统计多个第一影像报告样本中的高频词汇。然后,处理器200基于影像词库和语料生成格式中的实体关系数据结构,统计多个第一影像报告样本中的高频句式。最后,处理器200将所统计的高频词汇和高频句式,作为第一语料(即,初始语料)。上述内容将在后续进行详细描述,因此此处不再加以赘述。
进一步地,处理器200获取多个第二影像报告样本(S306)。其中,第二影像报告样本不同于第一影像报告样本。
之后处理器200基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二报告语料(S308)。其中,大语言模型例如可以是chatGPT模型。具体地,首先,处理器200基于大语言模型,并利用多个第一语料分别对各个第二影像报告样本进行自动筛选,从而生成多个第四语料。其中,多个第四语料为大语言模型所返回的满足筛选条件的语料。然后,处理器200基于大语言模型,并利用多个第一语料分别对多个第四语料进行自动标注,从而生成高质量且可信任的多个第二语料。上述内容将在后续进行详细描述,因此此处不再加以赘述。
最后,处理器200基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料(S310)。具体地,首先,处理器200对同一份影像报告中的多个第二语料进行编码。然后,处理器200基于影像知识库对编码后的多个第二语料进行上下文映射,从而生成与各个第二语料对应的多个第一映射关系。与此同时,处理器200基于大语言模型对编码后的多个第二语料进行上下文映射,从而生成与各个第二语料对应的多个第二映射关系。最后,处理器200对比同一份影像报告中的多个第一映射关系和与各个第一映射关系对应的多个第二映射关系,找出两者之间不一致的映射关系(即,第三映射关系)。利用人工校验第三映射关系,并在影像知识库中搜索第三映射关系。若在影像知识库中包含第三映射关系,并且第三映射关系是错误的,则删除该第三映射关系;若影像知识库中不包含第三映射关系并且第三映射关系是正确的,则补充该第三映射关系。并且,在第三映射关系是正确的情况下,输出用作训练影像报告结构化NLP模型的多个第三语料。
此外,在基于影像知识库所生成的与各个第二语料对应的多个第一映射关系与基于大语言模型所生成的与各个第二语料对应的多个第二映射关系全部匹配,且无不一致的情况下,处理器200通过终端设备100输出多个第三语料,从而操作人员将多个第三语料作为用于训练影像报告结构化NLP模型的高质量语料。
正如背景技术中所述的内容,传统的训练语料的获取主要采用人工模式(即,人工标注以及人工筛选等)。但是利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况。从而,上述利用人工模式获取到的训练语料极大的限制了影像报告结构化NLP模型的训练效率和输出质量。
有鉴于此,本申请提供了一种基于大语言模型和影像知识库的语料自动生成方法。由于本申请是基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成的多个第二语料,因此最终生成的多个第二语料较为精确。
进一步由于本申请是基于大语言模型和影像知识库对多个第二语料进行训练,从而生成的多个第三语料,因此相较于传统的基于人工筛选和人工标注生成多个第三语料来说,基于大语言模型和影像知识库生成多个第三语料的效率较高,并且最终生成的多个第三语料是可用作训练影像报告结构化NLP模型的高质量语料。
从而将本申请所生成的多个第三语料用作训练影像报告结构化NLP模型的语料,能够极大的提升影像报告结构化NLP模型的训练效率和输出质量。进而解决了现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下,而且受限于标注人员的知识范围和经验,容易出现标注不准确、不一致以及筛选不合理的情况,从而极大的限制了影像报告结构化NLP模型的训练效率和输出质量的技术问题。
可选地,基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料的操作,包括:基于影像词库和语料生成格式中的实体数据结构,统计多个第一影像报告样本中的高频词汇;基于影像词库和语料生成格式中的实体关系数据结构,统计多个第一影像报告样本中的高频句式;以及将所统计的高频词汇和高频句式,作为多个第一语料。
具体地,首先,处理器200基于语料生成格式中的实体数据结构,确定多个第一影像报告样本中符合实体数据结构的词汇。然后,处理器200基于影像词库,统计多个第一影像报告样本中符合实体数据结构的高频词汇。例如,部位实体有脑、额叶、肺以及心脏等。征象实体有楔形变、高密度影、低密度影、肺结节、脑梗死以及肝硬化等。
进一步地,处理器200基于语料生成格式中的实体关系数据结构,确定多个第一影像报告样本中符合实体关系数据结构的表达句式。然后,处理器200基于影像词库,统计多个第一影像报告样本中符合实体关系数据结构的常见表达句式。例如,常见的句式包括:1、方位实体关系+父部位实体关系+方位实体关系+定性实体关系+阳性征象实体关系+征象属性实体关系+阳性征象实体关系。与句式1对应的示例例如:右侧关节腔周围多见异常密度结节影。右肺上叶呈团块状软组织杨改变。双侧侧脑室旁可见少许斑点状FLAIR上为高信号。
2、方位实体关系+父部位实体关系+方位实体关系+方位实体关系+父部位实体关系+方位实体关系+定性实体关系+征象属性实体关系。与句式2对应的示例例如:左肺上叶右肺中下叶可见多发点状致密影。右肺上叶前端肺动脉内见充盈缺损影。左肺上叶舌段肺动脉起始部见充盈缺损影。
从而,处理器200将所统计的高频词汇和高频句式,作为多个第一语料(即,初始语料)。
可选地,基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料的操作,包括:基于大语言模型,并利用多个第一语料对多个第二影像报告样本进行自动筛选,生成多个第四语料;以及基于大语言模型,并利用多个第一语料对多个第四语料进行自动标注,生成多个第二语料。进一步可选地,基于大语言模型,并利用多个第一语料对多个第四语料进行自动标注,生成多个第二语料的操作,包括:利用人工标注多个第四语料的实体以及实体关系;利用大语言模型对人工标注后的多个第四语料进行自动标注,并生成多个第五语料;利用大语言模型对多个第五语料进行自动审核,并且在判定多个第五语料合格的情况下,将第五预料作为第二语料。
具体地,首先,处理器200根据统计得到的多个第一语料中的高频词汇对多个第二影像报告样本进行筛选。
具体筛选过程包括:
(1)首先,处理器200在大语言模型中输入筛选条件。例如,处理器200在大语言模型中输入“你是一个语料筛选器,请帮我对输入的文本进行筛选,需要满足如下筛选条件:1、输入文本属于医疗影像报告的内容。2、输入文本尽可能包含常见的实体,如身体部位。3、输入文本与示例文本比较接近,但需要保持句式的多样性,如并列句以及省略句等等。示例:1、所见颈内动脉未见明显异常,左侧椎动脉远端未显示,基底动脉近端狭窄,远端开窗改变。2、左侧第4肋骨折愈合期改变,请结合临床。考虑右侧第5前肋陈旧性骨折。”
(2)然后,处理器200调用大语言模型接口处理多个第二影像报告样本的数据,并判断是否满足条件。
(3)最后,大语言模型返回满足筛选条件的多个语料(即,多个第四语料)。
然后,处理器200根据统计得到的多个第一语料中的高频句式对多个第二影像报告样本进行人工标注,从而得到人工标注后的实体以及实体关系。例如,处理器200可以预先筛选出1000条第四语料,并对筛选出的1000条第四语料进行人工标注。
进一步地,处理器200利用大语言模型对人工标注后的多个第四语料进行自动标注。
具体自动标注的过程如下:
(1)首先,处理器200在大语言模型中输入自动标注条件。其中,自动标注条件例如包括任务描述、输出要求以及示例。例如,处理器200在大语言模型中输入“任务描述:你是一个语料标注器,请帮我对输入的文本进行标注。输出要求:1、以表示标签开头,/>表示结束,/>表示text开头。2、实体标签包括:部位实体、方位描述实体、阳性征象实体、阴性征象实体、转台修饰实体以及征象属性实体等。3、实体关系标签包括:方位关系、定性关系、征象属性关系以及父部位关系等。4、只按要求格式输出内容,不要输出其他内容。动态示例:输入文本:5、左肾类圆形低密度灶,外突,考虑肾囊肿,同前变化不著。
输入文本中命名实体之间的关系:<0><0>方位<5>左肾<0>部位关系<5> 肾类<1><1><0>部位<5>肾类<1><0>阳性征象<5>类圆形低密度灶,<0>部位关系<5>肾类<1><1><0>阳性征象<5>外突,<0>部位关系<5>肾类<1><1><0> 部位<5>肾囊<1><0>阳性征象<5>囊肿,<0>部位关系<5>肾囊<1><1><0>状态 <5>变化不著<1><1>。”
(2)然后,大语言模型返回自动标注后的多个第五语料。
值得注意的是,在上述利用大语言模型对人工标注后的多个第四语料进行自动标注的过程中,为了提高自动标注的准确性,采用动态示例。
进一步地,处理器200利用大语言模型对多个第五语料进行自动审核,并调用大语言模型接口判断自动标注的多个第五语料是否合格。
具体自动审核的过程如下:
(1)首先,处理器200在大语言模型中输入自动审核条件。其中,自动审核条件例如包括任务描述以及输出要求。例如,处理器200在大语言模型中输入“任务描述:你是一个语料审核员,请帮我完成标注语料的审核。输出要求:1、内容满足以<0>表示标签开头,<1>表示标签结束,<5>表示text开头。2、实体标签范围包括:部位实体、方位描述实体、阳性征象实体、阴性征象实体、转台修饰实体以及征象属性实体等。3、实体关系标签范围包括:父部位实体关系、定型实体关系、征象属性关系以及父子关系等。4、内容不包含其他文字并且满足业务规则。”
(2)然后,大语言模型返回自动审核合格的部分第五语料。
之后,处理器200将自动审核合格的部分第五语料作为多个第二语料,并将满足要求的多个第二语料保存在训练集中。处理器200基于合格的部分第五语料和多个第五语料,确定剩余的部分第五语料(即,不合格的部分第五语料),并将剩余的部分第五语料返回大语言模型重新进行自动标注和自动审核,直至训练集所包含的多个第二语料的数量满足预期数量。
从而,通过上述操作达到了能够得到高质量且可信任的多个第二语料,并为后续训练影像报告结构化NLP模型提供必要基础的技术效果。
此外,处理器200还需要对多个第二语料进行异常数据的发现与过滤。
具体地,基于大语言模型自动标注的,但不属于radlex词库的实体作为疑似异常实体。对于这部分疑似异常实体需要人工审核和过滤,并且将非异常实体补充进radlex词库,将异常实体作为异常数据处理。
基于大语言模型自动标注的,但不符合实体关系数据结构的实体关系,需要人工审核。若现有的实体关系数据结构无法满足句式表述,则需要增加新的实体关系数据结构;若实体关系是错误的,则将该实体关系作为异常数据处理。
可选地,还包括:利用人工标注部分第二影像报告样本,并生成多个对照语料;给定预训练模型,并将第二语料和多个对照语料输入至预训练模型,从而生成微调后的预训练模型;以及通过评估微调后的预训练模型,确定大语言模型所生成的第二语料的质量。
具体地,首先,基于医疗设备类型和检查部位的不同,人工标注部分第二影像报告样本,作为多个对照语料,从而用以与基于大语言模型自动标注所生成的多个第二语料进行比对。
值得注意的是,由于不同医疗设备所生成的影像报告中,对于疾病的描述各不相同,因此在利用人工标注部分第二影像报告样本的过程中,需要尽可能的覆盖所有类型的医疗设备。与上述相同的是,由于与不同检查部位对应的疾病的描述各不相同,因此在利用人工标注部分第二影像报告样本的过程中,需要尽可能的覆盖所有检查部位。
然后,给定预先训练过的预训练模型,并通过模型微调使其快速的适应不同的IE任务和设置。给定一个预先标记的语料库。其中,s表示头实体,x表示关系,y表示尾实体。并使用交叉熵损失(即,预训练模型结果和人工标注结果之间的相似性)对预训练模型进行微调。
其中,s表示头实体,x表示关系,y表示尾实体,θ e 表示预训练模型的编码器的参数,θ d 表示预训练模型的解码器的参数。
从而,通过不断调整θ e 和θ d 使得交叉熵损失最小,从而得到一个与人工标注结果最相似的预训练模型。
进一步地,处理器200将多个对照语料和多个第二语料分别喂给预训练模型,并使得预训练模型的交叉熵损失最小。然后得到微调后的预训练模型,并通过评估微调后的预训练模型来评价多个第二语料的质量。
从而,通过利用人工标注所生成的对照语料和预训练模型评估基于大语言模型所生成的多个第二语料的操作,达到了能够进一步保证多个第二语料的质量的技术效果。
此外,处理器200还可以根据对比结果(即,分别将多个第二语料喂给预训练模型和将多个对照语料喂给预训练模型时,对预训练模型进行评估所生成的结果)来进一步确定利用大语言模型自动标注所生成的多个第二语料的质量。
评价指标如下:
其中,Correct表示测试集中所有句子预测正确的SPO(关系三元组,S头实体、P关系、O尾实体)个数。Pred表示测试集所有句子中预测出的SPO个数。Real表示测试集所有句子中人工标注的SPO个数。其中,测试集中包括多个第二语料。F 1 值是评估本实施例中的大语言模型的综合指标,它兼顾了模型的召回率R和准确率P。
值得注意的是,根据预训练模型训练时对语料的训练要求,正确率P要求达到95%,召回率R达到90%,值要求达到90%。
可选地,基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料的操作,包括:对多个第二语料进行编码;基于影像知识库对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第一映射关系;基于大语言模型对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第二映射关系;以及对比多个第一映射关系和与多个第一映射关系对应的多个第二映射关系,从而生成多个第三语料。进一步可选地,对比多个第一映射关系和与多个第一映射关系对应的多个第二映射关系,从而生成多个第三语料的操作,包括:对比同一报告中的多个第一映射关系和与各个第一映射关系对应的多个第二映射关系,并判定是否存在第三映射关系,其中第三映射关系用于指示不一致的映射关系;在不存在第三映射关系的情况下,输出多个第三语料;在存在第三映射关系的情况下,利用人工校验第三映射关系;在影像知识库中搜索第三映射关系,并在影像知识库包含第三映射关系以及第三映射关系是错误的情况下,删除第三映射关系;在影像知识库中搜索第三映射关系,并在影像知识库不包含第三映射关系以及第三映射关系是正确的情况下,补充第三映射关系;以及在第三映射关系是正确的情况下,输出多个第三语料。
具体地,首先,处理器200分别给同一份报告中,所见和结论所包含的各个句子(即,同一份报告中的多个第二语料)进行编码处理。
例如,报告原文包括“所见:左肺上叶可见条形高密影及钙化致密影,右肺下叶可见结节样高密度影。余肺未见异常。结论:1、左肺炎症表现;2、右肺结节。”
则与报告原文对应的编码包括“A1:{R1:{id:1;nsf:肺;ntcb;“左”“上叶”;nto:“可见”;ntcf:“条形高密度影”};R2:{id:2;nsf:肺; ntcb:“左”“上叶”;nto:“可见”;ntcf:“钙化致密影”};R3:{id:3; nsf:肺;ntcb:“右”“下叶”; nto:“可见”; ntcf:“结节样高密度”};}A2:{R3:{id:4;nsf:肺;ntcb:“”;nto:“未见”;ntcf:“异常”};}B1:{R1:{id:1; nsf:肺:ntcb:“左”;nto:“”;ntcf:“炎症”};}B2:{R2:{id:2;nsf:肺;ntcb:“右”;nto“”;ntcf:“结节”};}”。
其中,A表示所见中的每句话,B表示结论中的每句话,Rn表示当前句子中针对每个部位的描述关系。
然后,处理器200基于影像知识库对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第一映射关系。具体地,表3示出了本实施例设计的一种能够反映影像征象和结论的影像知识库。
表3
参考表3所示,例如,所见部位词和所见征象为:肺结节样高密度影,则与所见部位词和所见征象对应的结论部位词和结论征象为:肺结节。
从而,基础上述影像知识库,处理器200可以得到AiRj与BiRj的多个第一映射关系。如上述示例中就可以得到,CP:{B1R1—A1R1,B1R1—A1R2,B2R2—A1R3}。
进一步地,处理器200基于大语言模型对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第二映射关系。具体地,自动匹配上下文映射的过程如下:
(1)首先,处理器200在大语言模型中输入上下文映射的条件。其中,上下文映射的条件例如包括任务描述以及输出要求。例如,处理器200在大语言模型中输入“任务描述:你是一个影像报告诊断专家,请帮我完成影像报告的上下文映射关系。输出要求:1、对影像报告的每一句话的实体关系进行编号,所见使用AnRn(n为从1开始的数字),结论使用BnRn(n为从1开始的数字);2、基于影像知识输出结论和所见句子(AnRn、BnRn)之间的对应关系CCP{Bi—Aj};”。
(2)然后,大语言模型返回多个第二映射关系。
例如,基于上述示例,可以得到CCP:{B1R1—A1R1,B2R2—A1R3}。
之后,处理器200对比同一份报告中的CP(即,多个第一映射关系)和CCP(即,多个第二映射关系),并确定两者之间是否存在不一致的映射关系(即,第三映射关系)。在两者之间不存在第三映射关系的情况下,说明该份报告中的多个第一映射关系和与各个第一映射关系对应的多个第二映射关系相匹配。从而可以输出用于训练影像报告结构化NLP模型的多个第三语料。
在两者之间存在不一致的映射关系(即,第三映射关系)。例如,在上述示例中,不一致的映射关系为B1R1—A1R2。
然后,人工校验第三映射关系。例如,人工校验B1R1—A1R2的对应关系。
之后,处理器200在影像知识库中搜索第三映射关系,并在影像知识库包含第三映射关系以及第三映射关系是错误的情况下,删除影像知识库中的第三映射关系。在影像知识库不包含第三映射关系以及第三映射关系是正确的情况下,将第三映射关系补充进影像知识库。
此外,在第三映射关系是正确的情况下,输出多个第三语料。并且处理器200将多个第三语料作为正确语料输入大语言模型进行训练,从而提高大语言模型的准确性。
从而,大语言模型最终输出多个第三语料。例如,与上述示例对应的大语言模型最终输出的结果如下表4所示:
表4
值得注意的是,通过大语言模型对多个第二语料的批量化处理和对不一致映射关系的人工校验,能够使得利用影像报告结构化NLP模型生成的结构化报告的准确率达到95%,召回率达到90%,从而满足影像报告结构化NLP模型的使用要求。
从而根据本实施例的第一个方面,达到了能够极大的提升影像报告结构化NLP模型的训练效率和输出质量的技术效果。
图4是根据本申请实施例1所述的基于大语言模型和影像知识库的语料自动生成的计算框图。参考图4所示,具体步骤如下:
S401:操作人员通过终端设备100向处理器200输入原始数据(即,多个第二影像报告样本);
S402:基于大语言模型对多个第二影像报告样本进行实体以及实体关系的标注;
S403:利用chatGPT审核标注后的语料;
S4041:在基于大语言模型对多个第二影像报告样本进行实体以及实体关系标注后所生成的语料,与人工对多个第二影像报告样本进行实体以及实体关系标注后所生成的语料不同的情况下,利用人工审核不一致的语料;
S4042:在基于大语言模型对多个第二影像报告样本进行实体以及实体关系标注后所生成的语料,与人工对多个第二影像报告样本进行实体以及实体关系标注后所生成的语料相同的情况下,生成多个第二语料;
S4051:利用影像知识库对多个第二语料进行上下文映射关系训练,并生成多个第一映射关系;
S4052:利用chatGPT对多个第二语料进行上下文映射关系训练,并生成多个第二映射关系;
S406:对比审核多个第一映射关系和多个第二映射关系;
S4071:在多个第一映射关系和多个第二映射关系中,存在不一致的映射关系的情况下,人工审核不一致的映射关系(即,第三映射关系),并在不一致的映射关系是正确的情况下,补充进影像知识库;
S4072:在多个第一映射关系和多个第二映射关系中,不存在不一致的映射关系的情况下,输出高质量语料(即,多个第三语料)。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上所述的方法。
从而根据本实施例,达到了能够极大的提升影像报告结构化NLP模型的训练效率和输出质量的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图5示出了根据本实施例所述的基于大语言模型和影像知识库的语料自动生成装置500,该装置500与根据实施例1所述的方法相对应。参考图5所示,该装置500包括:格式给定模块510,用于给定语料生成格式;第一语料生成模块520,用于基于影像词库以及语料生成格式对第一影像报告样本进行统计分析,并生成多个第一语料;样本获取模块530,用于获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;第二语料生成模块540,用于基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及第三语料生成模块550,用于基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
可选地,第一语料生成模块520,包括:第一统计模块,用于基于影像词库和语料生成格式中的实体数据结构,统计多个第一影像报告样本中的高频词汇;第二统计模块,用于基于影像词库和语料生成格式中的实体关系数据结构,统计多个第一影像报告样本中的高频句式;以及第一语料生成子模块,用于将所统计的高频词汇和高频句式,作为多个第一语料。
可选地,第二语料生成模块540,包括:第四语料生成模块,用于基于大语言模型,并利用多个第一语料对多个第二影像报告样本进行自动筛选,生成多个第四语料;以及第二语料生成子模块,用于基于大语言模型,并利用多个第一语料对多个第四语料进行自动标注,生成多个第二语料。
可选地,第二语料生成子模块,包括:人工标注模块,用于利用人工标注多个第四语料的实体以及实体关系;自动标注模块,用于利用大语言模型对人工标注后的多个第四语料进行自动标注,并生成多个第五语料;自动审核模块,用于利用大语言模型对多个第五语料进行自动审核,并且在判定多个第五语料合格的情况下,将第五预料作为第二语料。
可选地,装置500还包括:对照语料生成模块,用于利用人工标注部分第二影像报告样本,并生成多个对照语料;预训练模型生成模块,用于给定预训练模型,并将多个第二语料和多个对照语料输入至预训练模型,从而生成微调后的预训练模型;以及质量评估模块,用于通过评估微调后的预训练模型,确定大语言模型所生成的多个第二语料的质量。
可选地,第三语料生成模块550,包括:编码模块,用于对同一份报告中的多个第二语料进行编码;第一映射关系确定模块,用于基于影像知识库对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第一映射关系;第二映射关系确定模块,用于基于大语言模型对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第二映射关系;以及第三语料生成子模块,用于对比多个第一映射关系和与多个第一映射关系对应的多个第二映射关系,从而生成多个第三语料。
可选地,第三语料生成子模块,包括:判定模块,用于对比同一报告中的多个第一映射关系和与各个第一映射关系对应的多个第二映射关系,并判定是否存在第三映射关系,其中第三映射关系用于指示不一致的映射关系;第一输出模块,用于在不存在第三映射关系的情况下,输出多个第三语料;人工校验模块,用于在存在第三映射关系的情况下,利用人工校验第三映射关系;删除模块,用于在影像知识库中搜索第三映射关系,并在影像知识库包含第三映射关系以及第三映射关系是错误的情况下,删除第三映射关系;补充模块,用于在影像知识库中搜索第三映射关系,并在影像知识库不包含第三映射关系以及第三映射关系是正确的情况下,补充第三映射关系;以及输出模块,用于在第三映射关系是正确的情况下,输出多个第三语料。
从而根据本实施例,达到了能够极大的提升影像报告结构化NLP模型的训练效率和输出质量的技术效果。
实施例3
图6示出了根据本实施例所述的基于大语言模型和影像知识库的语料自动生成装置600,该装置600与根据实施例1所述的方法相对应。参考图6所示,该装置600包括:处理器610;以及存储器620,与处理器610连接,用于为处理器610提供处理以下处理步骤的指令:给定语料生成格式;基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;获取多个第二影像报告样本,其中第一影像报告样本与第二影像报告样本不同;基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
可选地,基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料的操作,包括:基于影像词库和语料生成格式中的实体数据结构,统计多个第一影像报告样本中的高频词汇;基于影像词库和语料生成格式中的实体关系数据结构,统计多个第一影像报告样本中的高频句式;以及将所统计的高频词汇和高频句式,作为多个第一语料。
可选地,基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料的操作,包括:基于大语言模型,并利用多个第一语料对多个第二影像报告样本进行自动筛选,生成多个第四语料;以及基于大语言模型,并利用多个第一语料对多个第四语料进行自动标注,生成多个第二语料。
可选地,基于大语言模型,并利用多个第一语料对多个第四语料进行自动标注,生成多个第二语料的操作,包括:利用人工标注多个第四语料的实体以及实体关系;利用大语言模型对人工标注后的多个第四语料进行自动标注,并生成多个第五语料;利用大语言模型对多个第五语料进行自动审核,并且在判定多个第五语料合格的情况下,将第五预料作为第二语料。
可选地,装置600还包括:利用人工标注部分第二影像报告样本,并生成多个对照语料;给定预训练模型,并将多个第二语料和多个对照语料输入至预训练模型,从而生成微调后的预训练模型;以及通过评估微调后的预训练模型,确定大语言模型所生成的多个第二语料的质量。
可选地,基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练,从而生成多个第三语料的操作,包括:对同一份报告中的多个第二语料进行编码;基于影像知识库对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第一映射关系;基于大语言模型对编码后的多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第二映射关系;以及对比多个第一映射关系和与多个第一映射关系对应的多个第二映射关系,从而生成多个第三语料。
可选地,对比多个第一映射关系和与多个第一映射关系对应的多个第二映射关系,从而生成多个第三语料的操作,包括:对比同一报告中的多个第一映射关系和与各个第一映射关系对应的多个第二映射关系,并判定是否存在第三映射关系,其中第三映射关系用于指示不一致的映射关系;在不存在第三映射关系的情况下,输出多个第三语料;在存在第三映射关系的情况下,利用人工校验第三映射关系;在影像知识库中搜索第三映射关系,并在影像知识库包含第三映射关系以及第三映射关系是错误的情况下,删除第三映射关系;在影像知识库中搜索第三映射关系,并在影像知识库不包含第三映射关系以及第三映射关系是正确的情况下,补充第三映射关系;以及在第三映射关系是正确的情况下,输出多个第三语料。
从而根据本实施例,达到了能够极大的提升影像报告结构化NLP模型的训练效率和输出质量的技术效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于大语言模型和影像知识库的语料自动生成方法,其特征在于,包括:
给定语料生成格式;
基于影像词库以及所述语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;
获取多个第二影像报告样本,其中所述第一影像报告样本与所述第二影像报告样本不同;
基于大语言模型和所述多个第一语料对所述多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及
基于所述大语言模型和影像知识库对所述多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
2.根据权利要求1所述的方法,其特征在于,基于影像词库以及所述语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料的操作,包括:
基于所述影像词库和所述语料生成格式中的实体数据结构,统计所述多个第一影像报告样本中的高频词汇;
基于所述影像词库和所述语料生成格式中的实体关系数据结构,统计所述多个第一影像报告样本中的高频句式;以及
将所统计的所述高频词汇和所述高频句式,作为所述多个第一语料。
3.根据权利要求2所述的方法,其特征在于,基于大语言模型和所述多个第一语料对所述多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料的操作,包括:
基于所述大语言模型,并利用所述多个第一语料对所述多个第二影像报告样本进行自动筛选,生成多个第四语料;以及
基于所述大语言模型,并利用所述多个第一语料对所述多个第四语料进行自动标注,生成所述多个第二语料。
4.根据权利要求3所述的方法,其特征在于,基于所述大语言模型,并利用所述多个第一语料对所述多个第四语料进行自动标注,生成所述多个第二语料的操作,包括:
利用人工标注所述多个第四语料的实体以及实体关系;
利用所述大语言模型对人工标注后的所述多个第四语料进行自动标注,并生成多个第五语料;
利用所述大语言模型对所述多个第五语料进行自动审核,并且在判定所述多个第五语料合格的情况下,将所述第五语料作为所述第二语料。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用人工标注部分第二影像报告样本,并生成多个对照语料;
给定预训练模型,并将所述多个第二语料和所述多个对照语料输入至所述预训练模型,从而生成微调后的所述预训练模型;以及
通过评估微调后的所述预训练模型,确定所述大语言模型所生成的多个第二语料的质量。
6.根据权利要求1所述的方法,其特征在于,基于所述大语言模型和影像知识库对所述多个第二语料进行上下文映射关系训练,从而生成多个第三语料的操作,包括:
对同一份报告中的多个第二语料进行编码;
基于所述影像知识库对编码后的所述多个第二语料进行上下文映射,并生成与各个第二语料对应的多个第一映射关系;
基于所述大语言模型对编码后的所述多个第二语料进行上下文映射,并生成与所述各个第二语料对应的多个第二映射关系;以及
对比所述多个第一映射关系和与所述多个第一映射关系对应的多个第二映射关系,从而生成所述多个第三语料。
7.根据权利要求6所述的方法,其特征在于,对比所述多个第一映射关系和与所述多个第一映射关系对应的多个第二映射关系,从而生成所述多个第三语料的操作,包括:
对比同一报告中的所述多个第一映射关系和与各个第一映射关系对应的所述多个第二映射关系,并判定是否存在第三映射关系,其中所述第三映射关系用于指示不一致的映射关系;
在不存在所述第三映射关系的情况下,输出所述多个第三语料;
在存在所述第三映射关系的情况下,利用人工校验所述第三映射关系;
在所述影像知识库中搜索所述第三映射关系,并在所述影像知识库包含所述第三映射关系以及所述第三映射关系是错误的情况下,删除所述第三映射关系;
在所述影像知识库中搜索所述第三映射关系,并在所述影像知识库不包含所述第三映射关系以及所述第三映射关系是正确的情况下,补充所述第三映射关系;以及
在所述第三映射关系是正确的情况下,输出所述多个第三语料。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。
9.一种基于大语言模型和影像知识库的语料自动生成装置,其特征在于,包括:
格式给定模块,用于给定语料生成格式;
第一语料生成模块,用于基于影像词库以及所述语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;
样本获取模块,用于获取多个第二影像报告样本,其中所述第一影像报告样本与所述第二影像报告样本不同;
第二语料生成模块,用于基于大语言模型和所述多个第一语料对所述多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及
第三语料生成模块,用于基于所述大语言模型和影像知识库对所述多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
10.一种基于大语言模型和影像知识库的语料自动生成装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
给定语料生成格式;
基于影像词库以及所述语料生成格式对多个第一影像报告样本进行统计分析,并生成多个第一语料;
获取多个第二影像报告样本,其中所述第一影像报告样本与所述第二影像报告样本不同;
基于大语言模型和所述多个第一语料对所述多个第二影像报告样本进行实体以及实体关系训练,从而生成多个第二语料;以及
基于所述大语言模型和影像知识库对所述多个第二语料进行上下文映射关系训练,从而生成多个第三语料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044461.2A CN117556808B (zh) | 2024-01-12 | 2024-01-12 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044461.2A CN117556808B (zh) | 2024-01-12 | 2024-01-12 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556808A true CN117556808A (zh) | 2024-02-13 |
CN117556808B CN117556808B (zh) | 2024-04-05 |
Family
ID=89811489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410044461.2A Active CN117556808B (zh) | 2024-01-12 | 2024-01-12 | 基于大语言模型和影像知识库的语料自动生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556808B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832306A (zh) * | 2020-07-09 | 2020-10-27 | 昆明理工大学 | 基于多特征融合的影像诊断报告命名实体识别方法 |
CN112420148A (zh) * | 2020-11-24 | 2021-02-26 | 北京一脉阳光医学信息技术有限公司 | 一种基于人工智能的医学影像报告质控系统、方法及介质 |
CN112712879A (zh) * | 2021-01-18 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 医学影像报告的信息提取方法、装置、设备及存储介质 |
US20220301670A1 (en) * | 2019-09-06 | 2022-09-22 | Roche Molecular Systems, Inc. | Automated information extraction and enrichment in pathology report using natural language processing |
-
2024
- 2024-01-12 CN CN202410044461.2A patent/CN117556808B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220301670A1 (en) * | 2019-09-06 | 2022-09-22 | Roche Molecular Systems, Inc. | Automated information extraction and enrichment in pathology report using natural language processing |
CN111832306A (zh) * | 2020-07-09 | 2020-10-27 | 昆明理工大学 | 基于多特征融合的影像诊断报告命名实体识别方法 |
CN112420148A (zh) * | 2020-11-24 | 2021-02-26 | 北京一脉阳光医学信息技术有限公司 | 一种基于人工智能的医学影像报告质控系统、方法及介质 |
CN112712879A (zh) * | 2021-01-18 | 2021-04-27 | 腾讯科技(深圳)有限公司 | 医学影像报告的信息提取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
石教祥;朱礼军;望俊成;王政;魏超;: "面向少量标注数据的命名实体识别研究", 情报工程, no. 04, 15 August 2020 (2020-08-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117556808B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lund et al. | Likelihood ratio as weight of forensic evidence: a closer look | |
US10102340B2 (en) | System and method for dynamic healthcare insurance claims decision support | |
CN106933806A (zh) | 医疗同义词的确定方法和装置 | |
CN112562807B (zh) | 医疗数据分析方法、装置、设备、存储介质和程序产品 | |
CN108319605A (zh) | 医学检查数据的结构化处理方法及系统 | |
CN108595657B (zh) | His系统的数据表分类映射方法和装置 | |
CN109831665A (zh) | 一种视频质检方法、系统及终端设备 | |
CN110706815A (zh) | 一种影像报告的评估方法、装置及电子设备 | |
CN111090641A (zh) | 数据处理方法及装置、电子设备、存储介质 | |
CN112420148A (zh) | 一种基于人工智能的医学影像报告质控系统、方法及介质 | |
CN112397159A (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN114334065B (zh) | 病历处理方法、计算机可读存储介质及计算机设备 | |
CN115858886A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
Huang et al. | Natural language processing in spine surgery: a systematic review of applications, bias, and reporting transparency | |
CN117556808B (zh) | 基于大语言模型和影像知识库的语料自动生成方法及装置 | |
CN115705678A (zh) | 一种图像数据处理方法、计算机设备以及介质 | |
CN108319580A (zh) | 诊断词归一方法及装置 | |
CN109994207B (zh) | 心理健康预警方法、服务器与系统 | |
CN115089112B (zh) | 卒中后认知障碍风险评估模型建立方法、装置及电子设备 | |
CN111091915A (zh) | 医疗数据处理方法及装置、存储介质、电子设备 | |
CN111275558B (zh) | 用于确定保险数据的方法和装置 | |
Andjelković Apostolović et al. | The trend of the quality of cause-of-death data and its association with socio-economic indicators in Serbia in the period 2005–19 | |
US8756234B1 (en) | Information theory entropy reduction program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |