CN117852606A - 目标模型的训练方法及相关方法、装置、设备和介质 - Google Patents
目标模型的训练方法及相关方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN117852606A CN117852606A CN202311634466.2A CN202311634466A CN117852606A CN 117852606 A CN117852606 A CN 117852606A CN 202311634466 A CN202311634466 A CN 202311634466A CN 117852606 A CN117852606 A CN 117852606A
- Authority
- CN
- China
- Prior art keywords
- report
- model
- sample
- field
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002159 abnormal effect Effects 0.000 claims abstract description 87
- 238000007689 inspection Methods 0.000 claims description 32
- 230000005856 abnormality Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 9
- 206010005963 Bone formation increased Diseases 0.000 description 7
- 238000005065 mining Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 210000003041 ligament Anatomy 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000002198 Annona diversifolia Nutrition 0.000 description 2
- 241000282842 Lama glama Species 0.000 description 2
- 208000031481 Pathologic Constriction Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000002308 calcification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036262 stenosis Effects 0.000 description 2
- 208000037804 stenosis Diseases 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000005786 degenerative changes Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种目标模型的训练方法及相关方法、装置、设备和介质,其中,目标模型的训练方法包括:获取样本报告不同于标准报告的至少一个样本异常字段;以标准报告和至少一个样本异常字段为模型实际输入,并以样本报告为模型期望输出,构造得到模型训练数据;基于模型训练数据对预设模型进行训练,得到目标模型。上述方案,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种目标模型的训练方法及相关方法、装置、设备和介质。
背景技术
在现实场景中,在对某目标对象执行检查之后,通常需要检查者手动撰写检查报告。以医疗行业为例,在对患者执行医疗检查之后,通常需要由医生手动撰写医疗报告,以供留档或在后续阶段之用。
但是,上述方式完全依赖于人工工作,报告生成效率较低。虽然,近年来生成式大模型在诸如文案撰写等常规场景中得到越来越多应用。但是,由于与报告生成相关的训练数据较为稀缺,难以训练出比较完备的预训练大模型,导致现有的生成式大模型在报告生成任务中倾向于提供通用且泛化的回答,无法确保准确性和针对性。有鉴于此,如何在提高报告生成效率的前提下,提高报告生成的准确性和针对性,成为亟待解决的问题。
发明内容
本申请提供一种目标模型的训练方法及相关方法、装置、设备和介质。
本申请第一方面提供了一种目标模型的训练方法,包括:获取样本报告不同于标准报告的至少一个样本异常字段;以标准报告和至少一个样本异常字段为模型实际输入,并以样本报告为模型期望输出,构造得到模型训练数据;基于模型训练数据对预设模型进行训练,得到目标模型。
因此,获取样本报告不同于标准报告的至少一个样本异常字段,从而以标准报告和至少一个样本异常字段为模型实际收入,并以样本报告为模型期望输出,构造得到模型训练数据,进而基于模型训练数据对预设模型进行训练,得到目标模型,一方面通过目标模型有助于医疗报告生成无需完全依赖于人工工作,从而能够提高医疗报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
其中,获取样本报告不同于标准报告的至少一个样本异常字段,包括:将样本报告、标准报告和第一提示输入至大语言模型,得到大语言模型输出的至少一个样本异常字段;其中,第一提示用于指示大语言模型在样本报告中寻找不同于标准报告的异常字段。
因此,将样本报告、标准报告和第一提示输入至大语言模型,得到大语言模型输出的至少一个样本异常字段,且第一提示用于指示大语言模型在样本报告中寻找不同于标准报告的异常字段,从而能够充分利用大语言模型的知识理解能力,进而有助于提升挖掘样本异常字段的效率和精度。
其中,获取样本报告不同于标准报告的至少一个样本异常字段,包括:基于文档比较模型对样本报告和标准报告进行比对,得到至少一个样本异常字段。
因此,基于样本文档比较模型对样本报告和标准报告进行比对,得到至少一个样本异常字段,相较于部署大语言模型挖掘样本异常字段而言,部署文档比较模型能够尽可能地降低挖掘样本异常字段对计算资源的消耗和要求。
其中,基于模型训练数据对预设模型进行训练,得到目标模型,包括:构造第二提示;其中,第二提示用于指示预设模型结合标准报告和至少一个样本异常字段生成报告;将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告;基于预测报告和样本报告之间的差异,调整预设模型的网络参数,直至预设模型经若干轮训练收敛,得到目标模型。
因此,构造第二提示,且第二提示用于指示预设模型结合标准报告和至少一个样本异常字段生成报告,并将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告,从而基于预测报告和样本报告之间的差异,调整预设模型的网络参数,直至预设模型经若干轮训练收敛,得到目标模型,故能够迫使目标模型结合标准报告和异常字段尽可能地生成真实医疗报告,有助于提升目标模型的准确性。
其中,构造第二提示,包括:构造多个第二提示;其中,各个第二提示的指示含义相同;将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告,包括:分别选择各个第二提示,作为当前提示;将标准报告、至少一个样本异常字段和当前提示输入至预设模型,得到预设模型在当前提示下输出的预测报告;基于预测报告和样本报告之间的差异,调整预设模型的网络参数,包括:基于预设模型在各个第二提示下输出的预测报告分别与样本报告之间的差异,调整预设模型的网络参数。
因此,构造多个第二提示,且各个第二提示的指示含义相同,再分别选择各个第二提示,作为当前提示,并将标准报告、指示一个样本异常字段和当前提示输入至预设模型,得到预设模型在当前提示下输出的预测报告,从而基于预设模型在各个第二提示下的预测报告分别与样本报告之间的差异,调整预设模型的网络参数,故能够迫使目标模型在不同下都可以尽可能地生成真实报告,有助于提升目标模型的鲁棒性。
其中,在样本报告存在多个不同于标准报告的样本异常字段情况下,在将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告之前,方法还包括:随机打乱各个样本异常字段。
因此,在样本报告存在多个不同于标准报告的样本异常字段情况下,在将标准报告、至少一个样本异常字段和第二提示输入至预设模型之前,先随机打乱各个样本异常字段,能够尽可能地增强预设模型对字段顺序的学习能力。
本申请第二方面提供了一种报告生成方法,包括:获取目标对象的检查异常字段,并获取标准报告;将标准报告、检查异常字段和生成提示输入至目标模型,得到目标模型输出的目标报告;其中,生成提示用于指示目标模型结合标准报告和检查异常字段生成报告,且预设模型基于上述第一方面的训练方法训练得到。
因此,获取目标对象的检查异常字段,并获取标准报告,再将标准报告、异常检查字段和生成提示输入至目标模型,得到目标模型输出的目标报告,且生成提示用于指示目标模型结合标准报告和检查异常字段生成报告,预设模型基于上述训练方法训练得到,一方面通过目标模型来生成报告,有助于提升报告生成效率,另一方面采用前述训练方法训练得到的预设模型应用于报告生成的下游任务中,能够提高报告生成的准确性和针对性。
其中,检查异常字段在目标对象被执行目标检查之后所确定,获取标准报告,包括:获取与目标检查相匹配的标准报告。
因此,检查异常字段在目标对象被执行目标检查之后所确定,从而在获取标准报告时具体获取与目标检查相匹配的标准报告,从而能够进一步提升报告生成的针对性。
本申请第三方面提供了一种目标模型的训练装置,包括:异常获取模块、样本构造模块和模型训练模块,异常获取模块,用于获取样本报告不同于标准报告的至少一个样本异常字段;样本构造模块,用于以标准报告和至少一个样本异常字段为模型实际输入,并以样本报告为模型期望输出,构造得到模型训练数据;模型训练模块,用于基于模型训练数据对预设模型进行训练,得到目标模型。
本申请第四方面提供了一种报告生成装置,包括:数据获取模块和报告生成模块,数据获取模块,用于获取目标对象的检查异常字段,并获取标准报告;报告生成模块,用于将标准报告、检查异常字段和生成提示输入至目标模型,得到目标模型输出的目标报告;其中,生成提示用于指示报告模型结合标准报告和检查异常字段生成报告,且预设模型基于上述第三方面的训练装置训练得到。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的目标模型的训练方法,或上述第二方面中的报告生成方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的目标模型的训练方法,或上述第二方面中的报告生成方法。
上述方案,一方面通过目标模型有助于报告生成无需完全依赖于人工工作,从而能够提高报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
附图说明
图1是本申请目标模型的训练方法一实施例的流程示意图;
图2是本申请报告生成方法一实施例的流程示意图;
图3是本申请目标模型的训练装置一实施例的框架示意图;
图4是本申请报告生成装置一实施例的框架示意图;
图5是本申请电子设备一实施例的框架示意图;
图6是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请目标模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取样本报告不同于标准报告的至少一个样本异常字段。
本公开实施例中,标准报告是执行检查之后撰写检查报告时所参照的且无异常报告,而样本报告是样本对象被执行检查之后由检查人员参照标准报告结合检查结果所写样本对象的检查报告。以医疗行业为例,上述检查具体可以是医疗检查,相应地,样本报告可以是样本医疗报告,标准报告可以是标准医疗报告,需要说明的是,医疗检查可以包括但不限于:计算机断层扫描、核磁共振、超声波等影像检查,以及心率、血氧、血压等常规检查,或血液、尿液等样本检查,在此对医疗检查不做限定。其他场景可以以此类推,在此不再一一举例。
以医疗检查中颈椎检查为例,其标准医疗报告可以如下所示:
颈椎生理曲度正常,椎体形态正常,椎间隙及椎间孔未见狭窄,项韧带未见钙化。
以颈椎检查存在退行性改变为例,其样本医疗报告可以如下所示:
颈椎生理曲度变直,诸椎体可见骨质增生性改变,椎间隙及椎间孔未见狭窄,项韧带未见钙化。
当然,上述举例仅仅是实际应用过程中一种可能示例,并不因此而限定标准检查报告以及样本检查报告。
在一个实施场景中,为了获取上述样本异常字段,可以将样本报告、标准报告和第一提示输入至大语言模型,得到大语言模型输出的至少一个样本异常字段,且第一提示用于指示大语言模型在样本报告中寻找不同于标准报告的异常字段。需要说明的是,大语言模型可以包括但不限于:LLAMA、GPT等,在此不做限定。上述方式,能够充分利用大语言模型的知识理解能力,进而有助于提升挖掘样本异常字段的效率和精度。
在一个具体的实施场景中,第一提示可以根据实际情况进行设置,以清楚准确地表达上述指示含义为宜。示例性地,第一提示可以设置为包括但不限于以下内容:“请找出样本报告不同于标准报告的异常字段”、“给你标准报告和样本报告,请找出样本报告中的异常字段”等等,在此不做限定。
在一个具体的实施场景中,还可以在第一提示中限定大语言模型在输出异常字段时的具体要求,如可以限定输出时保存的文件格式、数据形式。示例性地,以输出时保存的文件格式是JSON且要求数据形式为结构化形式为例,结合标准报告、样本报告和第一提示,可以向大语言模型输入如下内容:
给你标准报告和相较而言含有异常字段的样本报告,找出异常字段,输出文件格式为JSON,且格式为:
{
“序号”:
“样本异常字段”:
}
另外,注意不生成JSON文件以外的其他内容。以下分别是标准报告和样本报告:
【标准报告】
//
此处是标准报告
//
【样本报告】
//
此处是样本报告
//
当然,上述举例仅仅是实际应用过程中一种可能示例,并不因此而限定在输入大语言模型时,标准报告、样本报告和第一提示的语言组织形式。
在另一个实施场景中,作为另一种可能的实施方式,为了获取样本异常字段,也可以基于文档比较模型对样本报告和标准报告进行比对,得到至少一个样本异常字段。上述方式,相较于部署大语言模型挖掘样本异常字段而言,部署文档比较模型能够尽可能地降低挖掘样本异常字段对计算资源的消耗和要求。
在一个具体的实施场景中,文档比较模型可以包括但不限于BERT等,在此对文档比较模型的网络结构不做限定。
在一个具体的实施场景中,为了提升文档比较模型的准确性,可以预先采集若干文档对,且文档对包含第一文档以及在第一文档中随机选择字段进行修改所得到的第二文档,并将随机选择的字段作为样本字段。在此基础上,可以将文档对输入至文档比较模型,得到文档比较模型比较第二文档不同于第一文档中异常字段所输出的预测字段,从而可以基于样本字段与预测字段之间的差异,调整文档比较模型的网络参数,进而能够迫使文档比较模型能够尽可能准确地识别出异常字段。
示例性地,仍以前述颈椎检查为例,至少一个样本异常字段可以包括:颈椎生理曲度变直,诸椎体可见骨质增生性改变,即存在两项样本异常字段。在其他情况下,可以以此类推,在此不再一一举例。
步骤S12:以标准报告和至少一个样本异常字段为模型实际输入,并以样本报告为模型期望输出,构造得到模型训练数据。
仍以前述颈椎检查为例,可以将标准报告“颈椎生理曲度正常,椎体形态正常,椎间隙及椎间孔未见狭窄,项韧带未见钙化。”和识别出的样本异常字段“颈椎生理曲度变直,诸椎体可见骨质增生性改变”作为模型实际输入,并将样本报告“颈椎生理曲度变直,诸椎体可见骨质增生性改变,椎间隙及椎间孔未见狭窄,项韧带未见钙化。”作为模型期望输出,构造得到一个模型训练数据。以此类推,即可构造得到训练数据集,进而可以基于此进行模型训练。
步骤S13:基于模型训练数据对预设模型进行训练,得到目标模型。
具体而言,可以构造第二提示,且第二提示用于指示预设模型结合标准报告和至少一个样本异常字段生成报告,从而可以将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告,进而可以基于预测报告和样本报告之间的差异,调整预设模型的网络参数,直至预设模型经若干轮训练收敛,得到目标模型。上述方式,能够迫使目标模型在不同下都可以尽可能地生成真实报告,有助于提升目标模型的鲁棒性。
在一个实施场景中,仍以医疗行业为例,可以采用大量医疗文本(如,医疗书籍、医疗对话等)对大规模语言模型(如,LLAMA、GPT等)进行预训练,得到医疗大模型,作为预设模型。其他场景可以以此类推,在此不再一一举例。
在另一个实施场景中,仍以医疗行业为例,区别于前述实施方式,为了进一步提升医疗大模型对医疗领域知识理解能力的准确性性,也可以结合样本医疗问答和医疗回答检测模型一同训练得到医疗大模型,作为预设模型。其他场景可以以此类推,在此不再一一举例。具体来说,可以获取医疗回答检测模型,并获取第一样本医疗问题;基于医疗大模型对第一样本医疗问题进行分析,得到第一样本医疗问题的多个第一样本医疗回答;基于医疗回答检测模型分别对各个第一样本医疗回答进行检测,得到表征第一样本医疗回答优劣程度的第一检测分值;基于由第一检测分值所确定的学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,基于由第一检测分值所确定的学习率,调整医疗大模型的网络参数,包括:基于各个第一样本医疗回答的第一检测分值进行归一化,得到对应第一样本医疗回答的归一化分值;基于各个第一样本医疗回答的归一化分值,从多个第一样本医疗回答中筛选出第一样本医疗问题的样本优秀医疗回答;基于由样本优秀医疗回答的归一化分值所确定的学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,基于由样本优秀医疗回答的归一化分值所确定的学习率,调整医疗大模型的网络参数,包括:选择样本优秀医疗回答的归一化分值作为权重;基于权重获取医疗大模型对样本优秀医疗回答进行生成式学习的学习率;基于学习率,调整医疗大模型的网络参数。
在一个具体的实施场景中,在基于医疗回答检测模型分别对各个第一样本医疗回答进行检测,得到表征第一样本医疗回答优劣程序的第一检测分值之前,方法还包括:获取第二样本医疗问题和第二样本医疗问题的多个第二样本医疗回答;其中,第二样本医疗问题标注有多个第二样本医疗回答关于优劣程度的样本排序信息;将第二样本医疗回答和回答检测提示输入至医疗回答检测模型,得到表征第二样本医疗回答优劣程度的第二检测分值;其中,回答检测提示用于指示医疗回答检测模型检测第二样本医疗回答的优劣程度;基于样本排序信息和第二检测分值,调整医疗回答检测模型的网络参数。
在一个具体的实施场景中,将第二样本医疗回答和回答检测提示输入至医疗回答检测模型,得到表征第二样本医疗回答优劣程度的第二检测分值,包括:将第二样本医疗回答和回答检测提示输入至医疗回答检测模型,得到医疗回答检测模型输出的第一概率和第二概率;其中,第一概率表征第二样本医疗回答检测为优秀的可能性,第二概率表征第二样本医疗回答检测为拙劣的可能性;基于第一概率和第二概率,得到第二样本医疗回答的第二检测分值。
在一个具体的实施场景中,基于样本排序信息和第二检测分值,调整医疗回答检测模型的网络参数,包括:基于样本排序信息,将多个第二样本医疗回答划分至正例回答集合和负例回答集合;基于正例回答集合中第二样本医疗回答的第二检测分值,得到第一子损失,并基于负例回答集合中第二样本医疗回答的第二检测分值,得到第二子损失;基于第一子损失和第二子损失,调整医疗回答检测模型的网络参数;其中,第一子损失负相关于正例回答集合中第二样本医疗回答的第二检测分值,第二子损失正相关于负例回答集合中第二样本医疗回答的第二检测分值。
在一个具体的实施场景中,在基于第一子损失和第二子损失,调整医疗回答检测模型的网络参数之前,方法还包括:基于样本排序信息,选择两个第二样本医疗回答分别作为第二样本医疗问题的第一正例医疗回答和第一负例医疗回答;将第一正例医疗回答的第二检测分值,作为正例回答检测分值,并将第一负例医疗回答的第二检测分值,作为负例回答检测分值;基于负例回答检测分值与正例回答检测分值的分值之差,得到第一损失;其中,分值之差与第一损失正相关;基于第一子损失和第二子损失,调整医疗回答检测模型的网络参数,包括:获取第一子损失与第二子损失之和,得到第二损失,并基于第一损失和第二损失,调整医疗回答检测模型的网络参数。
在一个具体的实施场景中,获取第二样本医疗问题和第二样本医疗问题的多个第二样本医疗回答,包括:基于大语言模型对第二样本医疗问题进行分析,得到多个第二样本医疗回答;获取对多个第二样本医疗回答关于优劣程度的标注排序信息;基于标注排序信息,选择两个第二样本医疗回答分别作为第二样本医疗问题的第二正例医疗回答和第二负例医疗回答;基于大语言模型对第二正例医疗回答和第二负例医疗回答进行优劣校验,得到表征第二正例医疗回答和第二负例医疗回答孰优孰劣的校验结果;基于校验结果,确定是否提示修改标注排序信息。
在一个具体的实施场景中,,基于校验结果,确定是否提示修改标注排序信息,至少包括:响应于校验结果与标注排序信息不符,提示修改标注排序信息。
在一个实施场景中,在得到预设模型之后,即可构造第二提示。需要说明的是,第二提示的具体内容在此不做限定,以能够清楚准确表达上述指示含义为宜。示例性地,第二提示可以采用包括但不限于以下内容:“请在标准报告的基础上结合给出的样本异常字段,生成报告”、“给你一个标准报告和样本异常字段,请在标准报告中添加样本异常字段,即将标准报告中和样本异常字段相对应的文本改写为与样本异常字段一致的表述,且不改变标准报告的陈述顺序,以生成报告。注意,不要生成报告内容以外的其他文字,不要出现主观建议,生成的报告无自相矛盾和冲突”。当然,上述举例仅仅是实际应用过程中第二提示的几种可能示例,并不因此而限定第二提示的具体内容。示例性地,结合标准报告和样本异常字段,向预设模型输入的具体内容可以为:
给你一个标准报告和样本异常字段,请在标准报告中添加样本异常字段,即将标准报告中和样本异常字段相对应的文本改写为与样本异常字段一致的表述,且不改变标准报告的陈述顺序,以生成报告。注意,不要生成报告内容以外的其他文字,不要出现主观建议,生成的报告无自相矛盾和冲突。
【标准报告】
//
此处是标准报告(如,颈椎生理曲度正常,椎体形态正常,椎间隙及椎间孔未见狭窄,项韧带未见钙化。)
//
【样本异常字段】
//
此处是样本异常字段(如,颈椎生理曲度变直,诸椎体可见骨质增生性改变)
//
当然,上述举例仅仅是实际应用过程中结合标准报告和样本异常字段向预设模型输入内容的一种可能示例,并不因此而限定其他可能输入内容。在此基础上,预设模型即可根据第二提示结合标准报告和样本异常字段生成预测报告。仍以颈椎检查为例,根据标准报告“颈椎生理曲度正常,椎体形态正常,椎间隙及椎间孔未见狭窄,项韧带未见钙化”和样本异常字段“颈椎生理曲度变直”“诸椎体可见骨质增生性改变”,可以确定样本异常字段“颈椎生理曲度变直”与标准报告中表述“颈椎生理曲度正常”相对应,样本异常字段“诸椎体可见骨质增生性改变”和标准报告中表述“椎体形态正常”相对应,由此可生成预测报告“颈椎生理曲度变直,诸椎体可见骨质增生性改变,椎间隙及椎间孔未见狭窄,项韧带未见钙化”。当然,以上示例仅仅是实际应用过程中一种可能情况,并不因此而限定预设模型据此所生成的预测报告。在此基础上,即可度量预测报告和样本报告之间的差异,得到预设模型的损失值,并基于损失值,调整预设模型的网络参数。至此即可完成对预设模型的一次训练,从而根据前述构造得到的训练数据集可以对预设模型持续训练,直至训练收敛,即可将训练收敛的预设模型,作为目标模型。
在一个实施场景中,为了提升模型鲁棒性,可以构造多个第二提示,且各个第二提示的指示含义相同。在此基础上,可以分别选择各个第二提示,作为当前提示,再将标准报告、至少一个样本异常字段和当前提示输入至预设模型,得到预设模型在当前提示下输出的预测报告,从而可以基于预设模型在各个第二提示下输出的预测报告分别与样本报告之间的差异,调整预设模型的网络参数。示例性地,可以度量各个预测报告分别与样本报告之间的差异,得到根据对应预测报告所度量得到的子损失,基于此即可将各个预测报告分别对应的子损失进行融合(如,平均、加权等),得到损失值,再基于损失值,调整预设模型的网络参数。上述方式,能够迫使目标模型在不同下都可以尽可能地生成真实报告,有助于提升目标模型的鲁棒性。
在一个实施场景中,在样本报告存在多个不同于标准报告的样本异常字段情况下,在将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告之前,还可以随机打乱各个样本异常字段。示例性地,仍以前述颈椎检查为例,如前所述,样本异常字段为:“颈椎生理曲度变直”、“诸椎体可见骨质增生性改变”,则在输入至预设模型之前,可以将上述样本异常字段进行随机打乱,即“诸椎体可见骨质增生性改变”、“颈椎生理曲度变直”。当然,上述仅仅是存在两个样本异常字段情况下随机打乱的可能示例,在存在三个样本异常字段、或三个以上样本异常字段的情况下,可以以此类推,在此不再一一举例。需要说明的是,随机打乱之后的后续步骤,可以参阅前述相关描述,在此不再赘述。或者,也可以随机打乱多次,即对多个样本异常字段进行排列,得到多种排列结果。在此基础上,可以分别选择各种排列的多个样本异常字段,并与标准报告和第二提示一同输入至预设模型,得到在对应排列下预设模型输出的预测报告。在此基础上,可以基于预设模型在各种排列下输出的预测报告分别与样本报告之间的差异,调整预设模型的网络参数。上述方式,能够尽可能地增强预设模型对字段顺序的学习能力。
上述方案,获取样本报告不同于标准报告的至少一个样本异常字段,从而以标准报告和至少一个样本异常字段为模型实际收入,并以样本报告为模型期望输出,构造得到模型训练数据,进而基于模型训练数据对预设模型进行训练,得到目标模型,一方面通过目标模型有助于报告生成无需完全依赖于人工工作,从而能够提高医疗报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
请参阅图2,图2是本申请报告生成方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S21:获取目标对象的检查异常字段,并获取标准报告。
在一个实施场景中,检查异常字段可以是在目标对象被执行目标检查之后所确定。示例性地,仍以医疗行业为例,在对目标对象执行目标检查,如颈椎检查(如,颈部CT等)之后,可以通过阅读CT检查结果,确定检查异常字段:“颈椎生理曲度变直”、“诸椎体可见骨质增生性改变”。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,可以获取与目标检查相匹配的标准报告。示例性地,仍以医疗行业为例,在执行目标检查“颈部CT检查”的情况下,可以获取与“颈部CT检查”相匹配的标准报告。其他情况可以以此类推,在此不再一一举例。
步骤S22:将标准报告、检查异常字段和生成提示输入至目标模型,得到目标模型输出的目标报告。
本公开实施例中,生成提示用于指示目标模型结合标准报告和检查异常字段生成报告,且预设模型基于上述目标模型的训练方法实施例中步骤训练得到,具体可以参阅前述目标模型的训练方法实施例,在此不再赘述。此外,生成提示的具体设置,可以参阅前述公开实施例中关于第二提示的相关描述,在此不再赘述。
上述方案,获取目标对象的检查异常字段,并获取标准报告,再将标准报告、异常检查字段和生成提示输入至目标模型,得到目标模型输出的目标报告,且生成提示用于指示目标模型结合标准报告和检查异常字段生成报告,预设模型基于上述训练方法训练得到,一方面通过目标模型来生成报告,有助于提升报告生成效率,另一方面采用前述训练方法训练得到的预设模型应用于报告生成的下游任务中,能够提高报告生成的准确性和针对性。
请参阅图3,图3是本申请目标模型的训练装置30一实施例的框架示意图。目标模型的训练装置30包括:异常获取模块31、样本构造模块32和模型训练模块33,异常获取模块31,用于获取样本报告不同于标准报告的至少一个样本异常字段;样本构造模块32,用于以标准报告和至少一个样本异常字段为模型实际输入,并以样本报告为模型期望输出,构造得到模型训练数据;模型训练模块33,用于基于模型训练数据对预设模型进行训练,得到目标模型。
上述方案,目标模型的训练装置30获取样本报告不同于标准报告的至少一个样本异常字段,从而以标准报告和至少一个样本异常字段为模型实际收入,并以样本报告为模型期望输出,构造得到模型训练数据,进而基于模型训练数据对预设模型进行训练,得到目标模型,一方面通过目标模型有助于报告生成无需完全依赖于人工工作,从而能够提高报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
在一些公开实施例中,异常获取模块31具体用于将样本报告、标准报告和第一提示输入至大语言模型,得到大语言模型输出的至少一个样本异常字段;其中,第一提示用于指示大语言模型在样本报告中寻找不同于标准报告的异常字段。
在一些公开实施例中,异常获取模块31具体用于于文档比较模型对样本报告和标准报告进行比对,得到至少一个样本异常字段。
在一些公开实施例中,模型训练模块33包括提示构造子模块,用于构造第二提示;其中,第二提示用于指示预设模型结合标准报告和至少一个样本异常字段生成报告;模型训练模块33包括报告预测子模块,用于将标准报告、至少一个样本异常字段和第二提示输入至预设模型,得到预设模型输出的预测报告;模型训练模块33包括参数调整子模块,用于基于预测报告和样本报告之间的差异,调整预设模型的网络参数,直至预设模型经若干轮训练收敛,得到目标模型。
在一些公开实施例中,提示构造子模块具体用于构造多个第二提示;其中,各个第二提示的指示含义相同;报告预测子模块具体用于分别选择各个第二提示,作为当前提示;并将标准报告、至少一个样本异常字段和当前提示输入至预设模型,得到预设模型在当前提示下输出的预测报告;参数调整子模块具体用于基于预设模型在各个第二提示下输出的预测报告分别与样本报告之间的差异,调整预设模型的网络参数。
在一些公开实施例中,模型训练模块33还包括字段打乱子模块,用于在样本报告存在多个不同于标准报告的样本异常字段情况下,随机打乱各个样本异常字段。
请参阅图4,图4是本申请报告生成装置40一实施例的框架示意图。报告生成装置40包括:数据获取模块41和报告生成模块42,数据获取模块41,用于获取目标对象的检查异常字段,并获取标准报告;报告生成模块42,用于将标准报告、检查异常字段和生成提示输入至目标模型,得到目标模型输出的目标报告;其中,生成提示用于指示报告模型结合标准报告和检查异常字段生成报告,且预设模型基于上述目标模型的训练装置实施例中训练装置训练得到。
上述方案,报告生成装置40获取目标对象的检查异常字段,并获取标准报告,再将标准报告、异常检查字段和生成提示输入至目标模型,得到目标模型输出的目标报告,且生成提示用于指示目标模型结合标准报告和检查异常字段生成报告,预设模型基于上述训练方法训练得到,一方面通过目标模型来生成报告,有助于提升报告生成效率,另一方面采用前述训练装置训练得到的预设模型应用于报告生成的下游任务中,能够提高报告生成的准确性和针对性。
在一些公开实施例中,检查异常字段在目标对象被执行目标检查之后所确定,数据获取模块41具体用于获取与目标检查相匹配的标准报告。
请参阅图5,图5是本申请电子设备50一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52,处理器52用于执行存储器51中存储的程序指令,以实现上述任一目标模型的训练方法实施例的步骤,或实现上述任一报告生成方法实施例中的步骤。在一个具体的实施场景中,电子设备50可以包括但不限于:微型计算机、服务器,此外,电子设备50还可以包括智能手机、平板电脑等移动设备,在此不做限定。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一目标模型的训练方法实施例的步骤,或上述任一报告生成方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
上述方案,电子设备50一方面通过目标模型有助于报告生成无需完全依赖于人工工作,从而能够提高报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
请参阅图6,图6为本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一目标模型的训练方法实施例的步骤,或实现上述任一报告生成方法实施例的步骤。
上述方案,计算机可读存储介质60一方面通过目标模型有助于报告生成无需完全依赖于人工工作,从而能够提高报告生成效率,另一方面通过先获取样本异常字段再结合其与标准报告作为模型实际输入且以样本报告作为模型期望输出,以构造得到模型训练数据,并据此训练预设模型,能够使训练大模型既尽可能符合模板要求来生成报告,又尽可能针对体现异常字段。故此,能够在提高报告生成效率的前提下,提高报告生成的准确性和针对性。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (12)
1.一种目标模型的训练方法,其特征在于,包括:
获取样本报告不同于标准报告的至少一个样本异常字段;
以所述标准报告和所述至少一个样本异常字段为模型实际输入,并以所述样本报告为模型期望输出,构造得到模型训练数据;
基于所述模型训练数据对预设模型进行训练,得到所述目标模型。
2.根据权利要求1所述的方法,其特征在于,所述获取样本报告不同于标准报告的至少一个样本异常字段,包括:
将所述样本报告、所述标准报告和第一提示输入至大语言模型,得到所述大语言模型输出的所述至少一个样本异常字段;
其中,所述第一提示用于指示所述大语言模型在所述样本报告中寻找不同于所述标准报告的异常字段。
3.根据权利要求1所述的方法,其特征在于,所述获取样本报告不同于标准报告的至少一个样本异常字段,包括:
基于文档比较模型对所述样本报告和所述标准报告进行比对,得到所述至少一个样本异常字段。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述模型训练数据对预设模型进行训练,得到目标模型,包括:
构造第二提示;其中,所述第二提示用于指示所述预设模型结合所述标准报告和所述至少一个样本异常字段生成报告;
将所述标准报告、所述至少一个样本异常字段和所述第二提示输入至所述预设模型,得到所述预设模型输出的预测报告;
基于所述预测报告和所述样本报告之间的差异,调整所述预设模型的网络参数,直至所述预设模型经若干轮训练收敛,得到所述目标模型。
5.根据权利要求4所述的方法,其特征在于,所述构造第二提示,包括:
构造多个所述第二提示;其中,各个所述第二提示的指示含义相同;
所述将所述标准报告、所述至少一个样本异常字段和所述第二提示输入至所述预设模型,得到所述预设模型输出的预测报告,包括:
分别选择各个所述第二提示,作为当前提示;
将所述标准报告、所述至少一个样本异常字段和所述当前提示输入至所述预设模型,得到所述预设模型在所述当前提示下输出的预测报告;
所述基于所述预测报告和所述样本报告之间的差异,调整所述预设模型的网络参数,包括:
基于所述预设模型在各个所述第二提示下输出的预测报告分别与所述样本报告之间的差异,调整所述预设模型的网络参数。
6.根据权利要求4或5所述的方法,其特征在于,在所述样本报告存在多个不同于所述标准报告的样本异常字段情况下,在所述将所述标准报告、所述至少一个样本异常字段和所述第二提示输入至所述预设模型,得到所述预设模型输出的预测报告之前,所述方法还包括:
随机打乱各个所述样本异常字段。
7.一种报告生成方法,其特征在于,包括:
获取目标对象的检查异常字段,并获取标准报告;
将所述标准报告、所述检查异常字段和生成提示输入至目标模型,得到所述目标模型输出的目标报告;其中,所述生成提示用于指示所述目标模型结合所述标准报告和所述检查异常字段生成报告,且所述预设模型基于权利要求1至6任一项所述的训练方法训练得到。
8.根据权利要求7所述的方法,其特征在于,所述检查异常字段在所述目标对象被执行目标检查之后所确定,所述获取标准报告,包括:
获取与所述目标检查相匹配的标准报告。
9.一种目标模型的训练装置,其特征在于,包括:
异常获取模块,用于获取样本报告不同于标准报告的至少一个样本异常字段;
样本构造模块,用于以所述标准报告和所述至少一个样本异常字段为模型实际输入,并以所述样本报告为模型期望输出,构造得到模型训练数据;
模型训练模块,用于基于所述模型训练数据对预设模型进行训练,得到目标模型。
10.一种医疗报告生成装置,其特征在于,包括:
数据获取模块,用于获取目标对象的检查异常字段,并获取标准报告;
报告生成模块,用于将所述标准报告、所述检查异常字段和生成提示输入至目标模型,得到所述目标模型输出的目标报告;其中,所述生成提示用于指示所述目标模型结合所述标准报告和所述检查异常字段生成报告,且所述预设模型基于权利要求1至6任一项所述的训练方法训练得到。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的目标模型的训练方法,或权利要求7或8所述的报告生成方法。
12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的目标模型的训练方法,或权利要求7或8所述的报告生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311634466.2A CN117852606A (zh) | 2023-11-30 | 2023-11-30 | 目标模型的训练方法及相关方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311634466.2A CN117852606A (zh) | 2023-11-30 | 2023-11-30 | 目标模型的训练方法及相关方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117852606A true CN117852606A (zh) | 2024-04-09 |
Family
ID=90542546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311634466.2A Pending CN117852606A (zh) | 2023-11-30 | 2023-11-30 | 目标模型的训练方法及相关方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117852606A (zh) |
-
2023
- 2023-11-30 CN CN202311634466.2A patent/CN117852606A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Escalante et al. | Modeling, recognizing, and explaining apparent personality from videos | |
Miller et al. | The Auto-eFACE: Machine learning–enhanced program yields automated facial palsy assessment tool | |
US11763174B2 (en) | Learning material recommendation method, learning material recommendation device, and learning material recommendation program | |
CN110909035A (zh) | 个性化复习题集生成方法、装置、电子设备及存储介质 | |
CN111080624B (zh) | 精子运动状态的分类方法、装置、介质及电子设备 | |
CN115607156B (zh) | 基于多模态的心理认知筛查测评方法、系统及存储介质 | |
Iqbal et al. | AD-CAM: Enhancing interpretability of convolutional neural networks with a lightweight framework-from black box to glass box | |
Mansour et al. | Deep learning based suture training system | |
Cabitza et al. | Who wants accurate models? arguing for a different metrics to take classification models seriously | |
Loukas et al. | Surgical performance analysis and classification based on video annotation of laparoscopic tasks | |
CN109994207B (zh) | 心理健康预警方法、服务器与系统 | |
CN116350203A (zh) | 一种体质测试数据处理方法及系统 | |
WO2020208729A1 (ja) | 探索方法及び情報処理システム | |
KR20210034134A (ko) | 척추 위치에 기반한 관심 의료 영상 선별 장치 및 방법 | |
CN117852606A (zh) | 目标模型的训练方法及相关方法、装置、设备和介质 | |
CN116091963A (zh) | 临床试验机构质量评估方法、装置、电子设备及存储介质 | |
Bhatnagar et al. | A Review on the Use of Artificial Intelligence in Fracture Detection | |
US20200381120A1 (en) | Implant identification | |
JP2017207691A (ja) | 択一問題の正答率予測方法 | |
CN117708391B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
Arif et al. | Classification of Eye Diseases in Fundus Images Using Convolutional Neural Network (CNN) Method with EfficientNet Architecture.'' | |
KR102464887B1 (ko) | 의료 영상의 메타데이터 예측 장치 및 방법 | |
WO2024062935A1 (ja) | 情報処理装置、システム、情報処理方法、およびプログラム | |
KR102433054B1 (ko) | 의료 영상의 메타데이터 예측 장치 및 방법 | |
US20230260644A1 (en) | Methods, systems, and computer readable media for grading figure drawing visuospatial tests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |