CN116975206B - 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 - Google Patents

一种基于aigc大模型的垂直领域训练方法、装置及电子设备 Download PDF

Info

Publication number
CN116975206B
CN116975206B CN202311238616.8A CN202311238616A CN116975206B CN 116975206 B CN116975206 B CN 116975206B CN 202311238616 A CN202311238616 A CN 202311238616A CN 116975206 B CN116975206 B CN 116975206B
Authority
CN
China
Prior art keywords
evaluated
data
field
model
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311238616.8A
Other languages
English (en)
Other versions
CN116975206A (zh
Inventor
乔素林
吴钟健
唐雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayun Tianxia Nanjing Technology Co ltd
Original Assignee
Huayun Tianxia Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayun Tianxia Nanjing Technology Co ltd filed Critical Huayun Tianxia Nanjing Technology Co ltd
Priority to CN202311238616.8A priority Critical patent/CN116975206B/zh
Publication of CN116975206A publication Critical patent/CN116975206A/zh
Application granted granted Critical
Publication of CN116975206B publication Critical patent/CN116975206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于垂直领域训练技术领域,具体涉及一种基于AIGC大模型的垂直领域训练方法、装置及电子设备。本发明能够在垂直领域训练过程中确定关键字段,还能够对关键字段进行组合,从而可以得到多个与应答数据相关的词语或者短句等,不仅使得垂直领域的适应性得以提升,还能够以此来提升垂直领域知识的输出质量,保证了其输出结果的准确度,同时也就使得用户的体验度得到相应的提升,并且对于该垂直领域后续新增的问询数据和应答数据,或者原有问询数据和应答数据的更新,也可采用该方式实现,并确定对应的关键字段,无需额外构建单独的训练框架,能够适应当下知识和要求快速变化的需求。

Description

一种基于AIGC大模型的垂直领域训练方法、装置及电子设备
技术领域
本发明属于垂直领域训练技术领域,具体涉及一种基于AIGC大模型的垂直领域训练方法、装置及电子设备。
背景技术
随着基于深度学习的自然语言处理技术的发展,垂直领域的训练也逐渐受其影响而相应优化,垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型,与通用语言模型相比,垂直领域大模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性,能够更好地理解和处理特定领域的知识、术语和上下文,相较于通用大模型而言,垂直领域的输出质量更高,为保证其输出质量,在其应用之前的训练无疑是必不可少的操作之一。
现有技术中,在对垂直领域进行训练时,往往在新增知识或者要求时,还需要重新构建垂直训练框架来进行,以此来完成对新增知识或要求的训练,此方式无疑是较为费时费力的,并且其训练过后,还需要一定的时间来进行试运行,从而方能确定关键字段,这显然会导致用户的体验感下降,基于此,本方案提供了一种适用于对垂直领域内多种知识进行训练并同步确定关键字段的训练方法。
发明内容
本发明的目的是提供一种基于AIGC大模型的垂直领域训练方法、装置及电子设备,能够在垂直领域训练过程中确定关键字段,还能够对关键字段进行组合,以此提升垂直领域知识的输出质量。
本发明采取的技术方案具体如下:
一种基于AIGC大模型的垂直领域训练方法,包括:
获取样本信息,以及所述样本信息对应的垂直领域,其中,所述样本信息为问询数据和应答数据;
对所述问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该所述一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该所述一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
将所述待评价数据输入至评价模型中,得到待校验应答数据;
将所述问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若所述基准数据与应答数据一致,则将所述待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若所述基准数据与应答数据不一致,则将所述待校验应答数据对应的待评价数据确定为待优化组合;
将所述待优化组合输入至优化模型中,得到待核验数据,并将所述待核验数据上传至评价模型中重新确定待校验应答数据。
在一种优选方案中,所述对所述问询数据进行拆分处理,得到多个一级待评估字段的步骤,包括:
获取所述问询数据对应的问询语句;
获取词汇表,并依据所述词汇表对问询语句进行拆分处理,得到多个待评估词汇;
将多个所述待评估词汇输入至自检模型中,得到多个独立词汇,且将所述独立词汇标定为一级待评估字段。
在一种优选方案中,所述将多个所述待评估词汇输入至自检模型中,得到多个独立词汇的步骤,包括:
获取所述待评估词汇,并按照笔画顺序进行排列;
筛选存在相同字符的待评估词汇,并将其标定为待自检词汇;
获取所述待自检词汇之间的重复字符数以及总体字符数;
从所述自检模型中调用自检函数,并将所述待自检词汇分类为两两一组,再将每组所述待自检词汇中的重复字符数和总体字符数输入至自检函数中,得到待筛选参数;
获取筛选阈值,并与所述筛选参数进行比较;
若所述筛选参数大于或等于筛选阈值,则将字符数少的待自检词汇筛除,并保留字符数多的待自检词汇,且将其标定为独立词汇;
若所述筛选参数小于筛选阈值,则将两个待自检词汇均标定为独立词汇。
在一种优选方案中,所述将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据的步骤,包括:
获取所述应答数据对应的应答语句,其中,每个所述应答语句对应多个响应字段;
将所述一级待评估字段与响应字段进行比较,得到所述一级待评估字段与响应字段之间的相似度,且将其标定为待校验参数;
从所述校验模型中调用校验阈值,并将所述校验阈值与待校验参数进行比较;
若所述待校验参数大于或等于校验阈值,则判定对应垂直领域内能匹配应答数据;
若所述待校验参数小于校验阈值,则判定对应垂直领域内不能匹配应答数据。
在一种优选方案中,所述将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据的步骤,包括:
获取所有所述二级待评估字段,并将每两个所述二级待评估字段汇总一组;
从所述重组模型中调用语义关联表;
依据所述语义关联表对每组二级待评估字段的语义进行比对;
若同组所述二级待评估字段的语义相关联,则将该组中的二级待评估字段重新组合为待评价数据;
若同组所述二级待评估字段的语义无关联,则将该组中的二级待评估字段确定为无效组合,且不统计其组合结果。
在一种优选方案中,所述将所述待评价数据输入至评价模型中,得到待校验应答数据的步骤,包括:
获取与所述待评价数据对应的应答语句,并将其标定为待评估语句;
依据所述待评估语句之间的关联度,将其分类为多个并列的临时应答数据集;
测算所述临时应答数据集中应答语句在待评估语句中的占比率,并将其标定为待评价参数;
从所述评价模型中调用评估阈值,并将所述评估阈值与待评估参数进行比较;
若所述待评估参数大于或等于评估阈值,且所述待评估参数对应的临时应答数据集唯一,则将该所述临时应答数据集中的应答语句标定为待校验应答数据;
若所述待评估参数大于评估阈值,且所述待评估参数对应的临时应答数据集不唯一,则判定所述待评价数据为待优化组合;
若所述待评估参数小于评估阈值,则判定所述待评价数据为待优化组合。
在一种优选方案中,所述将所述待优化组合输入至优化模型中,得到待核验数据的步骤,包括:
获取所有所述待优化组合,并逐一匹配所述二级待评估字段,得到多组待优化数据;
从所述优化模型中调用语义关联表;
依据所述语义关联表对每组待优化数据的语义进行比对;
若所述待优化数据的语义相关联,则其对应的二级待评估字段和待优化组合重新组合为待核验数据;
若所述待优化数据的语义无关联,则将其对应的二级待评估字段和待优化组合确定为无效组合,且不统计其组合结果。
在一种优选方案中,所述标准数据集确定后,所述问询数据对应的问询语句也会被汇总至标准数据集中。
本发明还提供了,一种基于AIGC大模型的垂直领域训练的装置,应用于上述的基于AIGC大模型的垂直领域训练方法,包括:
获取模块,所述获取模块用于获取样本信息,以及所述样本信息对应的垂直领域,其中,所述样本信息为问询数据和应答数据;
拆分模块,所述拆分模块用于对所述问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
校验模块,所述校验模块用于将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该所述一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该所述一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
重组模块,所述重组模块用于将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
评价模块,所述评价模块用于将所述待评价数据输入至评价模型中,得到待校验应答数据;
比对模块,所述比对模块用于将所述问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若所述基准数据与应答数据一致,则将所述待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若所述基准数据与应答数据不一致,则将所述待校验应答数据对应的待评价数据确定为待优化组合;
优化模块,所述优化模块用于将所述待优化组合输入至优化模型中,得到待核验数据,并将所述待核验数据上传至评价模型中重新确定待校验应答数据。
以及,一种基于AIGC大模型的垂直领域训练的电子设备,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于AIGC大模型的垂直领域训练方法。
本发明取得的技术效果为:
本发明能够在垂直领域训练过程中确定关键字段,还能够对关键字段进行组合,从而可以得到多个与应答数据相关的词语或者短句等,不仅使得垂直领域的适应性得以提升,还能够以此来提升垂直领域知识的输出质量,保证了其输出结果的准确度,同时也就使得用户的体验度得到相应的提升,并且对于该垂直领域后续新增的问询数据和应答数据,或者原有问询数据和应答数据的更新,也可采用该方式实现,并确定对应的关键字段,无需额外构建单独的训练框架,能够适应当下知识和要求快速变化的需求。
附图说明
图1是本发明所提供的方法流程图;
图2是本发明所提供的装置模块图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个较佳的实施方式中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
请参阅图1和图2所示,本发明提供了一种基于AIGC大模型的垂直领域训练方法,包括:
S1、获取样本信息,以及样本信息对应的垂直领域,其中,样本信息为问询数据和应答数据;
S2、对问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
S3、将一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
S4、将二级待评估字段输入至重组模型中,并对二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
S5、将待评价数据输入至评价模型中,得到待校验应答数据;
S6、将问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若基准数据与应答数据一致,则将待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若基准数据与应答数据不一致,则将待校验应答数据对应的待评价数据确定为待优化组合;
S7、将待优化组合输入至优化模型中,得到待核验数据,并将待核验数据上传至评价模型中重新确定待校验应答数据。
如上述步骤S1-S7所述,随着基于深度学习的自然语言处理技术的发展,垂直领域的训练也逐渐受其影响而相应优化,垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型,与通用语言模型相比,垂直领域大模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性,能够更好地理解和处理特定领域的知识、术语和上下文,相较于通用大模型而言,垂直领域的输出质量更高,为保证输出质量的保证,在其应用之前的训练是必不可少的,基于此,本实施例提出了一种垂直领域训练方法,首先需要明确与垂直领域对应的样本信息,其中,该样本信息包括问询数据和应答数据,其训练目的是输入问询数据后,能够匹配出质量较高的应答数据,为实现该目的,首先需要对问询数据中的问询语句进行拆分处理,从而便可得到多个一级待评估字段,这些一级待评估字段会被汇总为一级待评估数据集,而后通过校验模型对这些一级待评估字段进行校验处理,以此来判断其能否从对应垂直领域内匹配应答数据,在其能匹配时,会将其标定为二级待评估字段,同时还会将这些二级待评估字段汇总为二级待评估数据集,方便后续对其进行调用,反之,则判定其为辅助字段(例如各类语气助词或者语句转折词等),且在二级待评估字段确定之后,会将其输入至重组模型中进行重组处理,以此得到待评价数据,之后通过评价模型,从待评价数据中筛选出待校验应答数据,最后将待校验应答数据与基准数据进行比较,便可判断出待评价数据中二级待评估字段的组合是否有效,且在其无效时,会被标定为待优化组合,经由优化模型的处理,可以对待优化组合与二级待评估字段进行二次重组,以此实现对二级待评估字段的注意处理,二次重组后得到的数据被标定为待核验数据,其仍然会经由评价模型处理,以此实现对待优化组合的循环处理,直至其被判定为有效组合之后停止,那么其对应的二级待评估字段的组合也就会被汇总至标准数据集中,且在标准数据集确定后,问询数据对应的问询语句也会被汇总至标准数据集中,以此实现对标准数据集的完善,至此便可完成对垂直领域的训练,从而使得该垂直领域的输出质量相应提高,保证其输出结果的准确度,相应的,也能够使得用户的体验度得到相应的提升,并且对于该垂直领域后续新增的问询数据和应答数据,或者原有问询数据和应答数据的更新,也可采用上述方式实现,无需额外构建单独的训练模型,能够适应当下知识和要求快速变化的需求。
在一个较佳的实施方式中,对问询数据进行拆分处理,得到多个一级待评估字段的步骤,包括:
S201、获取问询数据对应的问询语句;
S202、获取词汇表,并依据词汇表对问询语句进行拆分处理,得到多个待评估词汇;
S203、将多个待评估词汇输入至自检模型中,得到多个独立词汇,且将独立词汇标定为一级待评估字段。
如上述步骤S201-S203所述,在样本信息确定之后,会将其中问询数据对应的问询语句进行拆分处理,主要是将问询语句与预设的词汇表进行比较,此词汇表为通用词汇表,进而便可得到多个待评估词汇,考虑到待评估词汇中可能存在重复词汇,故而通过自检模型进行自检处理,以此确定多个独立词汇,之后将这些独立词汇标定为一级待评估字段即可。
在一个较佳的实施方式中,将多个待评估词汇输入至自检模型中,得到多个独立词汇的步骤,包括:
Stp1、获取待评估词汇,并按照笔画顺序进行排列;
Stp2、筛选存在相同字符的待评估词汇,并将其标定为待自检词汇;
Stp3、获取待自检词汇之间的重复字符数以及总体字符数;
Stp4、从自检模型中调用自检函数,并将待自检词汇分类为两两一组,再将每组待自检词汇中的重复字符数和总体字符数输入至自检函数中,得到待筛选参数;
Stp5、获取筛选阈值,并与筛选参数进行比较;
若筛选参数大于或等于筛选阈值,则将字符数少的待自检词汇筛除,并保留字符数多的待自检词汇,且将其标定为独立词汇;
若筛选参数小于筛选阈值,则将两个待自检词汇均标定为独立词汇。
如上述步骤Stp1-Stp5所述,在对待评估词汇进行自检处理时,首先将待评估词汇进行排序处理,本实施方式将其按照笔画顺序进行排列,当然,也可依据其他方式进行排列,其并不影响后续自检模型的执行,之后将待评估词汇进行逐一比对,以此来确定存在相同字符的待评估词汇,本实施方式将该类型的待评估词汇标定为待自检词汇,而后将待自检词汇两两作为一组,再将每组待自检词汇中的重复字符数和总体字符数输入至自检函数中,其中,自检函数的表达式为:,式中,/>表示待筛选参数,/>表示待自检词汇的重复字符数,/>表示待自检词汇的总体字符数,而后将其与筛选阈值进行比较,便可从待自检词汇中筛选出独立词汇。
在一个较佳的实施方式中,将一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据的步骤,包括:
S301、获取应答数据对应的应答语句,其中,每个应答语句对应多个响应字段;
S302、将一级待评估字段与响应字段进行比较,得到一级待评估字段与响应字段之间的相似度,且将其标定为待校验参数;
S303、从校验模型中调用校验阈值,并将校验阈值与待校验参数进行比较;
若待校验参数大于或等于校验阈值,则判定对应垂直领域内能匹配应答数据;
若待校验参数小于校验阈值,则判定对应垂直领域内不能匹配应答数据。
如上述步骤S301-S303所述,在对一级待评估字段进行校验时,首先从应答数据中调用应答语句,以及与应答语句对应的响应字段,其中,每个应答语句对应的响应字段均设置有多个,且在响应字段确定之后,会将其与一级待评估字段进行比较,从而能够得到一级待评估字段与响应字段之间的相似度,并将其确定为待校验参数,而后再将其与校验阈值进行比较,以此来判断其对应垂直领域内能否匹配出应答数据,且在其能匹配时,会将一级待评估字段标定为二级待评估字段,反之,则会将一级待评估字段标定为辅助字段。
在一个较佳的实施方式中,将二级待评估字段输入至重组模型中,并对二级待评估字段进行重新组合,且将其组合结果确定为待评价数据的步骤,包括:
S401、获取所有二级待评估字段,并将每两个二级待评估字段汇总一组;
S402、从重组模型中调用语义关联表;
S403、依据语义关联表对每组二级待评估字段的语义进行比对;
若同组二级待评估字段的语义相关联,则将该组中的二级待评估字段重新组合为待评价数据;
若同组二级待评估字段的语义无关联,则将该组中的二级待评估字段确定为无效组合,且不统计其组合结果。
如上述步骤S401-S403所述,在二级待评估字段确定之后,会将其输入至重组模型中进行重组处理,首先将二级待评估字段两两分为一组,再从重组模型中调用语义关联表,该语义关联表为通用语义关联表,在此就不加以过多的赘述,用于评估二级待评估字段之间的语义关联性,对于相关联的二级待评估字段而言,其会被重新组合为待评价数据,反之,则表明其为无效组合,并不对其组合结果进行统计。
在一个较佳的实施方式中,将待评价数据输入至评价模型中,得到待校验应答数据的步骤,包括:
S501、获取与待评价数据对应的应答语句,并将其标定为待评估语句;
S502、依据待评估语句之间的关联度,将其分类为多个并列的临时应答数据集;
S503、测算临时应答数据集中应答语句在待评估语句中的占比率,并将其标定为待评价参数;
S504、从评价模型中调用评估阈值,并将评估阈值与待评估参数进行比较;
若待评估参数大于或等于评估阈值,且待评估参数对应的临时应答数据集唯一,则将该临时应答数据集中的应答语句标定为待校验应答数据;
若待评估参数大于评估阈值,且待评估参数对应的临时应答数据集不唯一,则判定待评价数据为待优化组合;
若待评估参数小于评估阈值,则判定待评价数据为待优化组合。
如上述步骤S501-S504所述,在待评价数据确定之后,会将其输入至评价模型中,以此来筛选待校验应答数据,首先需要获取与待评价数据对应的应答语句,本实施方式将其标定为待评估语句,而后以待评估语句之间的关联度进行分类,关联度分类可依据语义关联表进行确定,为本领域人员惯用技术手段,此处就不加以详细的赘述,之后可得到多个临时应答数据集,然后测算临时应答数据集中应答语句在待评估语句中的占比率,从而可确定待评价参数,再将其与预设的评估阈值进行比较,从而可以判断临时应答数据集中的应答语句是否为待校验应答语句,对于不能够被标定为待校验应答数据的应答语句而言,其对应的待评价数据会被标定为待优化组合,后续结合优化模型能对其进行进一步的优化处理。
在一个较佳的实施方式中,将待优化组合输入至优化模型中,得到待核验数据的步骤,包括:
S701、获取所有待优化组合,并逐一匹配二级待评估字段,得到多组待优化数据;
S702、从优化模型中调用语义关联表;
S703、依据语义关联表对每组待优化数据的语义进行比对;
若待优化数据的语义相关联,则其对应的二级待评估字段和待优化组合重新组合为待核验数据;
若待优化数据的语义无关联,则将其对应的二级待评估字段和待优化组合确定为无效组合,且不统计其组合结果。
如上述步骤S701-S703所述,在待优化组合确定之后,会逐一匹配二级待评估字段,并进行重新组合处理,其重组过程与重组模型的执行过程一致,在此就不加以重复的描述,而在其比对结果确定之后,会将其分类为待核验数据和无效组合,对于待核验数据而言,其会被评价模型进行处理,以此实现对待优化组合的循环处理,直至其被判定为有效组合之后停止,那么其对应的二级待评估字段的组合也就会被汇总至标准数据集中,从而便可逐渐完成对垂直领域的训练。
本发明还提供了,一种基于AIGC大模型的垂直领域训练的装置,应用于上述的基于AIGC大模型的垂直领域训练方法,包括:
获取模块,获取模块用于获取样本信息,以及样本信息对应的垂直领域,其中,样本信息为问询数据和应答数据;
拆分模块,拆分模块用于对问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
校验模块,校验模块用于将一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
重组模块,重组模块用于将二级待评估字段输入至重组模型中,并对二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
评价模块,评价模块用于将待评价数据输入至评价模型中,得到待校验应答数据;
比对模块,比对模块用于将问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若基准数据与应答数据一致,则将待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若基准数据与应答数据不一致,则将待校验应答数据对应的待评价数据确定为待优化组合;
优化模块,优化模块用于将待优化组合输入至优化模型中,得到待核验数据,并将待核验数据上传至评价模型中重新确定待校验应答数据。
上述中,该装置在执行时,首先通过获取模块采集样本信息,样本信息包括问询数据和应答数据,再经由拆分模块对问询数据进行拆分处理,并将拆分结果标定为一级待评估字段,再通过校验模块对一级待评估字段进行校验处理,以此得到二级待评估字段,之后基于二级待评估字段执行重组模块,使得二级待评估字段得到重组处理,从而可得到待评价数据,之后通过评价模块对待评价数据进行处理,从而得到待校验应答数据,之后通过比对模块将基准数据与待校验应答数据进行比较,并将判定为有效组合的待评价数据汇总为标准数据集,反之则将其标定为待优化组合,再将待优化组合输入至优化模块中,得到待核验数据,再将其上传至评价模型中重新确定待校验应答数据,该待校验应答数据仍然会经由评价模型处理,以此实现对待优化组合的循环处理,直至其被判定为有效组合之后停止,至此便可完成对垂直领域的训练,从而使得该垂直领域的输出质量相应提高,保证其输出结果的准确度。
以及,一种基于AIGC大模型的垂直领域训练的电子设备,包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述的基于AIGC大模型的垂直领域训练方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。

Claims (6)

1.一种基于AIGC大模型的垂直领域训练方法,其特征在于:包括:
获取样本信息,以及所述样本信息对应的垂直领域,其中,所述样本信息为问询数据和应答数据;
对所述问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该所述一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该所述一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
将所述待评价数据输入至评价模型中,得到待校验应答数据;
将所述问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若所述基准数据与应答数据一致,则将所述待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若所述基准数据与应答数据不一致,则将所述待校验应答数据对应的待评价数据确定为待优化组合;
将所述待优化组合输入至优化模型中,得到待核验数据,并将所述待核验数据上传至评价模型中重新确定待校验应答数据;
其中,所述将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据的步骤,包括:
获取所述应答数据对应的应答语句,其中,每个所述应答语句对应多个响应字段;
将所述一级待评估字段与响应字段进行比较,得到所述一级待评估字段与响应字段之间的相似度,且将其标定为待校验参数;
从所述校验模型中调用校验阈值,并将所述校验阈值与待校验参数进行比较;
若所述待校验参数大于或等于校验阈值,则判定对应垂直领域内能匹配应答数据;
若所述待校验参数小于校验阈值,则判定对应垂直领域内不能匹配应答数据;
所述将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据的步骤,包括:
获取所有所述二级待评估字段,并将每两个所述二级待评估字段汇总一组;
从所述重组模型中调用语义关联表;
依据所述语义关联表对每组二级待评估字段的语义进行比对;
若同组所述二级待评估字段的语义相关联,则将该组中的二级待评估字段重新组合为待评价数据;
若同组所述二级待评估字段的语义无关联,则将该组中的二级待评估字段确定为无效组合,且不统计其组合结果;
所述将所述待评价数据输入至评价模型中,得到待校验应答数据的步骤,包括:
获取与所述待评价数据对应的应答语句,并将其标定为待评估语句;
依据所述待评估语句之间的关联度,将其分类为多个并列的临时应答数据集;
测算所述临时应答数据集中应答语句在待评估语句中的占比率,并将其标定为待评价参数;
从所述评价模型中调用评估阈值,并将所述评估阈值与待评估参数进行比较;
若所述待评估参数大于或等于评估阈值,且所述待评估参数对应的临时应答数据集唯一,则将该所述临时应答数据集中的应答语句标定为待校验应答数据;
若所述待评估参数大于评估阈值,且所述待评估参数对应的临时应答数据集不唯一,则判定所述待评价数据为待优化组合;
若所述待评估参数小于评估阈值,则判定所述待评价数据为待优化组合;
所述将所述待优化组合输入至优化模型中,得到待核验数据的步骤,包括:
获取所有所述待优化组合,并逐一匹配所述二级待评估字段,得到多组待优化数据;
从所述优化模型中调用语义关联表;
依据所述语义关联表对每组待优化数据的语义进行比对;
若所述待优化数据的语义相关联,则其对应的二级待评估字段和待优化组合重新组合为待核验数据;
若所述待优化数据的语义无关联,则将其对应的二级待评估字段和待优化组合确定为无效组合,且不统计其组合结果。
2.根据权利要求1所述的一种基于AIGC大模型的垂直领域训练方法,其特征在于:所述对所述问询数据进行拆分处理,得到多个一级待评估字段的步骤,包括:
获取所述问询数据对应的问询语句;
获取词汇表,并依据所述词汇表对问询语句进行拆分处理,得到多个待评估词汇;
将多个所述待评估词汇输入至自检模型中,得到多个独立词汇,且将所述独立词汇标定为一级待评估字段。
3.根据权利要求2所述的一种基于AIGC大模型的垂直领域训练方法,其特征在于:所述将多个所述待评估词汇输入至自检模型中,得到多个独立词汇的步骤,包括:
获取所述待评估词汇,并按照笔画顺序进行排列;
筛选存在相同字符的待评估词汇,并将其标定为待自检词汇;
获取所述待自检词汇之间的重复字符数以及总体字符数;
从所述自检模型中调用自检函数,并将所述待自检词汇分类为两两一组,再将每组所述待自检词汇中的重复字符数和总体字符数输入至自检函数中,得到待筛选参数;
获取筛选阈值,并与所述筛选参数进行比较;
若所述筛选参数大于或等于筛选阈值,则将字符数少的待自检词汇筛除,并保留字符数多的待自检词汇,且将其标定为独立词汇;
若所述筛选参数小于筛选阈值,则将两个待自检词汇均标定为独立词汇。
4.根据权利要求1所述的一种基于AIGC大模型的垂直领域训练方法,其特征在于:所述标准数据集确定后,所述问询数据对应的问询语句也会被汇总至标准数据集中。
5.一种基于AIGC大模型的垂直领域训练的装置,应用于权利要求1至4中任意一项所述的基于AIGC大模型的垂直领域训练方法,其特征在于:包括:
获取模块,所述获取模块用于获取样本信息,以及所述样本信息对应的垂直领域,其中,所述样本信息为问询数据和应答数据;
拆分模块,所述拆分模块用于对所述问询数据进行拆分处理,得到多个一级待评估字段,并汇总为一级待评估数据集;
校验模块,所述校验模块用于将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据;
若是,则将该所述一级待评估字段确定为关键字段,再将其标定为二级待评估字段,并汇总为二级待评估数据集;
若否,则将该所述一级待评估字段确定为非关键字段,并将其汇总为辅助字段;
重组模块,所述重组模块用于将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据;
评价模块,所述评价模块用于将所述待评价数据输入至评价模型中,得到待校验应答数据;
比对模块,所述比对模块用于将所述问询数据对应的应答数据标定为基准数据,再将其与待校验应答数据进行比较;
若所述基准数据与应答数据一致,则将所述待校验应答数据对应的待评价数据确定为有效组合,并将其汇总为标准数据集;
若所述基准数据与应答数据不一致,则将所述待校验应答数据对应的待评价数据确定为待优化组合;
优化模块,所述优化模块用于将所述待优化组合输入至优化模型中,得到待核验数据,并将所述待核验数据上传至评价模型中重新确定待校验应答数据;
其中,所述将所述一级待评估字段输入至校验模型中,判断是否能从对应垂直领域内匹配应答数据的步骤,包括:
获取所述应答数据对应的应答语句,其中,每个所述应答语句对应多个响应字段;
将所述一级待评估字段与响应字段进行比较,得到所述一级待评估字段与响应字段之间的相似度,且将其标定为待校验参数;
从所述校验模型中调用校验阈值,并将所述校验阈值与待校验参数进行比较;
若所述待校验参数大于或等于校验阈值,则判定对应垂直领域内能匹配应答数据;
若所述待校验参数小于校验阈值,则判定对应垂直领域内不能匹配应答数据;
所述将所述二级待评估字段输入至重组模型中,并对所述二级待评估字段进行重新组合,且将其组合结果确定为待评价数据的步骤,包括:
获取所有所述二级待评估字段,并将每两个所述二级待评估字段汇总一组;
从所述重组模型中调用语义关联表;
依据所述语义关联表对每组二级待评估字段的语义进行比对;
若同组所述二级待评估字段的语义相关联,则将该组中的二级待评估字段重新组合为待评价数据;
若同组所述二级待评估字段的语义无关联,则将该组中的二级待评估字段确定为无效组合,且不统计其组合结果;
所述将所述待评价数据输入至评价模型中,得到待校验应答数据的步骤,包括:
获取与所述待评价数据对应的应答语句,并将其标定为待评估语句;
依据所述待评估语句之间的关联度,将其分类为多个并列的临时应答数据集;
测算所述临时应答数据集中应答语句在待评估语句中的占比率,并将其标定为待评价参数;
从所述评价模型中调用评估阈值,并将所述评估阈值与待评估参数进行比较;
若所述待评估参数大于或等于评估阈值,且所述待评估参数对应的临时应答数据集唯一,则将该所述临时应答数据集中的应答语句标定为待校验应答数据;
若所述待评估参数大于评估阈值,且所述待评估参数对应的临时应答数据集不唯一,则判定所述待评价数据为待优化组合;
若所述待评估参数小于评估阈值,则判定所述待评价数据为待优化组合;
所述将所述待优化组合输入至优化模型中,得到待核验数据的步骤,包括:
获取所有所述待优化组合,并逐一匹配所述二级待评估字段,得到多组待优化数据;
从所述优化模型中调用语义关联表;
依据所述语义关联表对每组待优化数据的语义进行比对;
若所述待优化数据的语义相关联,则其对应的二级待评估字段和待优化组合重新组合为待核验数据;
若所述待优化数据的语义无关联,则将其对应的二级待评估字段和待优化组合确定为无效组合,且不统计其组合结果。
6.一种基于AIGC大模型的垂直领域训练的电子设备,其特征在于:包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4中任意一项所述的基于AIGC大模型的垂直领域训练方法。
CN202311238616.8A 2023-09-25 2023-09-25 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 Active CN116975206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311238616.8A CN116975206B (zh) 2023-09-25 2023-09-25 一种基于aigc大模型的垂直领域训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311238616.8A CN116975206B (zh) 2023-09-25 2023-09-25 一种基于aigc大模型的垂直领域训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116975206A CN116975206A (zh) 2023-10-31
CN116975206B true CN116975206B (zh) 2023-12-08

Family

ID=88485379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311238616.8A Active CN116975206B (zh) 2023-09-25 2023-09-25 一种基于aigc大模型的垂直领域训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116975206B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答系统
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
CN110309281A (zh) * 2019-05-28 2019-10-08 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN110781277A (zh) * 2019-09-23 2020-02-11 厦门快商通科技股份有限公司 文本识别模型相似度训练方法、系统、识别方法及终端
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN113254606A (zh) * 2020-02-13 2021-08-13 阿里巴巴集团控股有限公司 生成式应答方法及相关方法、装置、设备和介质
CN115983285A (zh) * 2022-12-26 2023-04-18 科大讯飞股份有限公司 问卷稽核方法、装置、电子设备和存储介质
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法
CN116521857A (zh) * 2023-04-03 2023-08-01 东南大学 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN116684452A (zh) * 2023-08-04 2023-09-01 华云天下(南京)科技有限公司 一种基于aigc大模型的知识中台构建方法及系统
CN116701381A (zh) * 2023-08-03 2023-09-05 南京莫愁智慧信息科技有限公司 一种分布式数据采集入库用的多级校验系统及校验方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170318013A1 (en) * 2016-04-29 2017-11-02 Yen4Ken, Inc. Method and system for voice-based user authentication and content evaluation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答系统
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
CN110309281A (zh) * 2019-05-28 2019-10-08 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN110781277A (zh) * 2019-09-23 2020-02-11 厦门快商通科技股份有限公司 文本识别模型相似度训练方法、系统、识别方法及终端
CN113254606A (zh) * 2020-02-13 2021-08-13 阿里巴巴集团控股有限公司 生成式应答方法及相关方法、装置、设备和介质
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN115983285A (zh) * 2022-12-26 2023-04-18 科大讯飞股份有限公司 问卷稽核方法、装置、电子设备和存储介质
CN116521857A (zh) * 2023-04-03 2023-08-01 东南大学 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法
CN116701381A (zh) * 2023-08-03 2023-09-05 南京莫愁智慧信息科技有限公司 一种分布式数据采集入库用的多级校验系统及校验方法
CN116684452A (zh) * 2023-08-04 2023-09-01 华云天下(南京)科技有限公司 一种基于aigc大模型的知识中台构建方法及系统

Also Published As

Publication number Publication date
CN116975206A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN109063217B (zh) 电力营销系统中的工单分类方法、装置及其相关设备
US11783034B2 (en) Apparatus and method for detecting malicious script
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN113672931B (zh) 一种基于预训练的软件漏洞自动检测方法及装置
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN114186019A (zh) 结合rpa和ai的企业项目的审核方法及装置
CN112102813A (zh) 基于用户评论中上下文的语音识别测试数据生成方法
De Felice et al. Automatically acquiring models of preposition use
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
WO2020000752A1 (zh) 仿冒移动应用程序的判别方法及系统
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN116975206B (zh) 一种基于aigc大模型的垂直领域训练方法、装置及电子设备
CN112989829A (zh) 一种命名实体识别方法、装置、设备及存储介质
WO2020057023A1 (zh) 自然语言的语义解析方法、装置、计算机设备和存储介质
CN116484025A (zh) 漏洞知识图谱构建方法、评估方法、设备及存储介质
CN113515627B (zh) 文档检测方法、装置、设备及存储介质
CN115757786A (zh) 文本分类方法、装置、设备及存储介质
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备
CN114676428A (zh) 基于动态特征的应用程序恶意行为检测方法及设备
CN113434639A (zh) 审计数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant