CN116629385A - 一种gpt模型优化方法和装置 - Google Patents

一种gpt模型优化方法和装置 Download PDF

Info

Publication number
CN116629385A
CN116629385A CN202310668189.0A CN202310668189A CN116629385A CN 116629385 A CN116629385 A CN 116629385A CN 202310668189 A CN202310668189 A CN 202310668189A CN 116629385 A CN116629385 A CN 116629385A
Authority
CN
China
Prior art keywords
gpt model
gpt
entities
keywords
related materials
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310668189.0A
Other languages
English (en)
Inventor
汤文巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310668189.0A priority Critical patent/CN116629385A/zh
Publication of CN116629385A publication Critical patent/CN116629385A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种GPT模型优化方法和装置,方法包括:收集医学领域的相关材料;使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。本发明能够充分学习领域知识,从而使得GPT模型能够提高预测准确率且完成更多任务。

Description

一种GPT模型优化方法和装置
技术领域
本发明涉及机器学习技术领域,特别是涉及一种数据模型优化方法和装置。
背景技术
当前机器学习算法在现实生活应用实例中,大多基于特定场景进行建模,基于对业务的理解搭建分类、回归模型,不断迭代减少拟合偏差。常常按照以下步骤进行:
步骤1,根据业务经验,与业务专家梳理与目标相关性较高的特征;
步骤2,获取历史数据;
步骤3,对样本特征进行特征工程(归一化、标准化等),并通过p检验、T检验或机器学习算法来筛选有效特征;
步骤4,根据业务情况,选择匹配的模型(分类模型有:LR、SVM、决策树、随机森林、XGBoost、神经网络等,回归有:回归树、神经网络);
步骤5,基于有效特征对业务目标进行建模,通过拟合偏差来判断模型有效性;
步骤6,部署模型、优化。
但是上述方法中,不同任务下训练的模型及训练数据不能通用,即每个任务都需要按照上述步骤从头到尾进行训练、优化。例如:预测客户产品购买概率、客户的违约概率、病人大病发生率、预测住院费用、各类疾病发生概率都属于不同模型,如果依次搭建模型,建模成本、维护成本都较高、相互之间知识不能迁移。
发明内容
本发明所要解决的技术问题是提供一种GPT模型优化方法和装置,能够充分学习领域知识,从而使得GPT模型能够提高预测准确率且完成更多任务。
本发明解决其技术问题所采用的技术方案是:提供一种GPT模型优化方法,包括以下步骤:
收集医学领域的相关材料;
使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述收集医学领域的相关材料后,还包括:按照学科和类别对所述相关材料进行分类。
所述根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式,具体为:将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
本发明解决其技术问题所采用的技术方案是:提供一种GPT模型优化装置,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述的GPT模型优化装置还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明能够充分利用大语言模型内部的自注意力网络优势,通过上亿参数的模型作为基础模型,来充分学习领域知识,自主构建特征,从而结合不同任务训练充分学习领域内相关知识,优化后的模型可以提高模型预测和拟合效果,从而能够完成更多任务。
附图说明
图1是本发明第一实施方式GPT模型优化方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的第一实施方式涉及一种GPT模型优化方法,如图1所示,包括以下步骤:
步骤1,收集医学教材并进行整理分类。本步骤中,首先需要收集医学领域的相关教材,包括常用的医学教材、学术论文和医学指南等;然后,按照学科和类别对收集的相关教材进行分类。例如,可以将内科教材、外科教材、儿科教材等分成不同的类别,以便后续的知识整合和转化。
步骤2,对分类后的医学教材进行语义分析。具体地说,使用自然语言处理技术,对分类后的医学教材进行语义分析,提取其中的专业术语、实体和关键词。上述功能可以通过关键词提取、实体识别、词性标注等技术实现。本步骤的语义分析的结果将作为后续知识转化的基础。
步骤3,构造GPT模型能够理解的提示(Prompt)形式。具体地说,根据语义分析的结果,使用模板匹配等算法,将带有医学知识的关键词和实体构造成GPT模型能够理解的Prompt形式。例如,可以将医学教材中的问题描述和答案选项(如单选和多选)构造成GPT能够理解的问题和答案格式。
该步骤是整个方法的核心,其可以把医学等专业领域常见的语料整理成带有问题x和答案y的信息语料,概括地形式如下:
举例一:
问题x:如果有一个病人情况是*****,请问医生会开什么药?
答案y:**药。
举例二:
问题x:如果一个有糖尿病人,去年住院费用是多少,曾在某医院某科室治疗,并出现过某某症状,请预测她下一年的住院费?
答案y:**元。
举例三:
问题x:如果一个有糖尿病人,去年住院费用是多少,曾在某医院某科室治疗,并出现过某某症状,请帮她推荐一份饮食暗访?
答案y:推荐****,理由是***。
由于GPT模型的query的样式只有词汇与正常人提问会存在一定间隔,所以在构造GPT模型的输入时候需要进行prompt的提问,但一种提问方式会让GPT模型训练具有很大偏置,因此本实施方式中的问题采用多种提问方式,通过样本随机选取不同的提问方式。具体的提问方式包括但不限于:什么是+query+?、你听说过+query+吗?、query+是什么?等等。
举例一:
Query:对于一名高血压患者,在服用药物的情况下,是否可以进行高强度的有氧运动?
Prompt:一名高血压患者在服用药物的情况下是否可以进行高强度的有氧运动?(单选)
A.可以B.不可以C.需要咨询医生
Answer:一名高血压患者在服用药物的情况下需要咨询医生能否进行高强度的有氧运动。
通过这个Prompt,GPT模型就可以根据输入的关键词(高血压、药物、有氧运动)进行理解,并给出相应的答案选项。这个Prompt可以用于医学领域的教育、健康管理等方面,帮助人们更好地了解高血压管理和运动健身的相关知识。
举例二:
假设有以下一段医学知识:
"糖尿病是一种慢性代谢性疾病,患者血糖水平偏高,容易引发心血管疾病,肾脏疾病等并发症。治疗糖尿病的方法包括药物治疗、饮食控制和运动锻炼等。"
基于以上的医学知识,可以构造以下的Prompt形式:
Prompt:关于糖尿病的治疗,以下哪些方法是正确的?(多选)
A.药物治疗B.饮食控制C.运动锻炼D.饮酒
Answer:治疗糖尿病的方法包括药物治疗、饮食控制和运动锻炼等。
通过这个Prompt,GPT模型可以根据输入的关键词(糖尿病、治疗、方法、药物、饮食、运动、饮酒)进行理解,并给出相应的答案选项。这个Prompt可以用于医学领域的教育、健康管理等方面,帮助人们更好地了解糖尿病的治疗方法。
上述构造GPT模型能够理解的Prompt形式可以用自然语言处理技术和机器学习技术来完成。不难发现,通过以上构造的语料,可以让GPT模型充分学习领域内的知识,最终达到理解领域知识,完成领域任务的工作。
步骤4,利用构造好的Prompt形式进行GPT模型的训练。具体为:将构造好的Prompt形式输入到GPT模型中进行训练,并对GPT模型进行优化,以提高其在医学领域的应用能力。训练GPT模型需要大量的数据和计算资源,并需要对GPT模型进行不断的调整和优化,在调整和优化时,可以使用真实的医学问题和答案,测试GPT模型的准确率和效率,并通过调整模型参数等方式优化模型。测试数据应尽可能地贴近实际医学问题,以评估GPT模型的真实应用效果。
本发明的第二实施方式涉及一种GPT模型优化装置,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述的GPT模型优化装置还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
不难发现,本发明能够充分利用大语言模型内部的自注意力网络优势,通过上亿参数的模型作为基础模型,来充分学习领域知识,自主构建特征,从而结合不同任务训练充分学习领域内相关知识,优化后的模型可以提高模型预测和拟合效果,从而能够完成更多任务。

Claims (8)

1.一种GPT模型优化方法,其特征在于,包括以下步骤:
收集医学领域的相关材料;
使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
2.根据权利要求1所述的GPT模型优化方法,其特征在于,所述收集医学领域的相关材料后,还包括:按照学科和类别对所述相关材料进行分类。
3.根据权利要求1所述的GPT模型优化方法,其特征在于,所述根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式,具体为:将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
4.根据权利要求3所述的所述的GPT模型优化方法,其特征在于,所述问题包括多种不同的提问方式。
5.一种GPT模型优化装置,其特征在于,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
6.根据权利要求5所述的所述的GPT模型优化装置,其特征在于,还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
7.根据权利要求5所述的所述的GPT模型优化装置,其特征在于,所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
8.根据权利要求7所述的所述的GPT模型优化装置,其特征在于,所述问题包括多种不同的提问方式。
CN202310668189.0A 2023-06-07 2023-06-07 一种gpt模型优化方法和装置 Pending CN116629385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310668189.0A CN116629385A (zh) 2023-06-07 2023-06-07 一种gpt模型优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310668189.0A CN116629385A (zh) 2023-06-07 2023-06-07 一种gpt模型优化方法和装置

Publications (1)

Publication Number Publication Date
CN116629385A true CN116629385A (zh) 2023-08-22

Family

ID=87616967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310668189.0A Pending CN116629385A (zh) 2023-06-07 2023-06-07 一种gpt模型优化方法和装置

Country Status (1)

Country Link
CN (1) CN116629385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271756A (zh) * 2023-11-21 2023-12-22 安徽淘云科技股份有限公司 文本生成方法、装置、电子设备以及可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271756A (zh) * 2023-11-21 2023-12-22 安徽淘云科技股份有限公司 文本生成方法、装置、电子设备以及可读介质

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
Grimm et al. Growth modeling: Structural equation and multilevel modeling approaches
CN111538894B (zh) 查询反馈方法、装置、计算机设备及存储介质
Xue et al. Explainable deep learning based medical diagnostic system
Chabou et al. Combination of conditional random field with a rule based method in the extraction of PICO elements
Rajendran et al. Predicting the academic performance of middle-and high-school students using machine learning algorithms
CN116629385A (zh) 一种gpt模型优化方法和装置
Raheja et al. Data analysis and its importance in health care
Pazzani et al. Comprehensible knowledge discovery in databases
Low-Choy et al. Using Bayesian statistical modelling as a bridge between quantitative and qualitative analyses: illustrated via analysis of an online teaching tool
Sripathi et al. Machine learning mixed methods text analysis: An illustration from automated scoring models of student writing in biology education
Graco et al. Toward knowledge-driven data mining
Siraj et al. Mining enrolment data using predictive and descriptive approaches
Harvey Nursing diagnosis by computers: an application of neural networks
Prasad et al. Autism spectrum disorder detection using brain MRI image enabled deep learning with hybrid sewing training optimization
CN112598202B (zh) 试题难度评估方法、装置及存储介质、计算设备
Stavri Medical problem attributes and information-seeking questions.
Siraj et al. Mining enrollment data using descriptive and predictive approaches
Ali S et al. Multi-class LDA classifier and CNN feature extraction for student performance analysis during Covid-19 pandemic
Salem Towards of intelligence education and learning
Nasira et al. A study on prediction of cardiovascular victimization data processing techniques
KR102599368B1 (ko) 빅데이터 기반 맞춤형 콘텐츠 제공 시스템 및 그 방법
Jain Multi-class classification to track students' academic outcome
Narayanan et al. A Novel Chaotic Optimized Boost Long Short-Term Memory (COB-LSTM) Model for Students Academic Performance Prediction in Educational Sectors
Phillips A Study Into the Feasibility of Using Natural Language Processing and Machine Learning for the Identification of Alcohol Misuse in Trauma Patients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination