CN116629385A - 一种gpt模型优化方法和装置 - Google Patents
一种gpt模型优化方法和装置 Download PDFInfo
- Publication number
- CN116629385A CN116629385A CN202310668189.0A CN202310668189A CN116629385A CN 116629385 A CN116629385 A CN 116629385A CN 202310668189 A CN202310668189 A CN 202310668189A CN 116629385 A CN116629385 A CN 116629385A
- Authority
- CN
- China
- Prior art keywords
- gpt model
- gpt
- entities
- keywords
- related materials
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 239000000463 material Substances 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims description 6
- 239000003814 drug Substances 0.000 description 9
- 206010012601 diabetes mellitus Diseases 0.000 description 8
- 229940079593 drug Drugs 0.000 description 7
- 206010020772 Hypertension Diseases 0.000 description 5
- 235000005911 diet Nutrition 0.000 description 5
- 230000037213 diet Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000001631 hypertensive effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 235000019441 ethanol Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种GPT模型优化方法和装置,方法包括:收集医学领域的相关材料;使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。本发明能够充分学习领域知识,从而使得GPT模型能够提高预测准确率且完成更多任务。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种数据模型优化方法和装置。
背景技术
当前机器学习算法在现实生活应用实例中,大多基于特定场景进行建模,基于对业务的理解搭建分类、回归模型,不断迭代减少拟合偏差。常常按照以下步骤进行:
步骤1,根据业务经验,与业务专家梳理与目标相关性较高的特征;
步骤2,获取历史数据;
步骤3,对样本特征进行特征工程(归一化、标准化等),并通过p检验、T检验或机器学习算法来筛选有效特征;
步骤4,根据业务情况,选择匹配的模型(分类模型有:LR、SVM、决策树、随机森林、XGBoost、神经网络等,回归有:回归树、神经网络);
步骤5,基于有效特征对业务目标进行建模,通过拟合偏差来判断模型有效性;
步骤6,部署模型、优化。
但是上述方法中,不同任务下训练的模型及训练数据不能通用,即每个任务都需要按照上述步骤从头到尾进行训练、优化。例如:预测客户产品购买概率、客户的违约概率、病人大病发生率、预测住院费用、各类疾病发生概率都属于不同模型,如果依次搭建模型,建模成本、维护成本都较高、相互之间知识不能迁移。
发明内容
本发明所要解决的技术问题是提供一种GPT模型优化方法和装置,能够充分学习领域知识,从而使得GPT模型能够提高预测准确率且完成更多任务。
本发明解决其技术问题所采用的技术方案是:提供一种GPT模型优化方法,包括以下步骤:
收集医学领域的相关材料;
使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述收集医学领域的相关材料后,还包括:按照学科和类别对所述相关材料进行分类。
所述根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式,具体为:将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
本发明解决其技术问题所采用的技术方案是:提供一种GPT模型优化装置,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述的GPT模型优化装置还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明能够充分利用大语言模型内部的自注意力网络优势,通过上亿参数的模型作为基础模型,来充分学习领域知识,自主构建特征,从而结合不同任务训练充分学习领域内相关知识,优化后的模型可以提高模型预测和拟合效果,从而能够完成更多任务。
附图说明
图1是本发明第一实施方式GPT模型优化方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的第一实施方式涉及一种GPT模型优化方法,如图1所示,包括以下步骤:
步骤1,收集医学教材并进行整理分类。本步骤中,首先需要收集医学领域的相关教材,包括常用的医学教材、学术论文和医学指南等;然后,按照学科和类别对收集的相关教材进行分类。例如,可以将内科教材、外科教材、儿科教材等分成不同的类别,以便后续的知识整合和转化。
步骤2,对分类后的医学教材进行语义分析。具体地说,使用自然语言处理技术,对分类后的医学教材进行语义分析,提取其中的专业术语、实体和关键词。上述功能可以通过关键词提取、实体识别、词性标注等技术实现。本步骤的语义分析的结果将作为后续知识转化的基础。
步骤3,构造GPT模型能够理解的提示(Prompt)形式。具体地说,根据语义分析的结果,使用模板匹配等算法,将带有医学知识的关键词和实体构造成GPT模型能够理解的Prompt形式。例如,可以将医学教材中的问题描述和答案选项(如单选和多选)构造成GPT能够理解的问题和答案格式。
该步骤是整个方法的核心,其可以把医学等专业领域常见的语料整理成带有问题x和答案y的信息语料,概括地形式如下:
举例一:
问题x:如果有一个病人情况是*****,请问医生会开什么药?
答案y:**药。
举例二:
问题x:如果一个有糖尿病人,去年住院费用是多少,曾在某医院某科室治疗,并出现过某某症状,请预测她下一年的住院费?
答案y:**元。
举例三:
问题x:如果一个有糖尿病人,去年住院费用是多少,曾在某医院某科室治疗,并出现过某某症状,请帮她推荐一份饮食暗访?
答案y:推荐****,理由是***。
由于GPT模型的query的样式只有词汇与正常人提问会存在一定间隔,所以在构造GPT模型的输入时候需要进行prompt的提问,但一种提问方式会让GPT模型训练具有很大偏置,因此本实施方式中的问题采用多种提问方式,通过样本随机选取不同的提问方式。具体的提问方式包括但不限于:什么是+query+?、你听说过+query+吗?、query+是什么?等等。
举例一:
Query:对于一名高血压患者,在服用药物的情况下,是否可以进行高强度的有氧运动?
Prompt:一名高血压患者在服用药物的情况下是否可以进行高强度的有氧运动?(单选)
A.可以B.不可以C.需要咨询医生
Answer:一名高血压患者在服用药物的情况下需要咨询医生能否进行高强度的有氧运动。
通过这个Prompt,GPT模型就可以根据输入的关键词(高血压、药物、有氧运动)进行理解,并给出相应的答案选项。这个Prompt可以用于医学领域的教育、健康管理等方面,帮助人们更好地了解高血压管理和运动健身的相关知识。
举例二:
假设有以下一段医学知识:
"糖尿病是一种慢性代谢性疾病,患者血糖水平偏高,容易引发心血管疾病,肾脏疾病等并发症。治疗糖尿病的方法包括药物治疗、饮食控制和运动锻炼等。"
基于以上的医学知识,可以构造以下的Prompt形式:
Prompt:关于糖尿病的治疗,以下哪些方法是正确的?(多选)
A.药物治疗B.饮食控制C.运动锻炼D.饮酒
Answer:治疗糖尿病的方法包括药物治疗、饮食控制和运动锻炼等。
通过这个Prompt,GPT模型可以根据输入的关键词(糖尿病、治疗、方法、药物、饮食、运动、饮酒)进行理解,并给出相应的答案选项。这个Prompt可以用于医学领域的教育、健康管理等方面,帮助人们更好地了解糖尿病的治疗方法。
上述构造GPT模型能够理解的Prompt形式可以用自然语言处理技术和机器学习技术来完成。不难发现,通过以上构造的语料,可以让GPT模型充分学习领域内的知识,最终达到理解领域知识,完成领域任务的工作。
步骤4,利用构造好的Prompt形式进行GPT模型的训练。具体为:将构造好的Prompt形式输入到GPT模型中进行训练,并对GPT模型进行优化,以提高其在医学领域的应用能力。训练GPT模型需要大量的数据和计算资源,并需要对GPT模型进行不断的调整和优化,在调整和优化时,可以使用真实的医学问题和答案,测试GPT模型的准确率和效率,并通过调整模型参数等方式优化模型。测试数据应尽可能地贴近实际医学问题,以评估GPT模型的真实应用效果。
本发明的第二实施方式涉及一种GPT模型优化装置,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
所述的GPT模型优化装置还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
所述问题包括多种不同的提问方式。
不难发现,本发明能够充分利用大语言模型内部的自注意力网络优势,通过上亿参数的模型作为基础模型,来充分学习领域知识,自主构建特征,从而结合不同任务训练充分学习领域内相关知识,优化后的模型可以提高模型预测和拟合效果,从而能够完成更多任务。
Claims (8)
1.一种GPT模型优化方法,其特征在于,包括以下步骤:
收集医学领域的相关材料;
使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
2.根据权利要求1所述的GPT模型优化方法,其特征在于,所述收集医学领域的相关材料后,还包括:按照学科和类别对所述相关材料进行分类。
3.根据权利要求1所述的GPT模型优化方法,其特征在于,所述根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式,具体为:将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
4.根据权利要求3所述的所述的GPT模型优化方法,其特征在于,所述问题包括多种不同的提问方式。
5.一种GPT模型优化装置,其特征在于,包括:
收集模块,用于收集医学领域的相关材料;
语义分析模块,用于使用自然语言处理技术对所述相关材料进行语义分析,提取出所述相关材料中的专业术语、实体和关键词;
构造模块,用于根据语义分析的结果,将所述关键词和实体构造成GPT模型能够理解的提示形式;
优化模块,用于将构造好的提示形式输入至GPT模型进行训练,优化所述GPT模型。
6.根据权利要求5所述的所述的GPT模型优化装置,其特征在于,还包括分类模块,所述分类模块用于按照学科和类别对所述相关材料进行分类。
7.根据权利要求5所述的所述的GPT模型优化装置,其特征在于,所述构造模块将提取出的医学领域的关键词和实体整理成由问题和答案组成的信息语料。
8.根据权利要求7所述的所述的GPT模型优化装置,其特征在于,所述问题包括多种不同的提问方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668189.0A CN116629385A (zh) | 2023-06-07 | 2023-06-07 | 一种gpt模型优化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668189.0A CN116629385A (zh) | 2023-06-07 | 2023-06-07 | 一种gpt模型优化方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116629385A true CN116629385A (zh) | 2023-08-22 |
Family
ID=87616967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310668189.0A Pending CN116629385A (zh) | 2023-06-07 | 2023-06-07 | 一种gpt模型优化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629385A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271756A (zh) * | 2023-11-21 | 2023-12-22 | 安徽淘云科技股份有限公司 | 文本生成方法、装置、电子设备以及可读介质 |
-
2023
- 2023-06-07 CN CN202310668189.0A patent/CN116629385A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271756A (zh) * | 2023-11-21 | 2023-12-22 | 安徽淘云科技股份有限公司 | 文本生成方法、装置、电子设备以及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107230174B (zh) | 一种基于网络的在线互动学习系统和方法 | |
Grimm et al. | Growth modeling: Structural equation and multilevel modeling approaches | |
CN111538894B (zh) | 查询反馈方法、装置、计算机设备及存储介质 | |
Xue et al. | Explainable deep learning based medical diagnostic system | |
Chabou et al. | Combination of conditional random field with a rule based method in the extraction of PICO elements | |
Rajendran et al. | Predicting the academic performance of middle-and high-school students using machine learning algorithms | |
CN116629385A (zh) | 一种gpt模型优化方法和装置 | |
Raheja et al. | Data analysis and its importance in health care | |
Pazzani et al. | Comprehensible knowledge discovery in databases | |
Low-Choy et al. | Using Bayesian statistical modelling as a bridge between quantitative and qualitative analyses: illustrated via analysis of an online teaching tool | |
Sripathi et al. | Machine learning mixed methods text analysis: An illustration from automated scoring models of student writing in biology education | |
Graco et al. | Toward knowledge-driven data mining | |
Siraj et al. | Mining enrolment data using predictive and descriptive approaches | |
Harvey | Nursing diagnosis by computers: an application of neural networks | |
Prasad et al. | Autism spectrum disorder detection using brain MRI image enabled deep learning with hybrid sewing training optimization | |
CN112598202B (zh) | 试题难度评估方法、装置及存储介质、计算设备 | |
Stavri | Medical problem attributes and information-seeking questions. | |
Siraj et al. | Mining enrollment data using descriptive and predictive approaches | |
Ali S et al. | Multi-class LDA classifier and CNN feature extraction for student performance analysis during Covid-19 pandemic | |
Salem | Towards of intelligence education and learning | |
Nasira et al. | A study on prediction of cardiovascular victimization data processing techniques | |
KR102599368B1 (ko) | 빅데이터 기반 맞춤형 콘텐츠 제공 시스템 및 그 방법 | |
Jain | Multi-class classification to track students' academic outcome | |
Narayanan et al. | A Novel Chaotic Optimized Boost Long Short-Term Memory (COB-LSTM) Model for Students Academic Performance Prediction in Educational Sectors | |
Phillips | A Study Into the Feasibility of Using Natural Language Processing and Machine Learning for the Identification of Alcohol Misuse in Trauma Patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |