CN116501873A - 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 - Google Patents
一种基于ChatGpt及其他深度模型建立文本分析框架的方法 Download PDFInfo
- Publication number
- CN116501873A CN116501873A CN202310464791.2A CN202310464791A CN116501873A CN 116501873 A CN116501873 A CN 116501873A CN 202310464791 A CN202310464791 A CN 202310464791A CN 116501873 A CN116501873 A CN 116501873A
- Authority
- CN
- China
- Prior art keywords
- text
- chatgpt
- analysis
- model
- framework based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 23
- 230000009194 climbing Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 9
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于ChatGpt及其他深度模型建立文本分析框架的方法,包括以下步骤:S1、采集登山旅游的评价文本数据;S2、运用ChatGpt4.0api做文本预处理;S3、利用BERT、ChatGpt、CNN分别进行文本情感分类;S4、对比步骤S4中三大模型在获取文本中情感分析的性能,选择最优模型;S5、导出不同极性的文本,通过主题分析模型来计算获取用户需求;S6、通过词频分析架构IPA商业模型。本发明采用上述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,具有广泛的商业应用价值,使用ChatGPT4.0api分析在线登山旅游评论,替代了传统机器学习的方法,使用提示工程进而获得情感分数,进而评估模型在准确度、精确度、召回率和F1分数方面的性能。
Description
技术领域
本发明涉及登山旅游数据挖掘技术领域,尤其是涉及一种基于ChatGpt及其他深度模型建立文本分析框架的方法。
背景技术
随着旅游电子商务的兴起和发展,越来越多的游客通过互联网购买旅游服务,并在接受旅游服务后进行评论,发表对于旅游服务品质的看法,表达对于旅游服务的情感或感受,这些评论对于其他游客评估和选择旅游服务、区域旅游服务的质量评价、改进旅游服务的质量具有很重要的参考意义。但是,面对海量的旅游评论数据,通过人工或简单的统计分析方法,既费时费力又很难深层次的发挥旅游评论的价值,如何有效分析旅游评论的情感倾向,并在此基础上评价旅游服务的质量,为游客选择旅游目的地、旅游过程中的“吃住行游购娱”等各类服务提供决策依据,为旅游主管部门提供区域旅游质量评价、改进旅游服务提供工具和依据。
目前,对评论文本进行情感分析的技术主要分为两大类:一是基于情感字典或者语意知识的方法,二是基于机器学习方法。目前,上述两种方法在文本情感分析中均有运用,但是,使用机器学习的方法进行文本情感分析的优势更为明显,弹性和准确率更高。基于现有技术出发,公开号为CN106156287A“基于旅游需求模板的景区评价数据分析舆情满意度方法”的发明专利公开了一种基于关键词模板库来分析旅游景区满意度的方法,可以认为是使用情感词典的情感分析方法,其严重依赖于用户对情感词进行赋分,不能对新的词语进行处理,对一条评论整体所表达的情感倾向分析准确性较差。
因此,如何在评估各类机器学习算法模型有缺的基础上,选择性能和准确性相互平衡,且适合旅游行业特征的分类算法模型,对提高旅游评论分析的效率和有效性,具有很高的研究价值。
发明内容
本发明的目的是提供一种基于ChatGpt及其他深度模型建立文本分析框架的方法,具有广泛的商业应用价值,使用ChatGPT4.0 api分析在线登山旅游评论,替代了传统机器学习的方法,使用提示工程进而获得情感分数,进而评估模型在准确度、精确度、召回率和F1分数方面的性能。
为实现上述目的,本发明提供了一种基于ChatGpt及其他深度模型建立文本分析框架的方法,包括以下步骤:
S1、采集登山旅游的评价文本数据;
S2、运用ChatGpt4.0 api做文本预处理;
S3、利用BERT、ChatGpt、CNN分别进行文本情感分类;
S4、对比步骤S4中三大模型在获取文本中情感分析的性能,选择最优模型;
S5、导出不同极性的文本,通过主题分析模型来计算获取用户需求;
S6、通过词频分析架构IPA商业模型。
优选的,在所述步骤S1中,所述登山旅游的评价文本数据通过网络抓取或实地获得。
优选的,在所述步骤S2中,对评价文本数据进行预处理,具体如下:
通过程序语言对文本评价数据进行去重处理;
删除文本评价数据中不相关的信息,并标准化文本评价数据格式。
优选的,在所述步骤S3中,BERT(Bidirectional Encoder Representations fromTransformers)为一种预训练语言模型,采用fine-tune的方式构建模型;ChatGpt(ChatGenerative Pre-trainedTransformer)为一种基于深度学习技术的自然语言处理模型;CNN(Convolutional NeuralNetwork)为一种卷积神经网络;所述BERT、所述ChatGpt、所述CNN的实施方式均包括读取数据、调取模型、将情感分类文本存储在对应文件中、得到准确性、精确度、召回率及F1分数。
优选的,在所述步骤S5中,所述主题分析模型具体包括如下:将不同极性的文本组合成文本集,对所述文本集进行相关性筛选,删除低于预设相关性阈值的文本。
优选的,在所述步骤S6中,所述词频分析具体包括如下:
将得到的评价文本数据输入至词频分析器,利用LDA算法,结合预设的关键字,对待分析的文本数据进行分析和统计;
将分析和统计的结果输出架构IPA商业模型。
因此,本发明采用上述一种基于ChatGpt及其他深度模型建立文本分析框架的方法,具有广泛的商业应用价值,使用ChatGPT4.0 api分析在线登山旅游评论,替代了传统机器学习的方法,使用提示工程进而获得情感分数,进而评估模型在准确度、精确度、召回率和F1分数方面的性能。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明一种基于ChatGpt及其他深度模型建立文本分析框架的方法的实施方法流程图;
图2是本发明一种基于ChatGpt及其他深度模型建立文本分析框架的方法实施例一IPA商业模型气泡图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
如图1所示,本发明一种基于ChatGpt及其他深度模型建立文本分析框架的方法,包括以下步骤:
S1、采集登山旅游的评价文本数据;
S2、运用ChatGpt4.0 api做文本预处理;
S3、利用BERT、ChatGpt、CNN分别进行文本情感分类;
S4、对比步骤S4中三大模型在获取文本中情感分析的性能,选择最优模型;
S5、导出不同极性的文本,通过主题分析模型来计算获取用户需求;
S6、通过词频分析架构IPA商业模型。
具体的,在步骤S1中,登山旅游的评价文本数据通过网络抓取或实地获得。
具体的,在步骤S2中,对评价文本数据进行预处理,具体如下:
通过程序语言对文本评价数据进行去重处理;
删除文本评价数据中不相关的信息,并标准化文本评价数据格式。
具体的,在步骤S3中,BERT(Bidirectional Encoder Representations fromTransformers)为一种预训练语言模型,采用fine-tune的方式构建模型;ChatGpt(ChatGenerative Pre-trainedTransformer)为一种基于深度学习技术的自然语言处理模型;CNN(Convolutional Neural Network)为一种卷积神经网络;BERT、ChatGpt、CNN的实施方式均包括读取数据、调取模型、将情感分类文本存储在对应文件中、得到准确性、精确度、召回率及F1分数。
具体的,在步骤S5中,主题分析模型具体包括如下:将不同极性的文本组合成文本集,对文本集进行相关性筛选,删除低于预设相关性阈值的文本。
具体的,在步骤S6中,词频分析具体包括如下:
将得到的评价文本数据输入至词频分析器,利用LDA算法,结合预设的关键字,对待分析的文本数据进行分析和统计;
将分析和统计的结果输出架构IPA商业模型。
下面将通过使用ChatGpt对本发明作进一步的解释。
实施例一
在本实施例中,ChatGpt作为一种新的情感分析方法,使用ChatGptAPI分析在线旅游评论,作为传统机器学习的替代方法。该方法涉及使用提示工程来获得情感分数,然后使用这些分数来评估模型在准确度、精确度、召回度和F1分数方面的性能。
为了实现上述的目标,ChatGptAPI被集成到分析管道中,使模型能够处理从各种在线平台收集的大量登山旅游评论。随后对登山旅游评论数据进行预处理,以此删除任何不相关的信息并标准化登山旅游评论文本数据的格式。然后采用即时工程技术来构建情绪分析任务,并查询API以获得每条评论的情绪分数。在此基础上,登录旅游评论数据集被分为训练集和测试集,确保正面、负面和中性情绪评论的适当平衡。
基于ChatGPT API的方法的结果展示了良好的性能,准确度为0.84,精确度为0.63,召回率为0.61,F1分数为0.61。这些指标表明该模型能够正确地对旅游评论的情绪进行分类,并特别强调真阳性率和真阴性率。在情感分析中使用ChatGPT API展示了大规模语言模型提供准确可靠结果的潜力,同时还降低了其他机器学习及深度学习方法中与特征提取和模型训练相关的复杂性。
如图2所示,在本实施例中,通过ChatGPT API的方法,将得到的结果进行词频分析,进而架构出IPA(Importance-Performance Analysis)商业模型,具体指的是“重要性-绩效”模型,进一步的解释说明本发明具有广泛的商业应用价值。
因此,本发明采用上述一种基于ChatGpt及其他深度模型建立文本分析框架的方法,具有广泛的商业应用价值,使用ChatGPT4.0 api分析在线登山旅游评论,替代了传统机器学习的方法,使用提示工程进而获得情感分数,进而评估模型在准确度、精确度、召回率和F1分数方面的性能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (6)
1.一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:包括以下步骤:
S1、采集登山旅游的评价文本数据;
S2、运用ChatGpt4.0api做文本预处理;
S3、利用BERT、ChatGpt、CNN分别进行文本情感分类;
S4、对比步骤S4中三大模型在获取文本中情感分析的性能,选择最优模型;
S5、导出不同极性的文本,通过主题分析模型来计算获取用户需求;
S6、通过词频分析架构IPA商业模型。
2.根据权利要求1所述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:在所述步骤S1中,所述登山旅游的评价文本数据通过网络抓取或实地获得。
3.根据权利要求1所述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:在所述步骤S2中,对评价文本数据进行预处理,具体如下:
通过程序语言对文本评价数据进行去重处理;
删除文本评价数据中不相关的信息,并标准化文本评价数据格式。
4.根据权利要求1所述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:在所述步骤S3中,BERT(BidirectionalEncoderRepresentationsfromTransformers)为一种预训练语言模型,采用fine-tune的方式构建模型;ChatGpt(ChatGenerativePre-trainedTransformer)为一种基于深度学习技术的自然语言处理模型;CNN(ConvolutionalNeuralNetwork)为一种卷积神经网络;所述BERT、所述ChatGpt、所述CNN的实施方式均包括读取数据、调取模型、将情感分类文本存储在对应文件中、得到准确性、精确度、召回率及F1分数。
5.根据权利要求1所述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:在所述步骤S5中,所述主题分析模型具体包括如下:将不同极性的文本组合成文本集,对所述文本集进行相关性筛选,删除低于预设相关性阈值的文本。
6.根据权利要求1所述的一种基于ChatGpt及其他深度模型建立文本分析框架的方法,其特征在于:在所述步骤S6中,所述词频分析具体包括如下:
将得到的评价文本数据输入至词频分析器,利用LDA算法,结合预设的关键字,对待分析的文本数据进行分析和统计;
将分析和统计的结果输出架构IPA商业模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464791.2A CN116501873A (zh) | 2023-04-26 | 2023-04-26 | 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464791.2A CN116501873A (zh) | 2023-04-26 | 2023-04-26 | 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116501873A true CN116501873A (zh) | 2023-07-28 |
Family
ID=87317817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310464791.2A Pending CN116501873A (zh) | 2023-04-26 | 2023-04-26 | 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501873A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726301A (zh) * | 2023-12-26 | 2024-03-19 | 重庆不贰科技(集团)有限公司 | 基于产线管理与Chat联合模型的智能决策系统 |
CN117952121A (zh) * | 2024-03-27 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 一种医疗文本的质量评估方法、系统、电子设备及介质 |
-
2023
- 2023-04-26 CN CN202310464791.2A patent/CN116501873A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726301A (zh) * | 2023-12-26 | 2024-03-19 | 重庆不贰科技(集团)有限公司 | 基于产线管理与Chat联合模型的智能决策系统 |
CN117952121A (zh) * | 2024-03-27 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 一种医疗文本的质量评估方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN116501873A (zh) | 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 | |
CN111966890B (zh) | 基于文本的事件推送方法、装置、电子设备和存储介质 | |
CN108460139B (zh) | 基于网络爬虫数据挖掘在线课程教学质量评估管理系统 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN111831802A (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
US20160170993A1 (en) | System and method for ranking news feeds | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN104731873A (zh) | 一种评价信息生成方法和装置 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
Zhang et al. | Complicating the social networks for better storytelling: An empirical study of Chinese historical text and novel | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN105931055A (zh) | 一种面向众包平台的服务商特征建模方法 | |
CN103473356B (zh) | 一种篇章级情感分类方法及装置 | |
CN111159342A (zh) | 一种基于机器学习的公园文本评论情绪打分方法 | |
CN117520522B (zh) | 一种基于rpa和ai结合的智能对话方法、装置及电子设备 | |
CN112052686B (zh) | 一种用户交互式教育的语音学习资源推送方法 | |
CN106709824B (zh) | 一种基于网络文本语义分析的建筑评价方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN112507115B (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |