CN114970542A - 一种基于文本情感曲线的分析方法 - Google Patents
一种基于文本情感曲线的分析方法 Download PDFInfo
- Publication number
- CN114970542A CN114970542A CN202210522355.1A CN202210522355A CN114970542A CN 114970542 A CN114970542 A CN 114970542A CN 202210522355 A CN202210522355 A CN 202210522355A CN 114970542 A CN114970542 A CN 114970542A
- Authority
- CN
- China
- Prior art keywords
- text
- learning model
- training
- emotion
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 title claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 13
- 238000013211 curve analysis Methods 0.000 claims 4
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于文本情感曲线的分析方法,包括获取文本信息;对文本信息进行预处理,得到训练集和测试集;构建学习模型;使用训练集和测试集对学习模型进行训练和测试,得到监督学习模型;对待测文本进行预处理,得到待测特征;将待测特征输入监督学习模型进行训练,得到情感曲线图;对情感曲线图进行分析,得到分析结果,本发明通过建立监督学习模型可实现对待测文本进行自动分析,生成情感曲线图,解决了现有的文本情感分析方法的人工成本高的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于文本情感曲线的分析方法。
背景技术
文本情感曲线是一种基于文本情感分析的具体情感模式,可以通过情感曲线展示文本的具体情感变化,一般用于长文本的情感分析。
目前,现有技术公开了一种文本情感分析方法通过人工抓取数据进行标注得到情感词典,根据情感词典对文本的情感表达将词语进行正负向和强弱程度区分,人工成本高。
发明内容
本发明的目的在于提供一种基于文本情感曲线的分析方法,旨在解决现有的文本情感分析方法的人工成本高的问题。
为实现上述目的,本发明提供了一种基于文本情感曲线的分析方法,包括以下步骤:
获取文本信息;
对所述文本信息进行预处理,得到训练集和测试集;
构建学习模型;
使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型;
对待测文本进行预处理,得到待测特征;
将所述待测特征输入所述监督学习模型进行训练,得到情感曲线图;
对所述情感曲线图进行分析,得到分析结果。
其中,所述对所述文本信息进行预处理,得到训练集和测试集的具体方式为:
去除所述文本信息中的停用词,得到过滤文本;
标记所述过滤文本的权重,得到权重文本;
将所述权重文本进行划分,得到训练集和测试集。
其中,所述标记所述过滤文本的权重,得到权重文本的具体方式为:
标记所述过滤文本中的关键词;
基于所述关键词提取所述过滤文本中的前缀词,得到权重文本。
其中,所述使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型的具体方式为:
使用所述训练集对所述学习模型进行训练,得到训练模型;
使用所述测试集对所述训练模型进行测试,测试通过,得到监督学习模型。
其中,所述对待测文本进行预处理,得到待测特征的具体方式为:
去除所述待测文本中的停用词,得到去除文本;
对所述去除文本进行特征提取,得到待测特征。
本发明的一种基于文本情感曲线的分析方法,通过获取文本信息;对所述文本信息进行预处理,得到训练集和测试集;构建学习模型;使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型;对待测文本进行预处理,得到待测特征;将所述待测特征输入所述监督学习模型进行训练,得到情感曲线图;对所述情感曲线图进行分析,得到分析结果,本发明通过建立监督学习模型可实现对待测文本进行自动分析,生成情感曲线图,解决了现有的文本情感分析方法的人工成本高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于文本情感曲线的分析方法的流程图。
图2是对所述文本信息进行预处理,得到训练集和测试集的流程图。
图3是使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型的流程图。
图4是对待测文本进行预处理,得到待测特征的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图4,本发明提供一种基于文本情感曲线的分析方法,包括以下步骤:
S1获取文本信息;
具体方式为:
S11从文字数据、图片数据和视频数据中导出文字,分别得到第一分支信息、第二分支信息和第三分支信息;
具体的,从文字数据中获取导出文字,得到第一分支信息的具体方式为:
S101获取文字数据;
具体的,所述文字数据可从网站上下载,或直接输入。
S102将所述文字数据导出,得到第一分支信息。
从图片数据中获取导出文字,得到第二分支信息的具体方式为:
S111获取图片数据;
具体的,所述图片数据可从网站上下载,或直接导入。
S112将所述图片数据中的文字提取并导出,得到第二分支信息;
具体的,采用OCR文字识别计数对所述图片数据中的文字进行识别,得到第一识别数据;将所述第一识别数据提取并导出,得到第二分支信息。
从视频数据中获取导出文字,得到第三分支信息的具体方式为:
S121获取视频数据;
具体的,所述视频数据可从网站上下载,或直接导入。
S122提取所述视频数据的关键帧图片;
具体的,以所述视频数据的字幕跳转时间来提取所述视频数据的关键帧。
S123将所述关键帧图片中的文字提取并导出,得到提取文本;
具体的,采用OCR文字识别计数对所述关键帧图片中的文字进行识别,得到第二识别数据;将所述第二识别数据提取并导出,得到提取文本。
S124删除所述提取文本中的重读语句,得到第三分支信息。
具体的,识别所述提取文字中的语句重复项;将所述语句重复项中的任意一项保留,其余项删除,得到过滤信息;对所述过滤信息进行格式调整,得到第三分支信息。
S12将所述第一分支信息、所述第二分支信息和所述第三分支信息合并,得到文本信息。
S2对所述文本信息进行预处理,得到训练集和测试集;
具体方式为:
S21去除所述文本信息中的停用词,得到过滤文本;
具体的,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。
S22标记所述过滤文本的权重,得到权重文本;
具体的,标记所述过滤文本中的关键词;基于所述关键词提取所述过滤文本中的前缀词,得到权重文本。所述前缀词包括前缀情感词、前缀程度词和前缀否定词。
所述前缀情感词包括“好玩”、“好看”、“好开心”等等;
所述前缀程度词包括“更”、“正是”、“特别是”、“真正”、“根本”、“最”等等;
所述前缀否定次包括“不是”、“没有”等等。
S23将所述权重文本进行划分,得到训练集和测试集。
具体的,所述训练集和所述测试集的比例为8:2。
S3构建学习模型;
具体的,所述学习模型为基于Boosting算法的SVM混合情绪分析模型,性能显著优于单独的SVM模型。
基于SVM的文本情感分析方法被认为是最好的情感分析方法,该方法泛化错误率低,计算开销不大,而且对于训练样本较小的文本可以得到很好的情感分析效果,对高维数据的处理效果良好,能够得到较低的错误率,但该方法对参数调节和核函数的选择敏感。
S4使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型;
具体方式为:
S41使用所述训练集对所述学习模型进行训练,得到训练模型;
S42使用所述测试集对所述训练模型进行测试,测试通过,得到监督学习模型。
具体的,所述监督学习模型可根据文本中的语句中表达的前缀情感词、前缀程度词和前缀否定词准确判断出表达情感,适用于语句中出现多重否定、多重肯定的情况,情感分析的准确率较高。
S5对待测文本进行预处理,得到待测特征;
具体方式为:
S51去除所述待测文本中的停用词,得到去除文本;
具体的,去除所述待测文本中的停用词,可避免停用词对待测文本的情感分析的准确率造成影响。
S52对所述去除文本进行特征提取,得到待测特征。
具体的,提取所述去除文本中的关键词,将所述关键词作为待测特征,以达到去除所述去除文本中的冗杂内容的目的。
S6将所述待测特征输入所述监督学习模型进行训练,得到情感曲线图;
S7对所述情感曲线图进行分析,得到分析结果。
具体的,在步骤对所述情感曲线图进行分析,得到分析结果之后,所述方法还包括:
建立结果储存库;基于所述分析结果生成分析报告,并将所述分析报告储存在所述结果储存库内;根据所述分析报告的生成时间建立索引条件;基于所述索引条件建立检索框。
在对所述分析报告进行调用时,通过在所述检索框内输入调用时间,所述检索框基于所述调用时间与所述索引条件进行匹配,得到目标分析报告。
本发明的一种基于文本情感曲线的分析方法,通过获取文字数据;将所述文字数据导出,得到第一分支信息获取文本信息;获取图片数据;将所述图片数据中的文字提取并导出,得到第二分支信息;获取视频数据;提取所述视频数据的关键帧图片;将所述关键帧图片中的文字提取并导出,得到提取文本;删除所述提取文本中的重读语句,得到第三分支信息,将所述第一分支信息、所述第二分支信息和所述第三分支信息合并,得到文本信息,去除所述文本信息中的停用词,得到过滤文本;标记所述过滤文本的权重,得到权重文本;将所述权重文本进行划分,得到训练集和测试集。构建学习模型;使用所述训练集对所述学习模型进行训练,得到训练模型;使用所述测试集对所述训练模型进行测试,测试通过,得到监督学习模型。去除所述待测文本中的停用词,得到去除文本;对所述去除文本进行特征提取,得到待测特征。将所述待测特征输入所述监督学习模型进行训练,得到情感曲线图;对所述情感曲线图进行分析,得到分析结果。建立结果储存库;基于所述分析结果生成分析报告,并将所述分析报告储存在所述结果储存库内;根据所述分析报告的生成时间建立索引条件;基于所述索引条件建立检索框。在对所述分析报告进行调用时,通过在所述检索框内输入调用时间,所述检索框基于所述调用时间与所述索引条件进行匹配,得到目标分析报告,解决了现有的文本情感分析方法的人工成本高的问题。
以上所揭露的仅为本发明一种基于文本情感曲线的分析方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (5)
1.一种基于文本情感曲线的分析方法,其特征在于,包括以下步骤:
获取文本信息;
对所述文本信息进行预处理,得到训练集和测试集;
构建学习模型;
使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型;
对待测文本进行预处理,得到待测特征;
将所述待测特征输入所述监督学习模型进行训练,得到情感曲线图;
对所述情感曲线图进行分析,得到分析结果。
2.如权利要求1所述的基于文本情感曲线的分析方法,其特征在于,
所述对所述文本信息进行预处理,得到训练集和测试集的具体方式为:
去除所述文本信息中的停用词,得到过滤文本;
标记所述过滤文本的权重,得到权重文本;
将所述权重文本进行划分,得到训练集和测试集。
3.如权利要求2所述的基于文本情感曲线的分析方法,其特征在于,
所述标记所述过滤文本的权重,得到权重文本的具体方式为:
标记所述过滤文本中的关键词;
基于所述关键词提取所述过滤文本中的前缀词,得到权重文本。
4.如权利要求1所述的基于文本情感曲线的分析方法,其特征在于,
所述使用所述训练集和所述测试集对所述学习模型进行训练和测试,得到监督学习模型的具体方式为:
使用所述训练集对所述学习模型进行训练,得到训练模型;
使用所述测试集对所述训练模型进行测试,测试通过,得到监督学习模型。
5.如权利要求1所述的基于文本情感曲线的分析方法,其特征在于,
所述对待测文本进行预处理,得到待测特征的具体方式为:
去除所述待测文本中的停用词,得到去除文本;
对所述去除文本进行特征提取,得到待测特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522355.1A CN114970542A (zh) | 2022-05-13 | 2022-05-13 | 一种基于文本情感曲线的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522355.1A CN114970542A (zh) | 2022-05-13 | 2022-05-13 | 一种基于文本情感曲线的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970542A true CN114970542A (zh) | 2022-08-30 |
Family
ID=82982445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210522355.1A Pending CN114970542A (zh) | 2022-05-13 | 2022-05-13 | 一种基于文本情感曲线的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970542A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
CN107609132A (zh) * | 2017-09-18 | 2018-01-19 | 杭州电子科技大学 | 一种基于语义本体库中文文本情感分析方法 |
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
-
2022
- 2022-05-13 CN CN202210522355.1A patent/CN114970542A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
CN107609132A (zh) * | 2017-09-18 | 2018-01-19 | 杭州电子科技大学 | 一种基于语义本体库中文文本情感分析方法 |
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
Non-Patent Citations (2)
Title |
---|
冯军军 等: "基于Logistic回归模型的微博情感分析研究", 计算机与数字工程, vol. 46, no. 9, 20 September 2018 (2018-09-20), pages 2 - 3 * |
陈珂;黎树俊;谢博;: "基于半监督学习的微博情感分析", 计算机与数字工程, no. 09, 20 September 2018 (2018-09-20), pages 153 - 158 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363194B (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN110232340B (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
US11031003B2 (en) | Dynamic extraction of contextually-coherent text blocks | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN112861864A (zh) | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 | |
WO2022267454A1 (zh) | 分析文本的方法、装置、设备及存储介质 | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114691907B (zh) | 一种跨模态检索的方法、设备及介质 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN113468176B (zh) | 信息录入方法和装置、电子设备、计算机可读存储介质 | |
CN114970542A (zh) | 一种基于文本情感曲线的分析方法 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN115186051A (zh) | 敏感词检测方法、装置及计算机可读存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |