CN117009524B

CN117009524B - 一种基于舆情情感分析的互联网大数据分析方法及系统

Info

Publication number: CN117009524B
Application number: CN202310992343.XA
Authority: CN
Inventors: 刘青艳; 丁昊天; 梁莹莹; 张旭东; 张弓
Original assignee: Yuzhe Rongchuang Technology Beijing Co ltd
Current assignee: Yuzhe Rongchuang Technology Beijing Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2024-03-05
Anticipated expiration: 2043-08-08
Also published as: CN117009524A

Abstract

本发明公开了一种基于舆情情感分析的互联网大数据分析方法及系统，包括：基于互联网爬虫技术，从公开大数据资源中抓取对应的文本数据，对文本数据进行预处理操作，预处理包括数据清洗、分词以及词性标注；基于深度学习的人工智能技术，对预处理后的文本数据进行情感分析，判断文本数据的正面、负面或中性情感倾向，获取情感分析结果；根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势。能够全面了解用户的观点和情感倾向；通过深度学习的情感分析技术，可以自动判断文本数据的情感倾向，提高舆情分析的效率和准确性。

Description

一种基于舆情情感分析的互联网大数据分析方法及系统

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于舆情情感分析的互联网大数据分析方法及系统。

背景技术

随着互联网的快速发展，大量的文本数据在互联网上产生，其中包含了丰富的舆情信息；然而，如何从海量的文本数据中准确、高效地提取有价值的信息，成为互联网大数据分析的关键问题；目前，已有一些方法和系统用于互联网大数据分析，但在情感分析方面存在一些局限性，如准确性不高、处理效率低等。

申请号为：CN201611200311的发明公开了一种互联网大数据分析提取方法及系统，获取目标对象的网页源码文本集；从网页源码文本集中的每份网页源码文本中提取出目标对象的网页特征信息，并分析出网页特征信息的权重，得到第一特征信息集；从第一特征信息集中筛选出权重值高于第一预设权重的网页特征信息，得到正查数据。存在缺陷包括：从网页源码文本中提取目标对象的网页特征信息可能受到网页结构、标签嵌套、动态加载等因素的影响，如果提取方法不准确或不完善可能会导致提取的特征信息不全或错误，影响后续分析的准确性；对网页特征信息的权重进行分析时，存在主观判断和主观设定的问题，不同的分析人员可能会给予不同的权重，导致结果的不一致性和主观性。

因此，现在急需一种基于舆情情感分析的互联网大数据分析方法及系统。

发明内容

本发明提供了一种基于舆情情感分析的互联网大数据分析方法及系统，以解决现有技术中存在的随着互联网的快速发展，大量的文本数据在互联网上产生，其中包含了丰富的舆情信息；然而，如何从海量的文本数据中准确、高效地提取有价值的信息，成为互联网大数据分析的关键问题；目前，已有一些方法和系统用于互联网大数据分析，但在情感分析方面存在一些局限性，如准确性不高、处理效率低等的上述问题。

为了达到上述目的，本发明提供如下技术方案：

一种基于舆情情感分析的互联网大数据分析方法，包括：

S101：基于互联网爬虫技术，从公开大数据资源中抓取对应的文本数据，对文本数据进行预处理操作，预处理包括数据清洗、分词以及词性标注；

S102：基于深度学习的人工智能技术，对预处理后的文本数据进行情感分析，判断文本数据的正面、负面或中性情感倾向，获取情感分析结果；

S103：根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势。

其中，S101步骤包括：

S1011：设计并实施互联网爬虫程序，通过HTTP协议，访问设定的公开大数据资源网站，根据预设的规则和策略，抓取对应的文本数据；

S1012：对抓取的文本数据进行数据清洗操作，数据清洗包括去除无关信息和噪声数据；

S1013：对清洗后的文本数据进行分词操作，将文本数据分解为单词或短语，对分词后的文本数据进行词性标注，识别并标注每个单词或短语的词性，词性包括名词、动词和形容词。

其中，S102步骤包括：

S1021：将预处理后的文本数据输入到通过预训练初始化后的深度学习模型中，深度学习模型对输入的文本数据进行特征提取和学习，通过多层神经网络的前向传播和反向传播，优化模型参数，提取文本数据的深层次特征；

S1022：基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，分析文本数据的正面、负面或中性情感倾向，其中，提取的特征包括词嵌入、上下文理解和情感极性判断；

S1023：获取情感分析结果，情感分析结果包括文本数据的情感倾向标签或文本数据的情感倾向概率分布。

其中，S103步骤包括：

S1031：对获取的情感分析结果进行统计，通过统计各类情感倾向的数量和比例，形成情感倾向分布数据；

S1032：对获取的情感分析结果进行深度分析，深度分析包括分析情感倾向的变化趋势和热点话题，形成深度分析数据；

S1033：根据情感倾向分布数据和深度分析数据，形成舆情报告，该舆情报告包括热点话题、情感倾向分布和情感变化趋势。

其中，S1011步骤包括：

选择待采集数据的公开大数据资源的目标网站，设定爬虫程序的规则和策略，规则和策略包括确定要抓取的数据类型、抓取频率以及抓取深度，通过HTTP协议与目标网站建立连接，发送请求获取网页内容，对获取的网页内容进行解析，提取目标文本数据的位置和结构，根据规则和策略，从解析后的网页内容中抓取目标文本数据，将抓取到的文本数据存储到存储介质中，存储介质包括数据库或文件系统。

其中，S1022步骤包括：

将文本数据划分成若干个句子，再将句子划分成词语，对各个词语进行特征提取，特征提取包括词嵌入、上下文理解和情感极性判断；基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，分析文本数据的正面、负面或中性情感倾向；通过词语的情感倾向推断出句子的情感倾向，从而进行句子的情感分析，获得每句话的情感倾向，最后分析每句话在句子中的所在分层区域，分层区域根据重要程度的划分等级设定，结合句子的情感倾向，最终得出这段文本的正负面倾向性。

其中，S1031步骤包括：

选择对应的情感分析算法，通过情感分析算法对文本数据进行情感分类，将文本数据划分为积极、消极或中性情感；基于情感分析算法，构建情感分类模型，通过情感分类模型使用已标注的情感数据集进行训练，以学习文本与情感之间的关联，训练完成后，将训练后的情感分类模型用于对新的文本进行情感分类；

在获取到情感分析结果后，对各类情感倾向的数量和比例进行统计；其中，将所有文本的情感分类结果进行统计，计算积极、消极和中性情感的数量，通过计算每个情感类别的数量与总文本数量的比例，得到各类情感倾向的比例。

其中，一种基于舆情情感分析的互联网大数据分析系统，包括：

获取文本数据单元，用于基于互联网爬虫技术，从公开大数据资源中抓取对应的文本数据，对文本数据进行预处理操作，预处理包括数据清洗、分词以及词性标注；

情感分析单元，用于基于深度学习的人工智能技术，对预处理后的文本数据进行情感分析，判断文本数据的正面、负面或中性情感倾向，获取情感分析结果；

形成舆情报告单元，用于根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势。

其中，获取文本数据单元包括：

获取文本数据第一子单元，用于设计并实施互联网爬虫程序，通过HTTP协议，访问设定的公开大数据资源网站，根据预设的规则和策略，抓取对应的文本数据；

获取文本数据第二子单元，用于对抓取的文本数据进行数据清洗操作，数据清洗包括去除无关信息和噪声数据；

获取文本数据第三子单元，用于对清洗后的文本数据进行分词操作，将文本数据分解为单词或短语，对分词后的文本数据进行词性标注，识别并标注每个单词或短语的词性，词性包括名词、动词和形容词。

其中，情感分析单元包括：

情感分析第一子单元，用于将预处理后的文本数据输入到通过预训练初始化后的深度学习模型中，深度学习模型对输入的文本数据进行特征提取和学习，通过多层神经网络的前向传播和反向传播，优化模型参数，提取文本数据的深层次特征；

情感分析第二子单元，用于基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，分析文本数据的正面、负面或中性情感倾向，其中，提取的特征包括词嵌入、上下文理解和情感极性判断；

情感分析第三子单元，用于获取情感分析结果，情感分析结果包括文本数据的情感倾向标签或文本数据的情感倾向概率分布。

与现有技术相比，本发明具有以下优点：

一种基于舆情情感分析的互联网大数据分析方法，包括：基于互联网爬虫技术，从公开大数据资源中抓取对应的文本数据，对文本数据进行预处理操作，预处理包括数据清洗、分词以及词性标注；基于深度学习的人工智能技术，对预处理后的文本数据进行情感分析，判断文本数据的正面、负面或中性情感倾向，获取情感分析结果；根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势。能够全面了解用户的观点和情感倾向；通过深度学习的情感分析技术，可以自动判断文本数据的情感倾向，提高舆情分析的效率和准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于舆情情感分析的互联网大数据分析方法的流程图；

图2为本发明实施例中抓取对应的文本数据的流程图；

图3为本发明实施例中对预处理后的文本数据进行情感分析的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于舆情情感分析的互联网大数据分析方法，包括：

上述技术方案的工作原理为：采用互联网爬虫技术可以从公开大数据资源中抓取大量的文本数据，这些数据包括用户评论、社交媒体帖子、新闻报道；预处理操作包括数据清洗，去除噪声和无用信息；分词，将文本切分成词语；词性标注，为每个词语标注其词性，如名词、动词等；采用深度学习的人工智能技术，可以对预处理后的文本数据进行情感分析，情感分析是通过训练一个深度学习模型，使其能够理解文本中的情感倾向，模型会学习从文本中提取特征，并将其映射到情感类别，如正面、负面或中性，通过对文本数据进行情感分析，可以获取每个文本的情感分析结果；根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告可以包括以下内容：

热点话题：根据文本数据中的关键词和频率，识别出当前热门的话题；情感倾向分布：统计不同情感类别的文本数量，了解舆情中正面、负面和中性情感的比例；情感变化趋势：通过时间序列分析，观察舆情情感在不同时间段的变化趋势，了解舆情的发展和演变。

上述技术方案的有益效果为：采用互联网爬虫技术可以获取大量的公开文本数据，包括用户评论、社交媒体帖子等，能够全面了解用户的观点和情感倾向；通过深度学习的情感分析技术，可以自动判断文本数据的情感倾向，提高舆情分析的效率和准确性；舆情报告可以帮助企业、政府等机构了解公众对其产品、服务或政策的态度和情感倾向，及时发现和解决问题，改善公众形象；通过观察情感变化趋势，可以预测舆情的发展趋势，及时采取措施应对可能的负面影响；舆情报告可以为决策者提供参考，帮助他们制定合适的策略和应对措施，以更好地满足公众需求。

在另一实施例中，S101步骤包括：

上述技术方案的工作原理为：通过设计和实施互联网爬虫程序，可以使用HTTP协议(用于传输超文本的应用层协议)与设定的公开大数据资源网站建立连接，并按照预设的规则和策略进行数据抓取，爬虫程序可以模拟浏览器的行为，发送请求获取网页内容，并解析网页中的文本数据；对抓取的文本数据进行数据清洗操作是为了去除无关信息和噪声数据，以提高后续处理的准确性和效率，数据清洗可以包括去除HTML标签、特殊字符、停用词等，同时还可以进行拼写纠错、词干提取等处理，使得文本数据更加干净和规范；对清洗后的文本数据进行分词操作是为了将文本数据分解为单词或短语的形式，以便后续的词性标注和其他自然语言处理任务。分词可以根据空格、标点符号等进行简单的切分，也可以使用更复杂的算法和模型进行分词，如基于统计的方法或基于深度学习的方法。词性标注是为了识别并标注每个单词或短语的词性，如名词、动词和形容词等，以便后续的语义分析和理解。

上述技术方案的有益效果为：采用互联网爬虫程序可以自动化地从公开大数据资源网站获取文本数据，节省人力和时间成本，同时可以获取大量的数据，提供更全面的分析基础；数据清洗操作可以去除无关信息和噪声数据，提高后续处理的准确性和效率，确保分析结果的可靠性；分词操作可以将文本数据转化为单词或短语的形式，方便后续的语义分析和理解，提高对文本数据的处理能力；词性标注可以识别并标注每个单词或短语的词性，为后续的语义分析和理解提供更多的信息，提高对文本数据的深入理解能力。

在另一实施例中，S102步骤包括：

上述技术方案的工作原理为：将预处理后的文本数据输入到预训练初始化后的深度学习模型中，深度学习模型通过多层神经网络的前向传播和反向传播，对输入的文本数据进行特征提取和学习，模型中的每一层都会对输入数据进行一系列的数学运算，以提取数据的深层次特征；基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，模型会将提取的特征输入到输出层，通过激活函数进行非线性映射，得到文本数据的情感倾向，特征包括词嵌入，将每个词语映射到一个高维向量表示；上下文理解，考虑词语在句子中的上下文关系；情感极性判断，判断文本数据的情感是正面、负面还是中性；获取情感分析结果，包括文本数据的情感倾向标签或情感倾向概率分布，情感倾向标签可以是正面、负面或中性，用于简单的情感分类，情感倾向概率分布可以表示每个情感类别的概率，用于更细粒度的情感分析；

获取情感分析结果过程中，结合PAD情感空间模型(PAD情感空间模型是一种常用的情感分类模型，它将情感分为三个维度：愉快度、激活度和支配度)，采用OCC情感分类(OCC情感分类模型是一种基于情感理论的分类模型，它将情感分为三个维度：组织、个性和文化，得到情感语义本体框架；从互联网大数据中抽取情感特征词，并将情感本体分为基础情感本体和拓展情感本体，情感词构建维度分别为愉悦度、唤醒度和支配度/优势度；对应该维度下利用OCC模型对情感进行分类，分类的情感共有24种，情感是相互替代的，顶层为“情感本体”，接着基于PAD三个维度进行扩展，扩展后的维度包括喜悦、悲伤、愤怒、恐惧、厌恶、惊奇，这是基于Ekman的情感分类(被称为六种基本情感模型)，再利用OCC进行扩展，24个情感种有相同的情感语义，互相替代；最后，利用知网情感分析用词语集作为基础情感本体的数据源，扩展情感词典利用情感词进行筛选、合并，分类提取情感词。

上述技术方案的有益效果为：深度学习模型能够从文本数据中提取深层次的特征，相比传统的浅层特征，更能捕捉到文本数据的语义和情感信息，提高情感分析的准确性和效果；通过预训练初始化，深度学习模型可以利用大规模的文本数据进行预训练，学习到通用的语义表示，使得模型具有更好的泛化能力，适用于不同领域和语境的情感分析任务；深度学习模型能够自动学习特征表示，无需手动设计特征，减少了人工特征工程的工作量，提高了情感分析的效率；情感分析结果可以帮助企业、政府等机构了解用户对产品、服务或政策的情感倾向，及时发现和解决问题，改善用户体验和公众形象；深度学习模型可以处理大规模的文本数据，能够对海量的用户评论、社交媒体帖子等进行情感分析，提供全面的舆情分析和洞察。

在另一实施例中，S103步骤包括：

上述技术方案的工作原理为：对获取的情感分析结果进行统计，统计各类情感倾向的数量和比例，形成情感倾向分布数据；通过对情感分析结果进行计数和比例计算，可以了解不同情感倾向在文本数据中的分布情况，从而得出情感倾向的整体趋势；对获取的情感分析结果进行深度分析，包括分析情感倾向的变化趋势和热点话题，形成深度分析数据，通过对情感分析结果进行时间序列分析，可以观察情感倾向在不同时间段的变化趋势，了解用户情感的演变和变化，同时，可以通过关键词提取和主题建模等技术，识别出热点话题，深入分析用户对特定话题的情感倾向；根据情感倾向分布数据和深度分析数据，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势，通过将情感分析结果与深度分析数据结合，可以提供全面的舆情分析，帮助决策者了解用户情感倾向的整体分布、关注的热点话题以及情感变化的趋势，为决策提供有价值的参考。

形成舆情报告后，计算热点话题中的评论的情感语义强度，计算热点话题的情感语义强度，并利用时间序列的方式对情感语义强度进行回归分析，实现舆情热点的分析与跟踪；根据情感强度以及分析结果对用户可能感兴趣的内容进行推荐。

上述技术方案的有益效果为：统计情感倾向分布数据可以直观地了解不同情感倾向在文本数据中的比例和数量，帮助决策者了解用户情感倾向的整体趋势，从而制定相应的策略和措施；深度分析情感倾向的变化趋势和热点话题可以帮助决策者更深入地理解用户情感的演变和变化，及时发现和解决问题，抓住用户关注的重点；舆情报告将情感倾向分布数据和深度分析数据结合起来，提供全面的舆情分析，为决策者提供有价值的参考，帮助他们做出更准确、更及时的决策；通过舆情报告，决策者可以了解用户对产品、服务或政策的情感倾向，及时调整和改进，提升用户满意度和品牌形象；舆情报告还可以帮助企业、政府等机构了解市场动态和用户需求，发现潜在的商机和挑战，为业务发展提供指导和支持。

在另一实施例中，S1011步骤包括：

上述技术方案的工作原理为：根据需求选择目标网站，确保该网站具有所需的公开大数据资源；确定要抓取的数据类型、抓取频率以及抓取深度，规则和策略的设定可以根据目标网站的结构和数据分布进行调整，以确保能够高效地获取目标文本数据；使用HTTP协议与目标网站建立连接，发送请求获取网页内容，可以使用Python中的requests库或其他类似的工具来发送HTTP请求；使用HTML解析器(如BeautifulSoup)对获取的网页内容进行解析，将其转换为可操作的数据结构，方便后续的数据提取；根据目标文本数据在网页中的位置和结构，使用XPath、CSS选择器或正则表达式等方法，定位和提取目标文本数据所在的HTML元素或文本节点；根据设定的规则和策略，从解析后的网页内容中抓取目标文本数据，通过循环遍历、条件判断的方式，逐步提取所需的文本数据；将抓取到的文本数据存储到数据库或文件系统中，以便后续的数据处理和分析，可以使用MySQL、MongoDB等数据库，或者将数据保存为CSV、JSON等文件格式。

上述技术方案的有益效果为：采用爬虫程序可以自动化地从目标网站获取大量的公开数据，节省人力和时间成本；设定规则和策略可以确保爬虫程序按照预定的方式进行数据抓取，提高数据获取的准确性和效率；通过HTTP协议与目标网站建立连接，可以与目标网站进行交互，获取网页内容，实现数据的实时更新和采集；解析网页内容并提取目标文本数据，可以根据需求灵活地选择所需的数据，避免获取无关或冗余的信息；将抓取到的文本数据存储到存储介质中，方便后续的数据处理、分析和可视化展示；通过爬虫程序获取公开大数据资源，可以为企业、研究机构等提供有价值的数据支持，帮助他们进行市场调研、数据分析和决策制定。

在另一实施例中，S1022步骤包括：

上述技术方案的工作原理为：将文本数据划分成句子：将文本数据按照标点符号或其他规则进行划分，将其分成若干个句子，这样做的目的是将文本数据进行细粒度的处理，以便更准确地进行情感分析；将句子划分成词语：对每个句子进行分词，将句子划分成一个个词语，分词是将句子拆分成最小的语义单位，为后续的特征提取和情感分析提供基础；对词语进行特征提取：对每个词语进行特征提取，包括词嵌入、上下文理解和情感极性判断，词嵌入是将词语映射到高维向量表示，捕捉词语的语义信息，上下文理解考虑了词语在句子中的上下文关系，提供更全面的语义理解，情感极性判断用于判断词语的情感倾向，是情感分析的关键步骤；基于提取的特征进行情感分析：将提取的特征输入到深度学习模型中，对文本数据的情感倾向进行分析，模型会根据词语的特征进行前向传播和反向传播，优化模型参数，得到文本数据的情感倾向；句子的情感分析和分层区域分析：通过词语的情感倾向，推断出句子的情感倾向，根据句子在文本中的位置和重要程度，将句子划分成不同的分层区域，分层区域可以根据重要程度的不同进行划分，例如标题、正文、结论等，结合句子的情感倾向，可以得出这段文本的正负面倾向性。

假设我们对一篇新闻进行情感分析，分层区域可以设定为标题、导语、正文和结论，标题通常是引人注目的，对读者产生较大的影响；导语是对新闻内容的简要介绍；正文是详细的新闻内容；结论是对新闻事件的总结和评价。根据不同分层区域的重要程度和情感倾向，可以综合判断这篇新闻的整体情感倾向。

上述技术方案的有益效果为：通过将文本数据划分成句子和词语，可以更细粒度地进行情感分析，提高情感分析的准确性和精度；特征提取阶段的词嵌入、上下文理解和情感极性判断，能够捕捉到词语的语义信息和情感倾向，为后续的情感分析提供有力支持；分析句子的情感倾向和分层区域，可以更全面地了解文本的情感倾向和重要程度，帮助决策者更准确地理解用户的情感态度和关注点；通过情感分析和分层区域分析，可以为企业、媒体等提供有关产品、新闻等的情感倾向和重要程度的信息，帮助他们进行舆情监测、品牌管理和决策制定；情感分析和分层区域分析的结果可以用于舆情报告的生成，为决策者提供全面的情感分析和洞察，帮助他们做出更明智的决策。

在另一实施例中，S1031步骤包括：

上述技术方案的工作原理为：根据需求选择适合的情感分析算法，常见的算法包括基于规则的方法、基于词典的方法和基于机器学习的方法，每种算法都有其优势和适用场景，可以根据具体情况进行选择；基于选择的情感分析算法，构建情感分类模型，通过使用已标注的情感数据集进行训练，模型可以学习文本与情感之间的关联，训练过程中，模型会根据输入的文本特征和对应的情感标签进行优化，以提高情感分类的准确性；训练完成后，将训练好的情感分类模型用于对新的文本进行情感分类，模型会根据文本的特征和之前学习到的关联，预测文本的情感类别，将文本划分为积极、消极或中性情感；在获取到情感分析结果后，对各类情感倾向的数量和比例进行统计，将所有文本的情感分类结果进行计数，计算积极、消极和中性情感的数量，通过计算每个情感类别的数量与总文本数量的比例，可以得到各类情感倾向的比例。

上述技术方案的有益效果为：采用情感分析算法进行情感分类，可以自动化地对文本数据进行情感判断，提高效率和准确性；构建情感分类模型并进行训练，可以通过学习文本与情感之间的关联，提高情感分类的准确性和泛化能力；应用训练好的情感分类模型，可以对新的文本进行情感分类，帮助决策者了解用户的情感态度和情感倾向；统计情感倾向的数量和比例，可以直观地了解文本数据中不同情感类别的分布情况，为舆情分析和决策提供参考；通过情感分析和统计结果，可以帮助企业、媒体等了解用户对产品、服务或内容的情感反馈，及时调整和改进，提升用户满意度和品牌形象；情感分析的结果可以用于舆情监测、市场调研等领域，帮助决策者了解市场动态和用户需求，发现潜在的商机和挑战。

在另一实施例中，一种基于舆情情感分析的互联网大数据分析系统，包括：

上述技术方案的工作原理为：通过互联网爬虫技术，从公开大数据资源中抓取对应的文本数据，爬虫程序根据设定的规则和策略，通过HTTP协议与目标网站建立连接，发送请求获取网页内容，对获取的网页内容进行解析，提取目标文本数据的位置和结构，最后将抓取到的文本数据存储到存储介质中；对获取的文本数据进行预处理操作，包括数据清洗、分词以及词性标注，数据清洗可以去除文本中的噪声和无用信息，提高后续处理的效果，分词将文本划分成一个个词语，为后续的情感分析提供基础，词性标注可以标注每个词语的词性，帮助更准确地理解文本的语义；基于深度学习的人工智能技术，对预处理后的文本数据进行情感分析，通过将文本数据输入到训练好的情感分类模型中，模型会根据文本的特征和之前学习到的关联，预测文本的情感类别，将文本划分为正面、负面或中性情感；根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告可以包括热点话题，即在文本数据中出现频率较高的关键词或短语；情感倾向分布，即不同情感类别的数量和比例；情感变化趋势，即随时间推移，不同情感类别的变化趋势。

上述技术方案的有益效果为：采用互联网爬虫技术获取文本数据，可以自动化地从公开大数据资源中抓取大量的文本数据，节省人力和时间成本；预处理操作可以清洗文本数据，去除噪声和无用信息，提高后续情感分析的准确性；基于深度学习的情感分析技术，可以自动判断文本数据的情感倾向，帮助决策者了解用户的情感态度和情感倾向；形成舆情报告可以对文本数据进行统计和分析，帮助决策者了解热点话题、情感倾向分布和情感变化趋势，为决策制定提供参考；舆情报告可以帮助企业、媒体等了解用户对产品、服务或内容的情感反馈，及时调整和改进，提升用户满意度和品牌形象；情感分析和舆情报告的结果可以用于舆情监测、市场调研等领域，帮助决策者了解市场动态和用户需求，发现潜在的商机和挑战。

在另一实施例中，获取文本数据单元包括：

上述技术方案的工作原理为：设计并实施互联网爬虫程序，通过HTTP协议访问设定的公开大数据资源网站，爬虫程序根据预设的规则和策略，发送请求获取网页内容，可以通过网页的URL、API接口等方式获取数据，获取到的网页内容可以是HTML、JSON等格式的数据；对抓取的文本数据进行数据清洗操作，数据清洗的目的是去除无关信息和噪声数据，提高后续处理的效果，清洗操作可以包括去除HTML标签、特殊字符、数字等，去除重复数据和空白行，以及其他根据具体需求进行的清洗操作；对清洗后的文本数据进行分词操作，分词是将文本数据分解为单词或短语的过程，为后续的文本处理和分析提供基础，常见的分词方法包括基于规则的分词和基于统计的分词，分词后，可以对分词结果进行词性标注，即识别并标注每个单词或短语的词性，如名词、动词和形容词等。

上述技术方案的有益效果为：采用互联网爬虫程序获取文本数据，可以自动化地从公开大数据资源网站抓取大量的文本数据，节省人力和时间成本；数据清洗操作可以去除无关信息和噪声数据，提高后续处理的准确性和效果；分词操作将文本数据分解为单词或短语，为后续的文本处理和分析提供基础，分词后的文本数据更易于理解和处理；词性标注可以标注每个单词或短语的词性，帮助更准确地理解文本的语义。词性标注可以为后续的文本分析和情感分析提供更多的信息；获取干净、分词和词性标注后的文本数据，可以为后续的文本分析、情感分析和舆情报告等提供高质量的数据基础；通过对文本数据的分词和词性标注，可以进行更深入的文本分析，如关键词提取、实体识别等，帮助决策者更好地理解文本数据的内容和特征。

在另一实施例中，情感分析单元包括：

上述技术方案的工作原理为：情感分析第一子单元：将预处理后的文本数据输入到通过预训练初始化后的深度学习模型中，深度学习模型通过多层神经网络的前向传播和反向传播，对输入的文本数据进行特征提取和学习，在前向传播过程中，模型通过一系列的隐藏层将输入的文本数据转化为高维特征表示，在反向传播过程中，模型根据预设的损失函数和优化算法，调整模型参数，使得模型能够更好地提取文本数据的深层次特征；情感分析第二子单元：基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，模型通过学习到的特征，可以判断文本数据的正面、负面或中性情感倾向，其中，提取的特征包括词嵌入、上下文理解和情感极性判断，词嵌入是将文本中的词语映射到低维向量空间，捕捉词语之间的语义关系，上下文理解是考虑文本中词语的上下文信息，以更好地理解文本的语义，情感极性判断是通过模型学习到的特征，判断文本数据的情感倾向是正面、负面还是中性；情感分析第三子单元：用于获取情感分析结果，情感分析结果可以是文本数据的情感倾向标签，如正面、负面或中性，也可以是文本数据的情感倾向概率分布，表示各个情感类别的概率，通过该子单元，可以得到对文本数据情感倾向的判断结果，帮助理解文本的情感色彩。

上述技术方案的有益效果为：采用深度学习模型进行情感分析，可以利用深层次的特征提取能力，更好地捕捉文本数据的语义和情感信息；深度学习模型可以通过大规模的训练数据进行预训练，从而具备较强的泛化能力，能够适应不同领域和语境下的情感分析任务；通过情感分析，可以对文本数据进行情感倾向的判断，帮助了解用户对产品、服务或事件的态度和情感反馈；情感分析结果可以应用于舆情监测、品牌管理、市场调研等领域，帮助企业和组织了解用户的情感需求和市场动态，从而做出更好的决策；深度学习模型在情感分析任务中具备较高的准确性和鲁棒性，能够处理复杂的文本数据，提高情感分析的效果和可靠性；通过情感分析，可以自动化地对大量文本数据进行情感倾向的分析，节省人力和时间成本，提高工作效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于舆情情感分析的互联网大数据分析方法，其特征在于，包括：

S103：根据情感分析的结果，对各类文本数据进行统计和分析，形成舆情报告，舆情报告包括热点话题、情感倾向分布和情感变化趋势；

S102步骤包括：

S1021：将预处理后的文本数据输入到通过预训练初始化后的深度学习模型中，深度学习模型对输入的文本数据进行特征提取和学习，通过多层神经网络的前向传播和反向传播，优化模型参数，提取文本数据的特征；

S1023：获取情感分析结果，情感分析结果包括文本数据的情感倾向标签或文本数据的情感倾向概率分布；

S1022步骤包括：

将文本数据划分成若干个句子，再将句子划分成词语，对各个词语进行特征提取，特征提取包括词嵌入、上下文理解和情感极性判断；基于提取的特征，深度学习模型对文本数据的情感倾向进行分析，分析文本数据的正面、负面或中性情感倾向；通过词语的情感倾向推断出句子的情感倾向，从而进行句子的情感分析，获得每句话的情感倾向，最后分析每句话在文本中的所在分层区域，分层区域根据文本重要程度的划分等级设定，结合句子的情感倾向，最终得出这段文本的正负面倾向性；

获取情感分析结果过程中，基于PAD 情感空间模型和OCC 情感分类模型，构建情感语义本体框架；构建情感语义本体框架，包括：基于PAD 情感空间模型将情感本体划分为三个维度，三个维度包括愉快度、激活度和支配度，基于Ekman 的情感分类将三个维度扩展为喜悦、悲伤、愤怒、恐惧、厌恶、惊奇的六种基本情感，再利用OCC 情感分类模型对六种基本情感进行扩展，获取24种情感，其中，24种情感中有相同情感语义的词能互相替代；最后，使用知网情感分析的词语集作为基础情感本体的数据源，通过词语集扩展情感词典，扩展情感词典包括对词语集进行筛选、合并、分类，提取情感词；

S103步骤包括：

S1033：根据情感倾向分布数据和深度分析数据，形成舆情报告，该舆情报告包括热点话题、情感倾向分布和情感变化趋势；

S1031步骤包括：

2.根据权利要求1所述的一种基于舆情情感分析的互联网大数据分析方法，其特征在于，S101步骤包括：

3.根据权利要求2所述的一种基于舆情情感分析的互联网大数据分析方法，其特征在于，S1011步骤包括：