CN118132848A - 舆情的分析方法、装置、设备和介质 - Google Patents
舆情的分析方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN118132848A CN118132848A CN202410329977.1A CN202410329977A CN118132848A CN 118132848 A CN118132848 A CN 118132848A CN 202410329977 A CN202410329977 A CN 202410329977A CN 118132848 A CN118132848 A CN 118132848A
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- emotion
- determining
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 92
- 230000008451 emotion Effects 0.000 claims abstract description 199
- 238000000605 extraction Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种舆情的分析方法、装置、设备和介质。包括:获取舆情文本;基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征;基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本;确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题;基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要;根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。如此,实现了对舆情评论文本的归类和分析,提高了对文本情感和文本摘要的识别准确率,从而根据评论文本快速准确地确定用户的舆情倾向和情感特征。
Description
技术领域
本申请涉及语言处理领域,尤其涉及一种舆情的分析方法、装置、设备和介质。
背景技术
随着网络技术的飞速发展,网络舆情事件频繁发生,公众会对某些热点问题发表带有倾向性的观点。对网络舆情进行分析,有助于及时掌握公众的舆情态度。
目前的方案中,虽然有相关舆情分析系统,但往往针对舆情文本的某一方面进行分析,从而根据分析结果对舆情进行监控。
然而,现有的舆情分析方法存在分析结论的准确度不高的问题。
发明内容
本申请提供一种舆情的分析方法、装置、设备和介质,用以解决现有的舆情分析方法存在分析结论的准确度不高的问题。
第一方面,本申请提供一种舆情的分析方法,方法包括:
获取舆情文本;
基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征;
基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本;
确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题;
基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要;
根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
在本申请实施例中,基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征,包括:
根据特征提取层中的词嵌入层,对舆情文本进行向量化处理,得到舆情文本的文本向量;
根据特征提取层中的双向GRU层,确定文本向量的时序特征;
根据特征提取层中的神经网络层,从时序特征中确定舆情文本的目标特征;
基于预设的注意力机制,对目标特征赋予不同的注意力权重,得到舆情文本的情感特征。
在本申请实施例中,基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本,包括:
确定预设的情感标签;
将舆情文本输入至预设的语言处理模型中,得到舆情文本的文本情感极性;
从情感标签中确定与文本情感极性对应的目标情感标签,并基于目标情感标签,确定舆情文本对应的情感类型。
在本申请实施例中,确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题,包括:
确定舆情文本的文本困惑度和文本一致性,并基于文本困惑度和文本一致性确定文本主题的目标数量;
生成目标数量的文本主题,并将情感类型的舆情文本划分至对应的文本主题中。
在本申请实施例中,生成目标数量的文本主题,并将情感类型的舆情文本划分至对应的文本主题中,包括:
确定情感类型的舆情文本与目标数量的文本主题之间的文本相似度;
比对文本相似度,得到相似度值最高的目标文本相似度;
基于目标文本相似度,确定舆情文本对应的文本主题,并将舆情文本划分至对应的文本主题中。
在本申请实施例中,基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要,包括:
确定文本主题中各个舆情文本语句的语句权重,并将语句权重值最高的舆情文本语句确定为文本主题对应的主题摘要;
根据各个文本主题对应的主题摘要,确定情感类型的舆情文本对应的初始文本摘要;
确定初始文本摘要的文本之间的文本相似度;
若文本相似度低于预设的相似度阈值,则删去文本相似度对应的摘要文本,得到目标文本摘要。
在本申请实施例中,根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果,包括:
根据情感特征,确定舆情文本的情感分析结果;
根据文本摘要,确定舆情文本的文本分析结果;
根据情感分析结果和文本分析结果,确定舆情文本的分析结果。
第二方面,本申请提供一种舆情的分析装置,装置包括:
文本获取模块,用于获取舆情文本;
特征提取模块,用于基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征;
文本分类模块,用于基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本;
主题生成模块,用于确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题;
摘要确定模块,用于基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要;
结果确定模块,用于根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
第三方面,本申请提供一种计算机设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现本申请的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,程序代码被处理器执行时用于实现本申请的方法。
本申请提供的舆情的分析方法、装置、设备和介质,通过获取舆情文本;基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征;基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本;确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题;基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要;根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
如此,可以通过确定舆情文本的情感特征和文本摘要,从而确定文本的舆情分析结论,实现了从情感、目的、主题、摘要等多个角度对评论文本进行全面的归类和分析,同时提高了对文本情感和文本摘要的识别准确率,以便快速且准确地通过分析舆情文本,从而确定用户对舆情的情感倾向,以便做出舆情应对。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种舆情的分析方法的流程示意图;
图2为本申请实施例提供的另一种舆情的分析方法的流程示意图;
图3为本申请实施例提供的一种舆情的分析系统的系统示意图;
图4为本申请实施例提供的一种舆情的分析方法的方法示意图;
图5为本申请实施例提供的一种舆情的分析方法的模型示意图;
图6为本申请实施例提供的一种舆情的分析装置的结构示意图;
图7为本申请实施例的用于执行根据本申请实施例的舆情的分析方法的设备的结构框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述;这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
特征提取模型为预设好的、用于提取文本特征的文本处理模型,可以是深度学习模型Attention RoBeBcMC,也可以是其他的自然语言处理模型,只要是能够提取文本的情感特征的模型均可。
情感特征可以理解为文本表征的情感倾向,通过提取并分析文本表达的情感,可以确定文本的分析结论,从而确定用户的舆情情感倾向。
情感标签用于根据舆情文本的情感类型,对文本进行划分;例如,情感标签可以为正向、负向、中性标签,从而根据舆情文本表征的情感倾向,确定与情感标签对应的文本,从而将舆情文本划分为正向情感文本、负向情感文本、中性情感文本。
双向GRU(Gated Recurrent Unit)是一种循环神经网络的变体,具有前向和后向两个方向的信息传递。它能够在处理文本时同时考虑上下文的前后关系,更好地捕捉到文本中的语义和信息。
现有技术中,目前存在的舆情文本分析系统,有的仅仅是针对文本的某一方面,缺乏对舆情文本特征的全面分析,导致在判别文本情感方面,存在准确率偏低的问题。
为了解决上述问题,本申请实施例提供了一种舆情的分析方法,可以通过基于深度学习模型的文本分析系统,以舆情文本为主要研究对象,利用RoBERTa、多尺度卷积神经网络、双向GRU来识别文本的情感和动机;并基于LDA2Vec来进行文本摘要提取和文本主题拓展研究,从情感、目的、主题、摘要等多个角度对文本特征进行全面的分析,使得使用者能够更加直观地了解到相关舆情评论文本中的舆情倾向,以便于能够引导舆情正向发展。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种舆情的分析方法的流程示意图。如图1所示,该舆情的分析方法可以包括以下步骤:
S110、获取舆情文本。
其中,舆情文本可以为任意事件的舆情评论文本,能够表征评论人对该舆情事件的情感倾向。
基于此,通过获取舆情文本,以便后续对文本进行处理,得到舆情文本的情感特征和文本摘要,从而准确地对舆情文本进行分析,得到对应的分析结论,并根据分析结论确定该舆情事件的舆情倾向,以便后续能够引导舆情正面发展。
S120、基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征。
其中,特征提取层为特征提取模型中,用于提取舆情文本的情感特征的模型层;例如,特征提取层可以是包括向量化嵌入层、全局特征提取层、以及局部特征提取层,将预训练模型RoBERTa作为嵌入层,进行文本向量化表示;然后将双向GRU作为全局时序特征提取层;在此基础上,将Multi-CNN(多尺度卷积神经网络)作为局部关键特征提取层。
基于此,通过将舆情文本输入至特征提取模型中,根据特征提取层对舆情文本进行逐层处理,得到文本的情感特征,以便后续根据情感特征确定舆情文本的舆情倾向和分析结论。
S130、基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本。
其中,情感类型可以理解为文本对应的情感倾向,例如正向类型的文本、负向类型的文本、中性类型的文本。
基于此,通过预设好的情感标签可以确定舆情文本的情感类型,从而实现对舆情文本的情感标注,以便后续根据不同情感类型的舆情文本,确定对应的文本主题和摘要,从而实现针对舆情文本的不同情感倾向对文本进行分析,提高了分析结论的全面性和准确性。
S140、确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题。
其中,文本主题的数量与该情感类型的舆情文本内容有关,可以通过对该类型的舆情文本内容进行文本分析,得到文本主题的目标数量,从而根据生成的文本主题对舆情文本进行文本聚类。
基于此,通过确定舆情文本的文本主题数量,从而生成目标数量的文本主题,并根据文本主题实现文本聚类,以便后续根据每个文本主题下的文本,确定该情感类型的舆情文本对应的文本摘要。
S150、基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要。
基于此,通过对情感类型下的文本主题内容进行汇总和去冗余,实现文本内容的提取,从而可以得到该情感类型的文本对应的摘要。
S160、根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
其中,舆情文本的分析结果是指从情感、目的、主题、摘要等多个角度对舆情文本进行全面的总结,能够全面且准确地反映出文本的舆情倾向。
基于此,通过确定舆情文本的情感特征和文本摘要,能够确定文本对应的舆情分析结果,从而实现根据分析结果,能够更加直观地了解到舆情文本对应的舆情倾向,并根据实时舆情进行相应的舆情引导。
在上述S120的可行实施方式的基础上,本申请还进一步提供了根据特征提取层中的词嵌入层、双向GRU层、神经网络层,从而实现对舆情文本的情感特征的提取的过程:
根据特征提取层中的词嵌入层,对舆情文本进行向量化处理,得到舆情文本的文本向量;
根据特征提取层中的双向GRU层,确定文本向量的时序特征;
根据特征提取层中的神经网络层,从时序特征中确定舆情文本的目标特征;
基于预设的注意力机制,对目标特征赋予不同的注意力权重,得到舆情文本的情感特征。
其中,词嵌入层可以是预训练模型RoBERTa,根据RoBERTa进行文本向量化表示,从而准确地对引文进行文本向量化表达。
双向GRU层能够提取文本的全局序列特征,从而获取上下文关联信息。
神经网络层可以是Multi-CNN(多尺度卷积神经网络),提取文本多尺度局部关键特征,通过双向GRU层已经得到引文文本中的全局序列特征信息,根据神经网络层可以提取出文本中的局部关键特征信息,从而实现提高分类精度的目的。
注意力机制通过不断迭代的方式,将上述神经网络提取出的特征,按照其重要程度赋予不同权值,从而使模型能够重点关注重要特征,忽略对分类效果较小的特征,以达到突出关键特征的目的,通过将注意力层嵌入分类模型,从而提高分类效果。
基于此,特征提取层通过利用RoBERTa准确地对引文进行文本向量化表达,再依次通过BiGRU网络和Multi-CNN来提取文本中包含的全局时序特征和局部关键特征,最后引入注意力机制起到凸显关键特征的作用。
在上述S130的可行实施方式的基础上,本申请还进一步提供了根据情感标签和语言处理模型,从而确定舆情文本的情感极性对应的情感类型的过程:
确定预设的情感标签;
将舆情文本输入至预设的语言处理模型中,得到舆情文本的文本情感极性;
从情感标签中确定与文本情感极性对应的目标情感标签,并基于目标情感标签,确定舆情文本对应的情感类型。
其中,预设的语言处理模型为预设好的、能够确定文本对应的情感极性的语言处理模型,情感极性是对带有感情色彩的主观性文本进行分析、处理、归纳和推理,通过确定文本的情感极性可以实现对情感类型的确定。
基于此,通过语言处理模型确定舆情文本的情感极性,从而在预设的情感标签中确定与情感极性对应的目标标签,以便确定文本对应的情感类型,从而后续确定不同情感类型的文本对应的文本主题和文本摘要。
在上述S150的可行实施方式的基础上,本申请还进一步提供了根据各个文本主题中语句权重最高的文本语句,从而确定文本主题对应的主题语句,并进一步根据主题语句确定文本摘要的过程:
确定文本主题中各个舆情文本语句的语句权重,并将语句权重值最高的舆情文本语句确定为文本主题对应的主题摘要;
根据各个文本主题对应的主题摘要,确定情感类型的舆情文本对应的初始文本摘要;
确定初始文本摘要的文本之间的文本相似度;
若文本相似度低于预设的相似度阈值,则删去文本相似度对应的摘要文本,得到目标文本摘要。
其中,确定权重最高的主题摘要可以是通过LexRank算法;LexRank算法是一种通过迭代收敛的方式计算语句权重,并基于网络的自然语言处理方法。核心思想是判断一个语句与文本中其他语句的关联程度,假设一个语句与多个语句相似,也就是关联程度越高,那么这个语句就比其他语句更加重要。
预设的相似度阈值是预设好的、用于确定文本之间的相似度是否满足预设要求的阈值,可以是通过MMR(Maximal Marginal Relevance)算法,该算法最初应用于信息检索领域,通过计算查询语句与被搜索文档之间的相似度,返回与查询语句高度相关的内容;若初始文本摘要的文本之间的文本相似度不满足相似度阈值,则表征初始摘要的文本之间的关联度较低,即初始摘要文本中存在冗余语句,则可以通过删去文本相似度低于相似度阈值的摘要文本,从而确保目标文本摘要中文本语句之间的关联度较高。
基于此,通过确定文本主题中语句权重最高的语句,从而得到主题摘要;通过汇总主题摘要并删去文本相似度不满足相似度阈值的摘要,从而得到目标文本摘要,以便后续根据文本摘要得到舆情文本的文本分析结果。
在上述S160的可行实施方式的基础上,本申请还进一步提供了根据各个文本主题中语句权重最高的文本语句,从而确定文本主题对应的主题语句,并进一步根据主题语句确定文本摘要的过程:
根据情感特征,确定舆情文本的情感分析结果;
根据文本摘要,确定舆情文本的文本分析结果;
根据情感分析结果和文本分析结果,确定舆情文本的分析结果。
其中,情感分析结果可以表征舆情文本在文本情感方面的意见挖掘和倾向性分析;文本分析结果可以通过提取引文摘要,从而实现更全面地概括文本的简要核心内容。
基于此,通过确定舆情文本的情感分析结果和文本分析结果,从而实现根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果,得到舆情文本表征的情感倾向和核心内容。
在本实施例中,为了实现对舆情文本的情感特征和文本摘要的确定,从而根据情感特征和文本摘要得到舆情文本的分析结果,则可以通过特征提取层的词嵌入层、双向GRU层、神经网络层,实现对文本情感特征的提取;通过情感标签确定舆情文本的情感类型,并确定不同情感类型下舆情文本的文本主题,从而根据文本主题确定该情感类型下舆情文本的文本摘要,实现对情感特征和文本摘要的分析,从而得到舆情文本的分析结果。
如此,利用RoBERTa、多尺度卷积神经网络、双向GRU来识别文本的情感和动机,节省了大量特征标注的时间,并提高了文本分类的精确度,使得使用者能够更加直观地了解到相关舆情评论文本中的舆情倾向,以便于能够引导舆情正向发展。
图2为本申请实施例提供的另一种舆情的分析方法的流程示意图。如图2所示,该舆情的分析方法可以包括以下步骤:
S210、获取舆情文本。
S220、基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征。
S230、基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本。
在本实施例中,步骤S210至步骤S230的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
S240、确定舆情文本的文本困惑度和文本一致性,并基于文本困惑度和文本一致性确定文本主题的目标数量。
其中,文本困惑度是用于评价语言模型好坏的指标;在文本分析中,困惑度的数值越低,文本对应的文本主题的不确定性就越小,则最后的文本聚类结果就越好。文本一致性能够表征文本内容的前后一致性,可以用于确定文本的最佳主题。
基于此,通过确定不同情感类型下舆情文本内容中的文本困惑度和文本一致性,从而根据困惑度和一致性确定文本主题的数量。
S250、生成目标数量的文本主题,并将情感类型的舆情文本划分至对应的文本主题中。
其中,舆情文本的划分是指将舆情文本归类至对应的主题下,可以通过LDA2Vec模型实现;LDA2Vec模型进一步提高对词汇间关联程度的敏感性,既考虑文本中存在的主题单词相对应关系,又结合了上下文信息,具有全局性。
基于此,通过将舆情文本分类至对应的文本主题中,从而实现对文本的聚类,以便后续根据文本主题对应的舆情文本,确定文本对应的摘要。
S260、基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要。
S270、根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
在本实施例中,步骤S260至步骤S270的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
在上述S250的可行实施方式的基础上,本申请还进一步提供了根据舆情文本与不同文本主题之间的文本相似度,从而确定舆情文本对应的文本主题的过程:
确定情感类型的舆情文本与目标数量的文本主题之间的文本相似度;
比对文本相似度,得到相似度值最高的目标文本相似度;
基于目标文本相似度,确定舆情文本对应的文本主题,并将舆情文本划分至对应的文本主题中。
基于此,通过确定不通情感类下,舆情文本中的文本语句与不同的文本主题之间的文本相似度,从而确定相似度阈值最高的文本主题为舆情文本语句对应的主题,以便将舆情文本语句分类至该主题下,实现文本语句的划分,达到文本聚类的目的。
图3为本申请实施例提供的一种舆情的分析系统的系统示意图。如图3所示,该舆情的分析系统可以包括基于Attention RoBeBCMC的模型和基于LDA2Vec+LexRank+MMR的模型。
其中,基于LDA2Vec+LexRank+MMR的模型用于确定舆情文本的文本主题和文本摘要,可以参阅图4,图4为本申请实施例提供的一种舆情的分析方法的方法示意图,如图4所示,LDA2Vec模型按照文本情感标签将语料集分成正面、中性、负面三个情感引文语料集。在每个语料集中,利用LDA2Vec模型划分主题,借助余弦相似度将评论文本划分到不同主题下,实现文本的聚类。在每个主题下,采取LexRank+MMR的集成算法,在考察评论句的重要性和冗余性的基础上进行摘要提取,将三个情感语料集中生成的摘要合并得到目标文章最终的逐面文本摘要。
基于Attention RoBeBCMC的模型可以用于确定舆情文本的情感特征,可以参阅图5,图5为本申请实施例提供的一种舆情的分析方法的模型示意图,如图5所示,基于Attention RoBeBCMC的模型从文本本身特点出发,选取RoBERTa预训练模型作为嵌入层,将双向GRU网络和多尺度卷积神经网络进行串联作为模型主体结构依次提取文本中的全局特征和局部特征,并引入注意力机制,为提取出的特征重新分配权重,使模型着重突出关键特征,以达到提高分类精度的目的。
在本实施例中,为了实现确定不同情感类型下舆情文本对应的文本主题和文本摘要,从而根据文本摘要对舆情文本进行文本分析,则可以通过困惑度和一致性确定文本主题的数量,并通过文本相似度将舆情文本分类至文本相似度最高的主题下,从而得到文本主题及对应的舆情文本,以便后续进一步确定对应的文本摘要,并根据文本摘要得到舆情文本的分析结果。
如此,在考察评论句的重要性和冗余性的基础上进行摘要提取,实现了文本主题和文本摘要的确定,并将不同情感类型的舆情文本中生成的摘要合并得到目标文本摘要,实现了对不同情感类型的舆情文本分别进行主题和摘要的确定,从而提高了目标文本摘要的分析结论准确性。
图6为本申请实施例提供的一种舆情的分析装置600的结构示意图。如图6所示,该舆情的分析装置600包括:文本获取模块610、特征提取模块620、文本分类模块630、主题生成模块640、摘要确定模块650以及结果确定模块660。
文本获取模块610,用于获取舆情文本;
特征提取模块620,用于基于特征提取模型的特征提取层,对舆情文本进行特征提取,得到舆情文本的情感特征;
文本分类模块630,用于基于预设的情感标签,对舆情文本进行分类,得到不同情感类型的舆情文本;
主题生成模块640,用于确定不同情感类型的舆情文本对应的文本主题的目标数量,并生成目标数量的文本主题;
摘要确定模块650,用于基于目标数量的文本主题,确定不同情感类型的舆情文本对应的文本摘要;
结果确定模块660,用于根据舆情文本的情感特征和文本摘要,确定舆情文本的分析结果。
在本申请实施例中,特征提取模块620还可以具体用于:
根据特征提取层中的词嵌入层,对舆情文本进行向量化处理,得到舆情文本的文本向量;
根据特征提取层中的双向GRU层,确定文本向量的时序特征;
根据特征提取层中的神经网络层,从时序特征中确定舆情文本的目标特征;
基于预设的注意力机制,对目标特征赋予不同的注意力权重,得到舆情文本的情感特征。
在本申请实施例中,文本分类模块630还可以具体用于:
确定预设的情感标签;
将舆情文本输入至预设的语言处理模型中,得到舆情文本的文本情感极性;
从情感标签中确定与文本情感极性对应的目标情感标签,并基于目标情感标签,确定舆情文本对应的情感类型。
在本申请实施例中,主题生成模块640还可以具体用于:
确定舆情文本的文本困惑度和文本一致性,并基于文本困惑度和文本一致性确定文本主题的目标数量;
生成目标数量的文本主题,并将情感类型的舆情文本划分至对应的文本主题中。
在本申请实施例中,主题生成模块640还可以具体用于:
确定情感类型的舆情文本与目标数量的文本主题之间的文本相似度;
比对文本相似度,得到相似度值最高的目标文本相似度;
基于目标文本相似度,确定舆情文本对应的文本主题,并将舆情文本划分至对应的文本主题中。
在本申请实施例中,摘要确定模块650还可以具体用于:
确定文本主题中各个舆情文本语句的语句权重,并将语句权重值最高的舆情文本语句确定为文本主题对应的主题摘要;
根据各个文本主题对应的主题摘要,确定情感类型的舆情文本对应的初始文本摘要;
确定初始文本摘要的文本之间的文本相似度;
若文本相似度低于预设的相似度阈值,则删去文本相似度对应的摘要文本,得到目标文本摘要。
在本申请实施例中,结果确定模块660还可以具体用于:
根据情感特征,确定舆情文本的情感分析结果;
根据文本摘要,确定舆情文本的文本分析结果;
根据情感分析结果和文本分析结果,确定舆情文本的分析结果。
图7为本申请实施例提供的设备的结构示意图。如图7所示,该设备700包括:
该设备700可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、通信部件703等部件。其中,处理器701、存储器702以及通信部件703通过总线704连接。
在具体实现过程中,至少一个处理器701执行存储器702存储的计算机执行指令,使得至少一个处理器701执行如上的消息处理方法。
处理器701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory,NVM),例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种舆情的分析方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条程序代码,该程序代码能够被处理器进行加载,以执行本申请实施例所提供的任一种舆情的分析方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种舆情的分析方法中的步骤,因此,可以实现本申请实施例所提供的任一种舆情的分析方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种舆情的分析方法,其特征在于,所述方法包括:
获取舆情文本;
基于特征提取模型的特征提取层,对所述舆情文本进行特征提取,得到所述舆情文本的情感特征;
基于预设的情感标签,对所述舆情文本进行分类,得到不同情感类型的所述舆情文本;
确定不同所述情感类型的舆情文本对应的文本主题的目标数量,并生成所述目标数量的文本主题;
基于所述目标数量的文本主题,确定不同所述情感类型的舆情文本对应的文本摘要;
根据所述舆情文本的情感特征和文本摘要,确定所述舆情文本的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征提取模型的特征提取层,对所述舆情文本进行特征提取,得到所述舆情文本的情感特征,包括:
根据所述特征提取层中的词嵌入层,对所述舆情文本进行向量化处理,得到所述舆情文本的文本向量;
根据所述特征提取层中的双向GRU层,确定所述文本向量的时序特征;
根据所述特征提取层中的神经网络层,从所述时序特征中确定所述舆情文本的目标特征;
基于预设的注意力机制,对所述目标特征赋予不同的注意力权重,得到所述舆情文本的情感特征。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的情感标签,对所述舆情文本进行分类,得到不同情感类型的所述舆情文本,包括:
确定所述预设的情感标签;
将所述舆情文本输入至预设的语言处理模型中,得到所述舆情文本的文本情感极性;
从所述情感标签中确定与所述文本情感极性对应的目标情感标签,并基于所述目标情感标签,确定所述舆情文本对应的情感类型。
4.根据权利要求1所述的方法,其特征在于,所述确定不同所述情感类型的舆情文本对应的文本主题的目标数量,并生成所述目标数量的文本主题,包括:
确定所述舆情文本的文本困惑度和文本一致性,并基于所述文本困惑度和文本一致性确定所述文本主题的目标数量;
生成所述目标数量的文本主题,并将所述情感类型的舆情文本划分至对应的所述文本主题中。
5.根据权利要求4所述的方法,其特征在于,所述生成所述目标数量的文本主题,并将所述情感类型的舆情文本划分至对应的所述文本主题中,包括:
确定所述情感类型的舆情文本与所述目标数量的文本主题之间的文本相似度;
比对所述文本相似度,得到相似度值最高的目标文本相似度;
基于所述目标文本相似度,确定所述舆情文本对应的文本主题,并将所述舆情文本划分至所述对应的文本主题中。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标数量的文本主题,确定不同所述情感类型的舆情文本对应的文本摘要,包括:
确定所述文本主题中各个舆情文本语句的语句权重,并将所述语句权重值最高的舆情文本语句确定为所述文本主题对应的主题摘要;
根据所述各个文本主题对应的主题摘要,确定所述情感类型的舆情文本对应的初始文本摘要;
确定所述初始文本摘要的文本之间的文本相似度;
若所述文本相似度低于预设的相似度阈值,则删去所述文本相似度对应的摘要文本,得到目标文本摘要。
7.根据权利要求1所述的方法,其特征在于,所述根据所述舆情文本的情感特征和文本摘要,确定所述舆情文本的分析结果,包括:
根据所述情感特征,确定所述舆情文本的情感分析结果;
根据所述文本摘要,确定所述舆情文本的文本分析结果;
根据所述情感分析结果和文本分析结果,确定所述舆情文本的分析结果。
8.一种舆情的分析装置,其特征在于,所述装置包括:
文本获取模块,用于获取舆情文本;
特征提取模块,用于基于特征提取模型的特征提取层,对所述舆情文本进行特征提取,得到所述舆情文本的情感特征;
文本分类模块,用于基于预设的情感标签,对所述舆情文本进行分类,得到不同情感类型的所述舆情文本;
主题生成模块,用于确定不同所述情感类型的舆情文本对应的文本主题的目标数量,并生成所述目标数量的文本主题;
摘要确定模块,用于基于所述目标数量的文本主题,确定不同所述情感类型的舆情文本对应的文本摘要;
结果确定模块,用于根据所述舆情文本的情感特征和文本摘要,确定所述舆情文本的分析结果。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410329977.1A CN118132848A (zh) | 2024-03-21 | 2024-03-21 | 舆情的分析方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410329977.1A CN118132848A (zh) | 2024-03-21 | 2024-03-21 | 舆情的分析方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118132848A true CN118132848A (zh) | 2024-06-04 |
Family
ID=91243375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410329977.1A Pending CN118132848A (zh) | 2024-03-21 | 2024-03-21 | 舆情的分析方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118132848A (zh) |
-
2024
- 2024-03-21 CN CN202410329977.1A patent/CN118132848A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN110232127B (zh) | 文本分类方法及装置 | |
CN111767738A (zh) | 一种标签校验方法、装置、设备和存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111949765B (zh) | 基于语义的相似文本搜索方法、系统、设备和存储介质 | |
CN118132848A (zh) | 舆情的分析方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |