CN114626367A - 基于新闻文章内容的情感分析方法、系统、设备及介质 - Google Patents
基于新闻文章内容的情感分析方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN114626367A CN114626367A CN202210242220.XA CN202210242220A CN114626367A CN 114626367 A CN114626367 A CN 114626367A CN 202210242220 A CN202210242220 A CN 202210242220A CN 114626367 A CN114626367 A CN 114626367A
- Authority
- CN
- China
- Prior art keywords
- article
- word
- central
- sentence
- comments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,尤其涉及一种基于新闻文章内容的情感分析方法、系统、设备及介质,包括:利用中心句模型对文章索引词典进行处理,得到文章中心句;基于文章索引词典,通过条件随机场模型获取文章实体词;根据文章中心句和文章实体词得到文章中心词;根据文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;将全局有用评论和文章实体词输入多角度内容分析模型,得到情感分类结果,解决了现有机器学习模型无法做到用户评论与评论文章的充分交互,且由于缺乏数据集导致其使用场景被限制的问题,本发明通过三种指标对用户评论进行筛选过滤,实现了多层次、多角度情感分析,提高了用户评论情感分析的准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于新闻文章内容的情感分析方法、系统、设备及介质。
背景技术
由于互联网行业的迅猛发展,类似于今日头条、腾讯新闻、微博新闻、南方Plus等融媒体APP应运而生,接踵而来的是中国千百万用户在以上APP中留下的评论信息,如果能够充分分析这些评论内容,对互联网公司制作用户画像、丰富智能推荐系统是大有帮助的。
目前,基于机器学习的传统分析方法能够从词语出现的频率对用户的评论粗略的分析,应用比较广泛的是基于TF-IDF词频计算模型,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着其在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,例如:“我是中国人,我爱中国!!”,含有两个词“中国人”和“中国”,能够粗略的统计出是一句与中国有关的评论。
由于预训练模型的提出,人们能够获得词语在特定上下文的特征表征向量,因此,深度学习的设计理念被广泛应用于自然语言处理方面,即用于一个高质量的语言模型,对特定的语句进行建模;现有的最热门的模型是循环神经网络(基于RNN)和卷积神经网络(基于CNN),其中,RNN是通过一种链式的传播方式将一段话的特征向量进行高度的提取,生成一段能够代表整句话意思的特征向量;CNN同样也是善于处理时序化的数据,通过卷积核的共享参数机制,使得某个词汇能够和远距离的词汇进行交互,之后通过设计分类网络来预测分析该文本是否属于某个类别,即可知其是否描述了某个方面。
然而,采用机器学习算法设计的模型虽然能够很好的分割出评论中的关键词词汇,却不能够很好的利用句子的语义和语法信息,进而也无法判断用户评论的倾向表现,例如:“我爱吃苹果”和“我不爱吃苹果”中都有“苹果”的词汇出现,但模型却无法判断用户对苹果的倾向,而基于深度学习的模型的缺点是,大多数都是从用户评论本身出发或者是略微结合了评论文章的本身内容,并没有做到文章与评论的高度交互过程,这样分析出来的结果只能够单单获得该用户所评论的类别,却无法获知该类别是否在文章中出现,也无法获知该用户是否对该篇文章感兴趣,而且深度学习模型对数据质量的要求比较高,构建高质量的数据集的速度跟不上现在快速发展的互联网时代,因此,模型的使用场景也同样会被限制。
发明内容
本发明提供了一种基于新闻文章内容的情感分析方法、系统、设备及介质,解决的技术问题是,现有机器学习模型无法做到用户评论与评论文章的充分交互,且由于缺乏数据集导致其使用场景被限制。
为解决以上技术问题,本发明提供了一种基于新闻文章内容的情感分析方法、系统、设备及介质。
第一方面,本发明提供了一种基于新闻文章内容的情感分析方法,所述方法包括以下步骤:
对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句;
将所述文章索引词典中每个文本分词映射为一个向量,构建文本特征矩阵;
利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词;
根据所述文章中心句以及所述文章实体词得到文章中心词;
根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;
将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
在进一步的实施方案中,所述对文章文本进行预处理,得到文章索引词典的步骤包括:
对所述文章文本进行分词处理,得到文本分词;
根据所述文本分词构建词频词典,并统计所述词频词典中各文本分词的分词总数;
基于所述分词总数和预设停用词表对所述词频词典进行过滤、排序,得到文章索引词典。
在进一步的实施方案中,所述利用中心句模型对所述文章索引词典进行处理,得到文章中心句的步骤包括:
根据预设的重点词数量对所述文章索引词典进行裁剪,得到重点词词典;
根据预设的标识对所述重点词词典进行分割,得到若干子句;
对所述子句进行分词处理,得到分词子句,并利用所述重点词词典的索引号替换所述分词子句,得到替换子句;
利用距离簇算法计算所述替换子句的句子分数;
根据所述句子分数对所述替换子句进行排序,得到排序后的替换子句;
基于预设的摘要融合数量对所述排序后的替换子句进行选取,得到关键子句;
将所述关键子句进行拼接,得到文章中心句。
在进一步的实施方案中,所述利用距离簇算法计算所述替换子句的句子分数的步骤包括:
遍历每一个替换子句,若检测到当前替换子句的索引号与前一个替换子句的索引号差值位于第一预设范围内,则判定两个替换子句为相同类别,并将当前替换子句添加至预先构建的同类的距离簇中,否则,将当前替换子句单独保存在一个距离簇中;
遍历每一个距离簇,获取当前距离簇中所有高频词个数以及当前距离簇中第一个高频词与最后一个高频词之间的高频词距离;
根据所述高频词个数与所述高频词距离计算当前距离簇分数;
在得到所有距离簇分数后,选取替换子句中最大距离簇分数作为此替换子句的句子分数。
在进一步的实施方案中,所述根据所述文章中心句以及所述文章实体词得到文章中心词的步骤包括:
对所述文章文本进行分词处理,得到文本分词;
获取文章标题,并利用预设的关键词抽取算法对文章标题进行处理,得到标题关键词集合;
根据所述文本分词、所述标题关键词集合和所述文章实体词,得到文章关键词集合;
将所述文章关键词集合中所有文章关键词映射为文章关键词特征向量,得到文章关键词特征向量集合;
利用均值漂移聚类模型对所述文章关键词特征向量集合进行处理,得到类别集合;
对所述类别集合进行分类处理得到类别字典;
将所述文章中心句映射为中心句特征向量;
根据所述中心句特征向量和所述类别字典中的文章关键词特征向量,得到每个文章关键词对应的契合分数簇;
筛选出最高契合分数簇对应的文章关键词,组成文章中心词。
在进一步的实施方案中,所述根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论的步骤包括:
对用户评论提取评论实体词;
通过所述文章中心词、所述文章实体词以及所述评论实体词对所述用户评论进行筛选,得到初始有用评论和初始无用评论;
利用所述文章中心句对所述初始无用评论进行余弦相似度匹配,以筛选出所述初始无用评论中的有用评论,将其作为候选有用评论;
根据所述初始有用评论和所述候选有用评论,得到全局有用评论。
在进一步的实施方案中,所述多角度内容分析模型包括依次连接的嵌入层、拼接层、句子注意力层、多头注意力层、批标准化层、双向长短期记忆网络层、平均池化层以及分类输出层。
第二方面,本发明提供了一种基于新闻文章内容的情感分析系统,所述系统包括:
中心句获取模块,用于对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句;
实体词获取模块,用于将所述文章索引词典中每个文本分词映射为一个向量,构建文本特征矩阵,利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词;
中心词获取模块,用于根据所述文章中心句以及所述文章实体词得到文章中心词;
评论筛选模块,用于根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;
情感分析模块,用于将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行实现上述方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供了一种基于新闻文章内容的情感分析方法、系统、设备及介质,所述方法通过预处理得到的文章索引词典以及中心句模型得到文章中心句,并将文章索引词典中每个文本分词映射为一个向量,根据映射后的向量和条件随机场模型以获取文章实体词,然后根据文章中心句以及文章实体词得到文章中心词,并根据上述三个指标计算出用户评论的情感倾向。与现有技术相比,该方法通过文章中心句、文章实体词和文章中心词所计算出的用户评论的情感色彩的准确性更高,且计算复杂度低。
附图说明
图1是本发明实施例提供的一种基于新闻文章内容的情感分析方法流程示意图;
图2是本发明实施例提供的句子注意力层示意图;
图3是本发明实施例提供的多头注意力层示意图;
图4是本发明实施例提供的一种基于新闻文章内容的情感分析系统框图;
图5是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
参考图1,本发明实施例提供了一种基于新闻文章内容的情感分析方法,如图1所示,该方法包括以下步骤:
S1.对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句。
在一个实施例中,所述对文章文本进行预处理,得到文章索引词典的步骤包括:
获取数据集中的用户评论以及用户评论对应的文章文本,并采用预设的分词组件对所述文章文本进行分词处理,得到文本分词;其中,本实施例优先选取jieba分词工具包作为预设的分词组件;
根据所述文本分词构建词频词典,并统计所述词频词典中各文本分词的分词总数;
基于所述分词总数和预设停用词表对所述词频词典进行过滤、排序,得到文章索引词典;对于构建的词频词典,本实施例首先将所述分词总数少于预设分词数目的文本分词以及在停用词表中的文本分词剔除,然后根据分词总数对过滤后的词频词典中的文本分词按照从大到小排序,得到该数据集中文章文本的文章索引词典,比如:
词频词典={‘你’:20,
‘中国’:35,
‘电脑’:12}
索引词典={‘中国’:1,
‘你’:2,
‘电脑’:3}。
在利用中心句模型提取文章中心句之前,本实施例需要预先设置文章的重点词数量以及摘要融合数量,由于本实施例须保证从文章中获取的摘要信息是抗干扰、完整以及契合度最高的,因此,本实施例采用抽取式的、可进行针对文章长度进行微调的摘要方法,首先,本实施例根据文章文本的长度以及内容复杂度预先设置重点词数量a,比如:对于数据预处理所得的每篇文章的文章索引词典,当出现断崖式下落时,本实施例设置a为断崖界限之前所有字的总数,断崖界限可设定为30,本领域技术人员也可根据文章长度调整断崖界限,比如:当文章较长时可设置大于30的断崖界限;然后,本实施例优先将摘要融合数量设置为4。
在一个实施例中,所述利用中心句模型对文本特征矩阵进行处理,得到对应的文章中心句的步骤包括:
根据预设的重点词数量对所述文章索引词典进行裁剪,得到重点词词典;
根据预设的标识对所述重点词词典进行分割,得到若干子句;在本实施例中,所述预设的标识为“,”。
采用预设的分词组件对所述子句进行分词处理,得到分词子句,并利用所述重点词词典的索引号替换所述分词子句,得到替换子句;在本实施例中,若检测到分词字句不在重点词词典中,则将其替换为0;
利用距离簇算法计算所述替换子句的句子分数;
根据所述句子分数对所述替换子句进行由大到小排序,得到排序后的替换子句;
基于预设的摘要融合数量对所述排序后的替换子句进行选取,得到关键子句,比如:当设置的摘要融合数量为b时,从排序后的替换子句挑选出b个,得到关键子句;
将所述关键子句进行拼接,得到文章中心句。
在一个实施例中,所述利用距离簇算法计算所述替换子句的句子分数的步骤包括:
遍历每一个替换子句,若检测到当前替换子句的索引号与前一个替换子句的索引号差值位于第一预设范围内,则判定两个替换子句为相同类别,并将当前替换子句添加至预先构建的同类的距离簇中,否则,将当前替换子句单独保存在一个距离簇中;在本实施例中,所述第一预设范围为小于2;
遍历每一个距离簇,获取当前距离簇中所有高频词个数以及当前距离簇中第一个高频词与最后一个高频词之间的高频词距离;其中,在获取当前距离簇中高频词个数时,本领域技术人员可根据具体实施情况设置高频的范围,本发明不作限制;
根据所述高频词个数与所述高频词距离计算当前距离簇分数,在本实施例中,所述距离簇分数的计算公式为:
式中,γ表示距离簇分数,e表示当前距离簇的高频词个数,μ表示高频词距离;
在得到所有距离簇分数后,选取替换子句中最大距离簇分数作为此替换子句的句子分数。
S2.将所述文章索引词典中每个文本分词映射为一个向量,并构建文本特征矩阵。
本实施例利用所述文章索引词典以及腾讯公开词向量数据集,将所述文章索引词典中每个文本分词均映射为200维的向量,最终,得到L*200的文本特征矩阵,其中,L为文章索引词典的长度。
S3.利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词。
在本实施例中,由于文章中存在很多一语多义的词汇,若采用长连接记忆网络或者卷积神经网络,很难将文章中的名词抽取出来,而条件随机场(CRF)模型由于在抽取实体词的过程中采用了转移矩阵的思想,即,以现有的人工标注数据集为基础,对文章中的文字进行转移矩阵的分数计算,并通过维特比解码方法确定最优词汇,因此,CRF模型在命名实体识别中得到了广泛应用,本实施例优先采用CRF模型提取文章的实体词,该模型的部分代码为:
本实施例使用BIO标签体系对待标注数据集进行标注,得到训练数据集,并利用CRF模型对所述训练数据集进行模型训练,所述训练数据集包括纯文字文件以及BIO标志符文件,本实施例需要对所述训练数据集进行预处理,具体为:首先,根据‘\n’、‘\t’,将训练数据集的两部分文件分别分割为结构、长度相同的两个文件,然后,将纯文字文件中的每一个字打包成由:‘w:本身的字’、‘(w-1):前一个字’、‘(w+1):后一个字’、‘(w-1:w):前一个字和本身的字的组合’、‘(w:w+1):本身的字和后一个字的组合’、‘bias:偏置’组成的字典,最后,将预处理后的纯文字文件和BIO标志符文件输入CRF模型中进行训练。
本实施例优先选取清华大学的细粒度数据集和人民日报的NER数据集作为待标注数据集,需要说明的是,由于这两个数据集中标注词汇的侧重点不同,即:一个是侧重于实体名词,比如:公司,机构,国家,政府等;另一个是侧重于标注,比如:时间、地点、姓名,因此,在进行训练时,为避免数据集之间的干扰,本实施例分别建立两个参数完全相同的模型进行训练,预测时设计两个BIO解析文件进行解析,最后,将输出再拼接到一起。
S4.根据所述文章中心句以及所述文章实体词得到文章中心词。
由于中心词的普遍特性,即在文章中出现的概率最高,或者是与摘要所描述的内容最相似,而且区别于现在主流的中心词抽取方式,与此同时,鉴于一篇文章的中心词可能不止一个,且本实施例是对不同于主流的中心词抽取任务的研究,因此,本实施例通过均值漂移聚类来深度提炼出多个高概率的中心词,其中,所述均值漂移聚类算法的基本原理为:
设想在一个有N个样本点的特征空间,初始确定一个中心点center,计算在设置的半径为D的圆形空间内所有的点与中心点的向量,计算整个圆形空间内所有向量的平均值,得到一个偏移均值,将中心点center移动到偏移均值位置,重复移动,直到满足一定条件结束。
在一个实施例中,所述根据所述文章中心句以及所述文章实体词得到文章中心词的步骤包括:
利用jieba.posseg分词工具包对所述文章文本进行分词处理,得到文本分词;
获取文章标题,并利用预设的关键词抽取算法对文章标题进行处理,得到标题关键词集合,在本实施例中,所述预设的关键词抽取算法为TextRank关键词提取算法;
根据所述文本分词、所述标题关键词集合和所述文章实体词,得到文章关键词集合;
将所述文章关键词集合中所有文章关键词映射为文章关键词特征向量,得到文章关键词特征向量集合;本实施例采用Sentence-Transformer框架中的SentenceTransformer和Util工具包获取文章关键词特征向量表示,其中,SentenceTransformer的参数设定为:model_name_path=Bert-base-chinese模型,在该框架中,本实施例使用.encode方法(参数设定为:convert_to_tensor:转变成Tensor形式设置为True,normalize_embedding:归一化设定为True),在本实施例中,所述文章关键词特征向量的长度为768维;
利用均值漂移聚类模型对所述文章关键词特征向量集合进行处理,得到类别集合;本实施例采用sklearn.clusters.sc中的estimate_bandwidth构建均值漂移聚类模型,所述均值漂移聚类模型的输入为文章关键词特征向量集,输出为总的类别集合;
对所述类别集合进行分类处理得到类别字典;本实施例通过简单的分类统计将相同种类的文章关键词和对应的文章关键词特征向量组成类别字典;
将所述文章中心句映射为中心句特征向量;
根据所述中心句特征向量和所述类别字典中的文章关键词特征向量,得到每个文章关键词对应的契合分数簇;本实施例通过遍历所述类别字典中的文章关键词特征向量,将其与所述中心句特征向量作余弦相似度,得到每个文章关键词对应的契合分数簇;
筛选出最高契合分数簇对应的文章关键词,组成文章中心词。
S5.根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论。
由于无用的评论通过仅由动词或者语气词组成,例如:“冲冲冲!”、“真棒!”等,其与文章本身并无相关性,因此,本实施例仅对有用的评论进行情感倾向分析。
在一个实施例中,所述根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论的步骤包括:
通过jieba.posseg分词工具包对用户评论提取评论实体词;
通过所述文章中心词、所述文章实体词以及所述评论实体词对所述用户评论进行筛选,得到初始有用评论和初始无用评论;本实施例通过判断所述评论实体词与文章中心词和文章实体词是否存在交集,检测该用户评论是否为有用评论,即:若所述评论实体词与文章中心词和文章实体词有交集,则判定该用户评论为有用评论,否则,判定该用户评论为无用评论;
利用所述文章中心句对所述初始无用评论进行余弦相似度匹配,以筛选出所述初始无用评论中的有用评论,将其作为候选有用评论;需要说明的是,由于在对用户评论筛选的过程中,若只针对有无文章实体词、文章中心词对评论进行筛选,往往会把用户评论中对文章内的中心词、实体词进行同义词替换或者是用户口语化表达省略了中心词、实体词的评论过滤掉,因此,本实施例利用文章中心句对初始无用评论再进行余弦相似度匹配,再次召回,以增加数据集的使用价值;
根据所述初始有用评论和所述候选有用评论,组合得到全局有用评论。
S6.将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
本实施例通过构建好的多角度内容分析模型实现对用户的全局有用评论的情感分类,从而将用户的全局有用评论分为积极评论、消极评论和中性评论。
在一个实施例中,所述多角度内容分析模型包括依次连接的嵌入层、拼接(Concat)层、句子注意力层、多头注意力层、批标准化层、双向长短期记忆网络层、平均池化层以及分类输出层。
在本实施例中,所述多角度内容分析模型中的第一层:嵌入层,其用于将输入的全局有用评论以及文章实体词编码成对应的向量表示,得到全局有用评论编码向量以及文章实体词编码向量。
所述多角度内容分析模型中的第二层:拼接层,其用于将全局有用评论编码向量和文章实体词编码向量进行Concat,使得后续操作能够增强对关键词的感知。
所述多角度内容分析模型中的第三层:句子注意力(Sentence_attention)层,如图2所示,该层的具体操作为:
将所述全局有用评论编码向量分割为若干子句子向量,由于这些子句子向量非常短小,因此,本实施例通过BIGRU(双向循环神经网络)获取这些子句子向量的第一上下文特征向量t表示,同时将文章实体词编码向量与子句子向量的第一上下文特征向量t输入Sentence级别的注意力机制,其计算公式为:
其中,
所述多角度内容分析模型中的第四层:多头注意力(MultHead-attention)层,其用于将所述全局有用评论进行单一关键词多分块的注意力提取,如图3所示,本实施例首先采用keras.layers.Layers中的add_weigtht(参数为name=‘w’,shape=(3,字句长度,输出的向量长度),Initializer=”glorot_uniform”,trainable=True)构建两个三层参数矩阵,即第一参数矩阵和第二参数矩阵,然后将两个参数矩阵分别与文章实体词编码向量以及句子注意力层输出的第i个子句子向量的第二上下文特征向量作矩阵乘法,得到三组查询特征向量:Q1、Q2、Q3和三组键特征向量K1、K2、K3,接着,对查询特征向量和键特征向量两两进行内积放缩,其计算公式为:
将得到的三组Tm=[τm1,τm2,τm3,...,τmn],进行均值处理,其表达式为:
T=Mean(T1,T2,T3)
至此,本实施例通过句子注意力层和多头注意力层实现了词级别以及句级别的注意力机制处理,T为最终的输出。
所述多角度内容分析模型中的第五层:批标准化(BatchNormalization)层,其用于对第四层所获得的向量进行方差和标准差调整,使其能够保持在正态分布的范围中,本实施例采用keras.layer.BatchNormalization实现批量标准化,其中,参数为axis=-1,即对最后一维进行调整。
所述多角度内容分析模型中的第六层:双向长短期记忆网络(BiLSTM)层,本实施例使用keras.layers.Bidirectional构建双向LSTM,其中,Layer层的参数为:units=200、go_backwards(反向计算)=flase;Backward_layer层的参数为:units=200、go_backwards(反向计算)=True,Merge_mode层为正向、反向输出数据的拼接模型,本实施例设定为:mode='concat',以用来生成整篇文章关于某一关键词的融合向量表达。
所述多角度内容分析模型中的第七层:平均池化层,本实施例采用tf.nn.avg_pool2d的平均池化层对融合向量进行不同位置的交互。
所述多角度内容分析模型中的第八层:分类输出层,本实施例通过三分类网络实现数据分类。
本实施例提供了一种基于新闻文章内容的情感分析方法,所述方法结合机器学习和深度学习的技术,使用基于统计概率学的模型和基于长短循环记忆网络的模型对文章三个指标进行分析,并之后综合三个文章指标确定用户评论的情感极性,本申请采用的多角度内容分析模型能够智能分析出用户评论对文章某一方面的情感极性,从而快速了解用户评论的情感色彩。采用本发明实施例,能够利用多角度内容分析模型提取上下文特征信息进行情感极性分析,从而提高用户评论情感极性分析结果的准确率。
需要说明的是,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,如图4所示,本发明实施例提供了一种基于新闻文章内容的情感分析系统,所述系统包括:
中心句获取模块101,用于对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句;
实体词获取模块102,用于将所述文章索引词典中每个文本分词映射为一个向量,构建文本特征矩阵,利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词;
中心词获取模块103,用于根据所述文章中心句以及所述文章实体词得到文章中心词;
评论筛选模块104,用于根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;
情感分析模块105,用于将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
关于一种基于新闻文章内容的情感分析系统的具体限定可以参见上述对于一种基于新闻文章内容的情感分析方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例提供了一种基于新闻文章内容的情感分析系统,通过中心句获取模块、实体词获取模块以及中心词获取模块实现了对文章中心句、文章实体词以及文章中心词的提取,并基于三个文章指标,通过评论筛选模块以及情感分析模块实现了对用户评论的过滤、召回、匹配、情感分析。与现有技术相比,本申请能够通过多个文章指标对用户评论进行更加细致全面的多角度分析,以确定用户评论的情感倾向,提高了文章情感分析结果的可信度。
图5是本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的一种基于新闻文章内容的情感分析方法、系统、设备及介质,其一种基于新闻文章内容的情感分析方法利用统计概率学的模型和基于长短循环记忆网络模型,对文章进行三个指标的分析,并基于获取到的三个文章指标,通过多角度内容分析模型对用户评论进行情感分析,将用户评论分类为积极情感、消极情感和中性情感。本申请通过情感分析,可以直观的显示出用户评论的情感倾向,而对用户评论情感倾向的研究可以延伸到各领域,具有广泛的应用前景。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于新闻文章内容的情感分析方法,其特征在于,包括以下步骤:
对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句;
将所述文章索引词典中每个文本分词映射为一个向量,构建文本特征矩阵;
利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词;
根据所述文章中心句以及所述文章实体词得到文章中心词;
根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;
将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
2.如权利要求1所述的一种基于新闻文章内容的情感分析方法,其特征在于,所述对文章文本进行预处理,得到文章索引词典的步骤包括:
对所述文章文本进行分词处理,得到文本分词;
根据所述文本分词构建词频词典,并统计所述词频词典中各文本分词的分词总数;
基于所述分词总数和预设停用词表对所述词频词典进行过滤、排序,得到文章索引词典。
3.如权利要求1所述的一种基于新闻文章内容的情感分析方法,其特征在于,所述利用中心句模型对所述文章索引词典进行处理,得到文章中心句的步骤包括:
根据预设的重点词数量对所述文章索引词典进行裁剪,得到重点词词典;
根据预设的标识对所述重点词词典进行分割,得到若干子句;
对所述子句进行分词处理,得到分词子句,并利用所述重点词词典的索引号替换所述分词子句,得到替换子句;
利用距离簇算法计算所述替换子句的句子分数;
根据所述句子分数对所述替换子句进行排序,得到排序后的替换子句;
基于预设的摘要融合数量对所述排序后的替换子句进行选取,得到关键子句;
将所述关键子句进行拼接,得到文章中心句。
4.如权利要求3所述的一种基于新闻文章内容的情感分析方法,其特征在于,所述利用距离簇算法计算所述替换子句的句子分数的步骤包括:
遍历每一个替换子句,若检测到当前替换子句的索引号与前一个替换子句的索引号差值位于第一预设范围内,则判定两个替换子句为相同类别,并将当前替换子句添加至预先构建的同类的距离簇中,否则,将当前替换子句单独保存在一个距离簇中;
遍历每一个距离簇,获取当前距离簇中所有高频词个数以及当前距离簇中第一个高频词与最后一个高频词之间的高频词距离;
根据所述高频词个数与所述高频词距离计算当前距离簇分数;
在得到所有距离簇分数后,选取替换子句中最大距离簇分数作为此替换子句的句子分数。
5.如权利要求1所述的一种基于新闻文章内容的情感分析方法,其特征在于,所述根据所述文章中心句以及所述文章实体词得到文章中心词的步骤包括:
对所述文章文本进行分词处理,得到文本分词;
获取文章标题,并利用预设的关键词抽取算法对文章标题进行处理,得到标题关键词集合;
根据所述文本分词、所述标题关键词集合和所述文章实体词,得到文章关键词集合;
将所述文章关键词集合中所有文章关键词映射为文章关键词特征向量,得到文章关键词特征向量集合;
利用均值漂移聚类模型对所述文章关键词特征向量集合进行处理,得到类别集合;
对所述类别集合进行分类处理得到类别字典;
将所述文章中心句映射为中心句特征向量;
根据所述中心句特征向量和所述类别字典中的文章关键词特征向量,得到每个文章关键词对应的契合分数簇;
筛选出最高契合分数簇对应的文章关键词,组成文章中心词。
6.如权利要求1所述的一种基于新闻文章内容的情感分析方法,其特征在于,所述根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论的步骤包括:
对用户评论提取评论实体词;
通过所述文章中心词、所述文章实体词以及所述评论实体词对所述用户评论进行筛选,得到初始有用评论和初始无用评论;
利用所述文章中心句对所述初始无用评论进行余弦相似度匹配,以筛选出所述初始无用评论中的有用评论,将其作为候选有用评论;
根据所述初始有用评论和所述候选有用评论,得到全局有用评论。
7.如权利要求1所述的一种基于新闻文章内容的情感分析方法,其特征在于:所述多角度内容分析模型包括依次连接的嵌入层、拼接层、句子注意力层、多头注意力层、批标准化层、双向长短期记忆网络层、平均池化层以及分类输出层。
8.一种基于新闻文章内容的情感分析系统,其特征在于,应用如权利要求1至7任一所述的基于新闻文章内容的情感分析方法,所述系统包括:
中心句获取模块,用于对文章文本进行预处理,得到文章索引词典,并利用中心句模型对所述文章索引词典进行处理,得到文章中心句;
实体词获取模块,用于将所述文章索引词典中每个文本分词映射为一个向量,构建文本特征矩阵,利用条件随机场模型对所述文本特征矩阵进行处理,得到文章实体词;
中心词获取模块,用于根据所述文章中心句以及所述文章实体词得到文章中心词;
评论筛选模块,用于根据所述文章中心句、文章实体词和文章中心词对用户评论进行筛选,得到全局有用评论;
情感分析模块,用于将所述全局有用评论以及所述文章实体词输入多角度内容分析模型,得到情感分类结果。
9.一种计算机设备,其特征在于:包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210242220.XA CN114626367A (zh) | 2022-03-11 | 2022-03-11 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210242220.XA CN114626367A (zh) | 2022-03-11 | 2022-03-11 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114626367A true CN114626367A (zh) | 2022-06-14 |
Family
ID=81902867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210242220.XA Pending CN114626367A (zh) | 2022-03-11 | 2022-03-11 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626367A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062229A (zh) * | 2022-08-15 | 2022-09-16 | 广东工业大学 | 基于新闻评论的过滤以及情感分析方法 |
-
2022
- 2022-03-11 CN CN202210242220.XA patent/CN114626367A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062229A (zh) * | 2022-08-15 | 2022-09-16 | 广东工业大学 | 基于新闻评论的过滤以及情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
Li et al. | Word embedding and text classification based on deep learning methods | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
Suman et al. | Why pay more? A simple and efficient named entity recognition system for tweets | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
Başarslan et al. | Sentiment analysis on social media reviews datasets with deep learning approach | |
Najafi et al. | Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis. | |
CN115712700A (zh) | 热词提取方法、系统、计算机设备及存储介质 | |
Yan et al. | Implicit emotional tendency recognition based on disconnected recurrent neural networks | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |