CN112131863A - 一种评论观点主题抽取方法、电子设备及存储介质 - Google Patents
一种评论观点主题抽取方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112131863A CN112131863A CN202010772735.1A CN202010772735A CN112131863A CN 112131863 A CN112131863 A CN 112131863A CN 202010772735 A CN202010772735 A CN 202010772735A CN 112131863 A CN112131863 A CN 112131863A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- comment
- sentence
- sentences
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种评论观点主题抽取方法,包括:采集社交软件中评论,获得评论文本;对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量;构建观点句分类模型,判断所述评论文本中的句子是否为观点句;聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;在所述候选观点关键词中抽选关键词,并根据词性选择核心词;将与所述核心词匹配的观点句生成主题,形成主题候选集;从每个类别的所述主题候选集中选择一个主题作为最终观点主题。本发明还提供了电子设备和存储介质。从评论文本自动抽取观点主题,以便准确接收网民意见,并判断是否对社会造成舆论,能够直观地了解到社交软件的相关热点话题。
Description
技术领域:
本发明涉及信息抽取、关键词抽取与分类技术领域,具体的,涉及一种评论观点主题抽取方法、电子设备及存储介质。
背景技术:
互联网的普及与高速发展,社交软件作为一种社交信息共享平台成为网民获取信息的重要来源,如微博每天信息发布量就达到上亿条以上,这些信息中隐藏着社会事件,需要从中挖掘出有效的信息,而这种量级的数据很难通过人工处理的方法及时提取出隐藏在海量数据背后的热点主题。
社交软件观点主题主要是从评论中抽取地信息即能代表网民所表达地意见,同时能够判断是否对社会造成舆论,是积极的还是消极的,如能够直观的了解到社交软件的相关热点话题等。为了提升这一信息抽取的效果,从海量信息中挖掘出热点话题,对于了解最新的舆论热点、掌握舆论动向有着重大意义。
信息抽取领域现有工作主要是通过序列标注的方法对待分析评论文本进行观点主题抽取,而这种方法对于观点主题没有完善的标准准则,人工标注无法完成。
因此,本领域亟需一种评论观点主题抽取方法、电子设备及存储介质。
有鉴于此,提出本发明。
发明内容:
有鉴于此,本发明的目的在于提供一种评论观点主题抽取方法、电子设备及存储介质,以解决现有技术中的至少一项技术问题。
具体的,本发明的第一方面,提供了一种评论观点主题抽取方法,包括以下步骤:
采集社交软件中评论,获得评论文本;
对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量;
构建观点句分类模型,判断所述评论文本中的句子是否为观点句;
聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;
在所述候选观点关键词中抽选关键词,并根据词性选择核心词;
将与所述核心词匹配的观点句生成主题,形成主题候选集;
从每个类别的所述主题候选集中选择一个主题作为最终观点主题。
采用上述技术方案,将评论文本进行关键词提取,匹配观点句形成主题,最终从大量的评论文本中自动抽取观点主题,以便准确接收网民所表达的意见,并判断是否对社会造成舆论,是积极的还是消极的,能够直观地了解到相关热点话题。
进一步地,所述对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量包括以下步骤:
对所述评论文本进行分词、剔除表情符号、去停用词,形成词汇;
利用word2vec模型训练所述评论文本得到n维的词向量w(c);
计算所述词汇的TF-IDF权重值w(d);
计算所述评论文本的文本向量w=w(c)*w(d)。
采用上述技术方案,利用文档词频、文档逆词频与词语内部语义信息构建所述评论文本的向量表示,便于后续建模分析。
进一步地,所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句包括以下步骤:
采用贝叶斯网络模型对已标注好的评论数据进行分类训练,标注观点句和非观点句,构建观点句分类模型;
将所述评论文本进行分句,形成评论句;
将所述评论句作为所述观点句分类模型的输入,判断是否为观点句。
采用上述技术方案,考虑到某些评论语句长度不一且可能在同一语句中包含不同观点,对评论语句进行分句,便于对观点句的认定,利用贝叶斯网络模型对所述评论文本中的观点句进行提取。
进一步地,所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句还包括以下步骤:
采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注;
对所述评论句情感得分的绝对值低于阈值的评论句剔除。
采用上述技术方案,先采用情感词典对所述评论句进行初步筛选,再利用所述观点句分类模型对筛选后的观点句进行观点句预测,保留预测的观点句,利用情感词典与贝叶斯网络模型对观点句进行判别,利用极大减少工作量,并提高准确度。
进一步地,采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注包括以下步骤:
将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权。
采用上述技术方案,所述情感词典对所述评论句的标注会有遗漏,利用表情符号词典对所述情感词典进行补充,或程度的加强,或对情感的颠倒。
进一步地,所述将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权包括以下步骤:
判断所述评论句中的表情符号是否属于所述表情符号词典中规定的第一类别:
若是,则利用表情符号获得的分值对利用情感词典获得的得分进行加权;
若否,则利用表情符号获得的分值对利用情感词典获得的得分进行相加或加权。
进一步地,所述利用表情符号获得的分值对利用情感词典获得的得分进行相加或加权包括以下步骤:
判断利用表情符号获得的分值与利用情感词典获得的得分是否为同性:
若是,则两者相加的值为所述评论句的情感得分;
若否,则两者相乘的值为所述评论句的情感得分。
采用上述技术方案,利用表情符号对评论句的情感倾向、情感轻重进行调整,以便更符合用户的用句习惯,符合用户真实含义,从中找出观点句,而且标注有情感分值,便于对后续查找的主题进行情感倾向、情感轻重判断,以便做后续反应。
进一步地,所述聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词包括以下步骤:
采用K-means聚类方法进行预设类别个数进行聚类,形成主题观点集合;
采用TF-IDF与语义网络方法分别对每类主题的观点句进行抽取关键词;
形成多个类别的候选观点关键词集。
采用上述技术方案,考虑了词语在网络中的位置、词语语义相似度等,并考虑采用词频统计TF-IDF与词性搭配,将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度主题明确,主题与观点对应,便于后续过程中关键词的进一步的选择和主题的选择。
进一步地,所述在所述候选观点关键词中抽选关键词,并根据词性选择核心词包括以下步骤:
从所述候选观点关键词集中选择动词、名词词性的词汇形成待选关键词集;
利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词。
进一步地,利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词保护一下步骤:
所述构造关键词候选图G=(V,E),其中V为节点集,为所述待选关键词集,E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;两个节点之间存在边仅当他们对应的词汇在长度为K的窗口中共现,边上的权值为对应的词汇贡献的次数,利用以下公式迭代计算每个节点的权重,直至收敛,选择超过权重阈值的若干个关键词为核心词:
其中PR(Vi)表示节点i的权重,d为平滑系数,In(Vi)表示所有指向节点i的节点集合,Out(V j)表示节点j指向的所有节点,wij表示由节点j指向节点i的边上的权重。
在具体实施过程中,d取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。
采用上述技术方案,进行两次关键词提取,删除干扰因素,更准确的获取最为核心的关键词,作为核心词,以便后续选择主题。
进一步地,所述将与所述核心词匹配的观点句生成主题,形成主题候选集包括以下步骤:
选择核心词中词性为名词且权值最大的词汇为话题核心词;
采集与所述话题核心词匹配的观点句,作为主题句;
在主题句中截取从所述话题核心词到其后最近标点符号之间的短语句,作为侯选主题;
选择候选主题中出现次数最高的短语句作为预选主题;
将所述预选主题分词并标注词性,剔除无用词性的词,得到的字符串为最终观点主题。
在具体实施过程中,所述无用词性的词可以括叹词、连词、介词至少一种,可以提前设定。
采用上述技术方案,以权重最大的名词作为话题核心词,以此为主题的起点,符合主题组成结构,以与所述话题核心词相匹配的观点句作为初始句,剔除无用词性的词汇,提取主题,能最大限度的保留信息,实现主题的准确预测。
本发明的第二方面提供了一种电子设备,所述电子设备包括存储器及处理器,所述存储器上至少有一条指令,所述至少一条指令由所述处理器加载并执行,以实现上述方法。
本发明的第三方面提供了一种计算机可读存储介质,所述存储介质上存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现上述方法。
综上所述,本发明具有以下有益效果:
1.将评论文本进行关键词提取,匹配观点句形成主题,最终从大量的评论文本中自动抽取观点主题,以便准确接收网民所表达的意见,并判断是否对社会造成舆论,是积极的还是消极的,能够直观地了解到相关热点话题;
2.利用文档词频、文档逆词频与词语内部语义信息构建所述评论文本的向量表示,便于后续建模分析;
3.利用情感词典与贝叶斯网络模型对观点句进行判别,利用极大减少工作量,并提高准确度;
4.利用表情符号对评论句的情感倾向、情感轻重进行调整,以便更符合用户的用句习惯,符合用户真实含义。
附图说明:
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明评论观点主题抽取方法一种实施方式的示意图;
图2为本发明评论观点主题抽取方法另一种实施方式的示意图;
图3为本发明评论观点主题抽取方法中步骤S340一种实施方式的示意图。
具体实施方式:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
以下将通过实施例对本发明进行详细描述。
以下对本申请涉及的一些概念进行解释:
1.word2vec,是用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。它将词以固定维数的向量表示出来,是用来将一个个的词变成词向量的工具。例如:“我爱中国”这句话通过分词为我/爱/中国。那么这时候三个词都将表示为n维的词向量,如中国=[x1,x2,…,xn]
2.TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
3.TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。
4.语义网络(semantic network)是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系,语义网络的一个重要特性是属性继承。凡用有向弧连结起来的两个结点有上位与下位关系。例如“兽”是“动物”的下位概念,又是“虎”的上位概念。所谓“属性继承”指的是凡上位概念具有的属性均可由下位概念继承。在属性继承的基础上可以方便地进行推理是语义网络的优点之一。
5.停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等,还包括如特殊符号包括“『|〔|〕|$|丨|「|」|△|▲|▼|▍|■”等。
6.表情符号,包括常用颜文字,如:-)微笑,:-(不悦,;-)使眼色,:-D开心,:-P吐舌头,:-C很悲伤,>_<|||很尴尬,╰_╯~我发火,还包括emoji表情图片、下载的表情包、自定义表情包。
7.FastText是facebook开源的一款集word2vec、文本分类等一体的机器学习训练工具。
8.GloVe模型基于语料库构建词的共现矩阵,然后基于共现矩阵对词汇进行向量化表示。
9.K-means聚类,即k均值聚类算法(k-means clustering algorithm),是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参考图1,具体的,本发明的第一方面,提供了一种评论观点主题抽取方法,包括以下步骤:
S100.采集社交软件中评论,获得评论文本;所述社交软件可以为微博、豆瓣等,这里以微博为例。
S200.对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量;
S300.构建观点句分类模型,判断所述评论文本中的句子是否为观点句;
S400.聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;
S500.在所述候选观点关键词中抽选关键词,并根据词性选择核心词;
S600.将与所述核心词匹配的观点句生成主题,形成主题候选集;
S700.从每个类别的所述主题候选集中选择一个主题作为最终观点主题。
在具体实施过程中,可采用Word2Vec,FastText,GloVe进行词向量生成,可采用TF-IDF、TextRank、word2vec等方法进行关键词抽取,可采用贝叶斯(Bayesian)网络模型、决策树(Decision Trees)模型、人工神经网络(Artificial Neural Network)模型等构建观点句分类模型,可采用k-means聚类算法、层次聚类算法、SOM聚类算法等对观点句进行聚类,形成观点主题簇,选择最终观点主题时可排序择优也可以随机选择。
采用上述技术方案,将微博评论文本进行关键词提取,匹配观点句形成主题,最终从大量的微博评论文本中自动抽取观点主题,以便准确接收网民所表达的意见,并判断是否对社会造成舆论,是积极的还是消极的,能够直观地了解到微博的相关热点话题。
参考图2,在本发明的一个优选实施方式中,所述S200.对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量包括以下步骤:
S210.对所述评论文本进行分词、剔除表情符号、去停用词,形成词汇;
S220.利用word2vec模型训练所述评论文本得到n维的词向量w(c);
S230.计算所述词汇的TF-IDF权重值w(d);
S240.计算所述评论文本的文本向量w=w(c)*w(d)。
在具体实施过程中,可利用结巴分词进行词汇分割,可以将一条微博及下面的所有评论作为一个文档,所述评论文本D中包括多个文档di,权重值w(d)=tf*idf,其中tf为词汇t在文档d中出现的频率,即文档词频,tf=c(t)/c(di),其中c(t)表示文档di中包含词汇t的个数,c(di)表示文档di中所有词条数目;idf表示文档逆词频,idf=log[n(D)/(n(t)+1)],n(D)表示所述评论文本D中文档的总数;n(t)表示所述评论文本D中包含词汇t的文档数量。例如一条微博及所有评论的总词语数是100个,而词汇“故宫”出现了3次,那么“故宫”一词在该文档中的词频c(t)就是3/100=0.03,如果“故宫”一词在1,000条微博及评论中出现过,而微博总数是10,000,000条的话,其逆向文件频率就是lg(10,000,000/1,000)=4,最后的权重值w(d)=0.03*4=0.12。
采用上述技术方案,利用文档词频、文档逆词频与词语内部语义信息构建所述微博评论文本的向量表示,便于后续建模分析。
在本发明的一个优选实施方式中,所述S300.构建观点句分类模型,判断所述评论文本中的句子是否为观点句包括以下步骤:
S310.采用贝叶斯网络模型对已标注好的评论数据进行分类训练,标注观点句和非观点句,构建观点句分类模型;
S320.将所述评论文本进行分句,形成评论句;
S360.将所述评论句作为所述观点句分类模型的输入,判断是否为观点句。
在具体实施过程中,可以利用标点符号和数字阈值对过长的评论文本进行分句,如一句评论超过10个字,在10字以内有标点符号“,”、“。”、空格等,则以该标点符号“,”、空格等作为分隔,断成两个短句,如果10字内没有任何标点符号,以10字以后最近的标点符号作为分隔,分为两个短句,如果后面的短句仍超过10个字,再进行分隔断句。可以采用贝叶斯网络模型对已标注好的评论数据进行分类训练,其中观点句标注为1,非观点句标注为0,从而构建所述观点句分类模型;
p(xj=xjl|y=ck)=(xjl+λ)/(mk+nλ)
其中,p(xj=xjl|y=ck)表示第k个类别的第j维特征的第l个取值条件概率,mk是训练集中输出为第k类的样本个数,λ为一个大于0的常数,通常取值为1,即拉普拉斯平滑,也可以取其他正值。
采用上述技术方案,考虑到某些微博长度不断且可能在同一微博中包含不同观点,对微博进行分句,便于对观点句的认定,利用贝叶斯网络模型对所述评论文本中的观点句进行提取。
在本发明的一个优选实施方式中,所述S300.构建观点句分类模型,判断所述评论文本中的句子是否为观点句还包括以下步骤:
S330.采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注;
S350.对所述评论句情感得分的绝对值低于阈值的评论句剔除。
在具体实施方式中,所述情感词典可以自定义也可以从网络上下载,包含的情感词表示情感倾向的词,能有效提出无情感倾向的句子,一般情况下词汇的情感值为正值时表示积极的情感,负值表示消极的情感,零值表示中性词,利用情感词典对句子进行情感得分是本领域技术人员能够获知的。
采用上述技术方案,先采用情感词典对所述评论句进行初步筛选,再利用所述观点句分类模型对筛选后的观点句进行观点句预测,保留预测的观点句,利用情感词典与贝叶斯网络模型对观点句进行判别,利用极大减少工作量,并提高准确度。
在本发明的一个优选实施方式中,所述S300.构建观点句分类模型,判断所述评论文本中的句子是否为观点句还包括以下步骤:
S340.将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权。
采用上述技术方案,所述情感词典对所述评论句的标注会有遗漏,利用表情符号词典对所述情感词典进行补充,或程度的加强,或对情感的颠倒,以便更符合微博用户的真实情感表达。
参考图3,在本发明的一个优选实施方式中,所述S340.将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权包括以下步骤:
S341.判断所述评论句中的表情符号是否属于所述表情符号词典中规定的第一类别,所述规定的第一类别具有否定含义:
若是,则S342.利用表情符号获得的分值对利用情感词典获得的得分进行加权;
若否,则S343.利用表情符号获得的分值对利用情感词典获得的得分进行相加或加权。
在本发明的一个优选实施方式中,所述S343.利用表情符号获得的分值对利用情感词典获得的得分进行相加或加权包括以下步骤:
S3431.判断利用表情符号获得的分值与利用情感词典获得的得分是否为同性:
若是,则S3432.两者相加的值为所述评论句的情感得分;
若否,则S3433.两者相乘的值为所述评论句的情感得分。
在具体实施过程中,如评论句为“这本书真好,内容特别精彩”,利用情感词典得分7.11,此时该句中有一个表示“嘲讽”含义的表情符号,属于第一类别,则该句的语义进行了翻转,真实表达的意思是这本书不好看,若所述表情符号词典中对应的分值为-1.14,则该句最终的得分为(7.11)*(-1.14)=-8.11;如评论句为“这个时候反应太慢了”利用情感词典得分-1.56,此时紧跟两个个含有“生气”含义的表情符号,不属于第一类别,所述表情符号词典中对应的分值-1,两者均为负值,最终该评论句的情感得分为(-1.56)+(-1)+(-1)=-3.56;若此时紧跟“抓紧时间”含义的表情符号,不属于第一类别,分值0.8,则最终得分为(-1.56)*(0.8)=-1.25。
采用上述技术方案,利用表情符号对评论句的情感倾向、情感轻重进行调整,以便更符合微博用户的用句习惯,符合真实含义,从中找出观点句,而且标注有情感分值,便于对后续查找的主题进行情感倾向、情感轻重判断,以便做后续反应。
参考图2,在本发明的一个优选实施方式中,所述S400.聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词包括以下步骤:
S410.采用K-means聚类方法进行预设类别个数进行聚类,形成主题观点集合;
S420.采用TF-IDF与语义网络方法分别对每类主题的观点句进行抽取关键词;
S430.形成多个类别的候选观点关键词集。
在具体实施过程中,可以将观点聚类形如“{主题:Set(观点)}”形式得主题观点集合。
采用上述技术方案,考虑了词语在网络中的位置、词语语义相似度等,并考虑采用词频统计TF-IDF与词性搭配,将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度主题明确,主题与观点对应,便于后续过程中关键词的进一步的选择和主题的选择。
在本发明的一个优选实施方式中,所述S500.在所述候选观点关键词中抽选关键词,并根据词性选择核心词包括以下步骤:
S510.从所述候选观点关键词集中选择动词、名词词性的词汇形成待选关键词集;
S520.利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词。
在本发明的一个优选实施方式中,所述S520.利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词保护一下步骤:
所述构造关键词候选图G=(V,E),其中V为节点集,为所述待选关键词集,E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;两个节点之间存在边仅当他们对应的词汇在长度为K的窗口中共现,边上的权值为对应的词汇贡献的次数,利用以下公式迭代计算每个节点的权重,直至收敛,选择超过权重阈值的若干个关键词为核心词:
其中PR(Vi)表示节点i的权重,d为平滑系数,In(Vi)表示所有指向节点i的节点集合,Out(V j)表示节点j指向的所有节点,wij表示由节点j指向节点i的边上的权重。
在具体实施过程中,d取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。
采用上述技术方案,进行两次关键词提取,删除干扰因素,更准确的获取最为核心的关键词,作为核心词,以便后续选择主题。
在本发明的一个优选实施方式中,所述S600.将与所述核心词匹配的观点句生成主题,形成主题候选集包括以下步骤:
S610.选择核心词中词性为名词且权值最大的词汇为话题核心词;
S620.采集与所述话题核心词匹配的观点句,作为主题句;
S630.在主题句中截取从所述话题核心词到其后最近标点符号之间的短语句,作为侯选主题;
S640.选择候选主题中出现次数最高的短语句作为预选主题;
S650.将所述预选主题分词并标注词性,剔除无用词性的词,得到的字符串为最终观点主题。
在具体实施过程中,所述无用词性的词可以括叹词、连词、介词至少一种,可以提前设定。
采用上述技术方案,以权重最大的名词作为话题核心词,以此为主题的起点,符合主题组成结构,以与所述话题核心词相匹配的观点句作为初始句,剔除无用词性的词汇,提取主题,能最大限度的保留信息,实现主题的准确预测。
优选地,所述S700.从每个类别的所述主题候选集中选择一个主题作为最终观点主题包括以下步骤:
选择出现次数最多的主题作为最终观点主题;
计算所述主题句的情感得分均值,获得所述最终观点主题的情感得分。
采用上述技术方案,以出现次数最多方式选择最终观点主题简单方便,将主题句赋予情感得分,以便及时发现微博用户的情感宣泄,以便后续判断是否能形成舆论,是积极的还是消极的,能够直观地了解到微博的相关热点话题。
本发明的第二方面提供了一种电子设备,所述电子设备包括存储器及处理器,所述存储器上至少有一条指令,所述至少一条指令由所述处理器加载并执行,以实现上述方法。
本发明的第三方面提供了一种计算机可读存储介质,所述存储介质上存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现上述方法。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种评论观点主题抽取方法,其特征在于,包括以下步骤:
采集社交软件中评论,获得评论文本;
对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量;
构建观点句分类模型,判断所述评论文本中的句子是否为观点句;
聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;
在所述候选观点关键词中抽选关键词,并根据词性选择核心词;
将与所述核心词匹配的观点句生成主题,形成主题候选集;
从每个类别的所述主题候选集中选择一个主题作为最终观点主题。
2.根据权利要求1所述的评论观点主题抽取方法,其特征在于:所述对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量包括以下步骤:
对所述评论文本进行分词、剔除表情符号、去停用词,形成词汇;
利用word2vec模型训练所述评论文本得到n维的词向量;
计算所述词汇的TF-IDF权重值;
计算所述评论文本的文本向量。
3.根据权利要求2所述的评论观点主题抽取方法,其特征在于:所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句,包括以下步骤:
采用贝叶斯网络模型对已标注好的评论数据进行分类训练,标注观点句和非观点句,构建观点句分类模型;
将所述评论文本进行分句,形成评论句;
将所述评论句作为所述观点句分类模型的输入,判断是否为观点句。
4.根据权利要求3所述的评论观点主题抽取方法,其特征在于:所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句还包括以下步骤:
采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注;
对所述评论句情感得分的绝对值低于阈值的评论句剔除。
5.根据权利要求1-4任一项所述的评论观点主题抽取方法,其特征在于:采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注包括以下步骤:
将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权。
6.根据权利要求5所述的评论观点主题抽取方法,其特征在于:所述聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词包括以下步骤:
采用K-means聚类方法进行预设类别个数进行聚类,形成主题观点集合;
采用TF-IDF与语义网络方法分别对每类主题的观点句进行抽取关键词;
形成多个类别的候选观点关键词集。
7.根据权利要求6所述的评论观点主题抽取方法,其特征在于:所述在所述候选观点关键词中抽选关键词,并根据词性选择核心词包括以下步骤:
从所述候选观点关键词集中选择动词、名词词性的词汇形成待选关键词集;
利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词。
8.根据权利要求7所述的评论观点主题抽取方法,其特征在于:所述将与所述核心词匹配的观点句生成主题,形成主题候选集包括以下步骤:
选择核心词中词性为名词且权值最大的词汇为话题核心词;
采集与所述话题核心词匹配的观点句,作为主题句;
在主题句中截取从所述话题核心词到其后最近标点符号之间的短语句,作为侯选主题;
选择候选主题中出现次数最高的短语句作为预选主题;
将所述预选主题分词并标注词性,剔除无用词性的词,得到的字符串为最终观点主题。
9.一种电子设备,其特征在于,所述电子设备,其特征在于包括存储器及处理器,所述存储器上至少有一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1-8任一项所述的评论观点主题抽取方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1-8任一项所述的评论观点主题抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772735.1A CN112131863B (zh) | 2020-08-04 | 2020-08-04 | 一种评论观点主题抽取方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772735.1A CN112131863B (zh) | 2020-08-04 | 2020-08-04 | 一种评论观点主题抽取方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131863A true CN112131863A (zh) | 2020-12-25 |
CN112131863B CN112131863B (zh) | 2022-07-19 |
Family
ID=73850646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772735.1A Active CN112131863B (zh) | 2020-08-04 | 2020-08-04 | 一种评论观点主题抽取方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131863B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113312532A (zh) * | 2021-06-01 | 2021-08-27 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN113536779A (zh) * | 2021-07-21 | 2021-10-22 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113672733A (zh) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | 一种文本数据抽取方法、系统、电子设备及存储介质 |
CN113821491A (zh) * | 2021-02-22 | 2021-12-21 | 京东科技控股股份有限公司 | 用于生成网络设备日志模板的方法、装置、服务器和介质 |
CN113923505A (zh) * | 2021-12-14 | 2022-01-11 | 飞狐信息技术(天津)有限公司 | 弹幕处理方法、装置及电子设备和存储介质 |
CN114519352A (zh) * | 2022-02-21 | 2022-05-20 | 北京三快在线科技有限公司 | 生成评论的方法、装置、设备和存储介质 |
CN114626367A (zh) * | 2022-03-11 | 2022-06-14 | 广东工业大学 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN115658994A (zh) * | 2022-11-04 | 2023-01-31 | 南京擎盾信息科技有限公司 | 舆情观点报告生成方法、装置、存储介质及电子装置 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
US20160239481A1 (en) * | 2013-11-05 | 2016-08-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for expanding data of bilingual corpus, and storage medium |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
-
2020
- 2020-08-04 CN CN202010772735.1A patent/CN112131863B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
US20160239481A1 (en) * | 2013-11-05 | 2016-08-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for expanding data of bilingual corpus, and storage medium |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821491A (zh) * | 2021-02-22 | 2021-12-21 | 京东科技控股股份有限公司 | 用于生成网络设备日志模板的方法、装置、服务器和介质 |
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113312532A (zh) * | 2021-06-01 | 2021-08-27 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN113536779A (zh) * | 2021-07-21 | 2021-10-22 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113536779B (zh) * | 2021-07-21 | 2024-02-02 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN113672733B (zh) * | 2021-08-23 | 2023-01-13 | 广东电网有限责任公司 | 一种文本数据抽取方法、系统、电子设备及存储介质 |
CN113672733A (zh) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | 一种文本数据抽取方法、系统、电子设备及存储介质 |
CN113923505B (zh) * | 2021-12-14 | 2022-03-01 | 飞狐信息技术(天津)有限公司 | 弹幕处理方法、装置及电子设备和存储介质 |
CN113923505A (zh) * | 2021-12-14 | 2022-01-11 | 飞狐信息技术(天津)有限公司 | 弹幕处理方法、装置及电子设备和存储介质 |
CN114519352A (zh) * | 2022-02-21 | 2022-05-20 | 北京三快在线科技有限公司 | 生成评论的方法、装置、设备和存储介质 |
CN114626367A (zh) * | 2022-03-11 | 2022-06-14 | 广东工业大学 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN115658994A (zh) * | 2022-11-04 | 2023-01-31 | 南京擎盾信息科技有限公司 | 舆情观点报告生成方法、装置、存储介质及电子装置 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112131863B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131863B (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
Qaroush et al. | An efficient single document Arabic text summarization using a combination of statistical and semantic features | |
Babar et al. | Improving performance of text summarization | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN107315734B (zh) | 一种基于时间窗口和语义的变体词规范化的方法和系统 | |
JP3682529B2 (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN109062895B (zh) | 一种智能语义处理方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
Patel et al. | Fuzzy logic-based single document summarisation with improved sentence scoring technique | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Dwivedi et al. | Examining the emotional tone in politically polarized Speeches in India: An In-Depth analysis of two contrasting perspectives | |
CN118113806A (zh) | 一种大模型检索增强生成的可解释事件脉络生成方法 | |
CN111680505B (zh) | 一种Markdown特征感知的无监督关键词提取方法 | |
Mitrofanova et al. | Topic Modelling of the Russian Corpus of Pikabu Posts: Author-Topic Distribution and Topic Labelling. | |
Ahmad et al. | News article summarization: Analysis and experiments on basic extractive algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |