CN107357785A - 主题特征词抽取方法及系统、情感极性判断方法及系统 - Google Patents
主题特征词抽取方法及系统、情感极性判断方法及系统 Download PDFInfo
- Publication number
- CN107357785A CN107357785A CN201710542760.9A CN201710542760A CN107357785A CN 107357785 A CN107357785 A CN 107357785A CN 201710542760 A CN201710542760 A CN 201710542760A CN 107357785 A CN107357785 A CN 107357785A
- Authority
- CN
- China
- Prior art keywords
- theme
- word
- feeling polarities
- short text
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统,其中的主题特征词抽取方法包括获取社交网络评论的文本数据;对文本数据进行预处理;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;给定参数作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数;利用吉布斯采样抽取主题特征词。其中的情感极性判断方法包括利用吉布斯采样得到情感极性的多项式分布,并结合情感字典进行情感极性判断。通过以上方法和系统,可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。
Description
技术领域
本发明属于互联网信息处理领域,涉及社交网络文本信息处理与文本情感极性判断技术领域,特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。
背景技术
20世纪末,互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今,互联网的内容是由用户为主导产生的,每个用户已不仅仅是互联网的接收者,同时也是互联网内容的制造者。因此,为了区别于以往的互联网模式,提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展,web2.0时代下的互联网上用户原创内容(UserGenerated Content,简称UGC)呈指数级的爆炸式增长。另一方面,随着移动端的普及,受到屏幕输入限制以及用户本身书写习惯等原因,用户在社交网络上发布的内容越来越精炼,各种形式的短文本(即文本长度较短的文本数据)更易产生。目前,短文本数据量与日俱增,对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。
然而,短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据,简称长文本)的大不相同。长文本一般数据量足够大,样本特征空间丰富,经过数据预处理阶段,如降维、去噪等过程后,长文本核心信息依旧得以保留,在形成文本矩阵时不会出现大量零元素。而短文本自身所包含的词语较少,经过数据预处理后,本身的特征空间已不足以表达有效的语言含义。因此,传统的文本信息处理方法在短文本的内容挖掘时准确性较差,不适合用于短文本的主题特征词抽取和情感极性判断。
发明内容
本发明的目的是提出一种主题特征词抽取方法及系统、情感极性判断方法及系统,可以应用到短文本信息处理技术领域,实现短文本主题特征词的准确抽取和情感极性的准确判断。
为了解决上述技术问题,本发明采用了下述技术方案:
本发明提出一种主题特征词抽取方法,其包括以下步骤:
获取社交网络评论的文本数据;
对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;
给定参数T作为短文本中需要抽取出的主题特征词的数量;
根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
利用吉布斯采样得到主题的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
优选的,预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。
优选的,预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。
优选的,吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;
结合伽玛函数,得到简化的联合概率分布:
其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量;
利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:
其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布;
通过迭代求得后验参数Θ、Φ和Π。
本发明提出一种情感极性判断方法,其包括以下步骤:
获取社交网络评论的文本数据;
对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;
给定参数T作为短文本中需要抽取出的主题特征词的数量;
根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
利用吉布斯采样得到情感极性的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
将得到的情感极性的多项式分布与情感字典比较,得到情感极性词;
将情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
优选的,预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。
优选的,预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。
优选的,吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;
结合伽玛函数,得到简化的联合概率分布:
其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量;
利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:
其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布;
通过迭代求得后验参数Θ、Φ和Π。
本发明提出一种主题特征词抽取系统,其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块;
获取模块,用于获取社交网络评论的文本数据;
预处理模块,用于对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;
参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
运算模块,用于利用吉布斯采样得到主题的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
抽取模块,用于针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
本发明提出一种情感极性判断系统,其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块;
获取模块,用于获取社交网络评论的文本数据;
预处理模块,用于对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;
参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
运算模块,用于利用吉布斯采样得到情感极性的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
对比模块,用于将得到的情感极性的多项式分布与情感字典比较,得到情感极性词;
情感判断模块,用于将情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
本发明相比于现有技术的有益效果在于:通过将短文本进行分词,并将各自短文本中的分词进行自由组合成词对,从而代替现有技术中的单个词语建模。本发明可获得与短文本相关的隐含主题,进而对短文本的情感极性进行判断分析。以词对的方式替代单个词语,从而扩充了稀疏矩阵,短文本的特征空间可得到扩展,可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。去除低频词和无实际意义的词,可提高短文本的主题特征词抽取效率和情感极性判断效率。
具体实施方式
以下结合实施例,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
本实施例提供一种主题特征词抽取方法和情感极性判断方法。在社交网络上以短文本评论内容居多,选取新浪微博的社交评论内容数据作为所要获取的文本数据。其中,文本数据信息包括发布者、发布时间、发布的文字内容等信息。短文本中的表情符号以带“[]”的文字出现,如[微笑]。首先,对所获取的文本数据进行预处理。使用字符串匹配与正则表达式抽取文本中的正文文本,即抽取文字内容部分。当正文文本中存在繁体字时,将繁体字转化为简体字。使用python(一种面向对象的计算机程序设计语言)的开源包jieba对正文文本进行分词。可对照哈尔滨工业大学的停用词表,去除分词中的停用词。统计分词的词频,将出现次数少于3次的词语去除。结合微博短文本的特性,去除出现次数多但无实际意义的词语。
将每条短文本的分词在本短文本中进行自由组合,形成词对。如分词A、B、C自由组合成词对(A、B)、(A、C)和(B、C)。将组合后的词对表示成词向量的形式。以词对的方式替代单个词语,并将词的组合限制在同一短文本中,可在扩充稀疏矩阵的同时,降低算法的时间复杂度和空间复杂度。短文本的特征空间可得到扩展,可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。
给定参数T作为短文本中需要抽取出的主题特征词的数量。根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布。利用吉布斯采样得到主题的多项式分布和情感极性的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号,标号顺序为1,2,3,…,D(其中,D为总的短文本数量,d为第d个短文本)。结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数矩阵Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布。另外,Φ为T×S×V矩阵,Π为T×S矩阵。V为词汇表,T为主题的数量,S为情感极性的数量,以上三个参数皆为矩阵形式。针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。将得到的情感极性的多项式分布与情感字典比较,得到情感极性词。将情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
具体地,吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题。
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量。其中,词汇表是指所有短文本分词成的词语的集合。
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量。
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量。
结合伽玛函数,得到简化的联合概率分布:
其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量。
利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:
其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布。
通过迭代求得后验参数矩阵Θ、Φ和Π。
计算迭代过程如下:将预处理后得到的分词组合成词对,将词对转化为词向量的形式,并将词向量的集合导入计算模型中。初始化超参数α、β和γ。对词向量的集合中出现某一主题的主题特征词和某一主题下的词对分别进行计数。计数后计算得到主题的概率分布和情感极性的概率分布。得到采样的概率分布结果后,若迭代已收敛,则输出结果,否则,重新进行计数并计算概率分布,直至计算结果收敛。
本实施例提供一种主题特征词抽取系统,其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块。
获取模块,用于获取社交网络评论的文本数据。
预处理模块,用于对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词。
转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式。
参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布。
运算模块,用于利用吉布斯采样得到主题的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布。
抽取模块,用于针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
本实施例提供一种情感极性判断系统,其包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块。
获取模块,用于获取社交网络评论的文本数据。
预处理模块,用于对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词。
转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式。
参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布。
运算模块,用于利用吉布斯采样得到情感极性的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布。
对比模块,用于将得到的情感极性的多项式分布与情感字典比较,得到情感极性词。
情感判断模块,用于将情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种主题特征词抽取方法,其特征在于,包括以下步骤:
获取社交网络评论的文本数据;
对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;
给定参数T作为短文本中需要抽取出的主题特征词的数量;
根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
利用吉布斯采样得到主题的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
针对主题的多项式分布,将所述主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
2.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。
3.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。
4.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;
结合伽玛函数,得到简化的联合概率分布:
其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量;
利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:
其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布;
通过迭代求得后验参数Θ、Φ和Π。
5.一种情感极性判断方法,其特征在于,包括以下步骤:
获取社交网络评论的文本数据;
对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;
给定参数T作为短文本中需要抽取出的主题特征词的数量;
根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
利用吉布斯采样得到情感极性的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
将得到的情感极性的多项式分布与情感字典比较,得到情感极性词;
将所述情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
6.根据权利要求5所述的情感极性判断方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。
7.根据权利要求5所述的情感极性判断方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。
8.根据权利要求5所述的情感极性判断方法,其特征在于,所述吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;
结合伽玛函数,得到简化的联合概率分布:
其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量;
利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:
其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布;
通过迭代求得后验参数Θ、Φ和Π。
9.一种主题特征词抽取系统,其特征在于,包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块和抽取模块;
所述获取模块,用于获取社交网络评论的文本数据;
所述预处理模块,用于对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
所述转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;
所述参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
所述初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
所述运算模块,用于利用吉布斯采样得到主题的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
所述抽取模块,用于针对主题的多项式分布,将所述主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
10.一种情感极性判断系统,其特征在于,包括获取模块、预处理模块、转换模块、参数设置模块、初始化模块、运算模块、对比模块和情感判断模块;
所述获取模块,用于获取社交网络评论的文本数据;
所述预处理模块,用于对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
所述转换模块,用于将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;
所述参数设置模块,用于给定参数T作为短文本中需要抽取出的主题特征词的数量;
所述初始化模块,用于根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
所述运算模块,用于利用吉布斯采样得到情感极性的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
所述对比模块,用于将得到的情感极性的多项式分布与情感字典比较,得到情感极性词;
所述情感判断模块,用于将所述情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710542760.9A CN107357785A (zh) | 2017-07-05 | 2017-07-05 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710542760.9A CN107357785A (zh) | 2017-07-05 | 2017-07-05 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107357785A true CN107357785A (zh) | 2017-11-17 |
Family
ID=60292811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710542760.9A Pending CN107357785A (zh) | 2017-07-05 | 2017-07-05 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357785A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020422A (zh) * | 2018-11-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN110175323A (zh) * | 2018-05-31 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置 |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
CN111104793A (zh) * | 2019-12-19 | 2020-05-05 | 浙江工商大学 | 一种短文本主题确定方法 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN113076489A (zh) * | 2021-04-14 | 2021-07-06 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
CN114548048A (zh) * | 2022-02-23 | 2022-05-27 | 南京审计大学 | 一种基于文本主题指标的银行错报检测方法 |
US11966702B1 (en) * | 2021-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104978308A (zh) * | 2015-05-22 | 2015-10-14 | 福建师范大学 | 一种微博主题情感演化分析方法 |
CN105608192A (zh) * | 2015-12-23 | 2016-05-25 | 南京大学 | 一种基于用户双词主题模型的短文本推荐方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN106649730A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于社交网络短文本流的用户聚类和短文本聚类方法 |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
-
2017
- 2017-07-05 CN CN201710542760.9A patent/CN107357785A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104978308A (zh) * | 2015-05-22 | 2015-10-14 | 福建师范大学 | 一种微博主题情感演化分析方法 |
CN105608192A (zh) * | 2015-12-23 | 2016-05-25 | 南京大学 | 一种基于用户双词主题模型的短文本推荐方法 |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN105701210A (zh) * | 2016-01-13 | 2016-06-22 | 福建师范大学 | 一种基于混杂特征计算的微博主题情感分析方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN106649730A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种基于社交网络短文本流的用户聚类和短文本聚类方法 |
Non-Patent Citations (2)
Title |
---|
崔志刚: "基于电商网站商品评论数据的用户情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
熊蜀峰等: "面向产品评论分析的短文本情感主题模型", 《自动化学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526664B2 (en) | 2018-05-31 | 2022-12-13 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for generating digest for message, and storage medium thereof |
CN110175323A (zh) * | 2018-05-31 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置 |
WO2019228137A1 (zh) * | 2018-05-31 | 2019-12-05 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置、电子设备及存储介质 |
CN110175323B (zh) * | 2018-05-31 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置 |
CN111507087B (zh) * | 2018-05-31 | 2022-08-26 | 腾讯科技(深圳)有限公司 | 消息摘要的生成方法和装置 |
CN110020422B (zh) * | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN110020422A (zh) * | 2018-11-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
US11544459B2 (en) | 2018-11-26 | 2023-01-03 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining feature words and server |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
CN110705304B (zh) * | 2019-08-09 | 2020-11-06 | 华南师范大学 | 一种属性词提取方法 |
CN111104793A (zh) * | 2019-12-19 | 2020-05-05 | 浙江工商大学 | 一种短文本主题确定方法 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN113076489A (zh) * | 2021-04-14 | 2021-07-06 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
CN113076489B (zh) * | 2021-04-14 | 2022-09-13 | 合肥工业大学 | 一种舆情事件中社交媒体用户角色分类方法 |
US11966702B1 (en) * | 2021-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
CN114548048A (zh) * | 2022-02-23 | 2022-05-27 | 南京审计大学 | 一种基于文本主题指标的银行错报检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN108038205B (zh) | 针对中文微博的观点分析原型系统 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN105243129A (zh) | 商品属性特征词聚类方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN107766320A (zh) | 一种中文代词消解模型建立方法及装置 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN110442720A (zh) | 一种基于lstm卷积神经网络的多标签文本分类方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN110633467A (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN110222176A (zh) | 一种文本数据的清洗方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171117 |
|
RJ01 | Rejection of invention patent application after publication |