CN101727487A - 一种面向网络评论的观点主题识别方法和系统 - Google Patents
一种面向网络评论的观点主题识别方法和系统 Download PDFInfo
- Publication number
- CN101727487A CN101727487A CN200910227304A CN200910227304A CN101727487A CN 101727487 A CN101727487 A CN 101727487A CN 200910227304 A CN200910227304 A CN 200910227304A CN 200910227304 A CN200910227304 A CN 200910227304A CN 101727487 A CN101727487 A CN 101727487A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- word
- theme
- comment
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种面向网络评论的观点主题识别方法和系统,其方法包括步骤:a.文本输入,输入评论源和所有评论文本;b.文本预处理,对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;c.主题词判决,计算词语权重值,如果词语权重值大于设定的阈值,则该词语判断为观点主题词;d.主题构建,将零散的观点主题词合并成为完整的观点主题;e.主题筛选,通过观点主题过滤确定有效的观点主题;本发明克服观点分析方法和系统的领域限制,不需构建本体库,从整体的角度识别观点主题,有效避开了单句观点分析存在的困难,在面对宽领域和随时间动态改变的网络评论数据实现自动识别短语模式的观点主题。
Description
技术领域
本发明涉及数据挖掘、机器学习、中文信息处理技术领域,特别是涉及一种面向网络评论的观点主题识别方法和系统。
背景技术
目前,随着信息传播技术的发展和普及,互联网已成为当今社会人们获取信息的重要渠道。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。通过互联网,人们对社会公共事务特别是社会热点焦点问题发表有一定影响力、带倾向性的意见或言论,针对这类文本的观点分析具有广泛的实用价值。然而,网络中可供人们谈论的主题非常多,并且网络评论的观点主题会随着评论数据的变化而改变。因此首先需要完成网络评论中谈论主题的自动识别,从而实现评论的观点分析。现有的观点主题识别方法都是在限定领域内展开,其方法的基本思想是:在特定领域内,观点主题具有比较稳定的特性。如产品评论领域,针对特定产品评论的观点主题一般为产品名称、产品元件及其相关属性,并且在一定时间段内不会变动。由于特定领域内的观点主题具备这种稳定特性,目前常见的识别方法是:首先通过全自动或半自动的方式构建特征本体库,再由查询匹配确定评论的主题。在特征本体库的构建过程中,一般选取名词和名词短语作为候选主题,再通过各种规则进行筛选从而确定领域的特征本体。
上述方法中的观点主题识别是通过查询已经构建的特征本体库实现,致使观点分析局限于该特定领域而无法得到扩展。由于网络中人们谈论话题的多样性,并且随着时间的推移会不断涌现出新的话题,如网络舆情分析中不同事件对应不同的观点主题,构建特征本体库的方法不再有效,需要对观点主题进行自动识别。
发明内容
有鉴于此,本发明的目的在于提供一种面向网络评论的观点主题识别方法,克服观点分析的领域限制,不需构建本体库,从整体的角度识别观点主题,有效避开了单句观点分析存在的困难,在面对宽领域和随时间动态改变的网络评论数据实现自动识别短语模式的观点主题。
为达到上述目的,本发明的面向网络评论的观点主题识别方法,包括以下步骤:
a.文本输入
输入评论源和所有评论文本;
b.文本预处理
对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;
c.主题词判决
计算词语权重值,如果词语权重值大于设定的阈值,则该词语判断为观点主题词;
d.主题构建
将零散的观点主题词合并成为完整的观点主题;
e.主题筛选
通过观点主题过滤确定有效的观点主题。
进一步,在c步骤中,计算词语权重时,权重因素包括整体词频权重、词性权重、词语出现的位置权重和词语长度权重。
进一步,在计算整体词频权重时,引入同义词林消除同义词引起的主题分散问题。
进一步,所述权重因素还包括词语情感权重,计算词语情感权重时,引入情感词库,词语出现在包含情感词的句子中的归一化频率为词语情感权重。
进一步,所述的阈值可以设定为固定值或百分比,也可根据不同的话题选取不同的阈值,也可以根据词语权重值的中位数或均值动态计算阈值。
进一步,在d步骤中,以观点主题词为线索词,并添加位置约束条件,采用位置相关的频繁项挖掘算法,实现未登录词和词组类型的观点主题识别。
进一步,在所述的频繁项挖掘算法中,根据实际情况限定线索词周围词语的窗口长度。
进一步,观点主题过滤包括词性组合过滤、单字选择过滤和包含关系过滤。
本发明的另一个目的在于提供一种实现上述面向网络评论的观点主题识别方法的系统,该系统包括:
评论输入模块,用于输入评论源和所有评论文本;预处理模块,用于实现包括词语切分、词性标注、去除停用词、标点符号和特定虚词、统计词语的词频信息的操作;主题词判决模块,用于根据权重计算公式计算词语权重值并根据设定的阈值判别观点主题词;主题构建模块,用于将零散的观点主题词通过频繁项挖掘算法合并成为完整的观点主题;主题筛选模块,用于通过词性组合过滤、单字选择过滤和包含关系过滤,最终确定有效的观点主题。
本发明的有益效果是:
由于现有的面向产品评论的观点主题识别方法在普通评论数据中不再有效,并且现有的面向网络评论的观点分析方法需要一种方法能够自动识别观点的主题。与现有技术相比,本发明提供了一种面向网络评论的观点主题识别方法和系统,它克服了观点分析的领域限制,不需构建本体库。它从整体的角度识别观点主题,有效地避开了单句观点分析存在的困难,并且本发明能够自动识别短语模式的观点主题,适合于宽领域和随时间动态改变的网络评论数据
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明方法实施例一的操作步骤流程图;
图2为本发明方法实施例二的操作步骤流程图;
图3为本发明系统模块连接示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
实施例一
本实施例对网络评论产生的相关知识进行描述,认为主观性评论的发表都是由一个源事件引起,如网络新闻评论中的新闻、论坛中的首帖、产品评论中的产品信息或产品属性列表等,这里将它们统称为评论源。一般情况下,人们浏览关注的评论源并发表自己的主观性意见,因此可以认为评论源是网络评论的触发者。
本实施例对评论源进行分析,识别出评论源中受到评论者关注的主题词;再根据位置相关的关联规则挖掘算法构建候选的观点主题;最后通过制定的规则过滤不符合要求的候选主题。如图1所示,本实施例实现网络评论的观点主题识别方法的步骤如下:
步骤S21为评论源输入,选择网络评论中的评论源,由一组字符序列组成,用符号s表示。步骤S22对评论源进行预处理;首先进行词语切分和词性标注,得到有序的词语序列s=<ws1,ws2,…,wsk>,其中w表示词语;去除停用词、标点符号和特定虚词后,归纳相同词语得到一组词语集合s′,其中s′中的词语都属于词语序列s,且s′内的每个词语都不相同。S23为评论输入,选择各个评论者发表的评论信息,用符号ri表示,评论集为R={r1,r2,…,rn},并对评论集R进行词语切分。步骤S24,对词语集合s′中的各个词语wcj(j=1,…,r)进行权重计算,确定其反映观点主题的能力;本实施例用词语的权重值W(wcj)(j=1,2,…,r)评估,其中对观点主题判断产生影响的主要因素包括整体词频、词性信息、位置信息和词语长度信息,具体实施时需要如下计算步骤:
●步骤S241,计算整体词频权重,即各个词语wcj在评论源s和评论集R中总共出现的频数,它反映评论者的关注程度,用Freq(wcj)表示,Freq(wcj)∈{1,2,…};
●步骤S242,计算词性权重,观点主题中不同词性词语所占的比例各不相同,本实施例中认为名词和动词占有最大的比例,用Pos(wcj)表示,1≤Pos(wcj)≤2;
●步骤S243,计算位置权重,词语wcj在评论源中所处的位置信息(如标题、段落首句等),表明评论源的发表者对词语重要性的评估,记为Loc(wcj),Loc(wcj)∈{1,3/2,2};
●步骤S244,计算词语长度权重,不同长度词语所蕴含的具体语义存在差异,用Len(wcj)描述,1≤Len(wcj)≤2。
综合以上四个权重因素,词语权重值表示为
W(wcj)=Freq(wcj)·Pos(wcj)·Loc(wcj)·Len(wcj),(j=1,2,…,r)
当词语wcj的权重值W(wcj)大于设定阈值θW时,认为该词为受到评论者关注的主题词;
S25表示频繁项挖掘步骤,由于受到未登录词和短语类型的观点主题的影响,许多观点主题无法作为整体被分词程序切分,需要将零散的主题词合并为完整的观点主题。本发明采用位置相关的关联规则挖掘算法实现,即为算法添加位置约束条件:要求频繁k项集只与它在事务上相邻的上一项和下一项来产生两个不同的k+1项候选集。这里,选择S24中确定的主题词作为线索词,利用关联规则算法挖掘满足最小支持度p%的频繁项集,作为候选观点主题;
在主题过滤步骤S26中,设定的观点主题过滤方法包括:词性组合过滤,如“V+A(动词+形容词)”、“N+A(名词+形容词)”等不符合主题词性组合的候选项;单字选择过滤,过滤除名词和字符串以外的单字符候选项;包含关系过滤,即长字符主题中的各个子集必须包含足够的独立项才能形成单独的观点主题;
经过以上步骤即得到已识别的观点主题S27。
例如:事件“央视在中国全面停播NBA”中,评论源中满足权重值设定阈值的部分主题词如下表所示:
关键词 | 词性 | 频数 | 关键词 | 词性 | 频数 |
NBA | x | 826 | 体育 | n | 289 |
停 | v | 701 | 大 | a | 123 |
播 | v | 639 | 篮球 | n | 119 |
中国 | n | 562 | 转播 | v | 113 |
通过位置相关的关联规则挖掘以后,得到候选的观点主题包含1-频繁项、2-频繁项和3-频繁项,其中1-频繁项如上表所示,2-频繁项和3-频繁项如下表所示:
2-频繁项 | 频数 | 3-频繁项 | 频数 |
停播 | 373 | 停播NBA | 106 |
播NBA | 132 |
由观点主题过滤方法,过滤除名词以外的单字符候选项“停”、“播”和“大”;比较3-频繁项“停播NBA”的子集(2-频繁项)“停播”和“播NBA”,“停播”的独立项(即不包含在“停播NBA”中的频数为267,大于设定阈值,而“播NBA”的独立项频数为26,不符合阈值要求,因此过滤候选观点主题“播NBA”。
本实施例中,对网络评论产生的相关知识描述不局限于网络新闻评论中的新闻、论坛中的首帖、产品评论中的产品信息或产品属性列表这三种形式的网络评论,在实际应用中,还可以是相关形式的网络资源,如Blog评论、日志评论等。
本实施例中,权重值比较的阈值可以设定为某一固定值,也可根据不同的话题选取不同的阈值,或根据中位数、均值等动态计算阈值。
本实施例中,为了提高位置相关的关联规则的计算效率,可根据实际情况限定线索词周围词语的范围,如选择线索词wi左右各三个词语组成窗口[wi-3,wi-2,wi-1,wi,wi+1,wi+2,wi+3],当评论形式比较简洁时,还可选择更短的窗口。
实施例二
本实施例考虑到实际情况中网络评论中的观点主题不仅来源于评论源,评论者也会提出与评论源相关的主题。基于以上事实,本实施例将网络评论的观点主题分为两类:评论*,观点主题在评论源中出现;评论#,观点主题没有出现于评论源中,而是由评论者提出。
本实施例不仅考虑评论源中的观点主题,也识别评论中的反复出现的观点主题。同时,加入两个基础语义词典——同义词林,克服同义词引起的主题分散问题;和情感词库,更加精确地判断观点主题所在的句子。
在识别出网络评论的观点主题后,确定主题之间的关系将有利于后续针对主题的观点分析。本实施例仅提供一种简单的动词作用对象的一种确定方法,例如评论“赞成停播!”中识别“停播”的对象为“NBA”。如图2所示,本施例实现网络评论的观点主题识别方法的步骤如下:
步骤S41为评论源输入,选择网络评论中的评论源,由一组字符序列组成,用符号s表示;步骤S42为评论输入,选择网络评论中的所有评论,用符号ri表示,评论集为R={r1,r2,…,rn};步骤S43进行文本预处理,对输入的两路文本进行词语切分和词性标注,然后去除停用词、标点符号和特定虚词后,统计各个词语的词频信息,并将所有出现于评论源中的词语和其余词语中频数占前10%的词语送入步骤S44;
在步骤S44中,对步骤S43送入的词语wdj(j=1,…,q)进行权重计算,确定其反映观点主题的能力。本实施例也使用词语的权重值W(wdj)(j=1,2,…,q)进行评估,其中对观点主题判断产生影响的主要因素包括整体词频、词性信息、位置信息、词语长度和词语情感信息,具体计算权重值时,包括以下步骤:
●步骤S441,计算整体词频,即词语wdj在评论源s和评论集R中总共出现的频数f(wdj)。与实施一不同的是本实施例加入同义词林消除同义词引起的主题分散问题,搜寻词语wdj在同义词林中的所有具有同义关系的词语w′ti(i=1,…,m),以及这些同义词在集合{s,R}中的频数f′ti。整体词频用Freq(wdj)表示,用α表示可变参数,
●步骤S442、S443和S444的操作与实施例一相同,分别为计算词性信息权重、计算词语位置信息权重和计算词语长度权重的步骤;
●S445为计算词语情感信息权重的步骤,词语wdj出现在包含情感词的句子中的归一化频率。情感词对句子的主观性具有很好的指示作用,并且情感词的对象一般为观点主题。评论的句子中包含情感词,则观点主题出现的概率增大。用Sen(wdj)表示词语wdj和情感词共处同一句的句子数量除以最大值后的归一化频率。
综合以上因素,权重值表示为
W(wcj)=Freq(wdj)·Pos(wdj)·Loc(wdj)·Len(wdj)·Sen(wdj),(j=1,2,…,q)
当词语wdj的权重值W(wdj)大于设定阈值θ′W时,认为该词为受到评论者关注的主题词;
步骤S47和S48分别是频繁项挖掘和主题过滤,其操作与实施例一相同;
本实施中还需要步骤S49对观点主题进行简单的组织。如果两个主题ti和tj,其中ti为动词,tj由ti(或ti在同义词林中的同义词)加上名词(或命名实体)组成,则认为ti作用于该名词(或命名实体);
经过以上步骤,就得到本实施例已识别的观点主题S4A。
本实施例中,S43过程将所有出现于评论源中的词语和其余词语中频数占前10%的词语送入步骤S44,也可以设定为固定值,如频数为前十名的词语;
本实施例中,同义词林中词语的关系选择相等、同义,而不考虑不等、同类关系;情感词库除了常用的书面语情感词外,还应针对网络评论数据收入网络情感词。
如图3所示,本发明的种面向网络评论的观点主题识别系统,包括评论输入模块5-1,输入评论源和所有评论文本;预处理模块5-2,实现词语切分和词性标注,去除停用词、标点符号和特定虚词,统计词语的词频信息等操作;主题词判决模块5-3,根据权重计算公式和设定的阈值判断观点主题词;主题构建模块5-4,将部分零散的观点主题词通过关联规则挖掘算法合并成为完整的观点主题;主题筛选模块5-5,通过词性组合和其它预先制定的规则确定有效的观点主题。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种面向网络评论的观点主题识别方法,其特征在于,该方法包括以下步骤:
a.文本输入
输入评论源和所有评论文本;
b.文本预处理
对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;
c.主题词判决
计算词语权重值,如果词语权重值大于设定的阈值,则该词语判断为观点主题词;
d.主题构建
将零散的观点主题词合并成为完整的观点主题;
e.主题筛选
通过观点主题过滤确定有效的观点主题。
2.根据权利要求1所述的面向网络评论的观点主题识别方法,其特征在于:c步骤中,计算词语权重时,权重因素包括整体词频权重、词性权重、词语出现的位置权重和词语长度权重。
3.根据权利要求2所述面向网络评论的观点主题识别方法,其特征在于:计算整体词频权重时,引入同义词林消除同义词引起的主题分散问题。
4.根据权利要求2所述面向网络评论的观点主题识别方法,其特征在于:所述权重因素还包括词语情感权重,计算词语情感权重时,引入情感词库,词语出现在包含情感词的句子中的归一化频率为词语情感权重。
5.根据权利要求3或4所述的面向网络评论的观点主题识别方法,其特征在于:所述的阈值可以设定为固定值或百分比,也可根据不同的话题选取不同的阈值,也可以根据词语权重值的中位数或均值动态计算阈值。
6.根据权利要求5所述的面向网络评论的观点主题识别方法,其特征在于:d步骤中,以观点主题词为线索词,并添加位置约束条件,采用位置相关的频繁项挖掘算法,实现未登录词和词组类型的观点主题识别。
7.根据权利要求6所述的面向网络评论的观点主题识别方法,其特征在于:在所述的频繁项挖掘算法中,根据实际情况限定线索词周围词语的窗口长度。
8.根据权利要求7所述的面向网络评论的观点主题识别方法,其特征在于:观点主题过滤包括词性组合过滤、单字选择过滤和包含关系过滤。
9.实现根据权利要求1所述方法的面向网络评论的观点主题识别系统,其特征在于,该系统包括:
评论输入模块,用于输入评论源和所有评论文本;预处理模块,用于实现包括词语切分、词性标注、去除停用词、标点符号和特定虚词、统计词语的词频信息的操作;主题词判决模块,用于根据权重计算公式计算词语权重值并根据设定的阈值判别观点主题词;主题构建模块,用于将零散的观点主题词通过频繁项挖掘算法合并成为完整的观点主题;主题筛选模块,用于通过词性组合过滤、单字选择过滤和包含关系过滤,最终确定有效的观点主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910227304A CN101727487A (zh) | 2009-12-04 | 2009-12-04 | 一种面向网络评论的观点主题识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910227304A CN101727487A (zh) | 2009-12-04 | 2009-12-04 | 一种面向网络评论的观点主题识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101727487A true CN101727487A (zh) | 2010-06-09 |
Family
ID=42448373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910227304A Pending CN101727487A (zh) | 2009-12-04 | 2009-12-04 | 一种面向网络评论的观点主题识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727487A (zh) |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043845A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列簇提取核心关键词的方法与设备 |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN102298587A (zh) * | 2010-06-24 | 2011-12-28 | 深圳市腾讯计算机系统有限公司 | 满意度调查方法及系统 |
CN102457501A (zh) * | 2010-10-26 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种即时通讯账户的识别方法及系统 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN103123633A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 评价参数的生成方法以及基于评价参数的信息搜索方法 |
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN103902619A (zh) * | 2012-12-28 | 2014-07-02 | 中国移动通信集团公司 | 一种网络舆情监控方法及系统 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104281692A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种实现段落维度化描述方法及系统 |
CN104281567A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种潜在语义分析方法及系统 |
CN104317579A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种文本文档业务表现方法及系统 |
CN104317785A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种互联网段落级话题识别系统 |
CN104484330A (zh) * | 2014-10-31 | 2015-04-01 | 浙江工商大学 | 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 |
CN104714939A (zh) * | 2013-12-13 | 2015-06-17 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
WO2015085805A1 (zh) * | 2013-12-11 | 2015-06-18 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105389306A (zh) * | 2015-11-02 | 2016-03-09 | 国网福建省电力有限公司 | 一种基于潜在语义分析的申请单智能解析方法 |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN105893611A (zh) * | 2016-04-27 | 2016-08-24 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN105989040A (zh) * | 2015-02-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 智能问答的方法、装置及系统 |
CN106156196A (zh) * | 2015-04-22 | 2016-11-23 | 富士通株式会社 | 提取文本特征的装置和方法 |
CN106372236A (zh) * | 2016-09-13 | 2017-02-01 | 东软集团股份有限公司 | 评论数据的处理方法和装置 |
CN106462614A (zh) * | 2014-05-29 | 2017-02-22 | 日本电信电话株式会社 | 信息分析系统、信息分析方法以及信息分析程序 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107085655A (zh) * | 2017-04-07 | 2017-08-22 | 江西中医药大学 | 基于属性的约束概念格的中医数据处理方法及系统 |
WO2017157200A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 特征词汇提取方法及装置 |
CN107360149A (zh) * | 2017-07-05 | 2017-11-17 | 中国人民解放军信息工程大学 | 一种基于输出子集权重分配的拟态判决方法及装置 |
CN108133009A (zh) * | 2017-12-22 | 2018-06-08 | 新奥(中国)燃气投资有限公司 | 一种信息存储方法及装置 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | 中国银联股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
CN109309880A (zh) * | 2018-10-08 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 视频播放方法、装置、计算机设备及存储介质 |
CN109598402A (zh) * | 2018-10-23 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于数据挖掘的数据报告生成方法、装置、计算机设备 |
CN109857852A (zh) * | 2019-01-24 | 2019-06-07 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及系统 |
CN110942337A (zh) * | 2019-10-31 | 2020-03-31 | 天津中科智能识别产业技术研究院有限公司 | 一种基于互联网大数据的精准旅游营销方法 |
CN111522863A (zh) * | 2020-04-15 | 2020-08-11 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
CN112131863A (zh) * | 2020-08-04 | 2020-12-25 | 中科天玑数据科技股份有限公司 | 一种评论观点主题抽取方法、电子设备及存储介质 |
CN112632964A (zh) * | 2020-12-24 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于nlp的行业政策信息处理方法、装置、设备及介质 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN116911280A (zh) * | 2023-09-12 | 2023-10-20 | 深圳联友科技有限公司 | 一种基于自然语言处理的评论分析报告生成方法 |
-
2009
- 2009-12-04 CN CN200910227304A patent/CN101727487A/zh active Pending
Cited By (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298587A (zh) * | 2010-06-24 | 2011-12-28 | 深圳市腾讯计算机系统有限公司 | 满意度调查方法及系统 |
CN102298587B (zh) * | 2010-06-24 | 2015-12-16 | 深圳市腾讯计算机系统有限公司 | 满意度调查方法及系统 |
CN102457501A (zh) * | 2010-10-26 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种即时通讯账户的识别方法及系统 |
CN102457501B (zh) * | 2010-10-26 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 一种即时通讯账户的识别方法及系统 |
CN102043845B (zh) * | 2010-12-08 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列簇提取核心关键词的方法与设备 |
CN102043845A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列簇提取核心关键词的方法与设备 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN102890674B (zh) * | 2011-07-18 | 2015-12-02 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN102236722B (zh) * | 2011-08-17 | 2014-08-27 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN103123633A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 评价参数的生成方法以及基于评价参数的信息搜索方法 |
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN103136300B (zh) * | 2011-12-05 | 2017-02-01 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN103902619B (zh) * | 2012-12-28 | 2018-10-23 | 中国移动通信集团公司 | 一种网络舆情监控方法及系统 |
CN103902619A (zh) * | 2012-12-28 | 2014-07-02 | 中国移动通信集团公司 | 一种网络舆情监控方法及系统 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104268197B (zh) * | 2013-09-22 | 2017-11-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN103646074B (zh) * | 2013-12-11 | 2017-06-23 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
WO2015085805A1 (zh) * | 2013-12-11 | 2015-06-18 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
CN104714939A (zh) * | 2013-12-13 | 2015-06-17 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104714939B (zh) * | 2013-12-13 | 2017-09-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN106462614A (zh) * | 2014-05-29 | 2017-02-22 | 日本电信电话株式会社 | 信息分析系统、信息分析方法以及信息分析程序 |
CN104317785A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种互联网段落级话题识别系统 |
CN104281692A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种实现段落维度化描述方法及系统 |
CN104281567A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种潜在语义分析方法及系统 |
CN104317579A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种文本文档业务表现方法及系统 |
CN104484330B (zh) * | 2014-10-31 | 2019-07-23 | 浙江工商大学 | 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 |
CN104484330A (zh) * | 2014-10-31 | 2015-04-01 | 浙江工商大学 | 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 |
CN105989040B (zh) * | 2015-02-03 | 2021-02-09 | 创新先进技术有限公司 | 智能问答的方法、装置及系统 |
CN105989040A (zh) * | 2015-02-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 智能问答的方法、装置及系统 |
CN104778209B (zh) * | 2015-03-13 | 2018-04-27 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN106156196A (zh) * | 2015-04-22 | 2016-11-23 | 富士通株式会社 | 提取文本特征的装置和方法 |
CN105224521B (zh) * | 2015-09-28 | 2018-05-25 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105354182B (zh) * | 2015-09-28 | 2018-06-26 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105224521A (zh) * | 2015-09-28 | 2016-01-06 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN105354182A (zh) * | 2015-09-28 | 2016-02-24 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN106598999B (zh) * | 2015-10-19 | 2020-02-04 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106598999A (zh) * | 2015-10-19 | 2017-04-26 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN105389306A (zh) * | 2015-11-02 | 2016-03-09 | 国网福建省电力有限公司 | 一种基于潜在语义分析的申请单智能解析方法 |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN105354333B (zh) * | 2015-12-07 | 2018-11-06 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
WO2017157200A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 特征词汇提取方法及装置 |
CN105893611A (zh) * | 2016-04-27 | 2016-08-24 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN105893611B (zh) * | 2016-04-27 | 2020-04-07 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN106372236A (zh) * | 2016-09-13 | 2017-02-01 | 东软集团股份有限公司 | 评论数据的处理方法和装置 |
CN106778862B (zh) * | 2016-12-12 | 2020-04-21 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107085655A (zh) * | 2017-04-07 | 2017-08-22 | 江西中医药大学 | 基于属性的约束概念格的中医数据处理方法及系统 |
CN107360149A (zh) * | 2017-07-05 | 2017-11-17 | 中国人民解放军信息工程大学 | 一种基于输出子集权重分配的拟态判决方法及装置 |
CN107360149B (zh) * | 2017-07-05 | 2019-08-20 | 中国人民解放军信息工程大学 | 一种基于输出子集权重分配的拟态判决方法及装置 |
CN108133009A (zh) * | 2017-12-22 | 2018-06-08 | 新奥(中国)燃气投资有限公司 | 一种信息存储方法及装置 |
CN108256098B (zh) * | 2018-01-30 | 2022-02-15 | 中国银联股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | 中国银联股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
CN109309880A (zh) * | 2018-10-08 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 视频播放方法、装置、计算机设备及存储介质 |
CN109598402A (zh) * | 2018-10-23 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于数据挖掘的数据报告生成方法、装置、计算机设备 |
CN109857852A (zh) * | 2019-01-24 | 2019-06-07 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及系统 |
CN112711693A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN112711693B (zh) * | 2019-10-24 | 2024-04-09 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN110942337A (zh) * | 2019-10-31 | 2020-03-31 | 天津中科智能识别产业技术研究院有限公司 | 一种基于互联网大数据的精准旅游营销方法 |
CN111522863A (zh) * | 2020-04-15 | 2020-08-11 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
US11651164B2 (en) | 2020-04-15 | 2023-05-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device, equipment, and storage medium for mining topic concept |
CN112131863A (zh) * | 2020-08-04 | 2020-12-25 | 中科天玑数据科技股份有限公司 | 一种评论观点主题抽取方法、电子设备及存储介质 |
CN112632964A (zh) * | 2020-12-24 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于nlp的行业政策信息处理方法、装置、设备及介质 |
CN113505197A (zh) * | 2021-07-07 | 2021-10-15 | 西安康奈网络科技有限公司 | 一种针对单一舆情事件评论中高频词语的判断方法 |
CN116911280A (zh) * | 2023-09-12 | 2023-10-20 | 深圳联友科技有限公司 | 一种基于自然语言处理的评论分析报告生成方法 |
CN116911280B (zh) * | 2023-09-12 | 2023-12-29 | 深圳联友科技有限公司 | 一种基于自然语言处理的评论分析报告生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727487A (zh) | 一种面向网络评论的观点主题识别方法和系统 | |
CN102096680A (zh) | 信息有效性分析的方法和装置 | |
Wiebe et al. | Finding mutual benefit between subjectivity analysis and information extraction | |
Jeffries et al. | Keywords in the press: The New Labour years | |
CN101609459A (zh) | 一种情感特征词提取系统 | |
Paltoglou | Sentiment‐based event detection in T witter | |
CN103177024A (zh) | 一种话题信息展现方法和装置 | |
CN101894102A (zh) | 一种主观性文本情感倾向性分析方法和装置 | |
CN102945268A (zh) | 产品特征评论挖掘方法及系统 | |
CN103488635A (zh) | 一种获取产品信息的方法及装置 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
Klaithin et al. | Traffic information extraction and classification from Thai Twitter | |
Jusoh et al. | Applying fuzzy sets for opinion mining | |
Tembhurnikar et al. | Topic detection using BNgram method and sentiment analysis on twitter dataset | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN110990587B (zh) | 基于主题模型的企业关系发现方法及系统 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
Winarko et al. | Recognizing the sarcastic statement on WhatsApp Group with Indonesian language text | |
Blombach et al. | A corpus of German Reddit exchanges (GeRedE) | |
Morales-Ramirez et al. | Discovering Speech Acts in Online Discussions: A Tool-supported method. | |
Rustagi et al. | Learning age and gender of blogger from stylistic variation | |
Shrawankar et al. | Construction of news headline from detailed news article | |
Casillo et al. | A multi-feature bayesian approach for fake news detection | |
Fang et al. | Enhanced genre classification through linguistically fine-grained pos tags |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100609 |