CN104281653B - 一种针对千万级规模微博文本的观点挖掘方法 - Google Patents

一种针对千万级规模微博文本的观点挖掘方法 Download PDF

Info

Publication number
CN104281653B
CN104281653B CN201410472954.2A CN201410472954A CN104281653B CN 104281653 B CN104281653 B CN 104281653B CN 201410472954 A CN201410472954 A CN 201410472954A CN 104281653 B CN104281653 B CN 104281653B
Authority
CN
China
Prior art keywords
text
word
microblogging
weight
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410472954.2A
Other languages
English (en)
Other versions
CN104281653A (zh
Inventor
吴俊杰
伍之昂
曹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weishen Information Technology Co.,Ltd.
Original Assignee
Nanjing Hong Shuo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hong Shuo Information Technology Co Ltd filed Critical Nanjing Hong Shuo Information Technology Co Ltd
Priority to CN201410472954.2A priority Critical patent/CN104281653B/zh
Publication of CN104281653A publication Critical patent/CN104281653A/zh
Application granted granted Critical
Publication of CN104281653B publication Critical patent/CN104281653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对千万级规模微博文本的观点挖掘方法,首先,对某一事件或话题下的微博进行分词,在分词的基础上,去掉其中的垃圾文本;再根据分词的结果对微博文本进行关键词对的提取;然后对提取出的关键词对进行聚类;最后根据每一类的关键词对,从微博文本中提取出该类下能代表事件方面或用户观点的文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,处理千万级规模的微博文本,具有高效性、鲁棒性和易用性等优点。适用于对千万级规模的微博文本的方面分析,在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。

Description

一种针对千万级规模微博文本的观点挖掘方法
技术领域
本发明属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级规模微博文本的观点挖掘方法。
背景技术
随着网民规模的不断增大,一些社会化媒体也得到迅速地发展。以论坛、微博、微信为代表的社会化媒体逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为深远的影响。这些社会化媒体每天都会产生大量的短文本。这些短文本中含有大量的表达事件方面或用户观点的信息。通过分析这些信息,人们一方面可以了解某一事件或话题的信息扩散情况,另一方面可以通过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。但是,社会化媒体产生的信息中也存在着大量的垃圾和无意义文本。如何从掺杂着大量垃圾和无意义信息的文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。
发明内容
本发明的目的是提供一种针对千万级规模微博文本的观点挖掘方法,该方法鉴于中文短文本的稀疏性、实时性等特性,考虑汉语语言的用法和搭配关系,从词的角度进行垃圾文本的过滤,从过滤之后的微博文本中提取出关键词对,再根据关键词对将文本进行分类,并筛选出具有代表性的文本。
本发明的目的通过以下技术方案来实现:
一种针对千万级规模微博文本的观点挖掘方法,其特征在于:该方法对千万级规模的微博文本进行关键词对的提取,再对关键词对进行聚类,最后根据聚类结果对代表性文本进行筛选,具体步骤如下:
1)对千万级规模微博文本进行简单过滤,将其中的无意义文本去掉;
简单过滤具体如下:
微博文本存在一类文本,这一类文本没有包含某话题或事件的一个方面,也没有包含用户的意见或观点倾向;这类文本可以归纳为以下四类:
(1)只包含“转发微博”的文本;
(2)以“http://”开头的文本;
(3)内容为空的文本;
(4)含有多于5个“@”符号的文本;
第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发,而没有加上自己对这条微博的意见或观点倾向,过滤方法:文本匹配;第二类微博多为参加某个活动而发布的,过滤方法:正则表达式;第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博,过滤方法:字符串长度;第四类微博多为参加某个活动而发布的,过滤方法:字符串函数;由于这四类微博有着比较明显的文本特征,因此,只需采用简单的规则即可实现这四类微博的过滤。
2)利用中文分词工具,对简单过滤之后的微博文本进行分词和词性标注;
分词的目的是为了将微博文本转化成一个个词语;根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词;因此,在分词的过程中需要对每一个词语进行词性标注;需要对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选;
词性筛选是指将分词结果中的名词、形容词、动词保留下来,将其他词性的词语去掉;
词频筛选是指将分词结果中的低频词和高频词去掉;低频词很可能是只在少数微博文本中出现的,不具有代表性;高频词有两种可能:一种是大部分微博都出现的词语;另一类是错误分词以后产生的分词碎片。
3)利用分词结果,将词作为属性对文本进行分类,以识别出其中的广告文本,并将广告文本过滤掉;
将广告文本过滤转化为一个二分类问题,通过人工标注的方式产生训练样本;根据每一个测试样本的测试结果,对训练样本进行扩充,以增加训练样本对不同种类的广告的覆盖度;考虑广告文本用词的特征,在分类的过程中,本步骤用步骤2)产生的分词结果作为特征属性构建特征矩阵。
4)从剩下的微博文本中提取关键词对;
关键词对的提取是在高频词的基础上进行的,首先,对经过上一步骤保留下来的微博文本进行词频统计,选取词频排名前K个词语作为候选的高频词;再根据高频词的位置,选取与高频词紧邻的前一个和后一个词语,构成高频词和前后词语的词对;然后,统计每一个词对在微博文本中出现的次数,根据如下公式计算每一个词对的权重:
W=Fg×Nc
词网中的边的权重包括核心词权重Fg和词对共现权重Nc两个部分;核心词权重是指这对词对中高频词的权重,高频词出现的次数越多,越有可能形成这样一条边,说明核心词的权重越高;核心词权重用高频词的频率来表示;词对共现权重是指这两个词同时紧挨着出现的权重,用这两个词共现的次数来表示;
在计算每一个词对的权重之后,根据权重对词对进行排序,选取权重排序前n个词对作为这些微博文本中的关键词对。
5)对提取出的关键词对进行聚类;
在提取出关键词对之后,由于每一个关键词对表达的含义可能不一样,需要对提取出的关键词对进行聚类;采用K-means聚类算法;
K-means聚类算法是用一个距离函数来刻画样本点到聚类中心的聚类,根据这个距离来将样本点划分到对应的类别中;采用的距离函数是余弦相似度;余弦相似度是信息检索中常用的相似度的计算方式,假如有两个词语i和j,词语i表达成文件向量Di=(wi1,wi2,…,win),词语j表达成Dj=(wj1,wj2,…,wjn),则这两个词语的余弦相似度计算公式为:
余弦相似度最小值为0,最大值为1,其几何意义是计算两文件或词语向量在高纬度空间中的夹角,夹角越小,余弦相似度越大,角度为0°时,相似度为1;夹角越大,余弦相似度越小,角度为90°时,相似度为0。
6)根据聚类结果,对微博文本进行分类;
采用的分类流程如下:根据每一类的关键词对,遍历所分析数据集中所有的微博文本,计算这一类关键词对在每条微博中出现的频数,将所有关键词对在该微博中出现的频数之和作为这条微博的权重;根据微博文本在每一类关键词对的权重,将文本分到权重最高的那一类关键词对中。
7)选出每一类中能代表事件方面或用户观点的微博文本。
根据上分类结果,对每一类微博文本进行代表性文本提取;根据计算出的权重对代表性文本进行排序,提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。
本发明首先对千万级规模微博文本进行简单过滤,将其中的无意义文本去掉;利用中文分词工具,对简单过滤之后的微博文本进行分词和词性标注;利用分词结果,将词作为属性对文本进行分类,以识别出其中的广告文本;将识别出的广告文本去掉,从剩下的微博文本中提取关键词对;对提取出的关键词对进行聚类;根据聚类结果,对微博文本进行分类,并选出每一类中能代表事件方面或用户观点的微博文本。
本发明利用微博平台产生的数据,对垃圾文本过滤,构建相应的分类器来识别垃圾文本。在垃圾文本过滤之后的结果上进行关键词对的提取,保留文本中词与词之间的搭配关系,对结果进行聚类并提取代表性文本。通过关键词和代表性文本来表达事件方面或用户观点。
本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,处理千万级规模的微博文本,具有高效性、鲁棒性和易用性等优点。本发明能从掺杂着大量垃圾和无意义信息的文本中提取出能表达事件方面或用户观点。本发明适用于对千万级规模的微博文本的方面分析,在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。
附图说明
图1为本发明的整体框架图。
图2为本发明的关键词对提取的流程。
图3为本发明的文本分类算法的伪代码。
具体实施方式
一种针对千万级规模微博文本的观点挖掘方法,首先需要将微博文本中的垃圾文本去掉,再从文本中提取关键词对,最后根据关键词对进行文本的分类和代表性文本的提取。图1为本发明的整体框架图。具体实施步骤如下:
步骤一:简单过滤。
微博文本存在一类文本,这一类文本没有包含某话题或事件的一个方面,也没有包含用户的意见或观点倾向。这类文本可以归纳为以下四类:
(1)只包含“转发微博”的文本;
(2)以“http://”开头的文本;
(3)内容为空的文本;
(4)含有多于5个“@”符号的文本。
第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发,而没有加上自己对这条微博的意见或观点倾向。第二类和第四类微博多为参加某个活动而发布的。第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博。由于这四类微博有着比较明显的文本特征,因此,本研究只需采用简单的规则即可实现这四类微博的过滤,具体的过滤这四类微博的方法请见下表1。
表1 四类无意义微博过滤方法
步骤二:分词与词性标注。
分词的目的是为了将微博文本转化成一个个词语。根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词。因此,在分词的过程中需要对每一个词语进行词性标注。本步骤需要对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选。
词性筛选是指将分词结果中的名词、形容词、动词保留下来,将其他词性的词语去掉。这样做既能提高关键词对提取的准确度,又能在大规模数据集下减少所要分析的词语数量,提高垃圾文本过滤和关键词对提取的效率。
词频筛选是指将分词结果中的低频词和高频词去掉。低频词很可能是只在少数微博文本中出现的,不具有代表性。高频词有两种可能:一种是大部分微博都出现的词语;另一类是错误分词以后产生的分词碎片。这些低频词和高频词对垃圾文本过滤和关键词对的提取没有多大的参考意义,去掉之后可以提高本发明处理数据的效率。
步骤三:广告文本过滤。
微博文本中存在许多广告文本,广告文本对观点分析没有研究意义。所以需要将广告文本过滤掉。本步骤将广告文本过滤转化为一个二分类问题,通过人工标注的方式产生训练样本。根据每一个测试样本的测试结果,对训练样本进行扩充,以增加训练样本对不同种类的广告的覆盖度。考虑广告文本用词的特征,在分类的过程中,本步骤用上一步骤产生的分词结果作为特征属性构建特征矩阵。
步骤四:关键词对的提取。
高频词在一定程度上可以反映所分析微博数据集中人们讨论的较多的方面和问题。图2展示的是关键词对提取的具体流程。本步骤的关键词对的提取是在高频词的基础上进行的。首先,对经过上一步骤保留下来的微博文本进行词频统计,选取词频排名前K个词语作为候选的高频词。再根据高频词的位置,选取与高频词紧邻的前一个和后一个词语,构成高频词和前后词语的词对。然后,统计每一个词对在微博文本中出现的次数,根据如下公式计算每一个词对的权重:
W=Fg×Nc
词网中的边的权重包括核心词权重Fg和词对共现权重Nc两个部分。核心词权重是指这对词对中高频词的权重,高频词出现的次数越多,越有可能形成这样一条边,说明核心词的权重越高。核心词权重用高频词的频率来表示。词对共现权重是指这两个词同时紧挨着出现的权重,用这两个词共现的次数来表示。
在计算每一个词对的权重之后,根据权重对词对进行排序,选取权重排序前n个词对作为这些微博文本中的关键词对。
步骤五:关键词对聚类。
在提取出关键词对之后,由于每一个关键词对表达的含义可能不一样,所以需要对提取出的关键词对进行聚类。本步骤所采用的K-means聚类算法,算法流程见表2。
表2 K-means算法具体流程
本步骤采用微博文本作为关键词的特征属性,来构建关键词的特征矩阵。本研究为关键词构建特征矩阵的思路如下:根据提取出来的关键词对,遍历所分析微博文本,统计每一条微博文本中该关键词对出现的频数,将这个频数作为该关键词对在这条微博文本的属性下的属性值。通过这个方法构建出的关键词对特征矩阵实际上是一个基于关键词对频数的矩阵,每一行代表一个关键词对在所分析的微博文本中出现的频数,每一列代表一条微博文本包含提取出的关键词对的频数。
K-means聚类算法实际上是用一个距离函数来刻画样本点到聚类中心的聚类,根据这个距离来将样本点划分到对应的类别中。本步骤采用的距离函数是余弦相似度。余弦相似度是信息检索中常用的相似度的计算方式,假如有两个词语i和j,词语i表达成文件向量Di=(wi1,wi2,…,win),词语j表达成Dj=(wj1,wj2,…,wjn),则这两个词语的余弦相似度计算公式为:
余弦相似度最小值为0,最大值为1,其几何意义是计算两文件或词语向量在高纬度空间中的夹角,夹角越小,余弦相似度越大(角度为0°时,相似度为1);夹角越大,余弦相似度越小(角度为90°时,相似度为0)。
步骤六:文本分类。
根据上一步骤的结果,本步骤对千万级微博文本进行分类。本步骤所采用的分类流程如下:根据每一类的关键词对,遍历所分析数据集中所有的微博文本,计算这一类关键词对在每条微博中出现的频数,将所有关键词对在该微博中出现的频数之和作为这条微博的权重。根据微博文本在每一类关键词对的权重,将文本分到权重最高的那一类关键词对中。图3展示了文本分类算法的伪代码。
步骤七:代表性文本提取。
根据上一步骤的分类结果,需要对每一类微博文本进行代表性文本提取。根据上一步骤计算出的权重对代表性文本进行排序,提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。
由于微博中存在大量转发和评论的微博,所以在微博中有很多重复的文本。因此,本步骤需要对所选择的代表性文本进行去重操作,以尽量多地展示该类别下权重比较高的不同内容的代表性文本。本步骤从内容角度,采用Levenshtein距离来实现代表性文本的去重。Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。Levenshtein距离包括的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。在对文本按权重排序的同时,计算文本之间的Levenshtein距离,只保留Levenshtein距离相近的一条文本,将其他的文本去掉。

Claims (4)

1.一种针对千万级规模微博文本的观点挖掘方法,其特征在于:该方法对千万级规模的微博文本进行关键词对的提取,再对关键词对进行聚类,最后根据聚类结果对代表性文本进行筛选,具体步骤如下:
1)对千万级规模微博文本进行简单过滤,将其中的无意义文本去掉;
2)利用中文分词工具,对简单过滤之后的微博文本进行分词和词性标注;
分词的目的是为了将微博文本转化成一个个词语;根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词;因此,在分词的过程中需要对每一个词语进行词性标注;需要对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选;
词性筛选是指将分词结果中的名词、形容词、动词保留下来,将其他词性的词语去掉;
词频筛选是指将分词结果中的低频词和高频词去掉;低频词很可能是只在少数微博文本中出现的,不具有代表性;高频词有两种可能:一种是大部分微博都出现的词语;另一类是错误分词以后产生的分词碎片;
3)利用分词结果,将词作为属性对文本进行分类,以识别出其中的广告文本,并将广告文本过滤掉;
4)从剩下的微博文本中提取关键词对;
5)对提取出的关键词对进行聚类;
6)根据聚类结果,对微博文本进行分类;
7)选出每一类中能代表事件方面或用户观点的微博文本;
步骤1)中,简单过滤具体如下:
微博文本存在一类文本,这一类文本没有包含某话题或事件的一个方面,也没有包含用户的意见或观点倾向;这类文本可以归纳为以下四类:
(1)只包含“转发微博”的文本;
(2)以“http://”开头的文本;
(3)内容为空的文本;
(4)含有多于5个“@”符号的文本;
第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发,而没有加上自己对这条微博的意见或观点倾向,过滤方法:文本匹配;第二类微博多为参加某个活动而发布的,过滤方法:正则表达式;第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博,过滤方法:字符串长度;第四类微博多为参加某个活动而发布的,过滤方法:字符串函数;由于这四类微博有着比较明显的文本特征,因此,只需采用简单的规则即可实现这四类微博的过滤;
步骤4)中,关键词对的提取是在高频词的基础上进行的,首先,对经过上一步骤保留下来的微博文本进行词频统计,选取词频排名前K个词语作为候选的高频词;再根据高频词的位置,选取与高频词紧邻的前一个和后一个词语,构成高频词和前后词语的词对;然后,统计每一个词对在微博文本中出现的次数,根据如下公式计算每一个词对的权重:
W=Fg×Nc
词网中的边的权重包括核心词权重Fg和词对共现权重Nc两个部分;核心词权重是指这对词对中高频词的权重,高频词出现的次数越多,越有可能形成这样一条边,说明核心词的权重越高;核心词权重用高频词的频率来表示;词对共现权重是指这两个词同时紧挨着出现的权重,用这两个词共现的次数来表示;
在计算每一个词对的权重之后,根据权重对词对进行排序,选取权重排序前n个词对作为这些微博文本中的关键词对。
2.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法,其特征在于:步骤3)中,将广告文本过滤转化为一个二分类问题,通过人工标注的方式产生训练样本;根据每一个测试样本的测试结果,对训练样本进行扩充,以增加训练样本对不同种类的广告的覆盖度;考虑广告文本用词的特征,在分类的过程中,本步骤用步骤2)产生的分词结果作为特征属性构建特征矩阵。
3.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法,其特征在于:步骤5)中,在提取出关键词对之后,由于每一个关键词对表达的含义可能不一样,需要对提取出的关键词对进行聚类;采用K-means聚类算法;
K-means聚类算法是用一个距离函数来刻画样本点到聚类中心的聚类,根据这个距离来将样本点划分到对应的类别中;采用的距离函数是余弦相似度;余弦相似度是信息检索中常用的相似度的计算方式,假如有两个词语i和j,词语i表达成文件向量Di=(wi1,wi2,…,win),词语j表达成Dj=(wj1,wj2,…,wjn),则这两个词语的余弦相似度计算公式为:
余弦相似度最小值为0,最大值为1,其几何意义是计算两文件或词语向量在高纬度空间中的夹角,夹角越小,余弦相似度越大,角度为0°时,相似度为1;夹角越大,余弦相似度越小,角度为90°时,相似度为0。
4.根据权利要求1所述的针对千万级规模微博文本的观点挖掘方法,其特征在于:步骤6)中,采用的分类流程如下:根据每一类的关键词对,遍历所分析数据集中所有的微博文本,计算这一类关键词对在每条微博中出现的频数,将所有关键词对在该微博中出现的频数之和作为这条微博的权重;根据微博文本在每一类关键词对的权重,将文本分到权重最高的那一类关键词对中;根据上分类结果,对每一类微博文本进行代表性文本提取;根据计算出的权重对代表性文本进行排序,提取每一类中权重比较高的前n条微博文本作为该类别具有代表性的文本。
CN201410472954.2A 2014-09-16 2014-09-16 一种针对千万级规模微博文本的观点挖掘方法 Active CN104281653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410472954.2A CN104281653B (zh) 2014-09-16 2014-09-16 一种针对千万级规模微博文本的观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410472954.2A CN104281653B (zh) 2014-09-16 2014-09-16 一种针对千万级规模微博文本的观点挖掘方法

Publications (2)

Publication Number Publication Date
CN104281653A CN104281653A (zh) 2015-01-14
CN104281653B true CN104281653B (zh) 2018-07-27

Family

ID=52256526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410472954.2A Active CN104281653B (zh) 2014-09-16 2014-09-16 一种针对千万级规模微博文本的观点挖掘方法

Country Status (1)

Country Link
CN (1) CN104281653B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778209B (zh) * 2015-03-13 2018-04-27 国家计算机网络与信息安全管理中心 一种针对千万级规模新闻评论的观点挖掘方法
CN106156091A (zh) * 2015-04-01 2016-11-23 富士通株式会社 描述短文本的作者的方法和设备
CN104850606B (zh) * 2015-05-03 2019-03-26 西北工业大学 一种移动群智感知中社会事件的总结方法
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN108228587A (zh) * 2016-12-13 2018-06-29 北大方正集团有限公司 群体识别方法及群体识别装置
CN106778880B (zh) * 2016-12-23 2020-04-07 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110019771B (zh) * 2017-07-28 2021-08-13 北京国双科技有限公司 文本处理的方法及装置
CN107729401A (zh) * 2017-09-21 2018-02-23 北京百度网讯科技有限公司 基于人工智能的高质量文章挖掘方法、装置及存储介质
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN107992586A (zh) * 2017-12-08 2018-05-04 成都谷问信息技术有限公司 基于智能语意的检索方法
CN108363810B (zh) * 2018-03-09 2022-02-15 南京工业大学 一种文本分类方法及装置
CN108959484B (zh) * 2018-06-21 2020-07-28 中国人民解放军战略支援部队信息工程大学 面向事件检测的多策略媒体数据流过滤方法及其装置
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN110232149B (zh) * 2019-05-09 2022-03-01 北京邮电大学 一种热点事件检测方法和系统
CN112528024B (zh) * 2020-12-15 2022-11-18 哈尔滨工程大学 一种基于多特征融合的微博突发事件检测方法
CN114154097A (zh) * 2021-12-01 2022-03-08 蜂蜜家(广州)科技有限公司 一种网络信息聚合方法及基于聚合方法的自动发布方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041953A1 (en) * 2010-08-16 2012-02-16 Microsoft Corporation Text mining of microblogs using latent topic labels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于重叠社团发现的微博话题检测方法;程飞 等;《计算机工程与应用》;20140818;第2-6页 *

Also Published As

Publication number Publication date
CN104281653A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
WO2017166912A1 (zh) 商品短文本核心词提取方法和装置
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN105320642B (zh) 一种基于概念语义基元的文摘自动生成方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN112131863A (zh) 一种评论观点主题抽取方法、电子设备及存储介质
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN106096609B (zh) 一种基于ocr的商品查询关键字自动生成方法
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
Brantner et al. Content analysis of Twitter: Big data, big studies
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN108595593B (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
Zendah et al. Detecting Significant Events in Arabic Microblogs using Soft Frequent Pattern Mining.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211216

Address after: 519000 room 2-905, No. 2133, Yuehai Middle Road, Xiangzhou District, Zhuhai City, Guangdong Province

Patentee after: Guangdong Weishen Information Technology Co.,Ltd.

Address before: 210000 room 222, science and innovation base, No. 12, Xingke Road, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee before: NANJING HONGSHU INFORMATION TECHNOLOGY CO.,LTD.