CN110069703B - 一种基于特征增强的微博话题检测方法 - Google Patents

一种基于特征增强的微博话题检测方法 Download PDF

Info

Publication number
CN110069703B
CN110069703B CN201910219638.7A CN201910219638A CN110069703B CN 110069703 B CN110069703 B CN 110069703B CN 201910219638 A CN201910219638 A CN 201910219638A CN 110069703 B CN110069703 B CN 110069703B
Authority
CN
China
Prior art keywords
microblog
topic
text
time
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910219638.7A
Other languages
English (en)
Other versions
CN110069703A (zh
Inventor
杨红天
刘峰
赵志宏
刘博伟
陈松宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910219638.7A priority Critical patent/CN110069703B/zh
Publication of CN110069703A publication Critical patent/CN110069703A/zh
Application granted granted Critical
Publication of CN110069703B publication Critical patent/CN110069703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征增强的微博话题检测方法。本发明针对微博话题检测存在的问题,从微博的时间特性和微博语义相似度出发对特征进行了增强,提升了Single‑Pass算法在微博话题检测场景下的表现。本发明通过将微博的时间特性融入到微博文本特征的相似度计算中,提高了属于同一话题的微博内容在时间维度上的关联度;通过使用分布式词向量表示微博,并利用其中的语义关系来增强微博关键特征,解决了微博特征稀疏的问题;为了减少了话题检测时微博与话题簇的比较次数,提出用于表示话题簇的“簇中心”概念,并围绕该概念进行计算。实验结果显示本发明简单易行,使用效果好,可以为微博话题检测提供实用方法。

Description

一种基于特征增强的微博话题检测方法
技术领域
本发明涉及微博话题检测技术领域,尤其涉及一种基于特征增强的微博话题检测方法。
背景技术
随着移动互联网的高速发展,越来越多的人通过互联网来获取资讯、分享信息。其中,新浪微博作为社交媒体平台,凭借其互动灵活、实时交流、简短快捷等特性吸引了大量的用户,每天有超过1亿条的信息发布。这些微博数据蕴含着大量时政信息与社会热点,挖掘微博中的话题不仅可以帮助用户及时了解时事信息,而且可以辅助政府进行舆情预警和舆论指导。
微博话题检测即微博话题发现,主要任务是通过对微博文本数据进行处理和分析,发现微博平台中预先未知的话题,本质是一种无指导的文本聚类过程。传统微博话题检测的研究利用向量空间模型(Vector Space Model,VSM)对微博文本进行特征表示,使用Single-Pass聚类算法检测微博中的热点话题。由于微博平台具有内容短小、用户活跃度高的显著特点,所以导致微博数据出现文本特征稀疏、话题更新频率高的问题,这使得传统微博话题检测方法效果不佳。
发明内容
为了克服传统微博话题检测中存在的不足,本发明从微博的时间特性和微博语义相似度出发对特征进行增强,提供了一种基于特征增强的微博话题检测方法。
其特征在于,包括如下步骤:
1)微博文本预处理,包括:
1.1)去除超短微博;
1.2)过滤无意义信息;
1.3)分词和词性标注;
2)微博文本向量化,包括:
2.1)特征词向量表示;
2.2)基于特征词语义增强的微博文本表示;
3)微博文本聚类,包括:
3.1)话题簇表示和基于时间衰减的微博文本相似度计算标准;
3.2)基于Single-Pass算法进行微博文本聚类;
3.3)输出话题簇。
所述步骤1.1)中,经过观察发现,文本长度小于10字符的微博,多是用户情感表达,不含有话题信息,本发明在预处理过程中删除这些超短微博。
所述步骤1.2),微博中通常含有URL链接、转发信息、特殊字符、HTML标签等无意义的信息,影响分词结果和话题检测,本发明在预处理过程中使用正则匹配表达式进行过滤。具体的正则表达式如表1所示。
表1微博过滤正则表达式
类型 正则表达式
URL链接 ((https|http|ftp|rtsp|mms)?:\/\/)[^\s]+
转发信息 @[\u4e00-\u9fa5a-zA-Z0-9_-]{2,30}
特殊字符 [.~!#$%\^\+\*&\\\/\?\|:\.{}()′;=″]
HTML标签 </?\w+[^>]*>>
所述步骤1.3)中,使用Jieba中文分词工具对微博进行分词和词性标注,并利用微博停用词表去除无意义的词。
所述步骤2)中,采用VSM对微博文本向量化,即微博m表示为:
m=[t1:w1,t2:w2,…,tn:wn]
式中ti表示m中的第i个特征词,wi表示特征词ti的权重。
所述步骤2.1)中,本发明使用了分布式词向量表示特征词,并利用公开的基于Word2Vec的Skip-gram语言模型训练中文百科网页语料来生成词向量语料库。
所述步骤2.2)中,由于微博长度限制在140字,过于短小导致分词后特征稀疏,因此本发明利用词向量间的语义关系增强特征。根据步骤1.3)词性标注,抽取名词和形容词这些更能表达话题信息的词语作为关键词,利用预训练的词向量语料库,将与关键词语义最相似的前K个词加入到文本表示中。由于在词向量空间中,每个词为向量空间中的一个点,语义相似的点距离更近,并且词向量之间存在一定的线性关系,可以通过简单的线性组合产生有意义的表达,所以本发明利用词向量对关键词进行语义增强,公式如下:
式中表示预训练词向量,/>表示词向量ti和词向量t1的余弦相似度,α是权重系数,本发明选取参数值为K=10,α=0.9。
本发明采用增量TF-IDF方法计算特征词权重,根据时间处理新发布的微博后更新IDF值,公式如下:
式中c表示当前时间,Nc表示截止当前时间c总共的微博数量,n(ti,c)表示截止当前时间c含有特征词ti的微博数量,根据增量TF-IDF方法计算特征词ti的权重wi,并进行归一化处理,公式如下:
式中tf(ti,m)表示特征词ti在微博m中出现的频率,tj表示微博m中的任一特征词。
本发明利用语义增强特征词向量ti_exp和特征词权重wi将微博m的语义向量mdis表示在固定维度的词向量空间模型中,公式如下:
所述步骤3)中,Single-Pass算法是数据流增量式聚类的经典方法,可以对微博平台进行从无到有的动态话题发现。
所述步骤3.1)中,由于微博话题对时间敏感,每个微博话题都有相对应的发生时间,因此本发明除了使用传统的文本表示话题簇之外,也将时间属性作为话题簇的衡量标准,即话题簇C表示为(Ctxt,Ct),式中Ctxt和Ct表示话题簇C的“文本簇中心”和“时间簇中心”,其通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得。在聚类过程中话题簇随着微博的添加而不断更新,添加新微博m后话题簇C的“文本簇中心”Ctxt和“时间簇中心”Ct动态更新的公式如下:
式中Ctxt_old和Ct_old表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”,N表示添加微博m后话题簇C的微博数量,mi表示微博m的发布时间,本发明使用Unix时间戳来计算话题簇C的“时间簇中心”Ct
对于Single-Pass算法的相似度计算,使用传统的夹角余弦公式计算微博m与话题簇C的“文本簇中心”Ctxt的内容相似度simtxt(m,C),而且利用微博的时间特性,在微博m与话题簇C的内容相似度simtxt(m,C)中融入时间衰减因子,得到微博m与话题簇C的相似度sim(m,C),公式如下:
式中表示时间衰减因子,β是时间衰减参数,本发明选取参数值为β=0.05。
所述步骤3.2)中,基于Single-Pass算法进行微博文本聚类,具体流程包括:
a)选取第一条微博作为初始话题簇;
b)输入新微博mi;
c)将mi与已有话题簇进行基于时间衰减的微博文本相似度计算,选择与mi相似度最大的话题簇并得到相似度值sim;
d)若sim大于相似度阈值T,则将mi加入到该话题簇中,更新该话题簇的“文本簇中心”Ctxt和“时间簇中心”Ct,跳转至f);
e)若sim小于相似度阈值T,则把mi创建为新的话题簇,跳转至f);
f)若还有微博未处理,跳转至b),否则,跳转至g);
g)结束。
本发明选取参数值为T=0.6。
所述步骤3.3)中,将步骤3.2)聚类过程中生成的话题簇输出,包括话题簇的时间中心值和话题簇中的微博文本。
与现有技术相比,本发明的有益效果是:基于特征增强的微博话题检测方法,通过增强微博关键词的语义信息,解决了文本特征稀疏的问题;通过采用词向量方法表示微博,丰富了文本语义信息,提高了话题检测时相似度计算效率;通过引入“簇中心”思想表示话题簇,减少了话题检测时微博与话题簇的比较次数;通过使用时间衰减的微博文本相似度计算方法,提升了同一话题中微博在时间上的关联度。
附图说明
图1为基于特征增强的微博话题检测方法流程图。
图2为微博文本预处理流程图。
图3为微博文本向量化流程图。
图4为微博文本聚类流程图。
图5为基于Single-Pass算法进行微博文本聚类的流程图。
图6为微博数据进行话题检测流程图。
具体实施方式
为了加深对本发明的理解,下面结合附图和实施例对本发明进一步说明,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
本发明提供一种基于特征增强的微博话题检测方法,如图1所示,本发明方法的流程主要包括:
步骤S1,微博文本预处理;
步骤S2,微博文本向量化及语义增强;
步骤S3,基于Single-Pass算法进行微博文本聚类。
由于用户发布的微博质量参差不齐,含有的噪声信息较多,因此,对数据进行预处理是挖掘话题信息的第一步。如图2所示,所述步骤S1,进一步包括:
步骤S1.1,去除超短微博。经过观察发现,文本长度小于10字符的微博,多是用户情感表达,不含有话题信息,在预处理过程中删除这些超短微博。
步骤S1.2,过滤无意义信息。微博中通常含有URL链接、转发信息、特殊字符、HTML标签等无意义的信息,影响分词结果和话题检测,在预处理过程中使用正则匹配表达式进行过滤。具体的正则表达式如表2所示。
表2微博过滤正则表达式
类型 正则表达式
URL链接 ((https|http|ftp|rtsp|mms)?:\/\/)[^\s]+
转发信息 @[\u4e00-\u9fa5a-zA-Z0-9_-]{2,30}
特殊字符 [.~!#$%\^\+\*&\\\/\?\|:\.{}()′;=″]
HTML标签 </?\w+[^>]*>>
步骤S1.3,分词和词性标注。本发明使用目前主流的中文分词工具结巴(Jieba)进行微博分词和词性标注。针对分词结果中的标点符号、特殊表情、介词、助词、连词、语气词、感叹词等无明确意义的词语,本发明通过构建微博停用词表来去除。
通过步骤S1得到较为规范化的微博分词数据后,步骤S2采用VSM对文本进行向量化,即微博m表示为:
m=[t1:w1,t2:w2,…,tn:wn]
式中ti表示m中的第i个特征词,wi表示特征词ti的权重。如图3所示,所述步骤S2,进一步包括:
步骤S2.1,特征词向量表示。本发明采用了分布式词向量表示特征词,并利用公开的基于Word2Vec的Skip-gram语言模型训练中文百科网页语料来生成词向量语料库。
步骤S2.2,基于特征词语义增强的微博文本表示。由于微博长度限制在140字,过于短小导致分词后特征稀疏,因此本发明利用词向量间的语义关系增强特征。根据步骤S1.3词性标注,抽取名词和形容词这些更能表达话题信息的词语作为微博的关键词,利用预训练的词向量语料库,将与关键词语义最相似的前K个词融入到文本表示中。由于在词向量空间中,每个词为向量空间中的一个点,语义相似的点距离更近,并且词向量之间存在一定的线性关系,可以通过简单的线性组合产生有意义的表达,所以本发明利用词向量对关键词进行语义增强,公式如下:
式中表示预训练词向量,/>表示词向量ti和词向量t1的余弦相似度,α是权重系数,本发明选取参数值为K=10,α=0.9。
本发明采用增量TF-IDF方法计算特征词权重,根据时间处理新发布的微博后更新IDF值,公式如下:
式中c表示当前时间,Nc表示截止当前时间c总共的微博数量,n(ti,c)表示截止当前时间c含有特征词ti的微博数量,根据增量TF-IDF方法计算特征词ti的权重wi,并进行归一化处理,公式如下:
式中tf(ti,m)表示特征词ti在微博m中出现的频率,tj表示微博m中的任一特征词。
为了更好地表达文本语义信息,提高话题检测时相似度计算效率,本发明利用语义增强特征词向量ti_exp和特征词权重wi将微博m的语义向量mdis表示在固定维度的词向量空间模型中,公式如下:
本发明采用基于Single-Pass算法进行微博文本聚类。如图4所示,所述步骤S3,进一步包括:
步骤S3.1,话题簇表示和基于时间衰减的微博文本相似度计算标准。由于微博话题对时间敏感,每个微博话题都有相对应的发生时间,因此本发明除了使用传统的文本表示话题簇之外,也将时间属性作为话题簇的衡量标准,即话题簇C表示为(Ctxt,Ct),式中Ctxt和Ct表示话题簇C的“文本簇中心”和“时间簇中心”,其通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得。新产生的微博只与“簇中心”进行相似度比较,减少计算量,提高话题聚类的时间效率。在聚类过程中话题簇随着微博的添加而不断更新,添加新微博m后话题簇C的“文本簇中心”Ctxt和“时间簇中心”Ct动态更新的公式如下:
式中Ctxt_old和Ct_old表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”,N表示添加微博m后话题簇C的微博数量,mt表示微博m的发布时间,本发明使用Unix时间戳来计算话题簇C的“时间簇中心”Ct
对于Single-Pass算法的相似度计算,本发明使用传统的夹角余弦公式计算微博m与话题簇C的“文本簇中心”Ctxt的内容相似度simtxt(m,C),而且利用微博的时间特性,在微博m与话题簇C的内容相似度simtxt(m,C)中融入时间衰减因子,得到微博m与话题簇C的相似度sim(m,C),公式如下:
式中表示时间衰减因子,β是时间衰减参数,本发明选取参数值为β=0.05。
步骤S3.2中,基于Single-Pass算法进行微博文本聚类。如图5所示,具体流程包括:
a)选取第一条微博作为初始话题簇;
b)输入新微博mi
c)将mi与已有话题簇进行基于时间衰减的微博文本相似度计算,选择与mi相似度最大的话题簇并得到相似度值sim;
d)若sim大于相似度阈值T,则将mi加入到该话题簇中,更新该话题簇的“文本簇中心”Ctxt和“时间簇中心”Ct,跳转至f);
e)若sim小于相似度阈值T,则把mi创建为新的话题簇,跳转至f);
f)若还有微博未处理,跳转至b),否则,跳转至g);
g)结束。
本发明选取参数值为T=0.6。
步骤S3.3中,输出话题簇。将步骤S3.2聚类过程中生成的话题簇输出,包括话题簇的时间中心值和话题簇中的微博文本。
对于从新浪微博平台产生的微博数据,本发明采用如图6所示的流程进行微博热点话题的检测,主要包括微博文本预处理、微博文本向量化及语义增强和基于Single-Pass算法进行微博文本聚类三个流程将微博数据进行高效地分析处理,挖掘出数据中蕴含的话题信息。
以上所述,仅为本发明的较佳实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。

Claims (1)

1.一种基于特征增强的微博话题检测方法,其特征在于,包括如下步骤:
1)微博文本预处理,包括:
1.1)去除超短微博;
1.2)过滤无意义信息;
1.3)分词和词性标注;
2)微博文本向量化,包括:
2.1)特征词向量表示;
2.2)基于特征词语义增强的微博文本表示,利用语义增强特征词向量ti_exp和特征词向量权重wi将微博m的语义向量mdis表示在固定维度的词向量空间模型中,公式如下:
3)微博文本聚类,包括:
3.1)话题簇表示和基于时间衰减的微博文本相似度计算标准;在相似度计算中,使用夹角余弦公式计算微博m与话题簇C的“文本簇中心”Ctxt的内容相似度simtxt(m,C),而且利用微博的时间特性,在微博m与话题簇C的内容相似度simtxt(m,C)中融入时间衰减因子,得到微博m与话题簇C的相似度sim(m,C),公式如下:
式中表示时间衰减因子,β是时间衰减参数,β=0.05;
3.2)基于Single-Pass算法进行微博文本聚类;
3.3)输出话题簇;
步骤2.2)所述的基于特征词语义增强的微博文本表示,包括根据词性标注,抽取名词和形容词作为关键词,并利用预训练的词向量语料库,将与关键词语义最相似的前K个词加入到文本表示中,公式如下:
式中表示预训练词向量,/>表示特征词向量ti和特征词向量tl的余弦相似度,α是权重系数,参数值选取为K=10,α=0.9;
采用增量TF-IDF方法计算特征词权重,根据时间处理新发布的微博后更新IDF值,公式如下:
式中c表示当前时间,Nc表示截止当前时间c总共的微博数量,n(ti,c)表示截止当前时间c含有特征词向量ti的微博数量,根据增量TF-IDF方法计算特征词向量ti的权重wi,并进行归一化处理,公式如下:
式中tf(ti,m)表示特征词向量ti在微博m中出现的频率,tj表示微博m中的任一特征词向量;
步骤3.1)所述的话题簇表示和基于时间衰减的微博文本相似度计算标准,包括除了使用文本表示话题簇之外,也将时间属性作为话题簇的衡量标准,Ctxt和Ct表示话题簇C的“文本簇中心”和“时间簇中心”,分别通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得,在聚类过程中话题簇C随着微博的添加而不断更新,添加新微博m后话题簇C的“文本簇中心”Ctxt和“时间簇中心”Ct动态更新的公式如下:
式中Ctxt_old和Ct_old表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”,N表示添加微博m后话题簇C的微博数量,mt表示微博m的发布时间,使用Unix时间戳来计算话题簇C的“时间簇中心”Ct
CN201910219638.7A 2019-03-19 2019-03-19 一种基于特征增强的微博话题检测方法 Active CN110069703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910219638.7A CN110069703B (zh) 2019-03-19 2019-03-19 一种基于特征增强的微博话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910219638.7A CN110069703B (zh) 2019-03-19 2019-03-19 一种基于特征增强的微博话题检测方法

Publications (2)

Publication Number Publication Date
CN110069703A CN110069703A (zh) 2019-07-30
CN110069703B true CN110069703B (zh) 2023-10-24

Family

ID=67366529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910219638.7A Active CN110069703B (zh) 2019-03-19 2019-03-19 一种基于特征增强的微博话题检测方法

Country Status (1)

Country Link
CN (1) CN110069703B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694958A (zh) * 2020-06-05 2020-09-22 深兰人工智能芯片研究院(江苏)有限公司 基于词向量与single-pass融合的微博话题聚类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN109325117B (zh) * 2018-08-24 2022-10-11 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法

Also Published As

Publication number Publication date
CN110069703A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
Thakkar et al. Approaches for sentiment analysis on twitter: A state-of-art study
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
Venugopalan et al. Exploring sentiment analysis on twitter data
El-Fishawy et al. Arabic summarization in twitter social network
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN105068991A (zh) 一种基于大数据的舆情发现方法
Kaviani et al. Emhash: Hashtag recommendation using neural network based on bert embedding
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN108536667A (zh) 中文文本识别方法及装置
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Gupta et al. Sentiment analysis using support vector machine
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
Yilahun et al. Entity extraction based on the combination of information entropy and TF-IDF
Jedrzejewski et al. Opinion mining and social networks: A promising match
CN110069703B (zh) 一种基于特征增强的微博话题检测方法
Saad et al. Detection of sentiment polarity of unstructured multi-language text from social media
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant