CN109086355B - 基于新闻主题词的热点关联关系分析方法及系统 - Google Patents

基于新闻主题词的热点关联关系分析方法及系统 Download PDF

Info

Publication number
CN109086355B
CN109086355B CN201810787254.0A CN201810787254A CN109086355B CN 109086355 B CN109086355 B CN 109086355B CN 201810787254 A CN201810787254 A CN 201810787254A CN 109086355 B CN109086355 B CN 109086355B
Authority
CN
China
Prior art keywords
keywords
news
data
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810787254.0A
Other languages
English (en)
Other versions
CN109086355A (zh
Inventor
徐汕
梁炬
张晶亮
杨端
姜桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Casicloud Co ltd
Original Assignee
Beijing Casicloud Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Casicloud Co ltd filed Critical Beijing Casicloud Co ltd
Priority to CN201810787254.0A priority Critical patent/CN109086355B/zh
Publication of CN109086355A publication Critical patent/CN109086355A/zh
Application granted granted Critical
Publication of CN109086355B publication Critical patent/CN109086355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于新闻主题词的热点关联关系分析方法及系统,统计每篇新闻的阅读量,计算每个关键词的所有阅读量;将关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;原生数据将数据处理成JSON格式,数组中的对象使用key‑value键值对表示关键词和阅读量,相似度相近的在同一对象中;根据数据生成关键词的关系图;采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。本发明有益效果:将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化。

Description

基于新闻主题词的热点关联关系分析方法及系统
技术领域
本发明涉及人工智能领域的自然语言处理方法,具体来说,涉及一种基于新闻主题词的热点关联关系分析方法。
背景技术
随着互联网的发展和普及,互联网新闻报道已是人们获取社会信息的主要手段,如何快速准确地获取互联网新闻热点话题及探索各热点话题之间的关联关系是一个急需解决的问题,新闻热点检测及新闻话题关联关系探索具有很重要的社会价值。
目前,我国针对网络舆情的研究非常活跃,积累了大量的成果。国内外一些学者就这个问题展开了研究,曾依灵等人根据网络热点信息的特点提出以切分词为基础进行多级过滤的拼接算法,该算法可以提取出能够代表网络热点话题的信息串,该算法的缺点是难以保证切分词和多级过滤的效率,不能满足在线话题识别的应用;孙学刚等人提出了基于二次特征提取和聚类的Web文档的主题聚类方法,该算法在不利用任何先验知识的前提下,实现Web文档的主题聚类,但是该算法的缺点是只针对具有明显特征的Web文档,而现实的网络新闻并不是都具有明显特征,因此该算法存在一定的局限性;周亚东等人提出了流量内容中热点词语相关度计算算法,并采用基于高密度连接区的密度聚类方法得到热点簇,该算法与k-均值聚类算法都存在无法满足热点话题发现的实时性。综上所述,结合新闻自身特点和用户关注热点的舆情可视化分析研究工作并不多。
通常人们难以从海量的网络文本中直接获取到有效的信息,因此大大限制了分析信息的能力。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于新闻主题词的热点关联关系分析方法,能够将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性,同时对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于新闻主题词的热点关联关系分析方法,包括以下步骤:
S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
S4原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5根据数据生成关键词的关系图;
S6采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
进一步地,所述步骤S5中生成关键词的关系图具体步骤如下:
S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52nodes与edges分数组存储;
S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
进一步地,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:
S31使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
进一步地,所述步骤S1中TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
Figure BDA0001733980830000031
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
Figure BDA0001733980830000032
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
Figure BDA0001733980830000033
Figure BDA0001733980830000034
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
本发明另一方面,提供一种基于新闻主题词的热点关联关系分析系统,包括:
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
进一步地,所述生成模块包括
第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
存储模块,用于将nodes与edges分数组存储;
调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
进一步地,所述计算模块包括
分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
训练模块,用于使用所有文本文档的分词结果训练word2vec模型;
输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
本发明的有益效果:
将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
采用分词提取新闻的摘要及关键词,同时结合用户阅读数据找出新闻热点,进一步计算新闻主题词的热点关联关系并进行可视化展示,同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于新闻主题词的热点关联关系分析方法的流程图;
图2是根据本发明实施例所述的生成关键词的关系图的流程图;
图3是根据本发明实施例所述的将所述关键词向量化的流程图;
图4是根据本发明实施例所述的基于新闻主题词的热点关联关系分析系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的一种基于新闻主题词的热点关联关系分析方法,包括以下步骤:
S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
其中,对提取的摘要通过TextTank算法提取3个关键词,对新闻标题提取2个关键词。
TextRank算法关键步骤具体如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注,例如使用N-最短路径分词,采用马尔科夫模型进行词性标注;
S12对分词后的结果进行去停用词操作,主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等,得到处理后的文本数据;
S13根据计算分词处理后的文本数据的TextRank算法得分,计算公式如下:
Figure BDA0001733980830000061
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合;
S14在通过TextRank算法获取关键词中,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1,即任意词之间的Wji=1;
S15在通过TextRank算法获取文本摘要时,一般认为全部句子是相邻的,不提取窗口,词与词之间的权重采用BM25相似度算法获得,BM25算法计算公式如下:
Figure BDA0001733980830000062
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
Figure BDA0001733980830000063
Figure BDA0001733980830000064
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
其中,将统计每篇新闻的阅读量,作为该新闻5个关键字的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量。
S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前5个词;
其中,Word2vec词向量化关键步骤如下:
S31使用人民日报2014年语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
S4原生数据需要将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5根据数据生成关键词的关系图;
其中,生成关键词的关系图具体步骤如下:
S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52以关键词作为nodes与关键词之间的相似度作为edges按数组存储;
S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表;
S6根据数据生成的关键词的关系图具有一定的稳定性,点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点和点之间线的连接体现了相似关键词的关系,在交互上,添加了鼠标悬浮显示当前点的对应关系,鼠标滚动放大关系图,鼠标拖动某个点,改变关系图状态。
如图4所示,本发明另一方面,提供一种基于新闻主题词的热点关联关系分析系统,包括提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
在本发明的一个具体实施例中,所述生成模块包括第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;存储模块,用于将nodes与edges分数组存储;调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
在本发明的一个具体实施例中,所述计算模块包括分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;训练模块,用于使用所有文本文档的分词结果训练word2vec模型;输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
综上所述,借助于本发明的上述技术方案,将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
采用分词提取新闻的摘要及关键词,同时结合用户阅读数据找出新闻热点,进一步计算新闻主题词的热点关联关系并进行可视化展示,同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于新闻主题词的热点关联关系分析方法,其特征在于,包括以下步骤:
S1 针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
S2 统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S3 使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
S4 原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5 根据数据生成关键词的关系图;
S6 采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
2.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S5中生成关键词的关系图具体步骤如下:
S51 使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52 nodes与edges分数组存储;
S53 将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
3.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:
S31 使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33 将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
4.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S1中TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
5.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S13中,计算公式如下:
Figure DEST_PATH_IMAGE002
其中,dc为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wij表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合,Out(Vj)表示文本中以Vj起点的出边集合。
6.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S15中,BM25算法计算公式如下:
Figure DEST_PATH_IMAGE004
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
Figure DEST_PATH_IMAGE006
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为 qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16 通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
7.一种基于新闻主题词的热点关联关系分析系统,其特征在于,包括:
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
8.根据权利要求7所述的分析系统,其特征在于,所述生成模块包括第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
存储模块,用于将nodes与edges分数组存储;
调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
9.根据权利要求7或8所述的分析系统,其特征在于,所述计算模块包括分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
训练模块,用于使用所有文本文档的分词结果训练word2vec模型;
输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
CN201810787254.0A 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统 Active CN109086355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787254.0A CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787254.0A CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Publications (2)

Publication Number Publication Date
CN109086355A CN109086355A (zh) 2018-12-25
CN109086355B true CN109086355B (zh) 2022-05-17

Family

ID=64837680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787254.0A Active CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Country Status (1)

Country Link
CN (1) CN109086355B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413863A (zh) * 2019-08-01 2019-11-05 信雅达系统工程股份有限公司 一种基于深度学习的舆情新闻去重与推送方法
CN110765767B (zh) * 2019-09-19 2024-01-19 平安科技(深圳)有限公司 局部优化关键词的提取方法、装置、服务器及存储介质
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN112035658B (zh) * 2020-08-05 2024-04-30 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法
CN112232072A (zh) * 2020-10-27 2021-01-15 上海安畅网络科技股份有限公司 质性分析方法、装置、电子设备及计算机可读存储介质
CN113127576B (zh) * 2021-04-15 2024-05-24 微梦创科网络科技(中国)有限公司 一种基于用户内容消费分析的热点发现方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294818B (zh) * 2013-06-12 2016-05-18 北京航空航天大学 多信息融合的微博热点话题检测方法
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法

Also Published As

Publication number Publication date
CN109086355A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
US20180341696A1 (en) Method and system for detecting overlapping communities based on similarity between nodes in social network
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN102929861B (zh) 一种文本情感指数计算方法和系统
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108520009A (zh) 一种英文文本聚类方法及系统
Terragni et al. Word embedding-based topic similarity measures
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
Nodarakis et al. Using hadoop for large scale analysis on twitter: A technical report
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Khan et al. Urdu sentiment analysis
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
Shah et al. Cyber-bullying detection in hinglish languages using machine learning
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
Naik et al. Tweet Summarization: A New Approch
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备
Alharithi Performance analysis of machine learning approaches in automatic classification of Arabic language
CN112214575A (zh) 面向不同社交媒体平台用户活动领域类别划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant