CN109086355A - 基于新闻主题词的热点关联关系分析方法及系统 - Google Patents

基于新闻主题词的热点关联关系分析方法及系统 Download PDF

Info

Publication number
CN109086355A
CN109086355A CN201810787254.0A CN201810787254A CN109086355A CN 109086355 A CN109086355 A CN 109086355A CN 201810787254 A CN201810787254 A CN 201810787254A CN 109086355 A CN109086355 A CN 109086355A
Authority
CN
China
Prior art keywords
keyword
data
news
word
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810787254.0A
Other languages
English (en)
Other versions
CN109086355B (zh
Inventor
徐汕
梁炬
张晶亮
杨端
姜桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Cloud Co Ltd
Original Assignee
Beijing Aerospace Cloud Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Cloud Co Ltd filed Critical Beijing Aerospace Cloud Co Ltd
Priority to CN201810787254.0A priority Critical patent/CN109086355B/zh
Publication of CN109086355A publication Critical patent/CN109086355A/zh
Application granted granted Critical
Publication of CN109086355B publication Critical patent/CN109086355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于新闻主题词的热点关联关系分析方法及系统,统计每篇新闻的阅读量,计算每个关键词的所有阅读量;将关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;原生数据将数据处理成JSON格式,数组中的对象使用key‑value键值对表示关键词和阅读量,相似度相近的在同一对象中;根据数据生成关键词的关系图;采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。本发明有益效果:将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化。

Description

基于新闻主题词的热点关联关系分析方法及系统
技术领域
本发明涉及人工智能领域的自然语言处理方法,具体来说,涉及一种基于新闻主题词的热点关联关系分析方法。
背景技术
随着互联网的发展和普及,互联网新闻报道已是人们获取社会信息的主要手段,如何快速准确地获取互联网新闻热点话题及探索各热点话题之间的关联关系是一个急需解决的问题,新闻热点检测及新闻话题关联关系探索具有很重要的社会价值。
目前,我国针对网络舆情的研究非常活跃,积累了大量的成果。国内外一些学者就这个问题展开了研究,曾依灵等人根据网络热点信息的特点提出以切分词为基础进行多级过滤的拼接算法,该算法可以提取出能够代表网络热点话题的信息串,该算法的缺点是难以保证切分词和多级过滤的效率,不能满足在线话题识别的应用;孙学刚等人提出了基于二次特征提取和聚类的Web文档的主题聚类方法,该算法在不利用任何先验知识的前提下,实现Web文档的主题聚类,但是该算法的缺点是只针对具有明显特征的Web文档,而现实的网络新闻并不是都具有明显特征,因此该算法存在一定的局限性;周亚东等人提出了流量内容中热点词语相关度计算算法,并采用基于高密度连接区的密度聚类方法得到热点簇,该算法与k-均值聚类算法都存在无法满足热点话题发现的实时性。综上所述,结合新闻自身特点和用户关注热点的舆情可视化分析研究工作并不多。
通常人们难以从海量的网络文本中直接获取到有效的信息,因此大大限制了分析信息的能力。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于新闻主题词的热点关联关系分析方法,能够将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性,同时对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于新闻主题词的热点关联关系分析方法,包括以下步骤:
S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
S4原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5根据数据生成关键词的关系图;
S6采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
进一步地,所述步骤S5中生成关键词的关系图具体步骤如下:
S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52nodes与edges分数组存储;
S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
进一步地,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:
S31使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
进一步地,所述步骤S1中TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
本发明另一方面,提供一种基于新闻主题词的热点关联关系分析系统,包括:
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
进一步地,所述生成模块包括
第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
存储模块,用于将nodes与edges分数组存储;
调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
进一步地,所述计算模块包括
分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
训练模块,用于使用所有文本文档的分词结果训练word2vec模型;
输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
本发明的有益效果:
将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
采用分词提取新闻的摘要及关键词,同时结合用户阅读数据找出新闻热点,进一步计算新闻主题词的热点关联关系并进行可视化展示,同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于新闻主题词的热点关联关系分析方法的流程图;
图2是根据本发明实施例所述的生成关键词的关系图的流程图;
图3是根据本发明实施例所述的将所述关键词向量化的流程图;
图4是根据本发明实施例所述的基于新闻主题词的热点关联关系分析系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的一种基于新闻主题词的热点关联关系分析方法,包括以下步骤:
S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
其中,对提取的摘要通过TextTank算法提取3个关键词,对新闻标题提取2个关键词。
TextRank算法关键步骤具体如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注,例如使用N-最短路径分词,采用马尔科夫模型进行词性标注;
S12对分词后的结果进行去停用词操作,主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等,得到处理后的文本数据;
S13根据计算分词处理后的文本数据的TextRank算法得分,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合;
S14在通过TextRank算法获取关键词中,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1,即任意词之间的Wji=1;
S15在通过TextRank算法获取文本摘要时,一般认为全部句子是相邻的,不提取窗口,词与词之间的权重采用BM25相似度算法获得,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
其中,将统计每篇新闻的阅读量,作为该新闻5个关键字的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量。
S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前5个词;
其中,Word2vec词向量化关键步骤如下:
S31使用人民日报2014年语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
S4原生数据需要将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5根据数据生成关键词的关系图;
其中,生成关键词的关系图具体步骤如下:
S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52以关键词作为nodes与关键词之间的相似度作为edges按数组存储;
S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表;
S6根据数据生成的关键词的关系图具有一定的稳定性,点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点和点之间线的连接体现了相似关键词的关系,在交互上,添加了鼠标悬浮显示当前点的对应关系,鼠标滚动放大关系图,鼠标拖动某个点,改变关系图状态。
如图4所示,本发明另一方面,提供一种基于新闻主题词的热点关联关系分析系统,包括提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
在本发明的一个具体实施例中,所述生成模块包括第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;存储模块,用于将nodes与edges分数组存储;调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
在本发明的一个具体实施例中,所述计算模块包括分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;训练模块,用于使用所有文本文档的分词结果训练word2vec模型;输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
综上所述,借助于本发明的上述技术方案,将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
采用分词提取新闻的摘要及关键词,同时结合用户阅读数据找出新闻热点,进一步计算新闻主题词的热点关联关系并进行可视化展示,同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于新闻主题词的热点关联关系分析方法,其特征在于,包括以下步骤:
S1 针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
S2 统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S3 使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
S4 原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
S5 根据数据生成关键词的关系图;
S6 采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
2.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S5中生成关键词的关系图具体步骤如下:
S51 使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
S52 nodes与edges分数组存储;
S53 将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
3.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:
S31 使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
S32使用所有文本文档的分词结果训练word2vec模型;
S33 将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
4.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S1中TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
5.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,表示文本数据中第i个词,表示文本数据中第i个词和第j个词之间的权重,表示文本数据中以为终点的入边集合,表示文本中以起点的出边集合。
6.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,表示Q进行分词后的结果列表中的词;d表示处理的文档;表示的权重(一般使用TF-IDF值来作为权重);表示与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16 通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。
7.一种基于新闻主题词的热点关联关系分析系统,其特征在于,包括:
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;
第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;
生成模块,用于根据数据生成关键词的关系图;
划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。
8.根据权利要求7所述的分析系统,其特征在于,所述生成模块包括第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;
存储模块,用于将nodes与edges分数组存储;
调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。
9.根据权利要求7或8所述的分析系统,其特征在于,所述计算模块包括分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;
训练模块,用于使用所有文本文档的分词结果训练word2vec模型;
输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。
CN201810787254.0A 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统 Active CN109086355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787254.0A CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787254.0A CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Publications (2)

Publication Number Publication Date
CN109086355A true CN109086355A (zh) 2018-12-25
CN109086355B CN109086355B (zh) 2022-05-17

Family

ID=64837680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787254.0A Active CN109086355B (zh) 2018-07-18 2018-07-18 基于新闻主题词的热点关联关系分析方法及系统

Country Status (1)

Country Link
CN (1) CN109086355B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413863A (zh) * 2019-08-01 2019-11-05 信雅达系统工程股份有限公司 一种基于深度学习的舆情新闻去重与推送方法
CN110765767A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 局部优化关键词的提取方法、装置、服务器及存储介质
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN112035658A (zh) * 2020-08-05 2020-12-04 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法
CN112232072A (zh) * 2020-10-27 2021-01-15 上海安畅网络科技股份有限公司 质性分析方法、装置、电子设备及计算机可读存储介质
CN113127576A (zh) * 2021-04-15 2021-07-16 微梦创科网络科技(中国)有限公司 一种基于用户内容消费分析的热点发现方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294818A (zh) * 2013-06-12 2013-09-11 北京航空航天大学 多信息融合的微博热点话题检测方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413863A (zh) * 2019-08-01 2019-11-05 信雅达系统工程股份有限公司 一种基于深度学习的舆情新闻去重与推送方法
CN110765767A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 局部优化关键词的提取方法、装置、服务器及存储介质
CN110765767B (zh) * 2019-09-19 2024-01-19 平安科技(深圳)有限公司 局部优化关键词的提取方法、装置、服务器及存储介质
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN112035658A (zh) * 2020-08-05 2020-12-04 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法
CN112035658B (zh) * 2020-08-05 2024-04-30 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法
CN112232072A (zh) * 2020-10-27 2021-01-15 上海安畅网络科技股份有限公司 质性分析方法、装置、电子设备及计算机可读存储介质
CN113127576A (zh) * 2021-04-15 2021-07-16 微梦创科网络科技(中国)有限公司 一种基于用户内容消费分析的热点发现方法及系统
CN113127576B (zh) * 2021-04-15 2024-05-24 微梦创科网络科技(中国)有限公司 一种基于用户内容消费分析的热点发现方法及系统

Also Published As

Publication number Publication date
CN109086355B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
CN110516067A (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN110134781A (zh) 一种金融文本摘要自动抽取方法
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset
CN114579731A (zh) 基于多特征融合的网络信息话题检测方法、系统及装置
Choi et al. Automatic image annotation using semantic text analysis
Kessler et al. Extraction of terminology in the field of construction
Nasim et al. Evaluation of clustering techniques on Urdu News head-lines: A case of short length text
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
Zamiralov et al. Detection of housing and utility problems in districts through social media texts
Zong et al. Research on alignment in the construction of parallel corpus
Zheng et al. Architecture Descriptions Analysis Based on Text Mining and Crawling Technology
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Das et al. Semantic segmentation of MOOC lecture videos by analyzing concept change in domain knowledge graph
Sirajzade et al. The LuNa Open Toolbox for the Luxembourgish Language
Zhang et al. Automatic web news extraction based on DS theory considering content topics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant