CN105354333B - 一种基于新闻文本的话题提取方法 - Google Patents

一种基于新闻文本的话题提取方法 Download PDF

Info

Publication number
CN105354333B
CN105354333B CN201510887551.9A CN201510887551A CN105354333B CN 105354333 B CN105354333 B CN 105354333B CN 201510887551 A CN201510887551 A CN 201510887551A CN 105354333 B CN105354333 B CN 105354333B
Authority
CN
China
Prior art keywords
word
article
topic
weight
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510887551.9A
Other languages
English (en)
Other versions
CN105354333A (zh
Inventor
雷涛
吕慧
张鹏起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Sunac Data Technology (beijing) Co Ltd
Original Assignee
Tianyun Sunac Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Sunac Data Technology (beijing) Co Ltd filed Critical Tianyun Sunac Data Technology (beijing) Co Ltd
Priority to CN201510887551.9A priority Critical patent/CN105354333B/zh
Publication of CN105354333A publication Critical patent/CN105354333A/zh
Application granted granted Critical
Publication of CN105354333B publication Critical patent/CN105354333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种基于新闻文本的话题提取方法。操作步骤如下:第一,设置用户自定义词典,并对文本进行预处理,生成词语文本,词性和分词序列向量。第二,根据词频等词语信息进行权重计算并排序,从新闻标题和内容中提取出权重较大的词语作为该文章的主题词序列。第三,根据所有文章的主题词权重获取文本集合的热点主题词序列。第四,通过主题词组合形成话题的主题词表达向量。第五,利用文章标题、主题词、内容与话题的主题词表达向量中线索词的包含关系进行话题聚合,最终获得多个热点话题。本发明通过利用文章主题词来表达文章主题并进行相关文章聚合,最终利用两个线索词表示当前的一个热点新闻话题。

Description

一种基于新闻文本的话题提取方法
技术领域
本发明涉及自然语言处理,人工智能领域,具体涉及一种基于新闻文本的话题提取方法。
背景技术
随着互联网的普及,人们获取信息的方式越来越多,网络逐渐成为社会中各种信息的载体。特别是随着中国经济的不断发展,网上新闻产品逐渐成为人们获取信息的重要渠道,越来越多的人通过网络获取实时新闻及其相关信息。Web文本已成为我们获取信息的重要来源,每天都有大量的新闻热点产生,如何从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。
一般的文本聚类技术大多采用机器学习算法中的自动文本聚类方法,首先对文本进行预处理,将文本表示成特征词的向量表示,然后根据文本的相似性进行聚类。对文本进行聚类多采用single-pass算法,K最邻近结点算法(KNN),k-means算法等。这些聚类算法都存在着各种各样的缺点,single-pass算法与文章输入的顺序相关性很大;KNN算法则存在时间复杂度较高;而k-means算法则必须提前确定聚类个数,但是这点通常是比较困难的。并且这些算法在聚类完成以后得到的聚类结果往往不知所云,我们无法用具体的词汇或内容来表示聚类结果。
发明内容
大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,而且通过人工的方式来提取当前热点新闻是一件非常繁琐和困难的事情。本发明基于文本主题词的提取算法,通过热点词组合的聚类技术来获取当前文本集合的热点话题。用两个热点主题词表示一个话题,即克服了一个热点词表示话题的片面性,同时又将相关的文章进行了聚合。
本文提供了一种文本聚类的方法,用于提取当前文本集合的热点话题,帮助用户更好的掌握当前新闻的热点。从互联网上采集近期的新闻文本,然后通过主题词提取算法,从各篇文章中提取出主题词形成该文章的主题词序列,通过各篇文章的主题词序列综合计算出当前文本集合的热点主题词序列,并用热点主题词组合的方式表示热点话题;一般两个热点主题词就可以表示当前的一个热点话题。如:“GDP”和“增速”,通过这两个词我们就可以知道当前讨论的一个热点是与我国的GDP增长速度相关的新闻话题。
上述发明包括如下步骤:
步骤1:通过人工添加或新词识别的方法,构建新闻领域词典,确保提取的词语能够覆盖到新闻领域的常用词和新词。
步骤2:文本预处理。对当前新闻文本集合中所有文本进行分词处理,并进行停用词过滤,得到分词后的包含词语和词性的分词序列向量。
步骤3:统计词语频率,文档频率,以及每篇文章中每个词语在文章中首次出现的位置。
步骤4:根据词语权重抽取每篇文章的主题词。文章的主题词定义为通过一定方式从文章标题和内容中抽取出来的,能够简要精准地表达该文章主要思想的词语集合。词语权重计算过程为:根据统计信息计算文章中各个词语的权重,词语的权重代表了词语在文章中的表达性重要程度,每个词语对文章的权重影响由两部分组成,可表示为,
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
式中:W(t,d)表示词语t在文章d中的权重;a,b表示权重系数,其中a+b=1;norm表示归一化处理,norm(Wa(t,d))表示词频,文档频率和词性对词语权重影响,norm(Wb(t,d))表示词语长度和词语位置对词语权重影响。具体过程如下:
步骤401:首先计算每篇文章中各个词的词频,文档频率和词性对文章的影响权重
Wa(t,d)=log2(tf(t,d))*log2(Nd/nt)*W(POS(t))
式中:tf(t,d)表示词语t在文档d中出现的频率;Nd表示文档集合中文档数目,nt表示包含该词语的文档数目;W(POS(t))表示词语t的词性权重,当词性为名词时权重为2,当词性为用户自定义时权重为1.8,当词性为动词时权重为1.5,其余词性权重为1;
步骤402:计算词语长度和词语在文章中首次出现的位置对词语权重影响
Wb(t,d)=len(t)*W(pos(t,d))
式中:len(t)表示词语t的长度;W(pos(t,d))表示词语t在文章d中的位置权重,W(pos(t,d))=(N-firstpos(t))/N,其中N为文章词语总数,firstpos(t)表示词语t在文章中首次出现的位置。
步骤403:对词语权重两部分分别进行归一化处理如下:
步骤404:计算出词语在文章中的权重
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
步骤5:对每篇文章中词语进行权重降序排列,提取出前六个作为主题词,一般情况下,从标题中提取三个,从正文中提取三个,如果标题中提取词语数目达不到三个,则剩余的从正文中补足。然后对这些词进行过滤,如果一个词语包含另一个词语则将权重较小的词语删除,并进行补全,将最终的六个词语作为该文章的主题词序列
Topt(d)={tt1,tt2,tt3,tt4,tt5,tt6}
步骤6:提取当前新闻文本集合热点主题词序列。对所有文章的六个主题词按照相同词语权重相加的方式,获取到文本集合中所有主题词的权重,然后将所有主题词按照权重值进行降序排列,得到文本集合的热点主题词序列:
HotT={ht1,ht2,…,htk},k=1,2,...,m
其中,m表示热点词主题序列的大小。
步骤7:将排好序的热点主题词序列HotT中的第一个词语ht1作为热点话题的第一个线索词,对文章进行聚类。其步骤如下
步骤701:根据ht1找到文章主题词序列中包含这个词的文章集合
式中表示包含线索词ht1的第i篇文章。
步骤702:按照步骤6中文章主题词序列权重相加合并的方式提取文章集合HotTDSet1中的主题词集合,取出权重值最大的前5个词
步骤703:取出FHotTSet1的第一个词作为第二个线索词与ht1组合形成一个热点话题主题词表达向量。
步骤704:找出与ht1组成的热点话题的相关文章集合。
首先,将文章主题词序列中同时包含与ht1的文章加入到话题相关文章集合中。
然后,将文章主题词序列中包含ht1,文章标题包含的文章,或者主题词序列中包含文章标题中包含ht1的文章加入到话题相关文章集合中。
最后,将文章主题词序列中包含ht1,文章内容中包含并且其权重大于阈值Vth(根据经验选取Vth=0.3)的文章或者主题词序列中包含而文章内容中包含ht1并且其权重大于阈值Vth的文章加入到话题相关文章集合中。
将所有已经加入到当前话题相关文章集合中的文章进行标记,以后不再对这些文章进行聚类处理。
步骤705:分别将FHotTSet1中剩下的其它四个词语和ht1组成热点话题主题词表达向量,按照步骤704进行热点话题聚类,找出热点话题的相关文章集合。
步骤8:取出HotT中的第二个词语ht2作为新的热点话题的第一个线索词,然后按照步骤7对ht2进行热点话题聚类。不同的是对于第二个热点主题词ht2,当我们获取了后,由这五个词分别和ht2组成的热点话题主题词表达向量进行聚类时,我们首先要判断其是否和已有的表达向量相同,如果相同则不需要再进行处理,否则继续对该话题进行聚类。
步骤9:对后面的第3至n个(n≤m)热点词分别按步骤8进行处理,得到最终的话题聚类结果,然后按照聚类得到的话题集合中包含的文章数目进行降序排列,得到基于当前新闻文本集合的最终的多个热点话题文本集合,并且每个话题对应一个热点话题主题词表达向量,由两个主题词构成。n根据实际数据进行调整。
本发明首先根据新闻文本中词语的词频、词性、文档频率和词语在新闻文本中首次出现的位置,综合计算出词语在文章中的权重;之后根据词语在文章中的权重排序分别在每篇文章中提取了六个主题词来表达文章的主要思想;然后通过主题词集合的权重排序获取了新闻文本集合的热点主题词序列,依序从热点主题词序列中取出热点主题词作为话题线索词进行相关文章的凝聚,按照两个主题词进行组合来表达一个热点话题的方式进行聚类;最后将所有文章凝聚到相应的话题相关文章集合当中,通过两个主题词,我们可以大致了解热点话题所讲的内容,避免了一般文本聚类后各聚类结果不知所云的情况,更加符合人们的思维习惯。
附图说明
图1为本发明“一种基于新闻文本的话题提取方法”的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明“一种基于新闻文本的话题提取方法”作进一步的说明。
本发明提供了一种新闻文本的话题提取方法,首先用新词识别或者人工添加的方式对用户自定义词典进行扩充,确保提取的词语能够覆盖到新闻领域的常用词和新词,然后对文本进行分词,词频统计,文档频率统计等工作,通过这些信息计算出新闻文本中各个词的权重,得到文本集合的主题词序列,最后用两个主题词表示一个话题,将属于这个话题的文本凝聚到这个热点话题中,得到最后结果。如附图1所示,具体步骤如下:
1.用户词典扩充。利用人工添加或新词识别的方法扩充用户自定义词典。
2.初始化分词工具,加入用户自定义词典和停用词词典。
3.文本预处理。读入新闻文本集合,对文本进行分词,词性识别,去除停用词。
4.对文章中的每个词语进行词频、文档频率以及词语在文章中首次出现位置的统计。
5.根据词频,文档频率和词性计算词语的权重值,然后对每篇文本中所有的权重值进行归一化。
6.根据词语长度和词语在文章中首次出现的位置计算词语的权重值,然后对每篇文本中所有词语的权重值进行归一化。
7.综合5、6两步计算的结果求得词语的综合权重值。
从每篇文章中抽取出六个权重值最大的词语作为该文章的主题词,其中3个词来自文章标题,3个来自文章内容。
如果从文章标题中提取主题词个数不够3个,则从内容中提取补足;如果文章只有标题,则从标题中尽可能多的提取主题词。
将文本集合中所有文章的主题词按照相同词语权重求和的方式,得到所有主题词的权重,并进行降序排列,得到热点主题词序列,权重代表该词语在文本集合中的重要程度,排名越靠前表示重要程度越高,说明这个词能够表达文本集合的热点信息,是当前文本集合的一个热点词。
根据热点主题词序列和所有文章的主题词得到热点话题。
在本文中我们使用两个主题词表达一个热点话题的内容概括,形成一个热点话题主题词表达向量,其获取方法为:首先从热点主题词序列中取出第一个热点主题词作为热点话题的线索词,然后根据这个线索词,获得所有文章主题词序列中包含这个线索词的文章;提取这批文章的权重值最大的前5个主题词,用线索词分别和获取的5个主题词组成不同的热点话题表达向量,将文章归入到不同的热点话题相关文本集合中,具体步骤如下:
首先将文章中主题词序列同时包含热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。
然后将文章标题和文章主题词序列中同时含有热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。
最后将文章主题词序列中包含一个主题词,内容中包含另一个主题词且这个主题词的权重大于阈值(通常为0.3)的文章加入到当前类中。
然后依次将热点主题序列中的第2至n个热点词作为话题线索词,与相关文章集合中的热点词组成不同的话题表达向量。其中有些热点话题表达向量有可能和之前的热点话题表达向量有重复,我们对其进行判断识别后,将重复的不再进行处理,否则按照之前的步骤进行线索词相关话题文本聚类。
当对前n个热点词进行完聚类后我们就获得了当前文本集的热点话题,将所有的热点话题按包含文章数目从多到少的方式进行排序,话题包含文本数目越多,说明与这个话题相关的文章越多,则该话题越热。

Claims (7)

1.一种基于新闻文本的话题提取方法,其特征在于包括如下步骤:
1)构建用户自定义词典:确保提取的词语能够覆盖到新闻领域的常用词和新词;
2)文本预处理:对文本分词,生成包含词语文本,词性的分词序列向量;
3)词语权重计算:根据词频,文档频率,词性,词语长度以及词语首次在文章中出现的位置进行词语的权重计算;
4)提取每篇文章的主题词序列:根据词语的权重,从文章标题和文章内容的词语集合中提取出六个权重最大的词表示文章主题;
5)获取文本集合的热点主题词序列:将文本集合中所有主题词进行合并以获取文本集合的热点主题词序列;
6)获取热点话题主题词表达向量:依序从热点主题词序列中取出主题词作为线索词构建不同的话题主题词表达向量,用两个主题词表示一个热点话题,热点话题中包含的文本数量越多,则话题越热;具体包括:取出热点主题词序列中权重最高的词作为线索词,获取包含线索词的所有文章构成文章集合,从该文章集合中提取主题词,按照相同主题词权重相加并排序的方法取排序前5的主题词,所述线索词和每个所述主题词形成一个话题主题词表达向量,共获得5个话题主题词表达向量;依序取出热点主题词序列中权重排序次重、再次、…的词作为线索词,依上述步骤生成对应的话题主题词表达向量;将获得的所有话题主题词表达向量加入向量列表;
7)基于话题主题词表达向量进行话题凝聚:利用文章标题、文章主题词、文章内容与话题主题词表达向量中线索词的包含关系进行话题凝聚。
2.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(1)构建用户自定义词典,包括通过新词识别或者人工添加的方式扩充的新闻领域常用词、专用词或者新词。
3.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(2)文本预处理需要对每一个待处理的文本进行分词,并对文本进行停用词过滤,将文本表示成词及词性的向量形式。
4.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(3)词语权重计算方法分别对文章中的每个词语进行权重计算,计算步骤如下:
1)首先计算每篇文章中各个词的词频,文档频率和词性对文章的影响权重
Wa(t,d)=log2(tf(t,d))*log2(Nd/nt)*W(POS(t))
式中:tf(t,d)表示词语t在文档d中出现的频率;Nd表示文档集合中文档数目,nt表示包含该词语的文档数目;W(POS(t))表示词语t的词性权重,当词性为名词时权重为2,当词性为用户自定义时权重为1.8,当词性为动词时权重为1.5,其余词性权重为1;
2)计算词语长度和词语在文章中首次出现的位置对词语权重影响:
Wb(t,d)=len(t)*W(pos(t,d))
式中:len(t)表示词语t的长度;W(pos(t,d))表示词语t在文章d中的位置权重,W(pos(t,d))=(N-firstpos(t))/N,其中N为文章词语总数,firstpos(t)表示词语t在文章中首次出现的位置;
3)对词语权重两部分分别进行归一化处理如下:
4)计算出词语在文章中的权重:
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
式中:W(t,d)表示词语t在文章d中的权重;a,b表示权重系数,其中a+b=1。
5.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(4)提取每篇文章的主题词序列,提取过程如下:对每篇文章中词语进行权重降序排列,提取出前六个作为主题词,一般情况下,从标题中提取三个,从正文中提取三个,如果标题中提取词语数目达不到三个,则剩余的从正文中补足;然后对这些词进行过滤,如果一个词语包含另一个词语则将权重较小的词语删除,并进行补全,将最终的六个词语作为该文章的主题词序列:
Topt(d)={tt1,tt2,tt3,tt4,tt5,tt6} 。
6.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(5)提取当前文本集合热点主题词序列,然后将各篇文章中相同的主题词按照权重相加的方式得到各个词在文本集中的权重;将这个权重和作为词在文本集中的热度值,这些词按照热度值从大到小的方式排序,我们就得到了文本集的热点词,排名靠前的词热度越高,排名靠后的词热度越低。
7.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(7)对热点话题进行文本聚合:首先从热点话题列表中获取热点话题表达向量;首先我们将主题词同时包含该话题表达向量中两个线索词的文章加入到该话题的相关文章集合中;然后将主题词包含一个线索词,同时文章标题包含另一个线索词的文章加入到该话题的相关文章集合中;最后将主题词包含一个线索词,同时内容中包含另一个线索词并且该线索词权重大于阈值的文章加入到该话题的相关文章集合中;将已经加入到话题相关文章集合中的文章标记为已聚类文章,以后聚类不对这些文章进行处理,到此则完成聚类,最后将热点话题按照包含文章多少的方式进行排序,得到最终的新闻文本集合的热点话题。
CN201510887551.9A 2015-12-07 2015-12-07 一种基于新闻文本的话题提取方法 Active CN105354333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510887551.9A CN105354333B (zh) 2015-12-07 2015-12-07 一种基于新闻文本的话题提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510887551.9A CN105354333B (zh) 2015-12-07 2015-12-07 一种基于新闻文本的话题提取方法

Publications (2)

Publication Number Publication Date
CN105354333A CN105354333A (zh) 2016-02-24
CN105354333B true CN105354333B (zh) 2018-11-06

Family

ID=55330305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510887551.9A Active CN105354333B (zh) 2015-12-07 2015-12-07 一种基于新闻文本的话题提取方法

Country Status (1)

Country Link
CN (1) CN105354333B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN106156276B (zh) * 2016-06-25 2019-07-19 贵州大学 基于Pitman-Yor过程的新闻热点发现方法
CN106446179B (zh) * 2016-09-28 2019-07-30 东软集团股份有限公司 热点话题的生成方法及装置
CN106528755A (zh) * 2016-10-28 2017-03-22 东软集团股份有限公司 热点话题的生成方法及装置
CN107203509B (zh) * 2017-04-20 2023-06-20 北京拓尔思信息技术股份有限公司 标题生成方法和装置
CN107330049B (zh) * 2017-06-28 2020-05-22 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108563630A (zh) * 2018-03-21 2018-09-21 上海蔚界信息科技有限公司 一种文本分析知识库的构建方法
CN109214005A (zh) * 2018-09-14 2019-01-15 南威软件股份有限公司 一种基于中文分词的线索提取方法及系统
CN109710728B (zh) * 2018-11-26 2022-05-17 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质
CN109710944A (zh) * 2018-12-29 2019-05-03 新华网股份有限公司 热词提取方法、装置、电子设备及计算机可读存储介质
CN110188197B (zh) * 2019-05-13 2021-09-28 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN110162632B (zh) * 2019-05-17 2021-04-09 北京百分点科技集团股份有限公司 一种新闻专题事件发现的方法
CN110222189A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110413994B (zh) * 2019-06-28 2022-11-22 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110705275B (zh) * 2019-09-18 2023-04-25 东软集团股份有限公司 主题词提取方法、装置、存储介质及电子设备
CN111190996A (zh) * 2020-04-10 2020-05-22 支付宝(杭州)信息技术有限公司 话题挖掘方法及装置
CN111522863B (zh) 2020-04-15 2023-07-25 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质
CN111666749B (zh) * 2020-06-03 2023-09-19 杭州凡闻科技有限公司 热点文章识别方法
CN111930885B (zh) * 2020-07-03 2023-08-04 北京新联财通咨询有限公司 文本话题的抽取方法、装置及计算机设备
CN113378512B (zh) * 2021-07-05 2023-05-26 中国科学技术信息研究所 一种基于自动标引的无级动态演化主题云图的生成方法
CN115858787B (zh) * 2022-12-12 2023-08-01 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536003B2 (en) * 2012-03-17 2017-01-03 Haizhi Wangju Network Technology (Beijing) Co., Ltd. Method and system for hybrid information query

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统

Also Published As

Publication number Publication date
CN105354333A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105354333B (zh) 一种基于新闻文本的话题提取方法
Devika et al. Sentiment analysis: a comparative study on different approaches
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
Wang et al. A hybrid document feature extraction method using latent Dirichlet allocation and word2vec
CN108763213A (zh) 主题特征文本关键词提取方法
CN106960001B (zh) 一种检索词的实体链接方法及系统
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN106557460A (zh) 从单文档中提取关键词的装置及方法
Saad et al. Evaluation of support vector machine and decision tree for emotion recognition of malay folklores
Yang et al. Ordering-sensitive and semantic-aware topic modeling
Kaur et al. News classification and its techniques: a review
Rizaldy et al. Performance improvement of Support Vector Machine (SVM) With information gain on categorization of Indonesian news documents
Suanmali et al. Genetic algorithm based sentence extraction for text summarization
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
Abdul-Rahman et al. Exploring feature selection and support vector machine in text categorization
Ansary A hybrid approach for automatic extractive summarization
Ding et al. The research of text mining based on self-organizing maps
CN109284391A (zh) 一种文献自动分类方法
Kian et al. Improving precision in automatic keyword extraction using attention attractive strings
CN108595593A (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
Fourati et al. Automatic audiovisual documents genre description

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100025 floor 78, East Fourth Ring Road, Chaoyang District, Beijing (9 9A09, Dacheng International Centre, 12)

Applicant after: Tianyun SUNAC data technology (Beijing) Co. Ltd.

Address before: 100176 building 18, North Industrial University Software Park, 1 North Yizhuang street, Daxing District economic and Technological Development Zone, Beijing

Applicant before: Tianyun SUNAC data technology (Beijing) Co. Ltd.

GR01 Patent grant
GR01 Patent grant