CN105354333A - 一种基于新闻文本的话题提取方法 - Google Patents
一种基于新闻文本的话题提取方法 Download PDFInfo
- Publication number
- CN105354333A CN105354333A CN201510887551.9A CN201510887551A CN105354333A CN 105354333 A CN105354333 A CN 105354333A CN 201510887551 A CN201510887551 A CN 201510887551A CN 105354333 A CN105354333 A CN 105354333A
- Authority
- CN
- China
- Prior art keywords
- word
- article
- topic
- descriptor
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明涉及一种基于新闻文本的话题提取方法。操作步骤如下:第一,设置用户自定义词典,并对文本进行预处理,生成词语文本,词性和分词序列向量。第二,根据词频等词语信息进行权重计算并排序,从新闻标题和内容中提取出权重较大的词语作为该文章的主题词序列。第三,根据所有文章的主题词权重获取文本集合的热点主题词序列。第四,通过主题词组合形成话题的主题词表达向量。第五,利用文章标题、主题词、内容与话题的主题词表达向量中线索词的包含关系进行话题聚合,最终获得多个热点话题。本发明通过利用文章主题词来表达文章主题并进行相关文章聚合,最终利用两个线索词表示当前的一个热点新闻话题。
Description
技术领域
本发明涉及自然语言处理,人工智能领域,具体涉及一种基于新闻文本的话题提取方法。
背景技术
随着互联网的普及,人们获取信息的方式越来越多,网络逐渐成为社会中各种信息的载体。特别是随着中国经济的不断发展,网上新闻产品逐渐成为人们获取信息的重要渠道,越来越多的人通过网络获取实时新闻及其相关信息。Web文本已成为我们获取信息的重要来源,每天都有大量的新闻热点产生,如何从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。
一般的文本聚类技术大多采用机器学习算法中的自动文本聚类方法,首先对文本进行预处理,将文本表示成特征词的向量表示,然后根据文本的相似性进行聚类。对文本进行聚类多采用single-pass算法,K最邻近结点算法(KNN),k-means算法等。这些聚类算法都存在着各种各样的缺点,single-pass算法与文章输入的顺序相关性很大;KNN算法则存在时间复杂度较高;而k-means算法则必须提前确定聚类个数,但是这点通常是比较困难的。并且这些算法在聚类完成以后得到的聚类结果往往不知所云,我们无法用具体的词汇或内容来表示聚类结果。
发明内容
大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,而且通过人工的方式来提取当前热点新闻是一件非常繁琐和困难的事情。本发明基于文本主题词的提取算法,通过热点词组合的聚类技术来获取当前文本集合的热点话题。用两个热点主题词表示一个话题,即克服了一个热点词表示话题的片面性,同时又将相关的文章进行了聚合。
本文提供了一种文本聚类的方法,用于提取当前文本集合的热点话题,帮助用户更好的掌握当前新闻的热点。从互联网上采集近期的新闻文本,然后通过主题词提取算法,从各篇文章中提取出主题词形成该文章的主题词序列,通过各篇文章的主题词序列综合计算出当前文本集合的热点主题词序列,并用热点主题词组合的方式表示热点话题;一般两个热点主题词就可以表示当前的一个热点话题。如:“GDP”和“增速”,通过这两个词我们就可以知道当前讨论的一个热点是与我国的GDP增长速度相关的新闻话题。
上述发明包括如下步骤:
步骤1:通过人工添加或新词识别的方法,构建新闻领域词典,确保提取的词语能够覆盖到新闻领域的常用词和新词。
步骤2:文本预处理。对当前新闻文本集合中所有文本进行分词处理,并进行停用词过滤,得到分词后的包含词语和词性的分词序列向量。
步骤3:统计词语频率,文档频率,以及每篇文章中每个词语在文章中首次出现的位置。
步骤4:根据词语权重抽取每篇文章的主题词。文章的主题词定义为通过一定方式从文章标题和内容中抽取出来的,能够简要精准地表达该文章主要思想的词语集合。词语权重计算过程为:根据统计信息计算文章中各个词语的权重,词语的权重代表了词语在文章中的表达性重要程度,每个词语对文章的权重影响由两部分组成,可表示为,
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
式中:W(t,d)表示词语t在文章d中的权重;a,b表示权重系数,其中a+b=1;norm表示归一化处理,norm(Wa(t,d))表示词频,文档频率和词性对词语权重影响,norm(Wb(t,d))表示词语长度和词语位置对词语权重影响。具体过程如下:
步骤401:首先计算每篇文章中各个词的词频,文档频率和词性对文章的影响权重
Wa(t,d)=log2(tf(t,d))*log2(Nd/nt)*W(POS(t))
式中:tf(t,d)表示词语t在文档d中出现的频率;Nd表示文档集合中文档数目,nt表示包含该词语的文档数目;W(POS(t))表示词语t的词性权重,当词性为名词时权重为2,当词性为用户自定义时权重为1.8,当词性为动词时权重为1.5,其余词性权重为1;
步骤402:计算词语长度和词语在文章中首次出现的位置对词语权重影响
Wb(t,d)=len(t)*W(pos(t,d))
式中:len(t)表示词语t的长度;W(pos(t,d))表示词语t在文章d中的位置权重,W(pos(t,d))=(N-firstpos(t))/N,其中N为文章词语总数,firstpos(t)表示词语t在文章中首次出现的位置。
步骤403:对词语权重两部分分别进行归一化处理如下:
步骤404:计算出词语在文章中的权重
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
步骤5:对每篇文章中词语进行权重降序排列,提取出前六个作为主题词,一般情况下,从标题中提取三个,从正文中提取三个,如果标题中提取词语数目达不到三个,则剩余的从正文中补足。然后对这些词进行过滤,如果一个词语包含另一个词语则将权重较小的词语删除,并进行补全,将最终的六个词语作为该文章的主题词序列
Topt(d)={tt1,tt2,tt3,tt4,tt5,tt6}
步骤6:提取当前新闻文本集合热点主题词序列。对所有文章的六个主题词按照相同词语权重相加的方式,获取到文本集合中所有主题词的权重,然后将所有主题词按照权重值进行降序排列,得到文本集合的热点主题词序列:
HotT={ht1,ht2,…,htk},k=1,2,...,m
其中,m表示热点词主题序列的大小。
步骤7:将排好序的热点主题词序列HotT中的第一个词语ht1作为热点话题的第一个线索词,对文章进行聚类。其步骤如下
步骤701:根据ht1找到文章主题词序列中包含这个词的文章集合
式中表示包含线索词ht1的第i篇文章。
步骤702:按照步骤6中文章主题词序列权重相加合并的方式提取文章集合HotTDSet1中的主题词集合,取出权重值最大的前5个词
步骤703:取出FHotTSet1的第一个词作为第二个线索词与ht1组合形成一个热点话题主题词表达向量。
步骤704:找出与ht1组成的热点话题的相关文章集合。
首先,将文章主题词序列中同时包含与ht1的文章加入到话题相关文章集合中。
然后,将文章主题词序列中包含ht1,文章标题包含的文章,或者主题词序列中包含文章标题中包含ht1的文章加入到话题相关文章集合中。
最后,将文章主题词序列中包含ht1,文章内容中包含并且其权重大于阈值Vth(根据经验选取Vth=0.3)的文章或者主题词序列中包含而文章内容中包含ht1并且其权重大于阈值Vth的文章加入到话题相关文章集合中。
将所有已经加入到当前话题相关文章集合中的文章进行标记,以后不再对这些文章进行聚类处理。
步骤705:分别将FHotTSet1中剩下的其它四个词语和ht1组成热点话题主题词表达向量,按照步骤704进行热点话题聚类,找出热点话题的相关文章集合。
步骤8:取出HotT中的第二个词语ht2作为新的热点话题的第一个线索词,然后按照步骤7对ht2进行热点话题聚类。不同的是对于第二个热点主题词ht2,当我们获取了后,由这五个词分别和ht2组成的热点话题主题词表达向量进行聚类时,我们首先要判断其是否和已有的表达向量相同,如果相同则不需要再进行处理,否则继续对该话题进行聚类。
步骤9:对后面的第3至n个(n≤m)热点词分别按步骤8进行处理,得到最终的话题聚类结果,然后按照聚类得到的话题集合中包含的文章数目进行降序排列,得到基于当前新闻文本集合的最终的多个热点话题文本集合,并且每个话题对应一个热点话题主题词表达向量,由两个主题词构成。n根据实际数据进行调整。
本发明首先根据新闻文本中词语的词频、词性、文档频率和词语在新闻文本中首次出现的位置,综合计算出词语在文章中的权重;之后根据词语在文章中的权重排序分别在每篇文章中提取了六个主题词来表达文章的主要思想;然后通过主题词集合的权重排序获取了新闻文本集合的热点主题词序列,依序从热点主题词序列中取出热点主题词作为话题线索词进行相关文章的凝聚,按照两个主题词进行组合来表达一个热点话题的方式进行聚类;最后将所有文章凝聚到相应的话题相关文章集合当中,通过两个主题词,我们可以大致了解热点话题所讲的内容,避免了一般文本聚类后各聚类结果不知所云的情况,更加符合人们的思维习惯。
附图说明
图1为本发明“一种基于新闻文本的话题提取方法”的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明“一种基于新闻文本的话题提取方法”作进一步的说明。
本发明提供了一种新闻文本的话题提取方法,首先用新词识别或者人工添加的方式对用户自定义词典进行扩充,确保提取的词语能够覆盖到新闻领域的常用词和新词,然后对文本进行分词,词频统计,文档频率统计等工作,通过这些信息计算出新闻文本中各个词的权重,得到文本集合的主题词序列,最后用两个主题词表示一个话题,将属于这个话题的文本凝聚到这个热点话题中,得到最后结果。如附图1所示,具体步骤如下:
1.用户词典扩充。利用人工添加或新词识别的方法扩充用户自定义词典。
2.初始化分词工具,加入用户自定义词典和停用词词典。
3.文本预处理。读入新闻文本集合,对文本进行分词,词性识别,去除停用词。
4.对文章中的每个词语进行词频、文档频率以及词语在文章中首次出现位置的统计。
5.根据词频,文档频率和词性计算词语的权重值,然后对每篇文本中所有的权重值进行归一化。
6.根据词语长度和词语在文章中首次出现的位置计算词语的权重值,然后对每篇文本中所有词语的权重值进行归一化。
7.综合5、6两步计算的结果求得词语的综合权重值。
从每篇文章中抽取出六个权重值最大的词语作为该文章的主题词,其中3个词来自文章标题,3个来自文章内容。
如果从文章标题中提取主题词个数不够3个,则从内容中提取补足;如果文章只有标题,则从标题中尽可能多的提取主题词。
将文本集合中所有文章的主题词按照相同词语权重求和的方式,得到所有主题词的权重,并进行降序排列,得到热点主题词序列,权重代表该词语在文本集合中的重要程度,排名越靠前表示重要程度越高,说明这个词能够表达文本集合的热点信息,是当前文本集合的一个热点词。
根据热点主题词序列和所有文章的主题词得到热点话题。
在本文中我们使用两个主题词表达一个热点话题的内容概括,形成一个热点话题主题词表达向量,其获取方法为:首先从热点主题词序列中取出第一个热点主题词作为热点话题的线索词,然后根据这个线索词,获得所有文章主题词序列中包含这个线索词的文章;提取这批文章的权重值最大的前5个主题词,用线索词分别和获取的5个主题词组成不同的热点话题表达向量,将文章归入到不同的热点话题相关文本集合中,具体步骤如下:
首先将文章中主题词序列同时包含热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。
然后将文章标题和文章主题词序列中同时含有热点话题表达向量中两个主题词的文章凝聚到当前热点话题相关文本集合中。
最后将文章主题词序列中包含一个主题词,内容中包含另一个主题词且这个主题词的权重大于阈值(通常为0.3)的文章加入到当前类中。
然后依次将热点主题序列中的第2至n个热点词作为话题线索词,与相关文章集合中的热点词组成不同的话题表达向量。其中有些热点话题表达向量有可能和之前的热点话题表达向量有重复,我们对其进行判断识别后,将重复的不再进行处理,否则按照之前的步骤进行线索词相关话题文本聚类。
当对前n个热点词进行完聚类后我们就获得了当前文本集的热点话题,将所有的热点话题按包含文章数目从多到少的方式进行排序,话题包含文本数目越多,说明与这个话题相关的文章越多,则该话题越热。
Claims (8)
1.一种基于新闻文本的话题提取方法,其特征在于包括如下步骤:
1)构建用户自定义词典。确保提取的词语能够覆盖到新闻领域的常用词和新词。
2)文本预处理。对文本分词,生成包含词语文本,词性的分词序列向量。
3)词语权重计算。根据词频,文档频率,词性,词语长度以及词语首次在文章中出现的位置进行词语的权重计算。
4)提取每篇文章的主题词序列。根据词语的权重,从文章标题和文章内容的词语集合中提取出六个权重最大的词表示文章主题。
5)获取文本集合的热点主题词序列。将文本集合中所有主题词进行合并以获取文本集合的热点主题词序列。
6)获取热点话题主题词表达向量。依序从热点主题词序列中取出主题词作为线索词构建不同的话题主题词表达向量。
7)基于话题主题词表达向量进行话题凝聚。利用文章标题、文章主题词、文章内容与话题主题词表达向量中线索词的包含关系进行话题凝聚。
2.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(1)构建用户自定义词典,包括通过新词识别或者人工添加的方式扩充的新闻领域常用词、专用词或者新词。
3.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(2)文本预处理需要对每一个待处理的文本进行分词,并对文本进行停用词过滤,将文本表示成词及词性的向量形式。
4.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(3)词语权重计算方法分别对文章中的每个词语进行权重计算。计算步骤如下:
1)首先计算每篇文章中各个词的词频,文档频率和词性对文章的影响权重
Wa(t,d)=log2(tf(t,d))*log2(Nd/nt)*W(POS(t))
式中:tf(t,d)表示词语t在文档d中出现的频率;Nd表示文档集合中文档数目,nt表示包含该词语的文档数目;W(POS(t))表示词语t的词性权重,当词性为名词时权重为2,当词性为用户自定义时权重为1.8,当词性为动词时权重为1.5,其余词性权重为1;
2)计算词语长度和词语在文章中首次出现的位置对词语权重影响
Wb(t,d)=len(t)*W(pos(t,d))
式中:len(t)表示词语t的长度;W(pos(t,d))表示词语t在文章d中的位置权重,W(pos(t,d))=(N-firstpos(t))/N,其中N为文章词语总数,firstpos(t)表示词语t在文章中首次出现的位置。
3)对词语权重两部分分别进行归一化处理如下:
4)计算出词语在文章中的权重
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
式中:W(t,d)表示词语t在文章d中的权重;a,b表示权重系数,其中a+b=1。
5.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(4)提取每篇文章的主题词序列,提取过程如下:对每篇文章中词语进行权重降序排列,提取出前六个作为主题词,一般情况下,从标题中提取三个,从正文中提取三个,如果标题中提取词语数目达不到三个,则剩余的从正文中补足。然后对这些词进行过滤,如果一个词语包含另一个词语则将权重较小的词语删除,并进行补全,将最终的六个词语作为该文章的主题词序列
Topt(d)={tt1,tt2,tt3,tt4,tt5,tt6}。
6.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(5)提取当前文本集合热点主题词序列,然后将各篇文章中相同的主题词按照权重相加的方式得到各个词在文本集中的权重。将这个权重和作为词在文本集中的热度值,这些词按照热度值从大到小的方式排序,我们就得到了文本集的热点词,排名靠前的词热度越高,排名靠后的词热度越低。
7.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(6)在本文中我们用两个主题词表示一个热点话题,热点话题中包含的文本数量越多,则这个话题越热。首先,依序取出热点主题词序列中的主题词作为话题线索词,将包含词线索词的文章放入相关话题集合中,然后获取这个相关话题集合的主题词集合,从中取出权重值最大的5个主题词分别与线索词组成一个话题,形成话题表达向量,得到5个话题,加入到热点话题列表中。
8.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(7)对热点话题进行文本聚合。首先从热点话题列表中获取热点话题表达向量。首先我们将主题词同时包含该话题表达向量中两个线索词的文章加入到该话题的相关文章集合中;然后将主题词包含一个线索词,同时文章标题包含另一个线索词的文章加入到该话题的相关文章集合中;最后将主题词包含一个线索词,同时内容中包含另一个线索词并且该线索词权重大于阈值的文章加入到该话题的相关文章集合中。将已经加入到话题相关文章集合中的文章标记为已聚类文章,以后聚类不对这些文章进行处理,到此则完成聚类,最后将热点话题按照包含文章多少的方式进行排序,得到最终的新闻文本集合的热点话题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510887551.9A CN105354333B (zh) | 2015-12-07 | 2015-12-07 | 一种基于新闻文本的话题提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510887551.9A CN105354333B (zh) | 2015-12-07 | 2015-12-07 | 一种基于新闻文本的话题提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105354333A true CN105354333A (zh) | 2016-02-24 |
CN105354333B CN105354333B (zh) | 2018-11-06 |
Family
ID=55330305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510887551.9A Active CN105354333B (zh) | 2015-12-07 | 2015-12-07 | 一种基于新闻文本的话题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354333B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868186A (zh) * | 2016-06-01 | 2016-08-17 | 清华大学 | 简单高效的话题提取方法 |
CN106156276A (zh) * | 2016-06-25 | 2016-11-23 | 贵州大学 | 基于Pitman‑Yor过程的新闻热点发现方法 |
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN106528755A (zh) * | 2016-10-28 | 2017-03-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107203509A (zh) * | 2017-04-20 | 2017-09-26 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN108563630A (zh) * | 2018-03-21 | 2018-09-21 | 上海蔚界信息科技有限公司 | 一种文本分析知识库的构建方法 |
CN108563667A (zh) * | 2018-01-05 | 2018-09-21 | 武汉虹旭信息技术有限责任公司 | 基于新词识别的热门话题采集系统及其方法 |
CN109214005A (zh) * | 2018-09-14 | 2019-01-15 | 南威软件股份有限公司 | 一种基于中文分词的线索提取方法及系统 |
CN109710944A (zh) * | 2018-12-29 | 2019-05-03 | 新华网股份有限公司 | 热词提取方法、装置、电子设备及计算机可读存储介质 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN109783616A (zh) * | 2018-12-03 | 2019-05-21 | 广东蔚海数问大数据科技有限公司 | 一种文本主题提取方法、系统和存储介质 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110222189A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110413994A (zh) * | 2019-06-28 | 2019-11-05 | 宁波深擎信息科技有限公司 | 热点话题生成方法、装置、计算机设备和存储介质 |
CN110705275A (zh) * | 2019-09-18 | 2020-01-17 | 东软集团股份有限公司 | 主题词提取方法、装置、存储介质及电子设备 |
CN111190996A (zh) * | 2020-04-10 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 话题挖掘方法及装置 |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111930885A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN113378512A (zh) * | 2021-07-05 | 2021-09-10 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113722424A (zh) * | 2021-07-20 | 2021-11-30 | 山东电力研究院 | 一种基于新闻事件的科研方向推荐方法及系统 |
CN113836257A (zh) * | 2021-10-13 | 2021-12-24 | 科大讯飞股份有限公司 | 一种热词挖掘方法、装置、设备及存储介质 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
US11651164B2 (en) | 2020-04-15 | 2023-05-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device, equipment, and storage medium for mining topic concept |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
US20150058320A1 (en) * | 2012-03-17 | 2015-02-26 | Beijing Yidian Wandgjju Technology Co., Ltd. | Method and system for hybrid information query |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
-
2015
- 2015-12-07 CN CN201510887551.9A patent/CN105354333B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
US20150058320A1 (en) * | 2012-03-17 | 2015-02-26 | Beijing Yidian Wandgjju Technology Co., Ltd. | Method and system for hybrid information query |
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868186A (zh) * | 2016-06-01 | 2016-08-17 | 清华大学 | 简单高效的话题提取方法 |
CN106156276B (zh) * | 2016-06-25 | 2019-07-19 | 贵州大学 | 基于Pitman-Yor过程的新闻热点发现方法 |
CN106156276A (zh) * | 2016-06-25 | 2016-11-23 | 贵州大学 | 基于Pitman‑Yor过程的新闻热点发现方法 |
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN106446179B (zh) * | 2016-09-28 | 2019-07-30 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN106528755A (zh) * | 2016-10-28 | 2017-03-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107203509A (zh) * | 2017-04-20 | 2017-09-26 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN107203509B (zh) * | 2017-04-20 | 2023-06-20 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN107330049B (zh) * | 2017-06-28 | 2020-05-22 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN108563667A (zh) * | 2018-01-05 | 2018-09-21 | 武汉虹旭信息技术有限责任公司 | 基于新词识别的热门话题采集系统及其方法 |
CN108563630A (zh) * | 2018-03-21 | 2018-09-21 | 上海蔚界信息科技有限公司 | 一种文本分析知识库的构建方法 |
CN109214005A (zh) * | 2018-09-14 | 2019-01-15 | 南威软件股份有限公司 | 一种基于中文分词的线索提取方法及系统 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN109783616A (zh) * | 2018-12-03 | 2019-05-21 | 广东蔚海数问大数据科技有限公司 | 一种文本主题提取方法、系统和存储介质 |
CN109710944A (zh) * | 2018-12-29 | 2019-05-03 | 新华网股份有限公司 | 热词提取方法、装置、电子设备及计算机可读存储介质 |
CN110188197A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
CN110162632B (zh) * | 2019-05-17 | 2021-04-09 | 北京百分点科技集团股份有限公司 | 一种新闻专题事件发现的方法 |
CN110222189A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110413994A (zh) * | 2019-06-28 | 2019-11-05 | 宁波深擎信息科技有限公司 | 热点话题生成方法、装置、计算机设备和存储介质 |
CN110413994B (zh) * | 2019-06-28 | 2022-11-22 | 宁波深擎信息科技有限公司 | 热点话题生成方法、装置、计算机设备和存储介质 |
CN110705275A (zh) * | 2019-09-18 | 2020-01-17 | 东软集团股份有限公司 | 主题词提取方法、装置、存储介质及电子设备 |
CN111190996A (zh) * | 2020-04-10 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 话题挖掘方法及装置 |
US11651164B2 (en) | 2020-04-15 | 2023-05-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device, equipment, and storage medium for mining topic concept |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111666749B (zh) * | 2020-06-03 | 2023-09-19 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111930885A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN111930885B (zh) * | 2020-07-03 | 2023-08-04 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN113378512A (zh) * | 2021-07-05 | 2021-09-10 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113378512B (zh) * | 2021-07-05 | 2023-05-26 | 中国科学技术信息研究所 | 一种基于自动标引的无级动态演化主题云图的生成方法 |
CN113722424A (zh) * | 2021-07-20 | 2021-11-30 | 山东电力研究院 | 一种基于新闻事件的科研方向推荐方法及系统 |
CN113836257A (zh) * | 2021-10-13 | 2021-12-24 | 科大讯飞股份有限公司 | 一种热词挖掘方法、装置、设备及存储介质 |
CN113836257B (zh) * | 2021-10-13 | 2024-04-30 | 科大讯飞股份有限公司 | 一种热词挖掘方法、装置、设备及存储介质 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105354333B (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354333A (zh) | 一种基于新闻文本的话题提取方法 | |
Bhavitha et al. | Comparative study of machine learning techniques in sentimental analysis | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
CN106844424B (zh) | 一种基于lda的文本分类方法 | |
Pane et al. | A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
Qu et al. | Improved Bayes method based on TF-IDF feature and grade factor feature for chinese information classification | |
Saad et al. | Evaluation of support vector machine and decision tree for emotion recognition of malay folklores | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN109271514A (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
Ahsan et al. | An ensemble approach to detect review spam using hybrid machine learning technique | |
Taloba et al. | A comparative study on using principle component analysis with different text classifiers | |
Chandra et al. | Semantic Analysis of Sentiments through Web-Mined Twitter Corpus. | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
Rizaldy et al. | Performance improvement of Support Vector Machine (SVM) With information gain on categorization of Indonesian news documents | |
Alam et al. | Social media content categorization using supervised based machine learning methods and natural language processing in bangla language | |
Abdul-Rahman et al. | Exploring feature selection and support vector machine in text categorization | |
Jayady et al. | Theme Identification using Machine Learning Techniques | |
Isa et al. | Sentiment classification of Malay newspaper using immune network (SCIN) | |
CN117235199A (zh) | 一种基于文档树的信息智能匹配检索的方法 | |
Dawar et al. | Text categorization by content using Naïve Bayes approach | |
Arshad et al. | Multi-class text classification: Model comparison and selection | |
Suresh et al. | An innovative and efficient method for Twitter sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100025 floor 78, East Fourth Ring Road, Chaoyang District, Beijing (9 9A09, Dacheng International Centre, 12) Applicant after: Tianyun SUNAC data technology (Beijing) Co. Ltd. Address before: 100176 building 18, North Industrial University Software Park, 1 North Yizhuang street, Daxing District economic and Technological Development Zone, Beijing Applicant before: Tianyun SUNAC data technology (Beijing) Co. Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |