CN102831193A - 基于分布式多级聚类的话题检测装置及方法 - Google Patents
基于分布式多级聚类的话题检测装置及方法 Download PDFInfo
- Publication number
- CN102831193A CN102831193A CN2012102747797A CN201210274779A CN102831193A CN 102831193 A CN102831193 A CN 102831193A CN 2012102747797 A CN2012102747797 A CN 2012102747797A CN 201210274779 A CN201210274779 A CN 201210274779A CN 102831193 A CN102831193 A CN 102831193A
- Authority
- CN
- China
- Prior art keywords
- topic
- channel
- news
- cluster
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种基于分布式多级聚类的话题检测装置及方法,该装置主要包括新闻采集模块、新闻分类模块、话题检测模块和话题整合模块以及话题展示模块;该方法包括:题检测方法,其特征在于,该方法包括:A、对新闻进行采集的步骤;B、对所述新采集的新闻进行分类的步骤;C、对各频道并行地进行多级聚类的步骤;D、计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题。采用本发明,能够解决在互联网环境中大量文档快速更新的条件下,话题检测面临的检测效果与时间开销的尖锐矛盾。
Description
技术领域
本发明涉及文本信息处理中的网络信息分析、文本分类和文本聚类技术,尤其涉及一种基于分布式多级聚类的话题检测装置及方法。
背景技术
随着互联网的高速发展,网络上的信息越来越多元和丰富,与此同时,网络舆情的社会影响力不断增强,很多社会热点事件都是在网络中第一时间披露和传播,网络话题检测因而愈发显现出其重要价值。在互联网环境中,存在大量自然语言形式的文档,其类型包括新闻、博客、论坛帖子,以及新兴的微博等,这些文档为发现热点话题提供了最基本的数据来源。
美国国防部开展的话题检测与跟踪项目(TDT,Topic Detection and Tracking)最早展开了该领域的系统性研究。多种TDT技术在该领域已经做出了有益探索。现有话题检测技术大多串行地处理每个新产生文档,基于向量空间模型或其他模型,采用单路径聚类、凝聚层次聚类等聚类算法,考察其与现有话题集合中各话题的相关程度,并决定将其合并入现有话题或将其视为一个新话题。
然而,由于这些方法采用串行方式处理每一个文档,一旦面临较大的数据量,如果不在聚类算法的选择上采用复杂度较低但效果较差的算法,便难以保证具有实用意义的处理速度。并且,由于没有采取预先有效降低噪声的措施,其检测效果也有待改善。总之,由于网络环境中新的文档每时每刻都在大量产生,如何对它们进行即有效又快速的分析,检测出热点话题,对现有技术构成了很大挑战。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于分布式多级聚类的话题检测装置及方法,以解决在互联网环境中大量文档快速更新的条件下,话题检测面临的检测效果与时间开销的尖锐矛盾。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于分布式多级聚类的话题检测装置,该装置主要包括:
新闻采集模块,用于实时采集网络新闻,并抽取出结构化信息;
新闻分类模块,用于对采集的新闻按主题类别进行分类,分发到各个频道;
话题检测模块,分为多个彼此独立的模块,每个频道对应一个模块,采用并行方式在各频道内进行多级聚类,计算各话题热度,并筛选出频道热门话题;
话题整合模块,用于综合各频道热门话题,筛选出全系统的热门话题。
其中,所述话题检测装置进一步包括:
话题展示模块,用于将各话题及其相关信息组织成用户易使用的形式。
一种基于分布式多级聚类的话题检测方法,该方法包括:
A、对新闻进行采集的步骤,从各类网站实时采集网络新闻;
B、对所述新采集的新闻进行分类的步骤,按其主题类别进行自动化分类,每类对应一个频道,并将分类后的新闻分发到各个频道的多级聚类模块中;
C、对各频道并行地进行多级聚类的步骤;在所述的每个频道中,对新进入该频道的新闻抽取特征,再对频道内全部数据进行多级聚类,将聚类产生的每一个集合或簇作为一个话题;
D、计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题。
其中,步骤A具体包括:
A1、由网络爬虫采集目标网站列表中的网页;
A2、对采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间、图片、视频信息,并组织成结构化信息。
步骤B所述按新闻主题类别进行自动化分类,包括国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类,并将所述类别作为相应的频道。
步骤B具体包括:
B1、采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、URL的特征,并结合若干规则,判定本周期内新采集到的各网页是否属于新闻,如果是,进一步判定其属于哪一个频道;
B2、将新采集到的新闻发送给对应的频道。
7、根据权利要求3所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤C所述对各频道并行地进行多级聚类的步骤,具体包括:
C1、去除频道内长时间无变化的话题,以降低后续聚类处理的数据量,避免过时话题对聚类可能造成的干扰;
C2、对当前周期内进入本频道的各条新闻抽取特征;
C3、对步骤C2中生成的一批特征向量进行层次聚类,聚类算法采用非加权组中心UPGMC算法,在该算法中,聚类结果中的每个集合或簇都拥有一个中心向量;相似度的计算方法为采用两个簇的中心向量的余弦相似度;
C4、对上述步骤C3中产生的每一个簇,找出与该簇的相似度最大的话题。相似度的计算方式仍为取余弦相似度;
C5、对本频道内所有话题再进行一次UPGMC层次聚类,聚类结果的所有簇即为本周期结束后本频道内的全部话题。
步骤C2还包括:
首先对新闻的标题和正文进行分词、词性标注、去停用词、专名识别、同义词归并,处理的结果以词或短语为单位,统称为token,对每个token,计算其TF.IWF分值作为基础权重,并结合其在文中的位置、词性、专名类型信息,确定其最终的权重;然后再将token及其分值构造成一个基于向量空间模型的特征向量,用以描述该新闻。
步骤C4还包括:如果该相似度大于预定阀值,将该簇合并到该话题中,并修正其中心向量和更新时间;否则,将该簇被视为一个新的话题,其诞生时间和更新时间均为系统当前时间。
步骤D具体包括:
D1、对每个频道内的话题,依据其所含新闻的数量及其发表时间分布、话题的诞生时间、更新时间的因素综合计算,得出其热度;
D2、再于频道内对各话题按热度排序,从而筛选出各频道内的热门话题;
D3、最后对整个系统内的话题按热度排序,筛选出全系统热门话题,展示给用户。
本发明所提供的基于分布式多级聚类的话题检测装置及方法,具有以下优点:
在互联网新闻快速、大量产生的环境中,宏观上,对于所有新闻,基于“属于同一话题的新闻基本属于相同主题类别”这一合理假设,对新闻按主题类别(频道)采取分而治之的分布式处理策略;而微观上,对于每一频道内的新闻,基于“属于同一话题的新闻在时间序列上倾向于相对集中”这一合理假设,采取先局部再整体,先增量再全量的多级聚类方式。二者相结合,既大幅度降低了话题检测时无关和弱相关数据的干扰,便于有针对性地对不同类别的数据设置不同参数,有效保证了检测效果,又显著提高了整个系统的并行化程度,降低了时间开销。出于实际产品的需求和其他原因的考虑,本发明主要针对处理的文档类型为网络新闻,还可以扩展到博客、微博等其他自然语言形式的文档领域。
附图说明
图1为本发明的基于分布式多级聚类的话题检测方法的总体流程图;
图2为应用本发明针对新闻采集的流程图;
图3为应用本发明进行新闻分类的流程图;
图4为应用本发明进行多级聚类的流程图;
图5为应用本发明进行热门话题筛选的流程图;
图6为本发明的一个具体实现装置的模块组成图。
具体实施方式
下面结合附图及本发明的实施例对本发明的基于分布式多级聚类的话题检测装置及方法作进一步详细的说明。
图1为本发明的基于分布式多级聚类的话题检测方法的总体流程图,如图1所示,该流程为周期性执行,主要包括以下步骤:
步骤S1:新闻采集,从各类网站实时采集网络新闻,并抽取出结构化信息。
步骤S2:新闻分类,对本周期内新采集的新闻按其主题类别进行自动化分类,分发到各个频道。
步骤S3:在各频道并行开展多级聚类。在每个频道中,对本周期内新进入该频道的新闻抽取特征,再对频道内全部数据进行多级层次聚类,聚类产生的每一个簇视为一个“话题”。该步骤是本发明的核心。
步骤S4:计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题,呈现给用户。
如图2所示,所述步骤S1,进一步包括:
步骤S11:采用网络爬虫采集目标网站列表中的网页,这些网站不仅包含各类专业新闻网站(例如网易、新浪、搜狐等),也包括登载新闻的非新闻网站(例如各政府机关、事业单位、企业的官方网站)。
步骤S12:对采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间、图片、视频等信息,并组织成结构化信息,以利于进一步处理。
如图3所示,步骤S2对网页进行分类,其分类体系包括国内、国际、社会、财经、体育、娱乐、汽车、科技、互联网等频道。该步骤S2执行以下步骤:
步骤S21,采用预先训练的朴素贝叶斯分类器,利用网页的标题、正文、url等特征,结合若干规则,判定本周期内新采集到的各网页是否属于新闻,如果是,判定该网页属于哪一个频道。
步骤S22,将新采集到的新闻发送给对应的频道。
如图4所示,该步骤S3并行地对属于各个频道的新闻分别进行多级聚类,是整个流程的核心。在每个频道内执行以下子步骤:
步骤S31:去除本频道内长时间没有变化的话题。每个话题都记录了其最近更新时间,如该时间距离当前时间之差超过一定预值,则视为该话题已不可能再成为热点。
步骤S32:对本周期内新进入本频道的各条新闻抽取特征,采用向量空间模型(VSM)刻划其特征向量。首先对新闻的标题和正文进行分词、停用词去除、词性标注、专名识别、同义词归并等自然语言处理步骤,再把处理的结果进行整合(比如一个专名可能包含多个相邻的分词结果单元,例如专名“北京大学经济学院”由包含分词结果“北京大学”、“经济”和“学院”),整合结果以词或短语为步骤位,统称为token。对每个token,计算其权重,计算时综合考虑以下几项因素:
1)token的TF.IWF分值。这一分值表征token在文档中的重要性,与时间相关,构成token的基本权重。其计算公式为:
公式中的t代表某一周期,w代表token,d代表包含w的文档,tf(w,d) 代表w在d中出现的频次,wft(w) 代表w在t时刻的频次总数,d(t) 代表t时刻前出现的d。
2)token在网页中的位置:如果token在标题中出现,权重提高;
3)token的词性:实词(名词、动词等)的权重提高,虚词的权重降低甚至去除;
4)token的专名类型(如果是专名):依据新闻所属的具体频道而定。本系统拥有专门开发的专名识别模块,对专名类别的划分较为细致。例如在汽车频道,汽车型号等专名的权重提高;在体育频道,体育运动员等专名的权重提高。
确定每个token的权重后,把各token及其权重构造成一个特征向量,用以描述该新闻。
步骤S33:对这批新的新闻进行层次聚类,聚类算法采用UPGMC算法,该算法属于凝聚式层次聚类,每个聚类结果(簇)都拥有一个中心向量。在初始阶段,该算法把输入的每一条新闻都视为一个簇,簇的中心向量为该新闻的特征向量,然后执行以下步骤:
1)计算所有簇两两之间的相似度。在本发明中,我们采用簇中心向量的余弦相似度作为这两个簇之间的相似度度量。
2)找出以上相似度中最大的相似度,若其高于预定阀值,则把对应的两个簇合并,合并后的新簇的中心向量为两个簇的中心向量之和,为去除噪声并避免维度过高,新中心向量中权重过低的分量将被去除,然后返回第1)步继续执行。否则算法结束。
步骤S34:对新产生的簇和频道内既有话题进行合并。对每一个新产生的簇,依此考察本频道中的每个话题,找出与该簇的相似度最大的话题。相似度的计算方法为:计算簇中心向量和话题中心向量的余弦相似度。如果该相似度大于预定阀值,就把该簇合并到该话题中,并修正其中心向量和更新时间。否则,该簇被视为一个新的话题,其诞生时间和更新时间都是系统当前时间。
步骤S35:对本频道内所有话题(包括步骤S34产生的新话题)再进行一次UPGMC层次聚类,同样采用余弦相似度计算簇的相似度。如果有若干话题合并成新话题,新话题的更新时间亦为系统当前时间。聚类结果产生的各个簇即为本周期结束后本频道内的全部话题。
如图5所示,所述的步骤S4负责筛选热门话题。其进一步包括如下两个步骤:
步骤S41:并行地考察各个频道中所有话题的热度。对于一个话题,依据其所含新闻的数量及其发表时间分布、话题的诞生时间、更新时间等因素综合计算,得出其热度:
其中:p、base均为可调节的参数,时间以小时为单位。该公式总体上与话题中的新闻数成正比,与话题生命长度成反比。在这两项因子中则都考虑了时间分布情况,使得近期数据获得额外关注。
接下来系统按热度对本频道内所有话题进行部分排序(partial sort),选出前m个作为本频道的热门话题展示给用户。
步骤S42,对各频道的热门话题,按热度执行多路归并排序并选择前n名,作为整个系统中检测到的热门话题展示给用户。
至此,结合附图详细阐述了本发明的具体实施方式。
基于以上实施方式,图6给出了本发明的一种具体实现装置的组成。该装置的模块分为:
新闻采集模块:负责实时采集网络新闻,并抽取出结构化信息。
新闻分类模块:对采集的新闻按其主题类别进行分类,分发到各个频道。
话题检测模块:分为多个彼此独立的模块(每个频道一个对应模块),并行在各频道内进行多级聚类,计算各话题热度,并筛选出频道内热门话题。
话题整合模块:综合各频道热门话题,筛选出全系统的热门话题。
话题展示模块:将各话题及其相关信息组织成用户易使用的形式。
以上装置已投入实际使用,实践表明可以有效解决大量文档快速更新条件下,话题检测面临的检测效果与时间开销的尖锐矛盾,在两方面都取得了比较满意的结果。
出于实际产品的需求和某些非技术原因的考虑,本发明主要处理的数据类型为网络新闻,但由于博客、微博、论坛帖子等数据类型同属于自然语言形式的文档,因而只需在本发明的新闻分类、抽取新闻特征向量等环节做简单的非实质性调整,就可以处理这些文档。因此,这种拓展应被视为本发明的保护范围之内。
此外,在不脱离本发明基本原理和框架的前提下,具体实现方式可以做出一些改进和变形,但这些改进和变形也应同样视为本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种基于分布式多级聚类的话题检测装置,其特征在于,该装置主要包括:
新闻采集模块,用于实时采集网络新闻,并抽取出结构化信息;
新闻分类模块,用于对采集的新闻按主题类别进行分类,分发到各个频道;
话题检测模块,分为多个彼此独立的模块,每个频道对应一个模块,采用并行方式在各频道内进行多级聚类,计算各话题热度,并筛选出频道热门话题;
话题整合模块,用于综合各频道热门话题,筛选出全系统的热门话题。
2.根据权利要求1所述的基于分布式多级聚类的话题检测装置,其特征在于,所述话题检测装置进一步包括:
话题展示模块,用于将各话题及其相关信息组织成用户易使用的形式。
3.一种基于分布式多级聚类的话题检测方法,其特征在于,该方法包括:
A、对新闻进行采集的步骤,从各类网站实时采集网络新闻;
B、对所述新采集的新闻进行分类的步骤,按其主题类别进行自动化分类,每类对应一个频道,并将分类后的新闻分发到各个频道的多级聚类模块中;
C、对各频道并行地进行多级聚类的步骤;在所述的每个频道中,对新进入该频道的新闻抽取特征,再对频道内全部数据进行多级聚类,将聚类产生的每一个集合或簇作为一个话题;
D、计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题。
4.根据权利要求3所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤A具体包括:
A1、由网络爬虫采集目标网站列表中的网页;
A2、对采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间、图片、视频信息,并组织成结构化信息。
5.根据权利要求3所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤B所述按新闻主题类别进行自动化分类,包括国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类,并将所述类别作为相应的频道。
6.根据权利要求3或5所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤B具体包括:
B1、采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、URL的特征,并结合若干规则,判定本周期内新采集到的各网页是否属于新闻,如果是,进一步判定其属于哪一个频道;
B2、将新采集到的新闻发送给对应的频道。
7.根据权利要求3所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤C所述对各频道并行地进行多级聚类的步骤,具体包括:
C1、去除频道内长时间无变化的话题,以降低后续聚类处理的数据量,避免过时话题对聚类可能造成的干扰;
C2、对当前周期内进入本频道的各条新闻抽取特征;
C3、对步骤C2中生成的一批特征向量进行层次聚类,聚类算法采用非加权组中心UPGMC算法,在该算法中,聚类结果中的每个集合或簇都拥有一个中心向量;相似度的计算方法为采用两个簇的中心向量的余弦相似度;
C4、对上述步骤C3中产生的每一个簇,找出与该簇的相似度最大的话题;相似度的计算方式仍为取余弦相似度;
C5、对本频道内所有话题再进行一次UPGMC层次聚类,聚类结果的所有簇即为本周期结束后本频道内的全部话题。
8.根据权利要求7所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤C2还包括:
首先对新闻的标题和正文进行分词、词性标注、去停用词、专名识别、同义词归并,处理的结果以词或短语为单位,统称为token,对每个token,计算其TF.IWF分值作为基础权重,并结合其在文中的位置、词性、专名类型信息,确定其最终的权重;然后再将token及其分值构造成一个基于向量空间模型的特征向量,用以描述该新闻。
9.根据权利要求7所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤C4还包括:
如果该相似度大于预定阀值,将该簇合并到该话题中,并修正其中心向量和更新时间;否则,将该簇被视为一个新的话题,其诞生时间和更新时间均为系统当前时间。
10.根据权利要求3所述的基于分布式多级聚类的话题检测方法,其特征在于,步骤D具体包括:
D1、对每个频道内的话题,依据其所含新闻的数量及其发表时间分布、话题的诞生时间、更新时间的因素综合计算,得出其热度;
D2、再于频道内对各话题按热度排序,从而筛选出各频道内的热门话题;
D3、最后对整个系统内的话题按热度排序,筛选出全系统热门话题,展示给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102747797A CN102831193A (zh) | 2012-08-03 | 2012-08-03 | 基于分布式多级聚类的话题检测装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102747797A CN102831193A (zh) | 2012-08-03 | 2012-08-03 | 基于分布式多级聚类的话题检测装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102831193A true CN102831193A (zh) | 2012-12-19 |
Family
ID=47334330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102747797A Pending CN102831193A (zh) | 2012-08-03 | 2012-08-03 | 基于分布式多级聚类的话题检测装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831193A (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890715A (zh) * | 2012-09-24 | 2013-01-23 | 人民搜索网络股份公司 | 一种特定领域信息自动化组织的装置及其方法 |
CN103077190A (zh) * | 2012-12-20 | 2013-05-01 | 人民搜索网络股份公司 | 基于排序学习技术的热门事件排名方法 |
CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
CN103226577A (zh) * | 2013-04-01 | 2013-07-31 | 儒豹(苏州)科技有限责任公司 | 一种新闻聚类方法 |
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN103699687A (zh) * | 2014-01-03 | 2014-04-02 | 复旦大学 | 一种基于枚举的网络实体爬取方法 |
CN103955547A (zh) * | 2014-05-22 | 2014-07-30 | 厦门市美亚柏科信息股份有限公司 | 发现论坛热帖的方法和系统 |
CN104281710A (zh) * | 2014-10-27 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种网络数据挖掘方法 |
CN104715014A (zh) * | 2015-01-26 | 2015-06-17 | 中山大学 | 一种新闻在线话题检测方法 |
CN104850537A (zh) * | 2014-02-17 | 2015-08-19 | 腾讯科技(深圳)有限公司 | 对文本内容进行筛选的方法及装置 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN105069115A (zh) * | 2015-08-11 | 2015-11-18 | 浙江中控技术股份有限公司 | 一种基于历史报警分布式聚类的报警抑制方法 |
CN105357583A (zh) * | 2015-10-16 | 2016-02-24 | Tcl集团股份有限公司 | 一种发现智能电视用户兴趣偏好的方法和装置 |
CN105630929A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 基于评论确定新闻推荐权重的方法及装置 |
CN106021425A (zh) * | 2016-05-13 | 2016-10-12 | 北京奇虎科技有限公司 | 热点新闻的挖掘方法及装置 |
CN106156182A (zh) * | 2015-04-20 | 2016-11-23 | 富士通株式会社 | 将微博话题词分类到具体领域的方法和设备 |
CN106294335A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种用于微博的热点话题检测方法及装置 |
CN106373560A (zh) * | 2016-12-05 | 2017-02-01 | 深圳大图科创技术开发有限公司 | 一种网络教学实时语音分析系统 |
CN106503064A (zh) * | 2016-09-29 | 2017-03-15 | 中国国防科技信息中心 | 一种自适应微博话题摘要的生成方法 |
CN106528869A (zh) * | 2016-12-05 | 2017-03-22 | 深圳大图科创技术开发有限公司 | 一种话题检测装置 |
CN106970923A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 话题检测的方法和装置 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107885873A (zh) * | 2017-11-28 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN107896510A (zh) * | 2016-08-01 | 2018-04-10 | 邻客音公司 | 社交网络中与朋友的帖子混合的质量行业内容 |
CN107977678A (zh) * | 2017-11-28 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
WO2018086518A1 (zh) * | 2016-11-08 | 2018-05-17 | 北京国双科技有限公司 | 一种新主题的实时检测方法及装置 |
CN108090157A (zh) * | 2017-12-12 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种热点新闻挖掘方法、装置及服务器 |
CN108091372A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN109313841A (zh) * | 2016-05-09 | 2019-02-05 | 塔塔咨询服务有限公司 | 用于在传感器网络中实现自适应聚类的方法和系统 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
CN110888978A (zh) * | 2018-09-06 | 2020-03-17 | 北京京东金融科技控股有限公司 | 文章聚类方法、装置、电子设备、存储介质 |
CN111090811A (zh) * | 2019-12-24 | 2020-05-01 | 北京理工大学 | 一种海量新闻热点话题提取方法和系统 |
CN111090744A (zh) * | 2019-12-17 | 2020-05-01 | 中科鼎富(北京)科技发展有限公司 | 股市运行风险信息挖掘方法及装置 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN114840771A (zh) * | 2022-03-04 | 2022-08-02 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN116383334A (zh) * | 2023-06-05 | 2023-07-04 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
US20120191776A1 (en) * | 2011-01-20 | 2012-07-26 | Linkedin Corporation | Methods and systems for recommending a context based on content interaction |
-
2012
- 2012-08-03 CN CN2012102747797A patent/CN102831193A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
US20120191776A1 (en) * | 2011-01-20 | 2012-07-26 | Linkedin Corporation | Methods and systems for recommending a context based on content interaction |
Non-Patent Citations (1)
Title |
---|
程葳等: "面向互联网新闻的在线话题检测算法", 《计算机工程》 * |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890715A (zh) * | 2012-09-24 | 2013-01-23 | 人民搜索网络股份公司 | 一种特定领域信息自动化组织的装置及其方法 |
CN103077190A (zh) * | 2012-12-20 | 2013-05-01 | 人民搜索网络股份公司 | 基于排序学习技术的热门事件排名方法 |
CN103186662B (zh) * | 2012-12-28 | 2016-08-03 | 北京中油网资讯技术有限公司 | 一种动态舆情关键词抽取系统和方法 |
CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
CN103226577A (zh) * | 2013-04-01 | 2013-07-31 | 儒豹(苏州)科技有限责任公司 | 一种新闻聚类方法 |
CN103500175A (zh) * | 2013-08-13 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN103500175B (zh) * | 2013-08-13 | 2017-09-15 | 中国人民解放军国防科学技术大学 | 一种基于情感分析在线检测微博热点事件的方法 |
CN103699687A (zh) * | 2014-01-03 | 2014-04-02 | 复旦大学 | 一种基于枚举的网络实体爬取方法 |
CN104850537A (zh) * | 2014-02-17 | 2015-08-19 | 腾讯科技(深圳)有限公司 | 对文本内容进行筛选的方法及装置 |
CN104850537B (zh) * | 2014-02-17 | 2017-12-15 | 腾讯科技(深圳)有限公司 | 对文本内容进行筛选的方法及装置 |
CN103955547B (zh) * | 2014-05-22 | 2017-02-15 | 厦门市美亚柏科信息股份有限公司 | 发现论坛热帖的方法和系统 |
CN103955547A (zh) * | 2014-05-22 | 2014-07-30 | 厦门市美亚柏科信息股份有限公司 | 发现论坛热帖的方法和系统 |
CN104281710A (zh) * | 2014-10-27 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种网络数据挖掘方法 |
CN104715014B (zh) * | 2015-01-26 | 2017-10-10 | 中山大学 | 一种新闻在线话题检测方法 |
CN104715014A (zh) * | 2015-01-26 | 2015-06-17 | 中山大学 | 一种新闻在线话题检测方法 |
CN106156182A (zh) * | 2015-04-20 | 2016-11-23 | 富士通株式会社 | 将微博话题词分类到具体领域的方法和设备 |
CN106294335A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种用于微博的热点话题检测方法及装置 |
CN106294335B (zh) * | 2015-05-11 | 2020-01-14 | 国家计算机网络与信息安全管理中心 | 一种用于微博的热点话题检测方法及装置 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN104881458B (zh) * | 2015-05-22 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN105069115B (zh) * | 2015-08-11 | 2018-09-18 | 浙江中控技术股份有限公司 | 一种基于历史报警分布式聚类的报警抑制方法 |
CN105069115A (zh) * | 2015-08-11 | 2015-11-18 | 浙江中控技术股份有限公司 | 一种基于历史报警分布式聚类的报警抑制方法 |
CN105357583B (zh) * | 2015-10-16 | 2019-08-02 | Tcl集团股份有限公司 | 一种发现智能电视用户兴趣偏好的方法和装置 |
CN105357583A (zh) * | 2015-10-16 | 2016-02-24 | Tcl集团股份有限公司 | 一种发现智能电视用户兴趣偏好的方法和装置 |
CN105630929A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 基于评论确定新闻推荐权重的方法及装置 |
CN106970923B (zh) * | 2016-01-14 | 2020-10-09 | 北京国双科技有限公司 | 话题检测的方法和装置 |
CN106970923A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 话题检测的方法和装置 |
CN109313841B (zh) * | 2016-05-09 | 2021-02-26 | 塔塔咨询服务有限公司 | 用于在传感器网络中实现自适应聚类的方法和系统 |
CN109313841A (zh) * | 2016-05-09 | 2019-02-05 | 塔塔咨询服务有限公司 | 用于在传感器网络中实现自适应聚类的方法和系统 |
CN106021425A (zh) * | 2016-05-13 | 2016-10-12 | 北京奇虎科技有限公司 | 热点新闻的挖掘方法及装置 |
CN107896510A (zh) * | 2016-08-01 | 2018-04-10 | 邻客音公司 | 社交网络中与朋友的帖子混合的质量行业内容 |
CN106503064A (zh) * | 2016-09-29 | 2017-03-15 | 中国国防科技信息中心 | 一种自适应微博话题摘要的生成方法 |
CN106503064B (zh) * | 2016-09-29 | 2019-07-02 | 中国国防科技信息中心 | 一种自适应微博话题摘要的生成方法 |
WO2018086518A1 (zh) * | 2016-11-08 | 2018-05-17 | 北京国双科技有限公司 | 一种新主题的实时检测方法及装置 |
CN108091372B (zh) * | 2016-11-21 | 2021-06-18 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN108091372A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN106528869A (zh) * | 2016-12-05 | 2017-03-22 | 深圳大图科创技术开发有限公司 | 一种话题检测装置 |
CN106373560A (zh) * | 2016-12-05 | 2017-02-01 | 深圳大图科创技术开发有限公司 | 一种网络教学实时语音分析系统 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107885873A (zh) * | 2017-11-28 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN107977678A (zh) * | 2017-11-28 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
US11423096B2 (en) | 2017-11-28 | 2022-08-23 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for outputting information |
CN107977678B (zh) * | 2017-11-28 | 2021-12-03 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN107885873B (zh) * | 2017-11-28 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108090157A (zh) * | 2017-12-12 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 一种热点新闻挖掘方法、装置及服务器 |
CN110888978A (zh) * | 2018-09-06 | 2020-03-17 | 北京京东金融科技控股有限公司 | 文章聚类方法、装置、电子设备、存储介质 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
CN111090744A (zh) * | 2019-12-17 | 2020-05-01 | 中科鼎富(北京)科技发展有限公司 | 股市运行风险信息挖掘方法及装置 |
CN111090811A (zh) * | 2019-12-24 | 2020-05-01 | 北京理工大学 | 一种海量新闻热点话题提取方法和系统 |
CN111090811B (zh) * | 2019-12-24 | 2023-09-01 | 北京理工大学 | 一种海量新闻热点话题提取方法和系统 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
CN111143655B (zh) * | 2019-12-30 | 2023-03-21 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113157857B (zh) * | 2021-03-13 | 2023-06-02 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN114840771A (zh) * | 2022-03-04 | 2022-08-02 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN116383334A (zh) * | 2023-06-05 | 2023-07-04 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
CN116383334B (zh) * | 2023-06-05 | 2023-08-08 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
CN107577688A (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN102609407B (zh) | 一种网络不良文本内容的细粒度语义检测方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Lu et al. | Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN103390051A (zh) | 一种基于微博数据的话题发现与追踪方法 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN103309960B (zh) | 一种网络舆情事件多维信息提取的方法及装置 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN103116605A (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
CN103577478A (zh) | 网页推送方法及系统 | |
US10467255B2 (en) | Methods and systems for analyzing reading logs and documents thereof | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN101609445A (zh) | 基于时间信息的关键子话题提取方法 | |
CN109376231A (zh) | 一种媒体热点跟踪方法及系统 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN104572877A (zh) | 游戏舆情的检测方法及系统 | |
CN108959641A (zh) | 一种基于人工智能的内容信息推荐方法及系统 | |
CN103440328B (zh) | 一种基于鼠标行为的用户分类方法 | |
Bykau et al. | Fine-grained controversy detection in Wikipedia | |
CN104239285A (zh) | 文章新章节的检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121219 |