CN106528755A - 热点话题的生成方法及装置 - Google Patents

热点话题的生成方法及装置 Download PDF

Info

Publication number
CN106528755A
CN106528755A CN201610971661.8A CN201610971661A CN106528755A CN 106528755 A CN106528755 A CN 106528755A CN 201610971661 A CN201610971661 A CN 201610971661A CN 106528755 A CN106528755 A CN 106528755A
Authority
CN
China
Prior art keywords
word
descriptor
relative
subgraph
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610971661.8A
Other languages
English (en)
Inventor
齐勇
王明强
张明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201610971661.8A priority Critical patent/CN106528755A/zh
Publication of CN106528755A publication Critical patent/CN106528755A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种热点话题的生成方法及装置,涉及自然语言处理技术领域,本发明提高了热点话题挖掘的效率及准确率。本发明的技术方案为:获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;根据所述主题词之间的词共现度生成主题词共现图;通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;根据获取的子图中主题词数量大于预置数值的子图生成热点话题。本发明主要用于生成热点话题。

Description

热点话题的生成方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种热点话题的生成方法及装置。
背景技术
网络上新闻来源非常广,但是人们不可能关注所有的新闻,所以在海量新闻数据中检测出当前热点话题,并对热点话题进行分析,及时把握人们普遍关心的问题以及人们对热点话题的看法对网络舆情监控、事件控制等都有重要作用。
目前,收集突发的热点话题或用户参与度较高的话题,是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量,或查询社区中话题的访问量来确定热点话题,而通过人工方式确定的热点话题耗费人力资源较大并且对于热点话题挖掘的效率及准确率较低。
发明内容
有鉴于此,本发明提供一种热点话题的生成方法及装置,主要目的在于提高热点话题挖掘的效率及准确率。
依据本发明一个方面,提供了一种热点话题的生成方法,包括:
获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
根据所述主题词之间的词共现度生成主题词共现图;
通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
具体的,所述根据获取的子图中主题词数量大于预置数值的子图生成热点话题包括:
从所述子图中获取主题词数量大于预置数值的子图;
根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。
进一步地,所述根据所述子图中权重值符合预置条件的主题词生成热点话题之前,所述方法还包括:
对所述获取的子图中的同义词进行合并处理;
对合并的同义词的重要度进行累加。
具体的,所述获取新闻数据中的主题词包括:
根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值;
将所述新闻数据中词权重值超过预置阈值的词确定为主题词。
进一步地,所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前,所述方法还包括:
根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j
通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高词频fmax的比值确定所述词的相对词频;
根据词i在j时间段内的词频fij,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
进一步地,所述根据所述主题词之间的词共现度生成主题词共现图之前,所述方法还包括:
根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;
根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;
通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
依据本发明另一个方面,提供了一种热点话题的生成装置,包括:
获取单元,用于获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
生成单元,用于根据所述主题词之间的词共现度生成主题词共现图;
分割单元,用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
所述生成单元,还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
具体的,所述生成单元包括:
获取模块,用于从所述子图中获取主题词数量大于预置数值的子图;
生成模块,用于根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。
进一步地,所述生成单元还包括:
合并模块,用于对所述获取的子图中的同义词进行合并处理;
累加模块,用于对合并的同义词的重要度进行累加。
具体的,所述获取单元包括:
计算模块,用于根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值;
确定模块,用于将所述新闻数据中词权重值超过预置阈值的词确定为主题词。
所述确定模块,还用于根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j
所述确定模块,还用于通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高词频fmax的比值确定所述词的相对词频;
所述确定模块,还用于根据词i在j时间段内的词频fij,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
进一步地,所述装置还包括:
确定单元,用于根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;
所述确定单元,还用于通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种热点话题的生成方法及装置,首先获取新闻数据中的主题词,然后根据所述主题词之间的词共现度生成主题词共现图,接着通过所述词共现度的阈值将所述主题词共现图分割成多个子图,最后根据获取的子图中主题词数量大于预置数值的子图生成热点话题。与目前通过人工查询的方式获取热点话题相比,本发明实施例首先获取新闻数据中的主题词,然后基于主题词之间的词共现度生成主题词共现图,并根据词共现度的阈值将主题词共现图分割成多个子图,最后根据子图中主题词数量大于预置数值的子图生成热点话题,从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题,以及热点话题挖掘的效率及准确率较低的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种热点话题的生成方法流程图;
图2示出了本发明实施例提供的另一种热点话题的生成方法流程图;
图3示出了本发明实施例提供的一种热点话题的生成装置的结构框图;
图4示出了本发明实施例提供的另一种热点话题的生成装置的结构框图;
图5示出了本发明实施例提供的一种主题词共现图;
图6示出了本发明实施例提供的一种由主题词共现图分割的子图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种热点话题的生成方法,如图1所示,具体步骤包括:
101、获取新闻数据中的主题词。
其中,所述主题词是权重值超过预置阈值的词,权重值用于表示新闻数据中各个词的重要程度,预置阈值可以根据将要获取的主题词个数确定。如权重值超过10的词个数为100个,权重值超过5的词个数为200,若需要获取100个主题词,则可将权重值设置成10。对于本发明实施例,具体可以根据新闻数据中词出现的词频、词共现度等条件确定各个词的权重值,本发明实施例不做具体限定。
需要说明的是,在获取新闻数据中的主题词之前,需要对新闻数据进行预处理操作,即首先需要对新闻数据分词,然后对分词结果进行词性标注并过滤停用词,提取过滤结果中的名词及动词,最后基于提取的名词及计算词的权重值获取新闻数据中的主题词。
102、根据所述主题词之间的词共现度生成主题词共现图。
其中,主题词共现图中边的权重就是两个主题词的共现度,如图5所示的主题词共现图,主题词“仲裁”和主题词“菲律宾”之间的数值0.53就表示为“仲裁”和“菲律宾”在新闻数据中的共现度。
103、通过所述词共现度的阈值将所述主题词共现图分割成多个子图。
在本发明实施例中,词共现度的阈值可以根据将要分割的子图个数确定,当两个词的共现度小于词共现度的阈值时,就认为这两个词是不相连的,即去除共现度小于阈值两个词之间的连接边,这样就可以将主题词共现图根据词共现度的阈值分割成若干个子图,其中每一个子图就代表了一个候选热点话题词聚簇。
例如,在图5主题词共现图中,若词共现度的阈值为0.6,则去除图5中词共现度小于0.6的连接边得到如图6所示的子图。
104、根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
对于本发明实施例,通过词共现度的阈值将所述主题词共现图分割成多个子图之后,即得到了多个候选热点话题词聚簇后,对于每一个候选热点话题词聚簇,聚簇中包含了若干个主题词。若预置数值为10,则认为子图中主题词数量大于10的子图就是一个热点话题词聚簇,否则,认为这个子图不是热点话题词聚簇,这样就过滤掉了子图内只包含少数主题词的子图,最后基于过滤后的子图内的关键词生成热点话题。
本发明实施例提供一种热点话题的生成方法,首先获取新闻数据中的主题词,然后基于主题词之间的词共现度生成主题词共现图,并根据词共现度的阈值将主题词共现图分割成多个子图,最后根据子图中主题词数量大于预置数值的子图生成热点话题,从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题,以及热点话题挖掘的效率及准确率较低的问题。
本发明实施例提供了另一种热点话题的生成方法,如图2所示,具体步骤包括:
201、获取新闻数据中的主题词。
其中,所述主题词是权重值超过预置阈值的词,关于步骤201获取新闻数据中的主题词的详细描述,可参考图1中相应步骤的描述,本发明实施例在此不再赘述。
需要说明的是,通常热点话题的形成有一定的特点,它的时域性较强且影响力较大,也就是说热点话题讨论的内容在某个时间窗口之前出现的概率很小,而在一个时间窗口中突然大量出现,从而能够引起社会的高度关注。并且新闻标题一般能够更好的描述这篇新闻的主要内容,根据新闻数据的这些特点判断一个词语是否为新闻话题中的主题词,本发明实施例将相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。具体的,获取新闻数据中的主题词的过程为:根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值;将所述新闻数据中词权重值超过预置阈值的词确定为主题词。其中,各个词的相对词频是根据各个词的词频分别与最高词频的比值确定的,词的词频增加率是根据当前时间段的词频与上一个时间段的词频的比值确定的。
在本发明实施例中,所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前,所述方法还包括:根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j;通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高词频fmax的比值确定所述词的相对词频;根据词i在j时间段内的词频fi,j,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
进一步地,在计算新闻数据中各个词的词频过程中,还可以设置的新闻标题和新闻正文的权重参数,并将设置的权重参数代入词频计算公式中求得各个词的词频。如通过公式计算各个词的词频,其中,fij为词i在j时间段内的频率,为词i在j时间段内在新闻标题中出现的频率,为词i在j时间段内在新闻正文中出现的频率,α,β分别为新闻标题和新闻正文的权重参数。
具体的,词i的相对词频可通过公式计算;
词i的词频增加率可通过公式计算。
其中,fij为词i在j时间段内的频率,fmax为j时间段内的最高词频,fi,j-1相对于j时间段的上一个时间段该词的频率。
进一步地,综合相对词频与词频增加率得到词i在j时间段内的权重为:wij=μf′ij+θg′ij,μ,θ为相对词频与词频增加率在词权重所占的比重。需要说明的是,α,β,μ,θ均为经验参数设置。
202、根据所述主题词之间的词共现度生成主题词共现图。
在本发明实施例中,步骤202之前还包括:根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
例如,新闻数据中存在两个词wx,wy,对于j时间段内的两个词wx,wy
wx相对于wy的相对共现度可通过公式计算;
wy相对于wx的相对共现度可通过公式计算。
其中,f(wy)、f(wx)和f(wxwy)的计算方法同步骤201中fij的计算方法,即同时考虑相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。
最后根据公式计算wx与wy之间的共现度。
203、通过所述词共现度的阈值将所述主题词共现图分割成多个子图。
其中,每个子图代表一个候选热点话题聚簇,关于步骤203通过所述词共现度的阈值将所述主题词共现图分割成多个子图的详细步骤,可参照图1中相应的步骤描述,本发明实施例在此不再赘述。
进一步地,本发明实施例还可以根据主题词之间的词共现度生成共现矩阵,然后基于共现矩阵获取的矩阵中重要度符合预置条件的主题词生成热点话题。如表1所示为生成的共现矩阵示例,边的权重为步骤202中的C(wy|wx)值。其中0表示两个词之间不相连
表1
204、从所述子图中获取主题词数量大于预置数值的子图。
205、根据所述获取的子图中重要度符合预置条件的主题词生成热点话题。
对于本发明实施例,具体可以通过公式下述公式计算主题词的重要度:
其中,wi为将要计算重要度的主题词,wj为与主题词wi具有连接边的主题词,即上述公式表示主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。预置条件可根据实际需求进行设置,如选取重要度前10名主题词,重要度前5名主题词等,本发明实施例不做具体限定。例如,图5中的“仲裁”的重要度为3,“主权”的重要度为2,“菲律宾”的重要度为4,“仲裁案”的重要度为8,“仲裁庭”的重要度为7,“争端”的重要度为6,“南海”的重要度为4,“国际法”的重要度为4,“国际法”的重要度为4。若预置条件设置为选取重要度前3名主题词,则获取的主题词为“仲裁案”,“仲裁庭”,“争端”,然后根据这些主题词生成热点话题。
对于本发明实施例,步骤205之前,所述方法还包括:对所述获取的子图中的同义词进行合并处理;对合并的同义词的重要度进行累加。在本发明实施例中,对同义词进行合并处理及同义词重要度的累加过程具体为:从前向后遍历子图中的主题词,如果在某个主题词后面出现了它的同义词,那么就将后面出现的同义词去除并将去除的该同义词的重要度加到前面的同义词上,确保一个子图内不会出现多个表达了同一个意思的主题词。
本发明实施例提供另一种热点话题的生成方法,首先获取新闻数据中的主题词,然后根据所述主题词之间的词共现度生成主题词共现图,并通过所述词共现度的阈值将所述主题词共现图分割成多个子图,从所述子图中获取主题词数量大于预置数值的子图,最后根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题,以及热点话题挖掘的效率及准确率较低的问题。
进一步地,本发明实施例提供一种热点话题的生成装置,如图3所示,所述装置包括:获取单元31,生成单元32,分割单元33。
获取单元31,用于获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
其中,权重值用于表示新闻数据中各个词的重要程度,预置阈值可以根据将要获取的主题词个数确定。如权重值超过10的词个数为100个,权重值超过5的词个数为200,若需要获取100个主题词,则可将权重值设置成10。对于本发明实施例,具体可以根据新闻数据中词出现的词频、词共现度等条件确定各个词的权重值,本发明实施例不做具体限定。
需要说明的是,在获取新闻数据中的主题词之前,需要对新闻数据进行预处理操作,即首先需要对新闻数据分词,然后对分词结果进行词性标注并过滤停用词,提取过滤结果中的名词及动词,最后基于提取的名词及计算词的权重值获取新闻数据中的主题词。
生成单元32,用于根据所述主题词之间的词共现度生成主题词共现图;
分割单元33,用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
在本发明实施例中,词共现度的阈值可以根据将要分割的子图个数确定,当两个词的共现度小于词共现度的阈值时,就认为这两个词是不相连的,即去除共现度小于阈值两个词之间的连接边,这样就可以将主题词共现图根据词共现度的阈值分割成若干个子图,其中每一个子图就代表了一个候选热点话题词聚簇。
所述生成单元32,还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
对于本发明实施例,通过词共现度的阈值将所述主题词共现图分割成多个子图之后,即得到了多个候选热点话题词聚簇后,对于每一个候选热点话题词聚簇,聚簇中包含了若干个主题词。若预置数值为10,则认为子图中主题词数量大于10的子图就是一个热点话题词聚簇,否则,认为这个子图不是热点话题词聚簇,这样就过滤掉了子图内只包含少数主题词的子图,最后基于过滤后的子图内的关键词生成热点话题。
需要说明的是,本发明实施例提供的一种热点话题的生成装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供一种热点话题的生成装置,首先获取新闻数据中的主题词,然后基于主题词之间的词共现度生成主题词共现图,并根据词共现度的阈值将主题词共现图分割成多个子图,最后根据子图中主题词数量大于预置数值的子图生成热点话题,从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题,以及热点话题挖掘的效率及准确率较低的问题。
进一步地,本发明实施例提供另一种热点话题的生成装置,如图4所示,所述装置包括:获取单元41,生成单元42,分割单元43。
获取单元41,用于获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
生成单元42,用于根据所述主题词之间的词共现度生成主题词共现图;
分割单元43,用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
所述生成单元42,还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
具体的,所述生成单元42包括:
获取模块421,用于从所述子图中获取主题词数量大于预置数值的子图;
生成模块422,用于根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。
对于本发明实施例,具体可以通过公式下述公式计算主题词的重要度:
其中,wi为将要计算重要度的主题词,wj为与主题词wi具有连接边的主题词,即上述公式表示主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。预置条件可根据实际需求进行设置,如选取重要度前10名主题词,重要度前5名主题词等,本发明实施例不做具体限定。例如,图5中的“仲裁”的重要度为3,“主权”的重要度为2,“菲律宾”的重要度为4,“仲裁案”的重要度为8,“仲裁庭”的重要度为7,“争端”的重要度为6,“南海”的重要度为4,“国际法”的重要度为4,“国际法”的重要度为4。若预置条件设置为选取重要度前3名主题词,则获取的主题词为“仲裁案”,“仲裁庭”,“争端”,然后根据这些主题词生成热点话题。
进一步地,所述生成单元42还包括:
合并模块423,用于对所述获取的子图中的同义词进行合并处理;
累加模块424,用于对合并的同义词的重要度进行累加。
在本发明实施例中,对同义词进行合并处理及同义词重要度的累加过程具体为:从前向后遍历子图中的主题词,如果在某个主题词后面出现了它的同义词,那么就将后面出现的同义词去除并将去除的该同义词的重要度加到前面的同义词上,确保一个子图内不会出现多个表达了同一个意思的主题词。
需要说明的是,通常热点话题的形成有一定的特点,它的时域性较强且影响力较大,也就是说热点话题讨论的内容在某个时间窗口之前出现的概率很小,而在一个时间窗口中突然大量出现,从而能够引起社会的高度关注。并且新闻标题一般能够更好的描述这篇新闻的主要内容,根据新闻数据的这些特点判断一个词语是否为新闻话题中的主题词,本发明实施例将相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。
因此,所述获取单元41包括:
计算模块411,用于根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值;
确定模块412,用于将所述新闻数据中词权重值超过预置阈值的词确定为主题词。
所述确定模块412,还用于根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j
所述确定模块412,还用于通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高词频fmax的比值确定所述词的相对词频;
所述确定模块412,还用于根据词i在j时间段内的词频fi,j,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
进一步地,在计算新闻数据中各个词的词频过程中,还可以设置的新闻标题和新闻正文的权重参数,并将设置的权重参数代入词频计算公式中求得各个词的词频。如通过公式计算各个词的词频,其中,fij为词i在j时间段内的频率,为词i在j时间段内在新闻标题中出现的频率,为词i在j时间段内在新闻正文中出现的频率,α,β分别为新闻标题和新闻正文的权重参数。
具体的,词i的相对词频可通过公式计算;
词i的词频增加率可通过公式计算。
其中,fij为词i在j时间段内的频率,fmax为j时间段内的最高词频,fi,j-1相对于j时间段的上一个时间段该词的频率。
进一步地,综合相对词频与词频增加率得到词i在j时间段内的权重为:wij=μf′ij+θg′ij,μ,θ为相对词频与词频增加率在词权重所占的比重。需要说明的是,α,β,μ,θ均为经验参数设置。
进一步地,所述装置还包括:
确定单元44,用于根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;
所述确定单元44,还用于通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
例如,新闻数据中存在两个词wx,wy,对于j时间段内的两个词wx,wy
wx相对于wy的相对共现度可通过公式计算;
wy相对于wx的相对共现度可通过公式计算。
其中,f(wy)、f(wx)和f(wxwy)的计算方法同步骤201中fij的计算方法,即同时考虑相对词频和词频增加率以及新闻标题的影响作为抽取主题词的几个影响因素。
最后根据公式计算wx与wy之间的共现度。
需要说明的是,本发明实施例提供的一种热点话题的生成装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供另一种热点话题的生成装置,首先获取新闻数据中的主题词,然后根据所述主题词之间的词共现度生成主题词共现图,并通过所述词共现度的阈值将所述主题词共现图分割成多个子图,从所述子图中获取主题词数量大于预置数值的子图,最后根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,从而通过本发明实施例解决了人工方式确定的热点话题耗费人力资源较大的问题,以及热点话题挖掘的效率及准确率较低的问题。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的热点话题的生成方法及装置(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种热点话题的生成方法,其特征在于,包括:
获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
根据所述主题词之间的词共现度生成主题词共现图;
通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的子图中主题词数量大于预置数值的子图生成热点话题包括:
从所述子图中获取主题词数量大于预置数值的子图;
根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。
3.根据权利要求2所述的方法,其特征在于,所述根据所述子图中权重值符合预置条件的主题词生成热点话题之前,所述方法还包括:
对所述获取的子图中的同义词进行合并处理;
对合并的同义词的重要度进行累加。
4.根据权利要求1所述的方法,其特征在于,所述获取新闻数据中的主题词包括:
根据所述新闻数据中词的相对词频与词频增加率计算所述词的权重值;
将所述新闻数据中词权重值超过预置阈值的词确定为主题词。
5.根据权利要求4所述的方法,其特征在于,所述根据所述新闻数据中词的相对词频与词频增加率计算所述词权重值之前,所述方法还包括:
根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j
通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高 词频fmax的比值确定所述词的相对词频;
根据词i在j时间段内的词频fij,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
6.根据权利要5所述的方法,其特征在于,所述根据所述主题词之间的词共现度生成主题词共现图之前,所述方法还包括:
根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;
根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;
通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
7.一种热点话题的生成装置,其特征在于,包括:
获取单元,用于获取新闻数据中的主题词,所述主题词是权重值超过预置阈值的词;
生成单元,用于根据所述主题词之间的词共现度生成主题词共现图;
分割单元,用于通过所述词共现度的阈值将所述主题词共现图分割成多个子图,每个子图代表一个候选热点话题聚簇;
所述生成单元,还用于根据获取的子图中主题词数量大于预置数值的子图生成热点话题。
8.根据权利要求7所述的装置,其特征在于,所述生成单元包括:
获取模块,用于从所述子图中获取主题词数量大于预置数值的子图;
生成模块,用于根据所述获取的子图中重要度符合预置条件的主题词生成热点话题,所述主题词的重要度是在所述主题词共现图中从该主题词出发的所有的边的和。
9.根据权利要求8所述的装置,其特征在于,所述生成单元还包括:
合并模块,用于对所述获取的子图中的同义词进行合并处理;
累加模块,用于对合并的同义词的重要度进行累加。
10.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
计算模块,用于根据所述新闻数据中词的相对词频与词频增加率计算 所述词的权重值;
确定模块,用于将所述新闻数据中词权重值超过预置阈值的词确定为主题词。
11.根据权利要求10所述的装置,其特征在于,
所述确定模块,还用于根据所述新闻数据中词i在j时间段内在新闻标题中出现的频率及词i在j时间段内在新闻正文中出现的频率确定词i在j时间段内出现的词频fi,j
所述确定模块,还用于通过所述词i在j时间段内出现的词频fi,j与在j时间段内出现的最高词频fmax的比值确定所述词的相对词频;
所述确定模块,还用于根据词i在j时间段内的词频fij,及相对于上一个时间段该词的词频fi,j-1确定所述词频增加率。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
确定单元,用于根据f(wxwy)与f(wy)的比值确定词wx相对于词wy的相对共现度;根据f(wxwy)与f(wx)的比值确定词wy相对于词wx的相对共现度;其中所述f(wx)、所述f(wx)和所述f(wxwy)分别为词wx、词wy以及词wxwy在j时间段内出现的词频;
所述确定单元,还用于通过词wx相对于词wy的相对共现度,及词wy相对于词wx的相对共现度确定主题词之间的词共现度。
CN201610971661.8A 2016-10-28 2016-10-28 热点话题的生成方法及装置 Pending CN106528755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610971661.8A CN106528755A (zh) 2016-10-28 2016-10-28 热点话题的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610971661.8A CN106528755A (zh) 2016-10-28 2016-10-28 热点话题的生成方法及装置

Publications (1)

Publication Number Publication Date
CN106528755A true CN106528755A (zh) 2017-03-22

Family

ID=58326747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610971661.8A Pending CN106528755A (zh) 2016-10-28 2016-10-28 热点话题的生成方法及装置

Country Status (1)

Country Link
CN (1) CN106528755A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及系统
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109063015A (zh) * 2018-07-11 2018-12-21 北京奇艺世纪科技有限公司 热点内容的提取方法、装置及设备
CN109766367A (zh) * 2017-07-28 2019-05-17 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN112990332A (zh) * 2021-03-26 2021-06-18 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
US20150379414A1 (en) * 2014-06-27 2015-12-31 Nuance Communications, Inc. Utilizing large-scale knowledge graphs to support inference at scale and explanation generation
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
US20150379414A1 (en) * 2014-06-27 2015-12-31 Nuance Communications, Inc. Utilizing large-scale knowledge graphs to support inference at scale and explanation generation
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
兰天等: ""基于词共现关系和粗糙集的微博话题检测方法"", 《计算机系统应用》 *
赵文清等: ""基于词共现图的中文微博新闻话题识别"", 《智能系统学报》 *
迟呈英等: ""基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪"", 《计算机应用与软件》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN108304371B (zh) * 2017-07-14 2021-07-13 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
CN109766367B (zh) * 2017-07-28 2021-06-08 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN109766367A (zh) * 2017-07-28 2019-05-17 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及系统
CN108509490B (zh) * 2018-02-09 2020-10-02 中国农业大学 一种网络热点话题发现方法及系统
CN109063015A (zh) * 2018-07-11 2018-12-21 北京奇艺世纪科技有限公司 热点内容的提取方法、装置及设备
CN109063015B (zh) * 2018-07-11 2021-01-22 北京奇艺世纪科技有限公司 热点内容的提取方法、装置及设备
CN112990332A (zh) * 2021-03-26 2021-06-18 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN112990332B (zh) * 2021-03-26 2023-06-02 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统

Similar Documents

Publication Publication Date Title
CN106528755A (zh) 热点话题的生成方法及装置
Maleki et al. A comprehensive literature review of the rank reversal phenomenon in the analytic hierarchy process
CN103207899B (zh) 文本文件推荐方法及系统
CN103279486B (zh) 一种提供相关搜索的方法和装置
CN110019396A (zh) 一种基于分布式多维分析的数据分析系统及方法
CN108108821A (zh) 模型训练方法及装置
CN106682172A (zh) 一种基于关键词的文献研究热点推荐方法
CN106446179B (zh) 热点话题的生成方法及装置
CN106502989A (zh) 情感分析方法及装置
CN106469187A (zh) 关键词的提取方法及装置
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN106844314A (zh) 一种文章的查重方法及装置
CN109582849A (zh) 一种基于知识图谱的网络资源智能检索方法
CN109388743A (zh) 语言模型的确定方法和装置
CN105589976B (zh) 基于语义相关度的目标实体确定方法及装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN102298618B (zh) 一种获取匹配度以执行相应操作的方法、装置及设备
CN102184201B (zh) 一种用于选取查询序列的推荐序列的设备和方法
KR20110040685A (ko) 회고적 이벤트 프로세싱 패턴 언어 및 실행 모델 확장
CN110457707A (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN110019806A (zh) 一种文档聚类方法及设备
CN107085615A (zh) 文本消重系统、方法、服务器及计算机存储介质
CN104216933A (zh) 一种知识点隐性关系获取方法及其系统
CN107908649A (zh) 一种文本分类的控制方法
CN103902709A (zh) 一种关联分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322