CN105528432B

CN105528432B - 一种数字资源热点生成方法及装置

Info

Publication number: CN105528432B
Application number: CN201510933594.6A
Authority: CN
Inventors: 许茜; 叶茂; 任彩红; 徐剑波; 汤帜
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Founder Apabi Technology Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2019-04-26
Anticipated expiration: 2035-12-15
Also published as: CN105528432A

Abstract

本发明提供一种数字资源热点生成方法，首先，从数字资源中提取标题和正文；然后分别获取标题相似度矩阵和正文相似度矩阵；通过分别聚类获得标题候选热点集和正文候选热点集；最后，根据所述标题候选热点集和所述正文候选热点集获取候选热点集。该方案中，使用正文信息和标题信息来进行热点推荐，正文信息和标题信息采用不同的方式处理，相互作为补充和依据，使得获得的热点更加准确，避免了现有技术中对主题词表和新词发现的需求，减弱热点发现对热点个数和经验参数的依赖，实现了面向数字报刊的热点新闻自动发现。

Description

一种数字资源热点生成方法及装置

技术领域

本发明涉及数字资源处理领域，具体涉及一种数字资源热点自动生成方法及装置。

背景技术

随着互联网的迅猛发展，数字资源成为人们获取信息的重要途径之一，数字报刊的阅读也日益普及。同时，随着生活节奏的加快，用户对高效阅读的需求更加强烈，如何从海量的数字资源中获取有价值的信息变得尤为重要。面对每日更新的新闻报道，快速自动发现热点并推荐给用户成为实现高效阅读的可行途径。由于数字资源的信息量巨大，人工干预进行热点推荐无疑需要花费大量的人力和时间，因此利用新闻报道自身信息实现热点新闻的自动发现成为亟待解决的问题。

传统的热点发现技术大多需要事先进行主题词提取、给定热点个数或设置各种经验参数。该类方法对主题词的选择及新词发现具有很强的依赖性，从而导致处理新词频出的报刊文本时效果欠佳，且参数的选择会严重影响热点发现的效果，对热点个数和经验参数具有一定的依赖，需要预先设定聚类数目，对热点个数也没有很好的自适应性。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中热点发现技术效果差、需要预先设置参数依赖性强的缺陷。

本申请提供一种数字资源热点生成方法，包括如下步骤

从数字资源中提取标题和正文；

分别获取标题相似度矩阵和正文相似度矩阵；

对所述标题相似度矩阵进行聚类，根据标题相似度聚类结果获得标题候选热点集；

对所述正文相似度矩阵进行聚类，根据正文相似度聚类结果获得正文候选热点集；

根据所述标题候选热点集和所述正文候选热点集获取候选热点集。

优选地，获取候选热点集后，还包括根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的预设数量的集合作为热点。

优选地，根据标题相似度聚类结果获得标题候选热点集的步骤包括：

获取标题相似度聚类结果中每个集合中的数字资源的数量；

若所述数量小于第一阈值，则删除该集合；

若所述数量位于第一阈值和第二阈值之间，则将该集合加入所述标题候选热点集中；

若所述数量大于第二阈值，则进行二次聚类，得到二次聚类结果，获取二次聚类结果中每个集合中的数字资源的数量，若该数量小于所述第一阈值，删除该集合，若该数量位于第一阈值和第二阈值之间，则将该集合加入所述标题候选热点集，若该数量大于所述第二阈值，则删除该集合。

优选地，根据正文相似度聚类结果获得正文候选热点集的步骤包括：

获取正文相似度聚类结果中每个集合中的数字资源的数量；

若所述数量小于第一阈值，则删除该集合；

若所述数量位于第一阈值和第二阈值之间，则将该集合加入所述正文候选热点集中；

若所述数量大于第二阈值，则进行二次聚类，得到二次聚类结果，获取二次聚类结果中每个集合中的数字资源的数量，若该数量小于所述第一阈值，删除该集合，若该数量位于第一阈值和第二阈值之间，则将该集合加入所述正文候选热点集，若该数量大于所述第二阈值，则删除该集合。

优选地，根据所述标题候选热点集和所述正文候选热点集获取候选热点集的步骤包括：

获取所述标题候选热点集和所述正文候选热点集中存在共有数字资源的集合；

将正文候选热点集中存在共有数字资源的集合加入所述候选热点集，去掉所述标题候选热点集中存在共有数字资源的集合；

对所述标题候选热点集和所述正文候选热点集中不存在共有数字资源的集合，获取每个集合中的正文的关键词向量，计算每两个集合之间的相似度，若大于预设相似度阈值，则将该两个集合合并，将合并后的集合加入候选热点集；若不大于相似度阈值，则将该两个集合分别加入所述候选热点集。

优选地，获取候选热点集后，还包括对所述候选热点集进行去噪的步骤，包括：

针对候选热点集中的每个集合，计算集合内每条数字资源与中心数字资源的相似度，若该相似度小于预设阈值，则删除该数字资源。

优选地，获取标题相似度矩阵的步骤，包括：

对每篇数字资源的标题进行分词，得到词语集合并计算相应词语权重；

根据所述词语集合及权重计算任意两个标题之间的相似度；

根据所述相似度建立标题相似度矩阵。

优选地，还包括:获取正文相似度矩阵的步骤，包括：

对每篇数字资源的正文进行分词，分词后进行停用词及词性过滤，得到词语集合并计算相应词语权重；

在所述词语集合中获取所述词语权重较高的预设数量的特征词语；

根据所述特征词语计算任意两篇正文之间的相似度；

根据所述相似度建立正文相似度矩阵。

本发明还提供一种数字资源热点生成装置，包括

信息提取单元，用于从数字资源中提取标题和正文；

相似矩阵获取单元，用于分别获取标题相似度矩阵和正文相似度矩阵；

标题候选热点集提取单元，用于对所述标题相似度矩阵进行聚类，根据标题相似度聚类结果获得标题候选热点集；

正文候选热点集提取单元，用于对所述正文相似度矩阵进行聚类，根据正文相似度聚类结果获得正文候选热点集；

候选热点集提取单元，用于根据所述标题候选热点集和所述正文候选热点集获取候选热点集。

优选地，还包括热点生成单元，用于根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的预设数量的集合作为热点。

本发明技术方案，具有如下优点：

1.本发明提供的数字资源热点生成方法，首先，从数字资源中提取标题和正文；然后分别获取标题相似度矩阵和正文相似度矩阵；通过分别聚类获得标题候选热点集和正文候选热点集；最后，根据所述标题候选热点集和所述正文候选热点集获取候选热点集。该方案中，使用正文信息和标题信息来进行热点推荐，正文信息和标题信息采用不同的方式处理，相互作为补充和依据，使得获得的热点更加准确，避免了现有技术中对主题词表和新词发现的需求，减弱热点发现对热点个数和经验参数的依赖，实现了面向数字报刊的热点新闻自动发现。

2.本发明提供的数字资源热点生成方法，通过对新闻标题及正文进行不同的预处理操作，并基于无需事先设定聚类数目的聚类算法，通过簇间去噪、簇合并、簇内去噪等实现热点新闻的自动发现，提高了热点生成效率，同时也提高了热点生成的精度。

3.本发明提供的数字资源热点生成方法，输入为结构化数字新闻集合，不需要主题词表和经验参数设定，无需人工干预，是面向数字报刊的热点新闻自动发现方法；在相似度计算部分引入同义词词林，充分考虑了文本的语义信息，减弱了多义词和同义词给文本相似度计算带来的干扰；对标题和正文设计不同的预处理方法，同时将两者分别聚类后合并聚类结果，充分利用了新闻标题和正文的不同特点；无需事先设定聚类数目的聚类算法的引入提高了方法对热点数目的适应性，使得热点新闻的发现真正自动化。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中数字资源热点生成方法的一个流程图；

图2为本发明实施例1中数字资源热点生成方法的另一个流程图；

图3为本发明实施例2中数字资源热点生成装置的结构框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例中提供一种数字资源热点生成方法，用于自动生成若干数字资源中的热点，例如自动发现数字报刊中的热点新闻，该方法的流程图如图1所示，包括如下步骤

S1、从数字资源中提取标题和正文。此处可以从结构化数字报刊中提取新闻标题、正文、出版时间、版面、报刊名称等信息。

S2、分别获取标题相似度矩阵和正文相似度矩阵。

该步骤中，基于同义词词林对标题(title)和正文(content)分别采用不同的文本预处理，并通过相似度计算分别得到标题相似度矩阵和正文相似度矩阵。

其中，获取标题相似度矩阵的步骤，包括：

首先，对每篇数字资源的标题进行分词，得到词语集合并计算相应词语权重。具体的步骤为：标题预处理首先对新闻标题进行分词并去除标点，得到词语(word)集合，设集合内元素个数为p；然后利用集合内的词语构成被处理标题的特征向量V_title＝(word₁,word₂,…,word_p)，其中word_i，i＝1,…,p表示第i维特征词；最后将每个特征词word_i的权重设置为1/p。

然后，根据所述特征向量计算任意两个标题之间的相似度，特征向量中包括词语及其词语权重。具体为：

两篇新闻new₁和new₂的相似度计算首先将new₁的特征向量V₁＝{x₁,x₂,…,x_m}和new₂的特征向量V₂＝{y₁,y₂,…,y_m}中的各特征词进行合并构成相似度计算特征向量V'＝{z₁,z₂,…,z_s}，(s≤m+n)，其中V₁与V₂同为标题特征向量；然后计算得到new₁的相似度计算特征向量V′₁＝{x′₁,x'₂,…,x'_s}和new₂的相似度计算特征向量V′₂＝{y′₁,y'₂,…,y'_s}；最后利用公式计算new₁和new₂的相似度d_1,2。

之后，根据所述相似度建立标题相似度矩阵，形式如下：

其中，ρ＝median/2，为负数。median表示矩阵中所有d的中值。

获取正文相似度矩阵的步骤与获取标题相似度矩阵的步骤相似，其包括：

首先，对每篇数字资源的正文进行分词，分词后进行停用词及词性过滤，得到词语集合并计算得到相应的词语权重。正文预处理首先对新闻正文进行分词及词性标注，并去除分词结果中的停用词、根据词性过滤剩余词语得到词语集合。

然后，在所述词语集合中获取词语权重较高的预设数量的特征词语。通过计算各词语在该正文内的词频对词语排序并设置词语权重，取权重最高的前20％的词语为被处理正文的特征向量V_content＝(term₁,term₂,…,term_q)，其中term_j，j＝1,…,q表示第j维特征词；最后利用扩展的同义词词林将V_content中具有相同义项的各特征词合并为其中权重较大的特征词，权重设置为被合并各特征词的权重累加。

之后，根据所述特征词语计算任意两篇正文之间的相似度。与上述方式相同，两篇新闻new₁和new₂的相似度计算首先将new₁的特征向量V₁＝{x₁,x₂,…,x_m}和new₂的特征向量V₂＝{y₁,y₂,…,y_m}中的各特征词进行同义合并构成相似度计算特征向量V'＝{z₁,z₂,…,z_s}，(s≤m+n)，其中V₁与V₂为正文特征向量；然后计算得到new₁的相似度计算特征向量V′₁＝{x′₁,x'₂,…,x'_s}和new₂的相似度计算特征向量V′₂＝{y′₁,y'₂,…,y'_s}；最后利用公式计算new₁和new₂的相似度d_1,2。

最后，根据所述相似度建立正文相似度矩阵。也与上一计算方式相同，通过第二步可以得到正文相似度矩阵，形式如下：

其中，ρ＝median/2，为负数。median表示矩阵中所有d的中值。

S3、对所述标题相似度矩阵进行聚类，根据标题相似度聚类结果获得标题候选热点集。

具体包括：

第一步，获取标题相似度聚类结果中每个集合中的数字资源的数量；

第二步，若所述数量小于第一阈值，则删除该集合；

第三步，若所述数量位于第一阈值和第二阈值之间，则将该集合加入所述标题候选热点集中；

第四步，若所述数量大于第二阈值，则进行二次聚类，得到二次聚类结果，获取二次聚类结果中每个集合中的数字资源的数量，若该数量小于第一阈值，删除该集合，若该数量位于第一阈值和第二阈值之间，则将该集合加入所述标题候选热点集，若该数量大于第二阈值，则删除该集合。

具体举例如下：将标题相似度聚类结果中的一个集合作为一簇，该步骤实际上是实现簇间去噪，首先设某新闻簇的簇内新闻条数为n，阈值θ₁，θ₂。若n<θ₁，去掉该新闻簇；若θ₁<n<θ₂，保留该新闻簇；若n>θ₂，对该簇内各条新闻进行二次聚类，并对二次聚类得到的新闻条数为n’的各子簇按阈值进行类似处理，当n’>θ₂时，不再进行聚类，直接去掉该子簇。

S4、对所述正文相似度矩阵进行聚类，根据正文相似度聚类结果获得正文候选热点集。该步骤与S3的方法相同，S3、S4的顺序不区分先后。

第一步，获取正文相似度聚类结果中每个集合中的数字资源的数量；

第二步，若所述数量小于第一阈值，则删除该集合；

第三步，若所述数量位于第一阈值和第二阈值之间，则将该集合加入所述正文候选热点集中；

第四步，若所述数量大于第二阈值，则进行二次聚类，得到二次聚类结果，获取二次聚类结果中每个集合中的数字资源的数量，若该数量小于第一阈值，删除该集合，若该数量位于第一阈值和第二阈值之间，则将该集合加入所述正文候选热点集，若该数量大于第二阈值，则删除该集合。

S5、根据所述标题候选热点集和所述正文候选热点集获取候选热点集。

首先，获取所述标题候选热点集和所述正文候选热点集中存在共有数字资源的集合；

然后，将正文候选热点集中存在共有数字资源的集合加入所述候选热点集，去掉所述标题候选热点集中存在共有数字资源的集合；

之后，对所述标题候选热点集和所述正文候选热点集中不存在共有数字资源的集合，获取每个集合中的正文的关键词向量，计算每两个集合之间的相似度，若大于预设相似度阈值，则将该两个集合合并，将合并后的集合加入候选热点集；若不大于相似度阈值，则将该两个集合分别加入所述候选热点集。

具体过程为：将标题候选热点集中的集合作为标题簇，正文候选热点集中的集合作为正文簇，标题簇和正文簇合并时，首先遍历对比各标题簇和正文簇，对标题簇和正文簇中存在共有新闻的两簇，将正文簇加入候选热点新闻簇集合，去除标题簇；对不存在共有新闻的两簇，分别利用词频统计计算各新闻簇正文的关键词向量，并计算两向量的相似度s，若判定为相似(s>σ，σ为阈值)，则合并两簇新闻，并将合并后的簇加入候选热点集；否则两簇均加入候选热点集。

在进一步优选的方案中，获取候选热点集后，还包括对所述候选热点集进行去噪的步骤，如图2所示，包括：

对候选热点集合中的各簇进行簇内去噪的具体方式为，首先计算簇内各条新闻正文与簇中心新闻正文(在聚类过程中可以获得该簇中心正文)相似度s’，若判定为相似(s’>δ，δ为阈值)，保留该条新闻，否则该新闻被作为噪声去除。

作为进一步优选的方案，获取候选热点集后，还包括根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的集合作为热点。具体地，可以根据簇内新闻条数及各条新闻的报刊级别、版面信息等因素确定集合内各候选热点新闻簇的排序，并根据需求选取排位靠前的热点新闻簇作为热点新闻。

本实施例中的数字资源热点生成方法，输入为结构化数字新闻集合，不需要主题词表和经验参数设定，无需人工干预，是面向数字报刊的热点新闻自动发现方法；在相似度计算部分引入同义词词林，充分考虑了文本的语义信息，减弱了多义词和同义词给文本相似度计算带来的干扰；对标题和正文设计不同的预处理方法，同时将两者分别聚类后合并聚类结果，充分利用了新闻标题和正文的不同特点；无需事先设定聚类数目的聚类算法的引入提高了方法对热点数目的适应性，使得热点新闻的发现真正自动化。

下面给出一个具体的应用实例，对于2014年8月12日当天20家报刊刊出的全部新闻按照面向数字报刊的热点新闻自动发现方法的步骤进行热点新闻自动发现。具体的，20家报刊主要为全国性、综合性报刊，第三步中，θ₁＝3，θ₂＝20，σ＝0.8，δ＝0.8。

最终得到的热点新闻簇如下表所示:

表1热点新闻簇列表

实施例2

本实施例中提供一种数字资源热点生成装置，如图2所示，包括

信息提取单元01，用于从数字资源中提取标题和正文；

相似矩阵获取单元02，用于分别获取标题相似度矩阵和正文相似度矩阵；

标题候选热点集提取单元03，用于对所述标题相似度矩阵进行聚类，根据标题相似度聚类结果获得标题候选热点集；

正文候选热点集提取单元04，用于对所述正文相似度矩阵进行聚类，根据正文相似度聚类结果获得正文候选热点集；

候选热点集提取单元05，用于根据所述标题候选热点集和所述正文候选热点集获取候选热点集。

进一步地，还包括热点生成单元，用于根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的集合作为热点。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种数字资源热点生成方法，其特征在于，包括如下步骤

从数字资源中提取标题和正文；

分别获取标题相似度矩阵和正文相似度矩阵；

2.根据权利要求1所述的方法，其特征在于，获取候选热点集后，还包括根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的预设数量的集合作为热点。

3.根据权利要求1所述的方法，其特征在于，根据标题相似度聚类结果获得标题候选热点集的步骤包括：

获取标题相似度聚类结果中每个集合中的数字资源的数量；

若所述数量小于第一阈值，则删除该集合；

4.根据权利要求1所述的方法，其特征在于，根据正文相似度聚类结果获得正文候选热点集的步骤包括：

获取正文相似度聚类结果中每个集合中的数字资源的数量；

若所述数量小于第一阈值，则删除该集合；

5.根据权利要求1所述的方法，其特征在于，根据所述标题候选热点集和所述正文候选热点集获取候选热点集的步骤包括：

6.根据权利要求1所述的方法，其特征在于，获取候选热点集后，还包括对所述候选热点集进行去噪的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：获取标题相似度矩阵的步骤，包括：

根据所述词语集合及权重计算任意两个标题之间的相似度；

根据所述相似度建立标题相似度矩阵。

8.根据权利要求1-7任一所述的方法，其特征在于，还包括:获取正文相似度矩阵的步骤，包括：

根据所述特征词语计算任意两篇正文之间的相似度；

根据所述相似度建立正文相似度矩阵。

9.一种数字资源热点生成装置，包括

信息提取单元，用于从数字资源中提取标题和正文；

10.根据权利要求9所述的装置，其特征在于，还包括热点生成单元，用于根据候选热点集中的每个集合内数字资源的数目以及数字资源的属性信息确定集合的排序，将排序在前的预设数量的集合作为热点。