CN105653598A

CN105653598A - 一种关联新闻的确定方法以及装置

Info

Publication number: CN105653598A
Application number: CN201510974713.2A
Authority: CN
Inventors: 张伸正; 魏少俊; 陈培军
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2016-06-08
Anticipated expiration: 2035-12-22
Also published as: CN105653598B

Abstract

本发明公开了一种关联新闻的确定方法以及装置，其中，所述方法包括：选取一新闻作为某一新闻类别的标杆新闻；计算其他新闻与所述标杆新闻之间的距离；当所述其他新闻与所述标杆新闻之间的距离不大于设定的阈值时，确定所述其他新闻为所述新闻类别的关联新闻。本发明的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量，能够提高关联新闻确定的速度和效率。

Description

一种关联新闻的确定方法以及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种关联信息确定的方法和系统。

背景技术

随着互联网技术的不断发展和日益普及，新闻用户所面对的信息量正在以惊人的速度增长，对能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。

由于新闻信息量急速增加，新闻类别越发细化，并具有很强的实时性，往往更新迅速，时效极短，因此对新闻进行有效的分类，以提供给不同的用户或者提供给不同的应用是十分重要的。

现有技术中，存在一种对新闻进行分类的方法，具体为计算新闻稿件之间的相关度，从而确定具有一定相关度的新闻簇。

现有技术中的这种方法虽然能够聚类有一定相关度的新闻，但是，新闻稿件之间的相关度的均需要计算后才能得到聚类结果，计算量大，计算效率不够高，难以快速确定关联新闻。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种关联新闻的确定的方法和装置。

根据本发明的一个方面，提供了一种关联新闻的确定方法，包括：选取多个新闻作为某一新闻类别的多个标杆新闻；计算其他新闻与多个标杆新闻之间的距离；当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时，确定其他新闻为新闻类别的关联新闻。

可选地，在根据本发明的实施例的关联新闻的确定方法中，新闻包括：新闻标题，新闻摘要，或新闻全文。

可选地，在根据本发明的实施例的关联新闻的确定方法中，距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。

可选地，在根据本发明的实施例的关联新闻的确定方法中，距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。

可选地，在根据本发明的实施例的关联新闻的确定方法中，距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。

可选地，在根据本发明的实施例的关联新闻的确定方法中，特征向量的构成具体为将新闻进行分词处理后形成字词序列，根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序，由前至后取出预设数量的字词作为新闻的特征向量。

可选地，在根据本发明的实施例的关联新闻的确定方法中，将新闻进行分词处理后进一步进行去无用信息处理再形成排序前的字词序列。

可选地，在根据本发明的实施例的关联新闻的确定方法中，对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序：点击率、新闻转载率、以及评论数量，将排在第一的新闻作为所述标杆新闻。

可选地，在根据本发明的实施例的关联新闻的确定方法中，当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。

可选地，在根据本发明的实施例的关联新闻的确定方法中，当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。

根据本发明的另一个方面，提供了一种关联新闻的确定装置，包括选取装置，用于选取多个新闻作为某一新闻类别的多个标杆新闻；距离计算装置，用于计算其他新闻与多个标杆新闻之间的距离；关联新闻确定装置，用于当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时，确定其他新闻为新闻类别的关联新闻。

可选地，在根据本发明的实施例的关联新闻的确定装置中，新闻包括：新闻标题，新闻摘要，或新闻全文。

可选地，在根据本发明的实施例的关联新闻的确定装置中，距离由其他新闻的特征向量与标杆新闻的特征向量的交集确定。

可选地，在根据本发明的实施例的关联新闻的确定装置中，距离由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。

可选地，在根据本发明的实施例的关联新闻的确定装置中，距离由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。

可选地，在根据本发明的实施例的关联新闻的确定装置中，距离计算装置还包括特征向量构成装置，用于将新闻进行分词处理后形成字词序列，根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序，由前至后取出预设数量的字词作为所述新闻的特征向量。

可选地，在根据本发明的实施例的关联新闻的确定装置中，距离计算装置还包括无用信息处理装置，用于将分词处理后的字词序列进行去无用信息处理再形成排序前的字词序列。

可选地，在根据本发明的实施例的关联新闻的确定装置中，选取装置，用于对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序：点击率、新闻转载率、以及评论数量，将排在第一的新闻作为所述标杆新闻。

可选地，在根据本发明的实施例的关联新闻的确定装置中，当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。

可选地，在根据本发明的实施例的关联新闻的确定装置中，当其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。

本发明的有益效果为：本发明的关联新闻的确定方法以及装置能够有效的降低新闻稿件聚类过程中相关度计算的计算量，能够提高关联新闻确定的速度和效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明一个实施例的关联新闻的确定方法的流程图；

图2示意性示出了根据本发明一个实施例的新闻间距离计算的方法的流程图；

图3示意性示出了根据本发明一个实施例的关联新闻的确定装置的框图；

图4示意性示出了根据本发明一个实施例的关联新闻的确定装置中的距离计算装置的框图。

具体实施例

下面结合附图和具体的实施方式对本发明作进一步的描述。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明中聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

请参阅图1，其示出了本发明具体实施方式提供的一种关联新闻的确定方法，包括：步骤110，选取多个新闻作为某一新闻类别的多个标杆新闻；步骤120，计算其他新闻与所述多个标杆新闻之间的距离；步骤130，当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值时，确定所述其他新闻为所述新闻类别的关联新闻。

其中，步骤110，选取多个新闻作为某一新闻类别的多个标杆新闻。

在本发明的某一实施例中，标杆新闻的选取可以对已经聚类的新闻进行排序，可以根据新闻点击率、新闻转载率、以及新闻评论数量中的某一项对已聚类的新闻进行排序，对排序后的新闻，选取排序在前的多个新闻作为标杆新闻。

在本发明的另一实施例中，标杆新闻的选取可以对已经聚类的新闻进行排序，可以新闻点击率、新闻转载率、以及新闻评论数量中的多个因素对已聚类的新闻进行排序，对排序后的新闻，选取排序在前的多个新闻作为标杆新闻。

在本发明的另一实施例中，对已经确定为新闻类别的新闻根据以下因素中的至少一个进行排序：点击率、新闻转载率、以及评论数量，选取排序在前的多个新闻作为标杆新闻。可选的，对排序后的新闻进行进一步筛选，对发布时间超过一定时间阈值的新闻，不选择其作为标杆新闻。

在本发明的另一实施例中，随机选取M个已经聚类的新闻，通过计算M个新闻之间的距离，按照与其他新闻M-1个新闻距离之和进行排序，将距离短的多个新闻作为标杆新闻。

由于M个新闻对于整个新闻类别而言是一个较小的值，因此，对本发明的方法和装置的计算效率并不会产生明显的影响。可选的，对依照距离之和由小到大排序后的新闻进行进一步筛选，对发布时间超过一定时间阈值的新闻，不选择其作为标杆新闻。

步骤120，计算其他新闻与所述多个标杆新闻之间的距离。

具体地，步骤120可选的包括以下步骤，请参阅图2：

步骤1201，对新闻进行分词处理；

本具体实施方式可以首先进行分词处理，获得过个字词。经过分词处理后的字词包括了例如“马伊俐”、“新片”、“尺度”等关键词，还包括了无用信息。

步骤1202，对分词处理后的字词进行去无用信息处理；

无用信息可以将之分为标点符号，与结构助词虚词等在汉语中无意义的词汇。在本发明具体实施方式中，分词处理后，还可以进一步包括对分词处理后的字词进行去无用信息处理。

步骤1203，选择具有代表性的字词构成新闻的特征向量；

可选的，可以将去无用信息处理后得到的字词作为新闻的特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。

例如，对于一篇新闻报道网页，经过分词以及去无用信息处理后，获得一个字词序列S＝(s₁,s₂,s₃......,s_N),其中s1、s2、s3等表示经过分词以及去无用信息处理后的字词。

字词序列S中可能会出现相同的字词，因此可对字词序列中的字词进行相关词频统计，再进一步按照字词出现次数由高到低的顺序进行排列，由前至后取出预设数量的字符作为该新闻文本的特征向量。

步骤1204，根据新闻的特征向量计算其他新闻与标杆新闻的距离；

可选的，假设其他新闻的特征向量为Si，标杆新闻的特征向量为Sp，其他新闻与标杆新闻之间的距离如下式所示：

D＝1-|S_i∩S_p|/|S_i∩S_p|(1)

即，其他新闻的特征向量Si与标杆新闻的特征向量Sp的交集与其他新闻的特征向量Si与标杆新闻的特征向量Sp的并集的比值与1的差值。

例如，标杆新闻的特征向量Sp为(马伊俐新片尺度大职场御姐范儿就得这么穿)，其他新闻之一的特征向量S1为(马伊琍新片尺度大一集亲热数次)，标杆新闻的特征向量Sp与其他新闻之一的特征向量S1之间的交集为4，并集为17，因此可以计算得到距离为0.76。

其他新闻之二的特征向量S2为(马伊琍最新新片剧照有范儿)，标杆新闻的特征向量Sp与其他新闻之一的特征向量S2之间的交集为3，并集为16，因此可以计算得到距离为0.81。

由此可见，特征向量的距离越大，相关性越小，距离越小，相关性越大。本领域技术人员可以确定，公式(1)仅仅是确定特征向量距离的一种示例，其他新闻的特征向量与标杆新闻的特征向量的交集或者其他函数构成也可以表征特征向量之间的距离。

可选的，距离可以由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。

可选的，距离可以由其他新闻的特征向量的最小哈希值与标杆新闻的特征向量的最小哈希值确定。

在最小哈希算法中，假设向量A＝(a₁,a₂...a_i...a_N)是一个N维向量，对于向量中每一个元素a_i，H(a_i)为将a_i映射成一个整数的哈希函数，h_min(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B，h_min(A)＝h_min(B)成立的条件是A∩B中具有最小哈希值的元素也在A∩B。上式成立的前提是这个H是一个良好的哈希函数，具有很好的均匀性，能够把不同元素映射成不同整数。

因此有：P_r(h_min(A)＝h_min(B))＝J(A,B)。其中Pr表示概率。即向量A最小哈希值与向量B最小哈希值相等的概率等于向量A，B的群落系数。因此，可以将最小哈希值相同或相近的向量聚为一类。

假设存在向量A和B，这两个向量的群落系数J定义为：

J(A，B)＝|A∩B|/|A∪B|

新闻从结构上一般包括标题，正文，摘要等，计算新闻之间的距离，可以是对新闻正文提取结构向量后计算向量之间的距离，也可以是对新闻标题或新闻摘要提取结构向量，再计算向量之间的距离。

步骤130，当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值时，确定所述其他新闻为所述新闻类别的关联新闻。

可选的，其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。

可选的，其他新闻与多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。

在某一具体实施例中，选取S1和S2作为标杆新闻。

对于某一新闻Si，根据步骤120的计算获得了D1和D2，其中D1为Si与S1之间的距离，D2为Si与S2之间的距离，当D1不大于阈值1时，且D2不大于阈值2时，可以认为Si属于关联新闻。

通过选择两个标杆新闻，能够将关联新闻限制一个更加精确、具体的区域。通过设置阈值1和阈值2，能够起到调整标杆新闻S1和标杆新闻S2的权重的作用。当阈值1与阈值2相等时，两个标杆新闻对确定关联新闻的作用的相等的，当阈值1小于阈值2时，标杆新闻S1对确定关联新闻的作用大于标杆新闻S2，当阈值1大于阈值2时，标杆新闻S1对确定关联新闻的作用小于标杆新闻S2。

在某一具体实施例中，选取S1,S2,……SN作为标杆新闻。

对于某一新闻Si，根据步骤120的计算获得了D1,D2,……DN，其中D1为Si与S1之间的距离，D2为Si与S2之间的距离……DN为Si与SN之间的距离。当D1不大于阈值1时，D2不大于阈值2时，……且DN不大于阈值N时，可以认为Si属于关联新闻。

通过选择多个标杆新闻，能够将关联新闻限制一个更加精确、具体的区域。通过设置阈值1，阈值2直至阈值N，能够起到调整标杆新闻S1,S2,……SN的权重的作用。当阈值1至阈值N相等时，N个标杆新闻对确定关联新闻的作用的相等的，当阈值1至阈值N不相等时或至少两个不相等时，阈值小的标杆新闻对确定关联新闻的作用大于阈值大的标杆新闻。

请参阅图3，其示出了本发明具体实施方式提供的一种关联新闻的确定装置，包括：选取装置210，距离计算装置220，和关联新闻确定装置230。选取装置210，用于选取多个新闻作为某一新闻类别的多个标杆新闻；距离计算装置220，用于计算其他新闻与多个标杆新闻之间的距离；关联新闻确定装置230，用于当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时，确定其他新闻为新闻类别的关联新闻。

选取装置210，用于选取多个新闻作为某一新闻类别的多个标杆新闻。

距离计算装置220，用于计算其他新闻与所述多个标杆新闻之间的距离。

具体地，距离计算装置220可选的包括以下组成部分，请参阅图4：

分词装置2201，用于对新闻进行分词处理。

无用信息处理装置2202，对分词处理后的字词进行去无用信息处理。

特征向量构成装置2203，用于选择具有代表性的字词构成新闻的特征向量。

距离确定装置2204，用于根据新闻的特征向量计算其他新闻与标杆新闻的距离；

D＝1-|S_i∩S_p|/|S_i∪S_p|(1)

在最小哈希算法中，假设向量A＝(a₁,a₂...a_i...a_N)是一个N维向量，对于向量中每一个元素a_i，H(a_i)为将a_i映射成一个整数的哈希函数，h_min(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B，h_min(A)＝h_min(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B。上式成立的前提是这个H是一个良好的哈希函数，具有很好的均匀性，能够把不同元素映射成不同整数。

假设存在向量A和B，这两个向量的群落系数J定义为：

J(A，B)＝|A∩B|/|A∪B|

关联新闻确定装置230，用于当其他新闻与多个标杆新闻之间的距离不大于设定的阈值时，确定其他新闻为新闻类别的关联新闻。

在某一具体实施例中，选取S1和S2作为标杆新闻。

在某一具体实施例中，选取S1,S2,……SN作为标杆新闻。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的中的关联新闻的确定装置一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种关联新闻的确定方法，包括步骤：

选取多个新闻作为某一新闻类别的多个标杆新闻；

计算其他新闻与所述多个标杆新闻之间的距离；

当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值时，确定所述其他新闻为所述新闻类别的关联新闻。

2.根据权利要求1所述的关联新闻的确定方法，其特征在于，所述新闻包括：新闻标题，新闻摘要，或新闻全文。

3.根据权利要求1-2中任一所述的关联新闻的确定方法，其特征在于，所述距离由所述其他新闻的特征向量分别与所述多个标杆新闻的特征向量的交集确定。

4.根据权利要求1-3中任一所述的关联新闻的确定方法，其特征在于，所述距离由所述其他新闻的特征向量分别与所述多个标杆新闻的特征向量的内积或夹角的余弦确定。

5.根据权利要求1-4中任一所述的关联新闻的确定方法，其特征在于，所述距离由所述其他新闻的特征向量的最小哈希值与所述多个标杆新闻的特征向量的最小哈希值确定。

6.根据权利要求1-5中任一所述的关联新闻的确定方法，其特征在于，所述特征向量的构成具体为将新闻进行分词处理后形成字词序列，根据字词序列中字词出现频率由高到低的顺序重新排列字词顺序，由前至后取出预设数量的字词作为所述新闻的特征向量。

7.根据权利要求1-6中任一所述的关联新闻的确定方法，其特征在于，所述将新闻进行分词处理后进一步进行去无用信息处理再形成排序前的字词序列。

8.根据权利要求1-7中任一所述的关联新闻的确定方法，其特征在于，对已经确定为所述新闻类别的新闻根据以下因素中的至少一个进行排序：点击率、新闻转载率、以及评论数量，将排在前面的多个新闻作为所述多个标杆新闻。

9.根据权利要求1-8中任一所述的关联新闻的确定方法，其特征在于，所述当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值中的阈值均不相同或至少两个不相同。

10.根据权利要求1-9中任一所述的关联新闻的确定方法，其特征在于，所述当所述其他新闻与所述多个标杆新闻之间的距离不大于设定的阈值中的阈值是相同的。