CN105528335A - 确定新闻之间相关性的方法和装置 - Google Patents

确定新闻之间相关性的方法和装置 Download PDF

Info

Publication number
CN105528335A
CN105528335A CN201510974316.5A CN201510974316A CN105528335A CN 105528335 A CN105528335 A CN 105528335A CN 201510974316 A CN201510974316 A CN 201510974316A CN 105528335 A CN105528335 A CN 105528335A
Authority
CN
China
Prior art keywords
news
mark post
distance
correlativity
characteristic attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510974316.5A
Other languages
English (en)
Other versions
CN105528335B (zh
Inventor
张伸正
魏少俊
陈培军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510974316.5A priority Critical patent/CN105528335B/zh
Publication of CN105528335A publication Critical patent/CN105528335A/zh
Priority to PCT/CN2016/103397 priority patent/WO2017107651A1/zh
Priority to US15/744,688 priority patent/US10217025B2/en
Application granted granted Critical
Publication of CN105528335B publication Critical patent/CN105528335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种确定新闻之间相关性的方法和装置,方法包括:将第一新闻与标杆新闻进行比较,得到第一新闻与标杆新闻的距离;将第二新闻与标杆新闻进行比较,得到第二新闻与标杆新闻的距离;计算第一新闻与标杆新闻的距离和第一新闻与标杆新闻的距离之间的距离差,根据距离差确定第一新闻与第二新闻之间的相关性。根据本发明,当需要分析不同新闻之间的相关性时,不必进行多个新闻之间的对比,而是进行多个新闻与标杆新闻之间的比较;由于标杆新闻只有一个,而其他新闻不需要进行互相之间的对比,只需要进行与标杆新闻的对比,即可确定多个新闻之间的相关性,所以根据本发明的技术方案获取相关新闻的效率非常高。

Description

确定新闻之间相关性的方法和装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种确定新闻之间相关性的方法和装置。
背景技术
在互联网领域内,当新的新闻出现时,需要将其和已有的新闻进行比较,确定新的新闻和已有的哪些新闻是相关新闻关系,以便于在用户查看新闻时将相关新闻一起推荐给用户。
由于已有新闻的数量庞大,而每个新的新闻都需要与所有已有新闻进行比较,导致计算量非常巨大,计算新闻相关性的效率非常低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定新闻之间相关性的方法和装置。
依据本发明的一种确定新闻之间相关性的方法,包括:将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离;将第二新闻与所述标杆新闻进行比较,得到所述第二新闻与所述标杆新闻的距离;计算所述第一新闻与所述标杆新闻的距离和所述第一新闻与所述标杆新闻的距离之间的距离差,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性。
可选地,前述的方法,在将第一新闻与标杆新闻进行比较之前,还包括:识别所述第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的所述标杆新闻。
可选地,前述的方法,在将第一新闻与标杆新闻进行比较之前,还包括:获取所述第一新闻中的关键词,并从标杆新闻集合中选择具有所述关键词的所述标杆新闻。
可选地,前述的方法,将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离,具体包括:获取所述第一新闻的特征属性,并根据述第一新闻的特征属性生成所述第一新闻对应的向量,将所述第一新闻对应的向量与所述标杆新闻对应的向量进行比较;将第二新闻与所述标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离,具体包括:获取所述第二新闻的特征属性,并根据述第二新闻的特征属性生成所述第二新闻对应的向量,并将所述第二新闻对应的向量与所述标杆新闻对应的向量进行比较。
可选地,前述的方法,获取所述第一新闻的特征属性,具体包括:对所述第一新闻进行分词得到多个词,计算所述第一新闻的多个词的词频,作为所述第一新闻的特征属性;获取所述第二新闻的特征属性,具体包括:对所述第二新闻进行分词得到多个词,计算所述第二新闻的多个词的词频,作为所述第二新闻的特征属性。
可选地,前述的方法,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性,具体包括:在所述距离差位于预设区间时,将所述第二新闻设置为所述第一新闻的相关新闻,以用于在需推送所述第一新闻的相关新闻时推送所述第二新闻。
依据本发明的一种确定新闻之间相关性的装置,包括:第一距离计算模块,用于将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离;第二距离计算模块,用于将第二新闻与所述标杆新闻进行比较,得到所述第二新闻与所述标杆新闻的距离;相关性计算模块,用于计算所述第一新闻和所述标杆新闻的距离与所述第一新闻与所述标杆新闻的距离之间的距离差,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性。
可选地,前述的装置,还包括:第一标杆新闻获取模块,用于识别所述第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的所述标杆新闻。
可选地,前述的装置,还包括:第二标杆新闻获取模块,用于获取所述第一新闻中的关键词,并从标杆新闻集合中选择具有所述关键词的所述标杆新闻。
可选地,前述的装置,还包括:第一向量生成模块,用于获取所述第一新闻的特征属性,并根据述第一新闻的特征属性生成所述第一新闻对应的向量;所述第一标杆新闻获取模块将所述第一新闻对应的向量与所述标杆新闻对应的向量进行比较;第二向量生成模块,用于获取所述第二新闻的特征属性,并根据述第二新闻的特征属性生成所述第二新闻对应的向量;所述第一标杆新闻获取模块将所述第二新闻对应的向量与所述标杆新闻对应的向量进行比较。
可选地,前述的装置,所述第一向量生成模块对所述第一新闻进行分词得到多个词,计算所述第一新闻的多个词的词频,作为所述第一新闻的特征属性;所述第二向量生成模块对所述第二新闻进行分词得到多个词,计算所述第二新闻的多个词的词频,作为所述第二新闻的特征属性。
可选地,前述的装置,所述相关性计算模块在所述距离差位于预设区间时,将所述第二新闻设置为所述第一新闻的相关新闻,以用于在需推送所述第一新闻的相关新闻时推送所述第二新闻。
根据以上技术方案,本发明的确定新闻之间相关性的方法和装置至少具有以下优点:
根据本发明的技术方案,当需要分析不同新闻之间的相关性时,不必进行多个新闻之间的对比,而是进行多个新闻与标杆新闻之间的比较,如果两个新闻与标杆之间的距离相似,则说明两个新闻之间具有一定的类似程度;由于标杆新闻只有一个,而其他新闻不需要进行互相之间的对比,只需要进行与标杆新闻的对比,即可确定多个新闻之间的相关性,所以根据本发明的技术方案获取相关新闻的效率非常高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的确定新闻之间相关性的方法的流程图;
图2示出了根据本发明的一个实施例的确定新闻之间相关性的装置的框图;
图3示出了根据本发明的一个实施例的确定新闻之间相关性的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例中提供了一种确定新闻之间相关性的方法,包括:
步骤110,将第一新闻与标杆新闻进行比较,得到第一新闻与标杆新闻的距离。在本实施例中,对标杆新闻不进行限制,任何一篇新闻都可以选定作为标杆新闻。
步骤120,将第二新闻与标杆新闻进行比较,得到第二新闻与标杆新闻的距离。
步骤130,计算第一新闻与标杆新闻的距离和第一新闻与标杆新闻的距离之间的距离差,根据距离差确定第一新闻与第二新闻之间的相关性。在本实施例中,距离反映了新闻之间的差别,本实施例对计算距离的方式不进行限制;根据本实施例的技术方案,容易理解,当第一新闻与标杆新闻之间的距离,和第二新闻与标杆新闻之间的距离相似时,说明第一新闻与第二新闻之间的距离较近,也就是两个新闻之间的相关性较强;当第一新闻与标杆新闻之间距离较近,第二新闻与标杆新闻之间的距离较远时,说明第一新闻与第二新闻之间的距离较远,两个新闻之间的相关性较弱。
本发明的一个实施例中还提供一种确定新闻之间相关性的方法,相比于前述的实施例,本实施例的确定新闻之间相关性的方法,在步骤110之前,还包括:
识别第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的标杆新闻。在本实施例中,如果第一新闻、第二新闻与标杆新闻之间的距离过大,只能说明第一新闻、第二新闻与标杆新闻均有很大不同,但难以说明第一新闻、第二新闻之间的相关性如何;而同类型的新闻之间具有较高的相关性,则本实施例使得第一新闻与标杆新闻之间的距离较小,说明第一新闻与标杆新闻相关性较高,则第二新闻与标杆新闻距离大则相当于与第一新闻距离大,即第一新闻与第二新闻相关性较弱,第二新闻与标杆新闻距离小则相当于与第一新闻距离小,即第一新闻与第二新闻相关性较强。例如,如果第一新闻为体育新闻,则选取的标杆新闻为体育新闻。
本发明的一个实施例中还提供一种确定新闻之间相关性的方法,相比于前述的实施例,本实施例的确定新闻之间相关性的方法,在步骤110之前,还包括:
获取第一新闻中的关键词,并从标杆新闻集合中选择具有关键词的标杆新闻。在本实施例中,如果第一新闻、第二新闻与标杆新闻之间的距离过大,只能说明第一新闻、第二新闻与标杆新闻均有很大不同,但难以说明第一新闻、第二新闻之间的相关性如何;而具有相同关键词的新闻之间具有较高的相关性,则本实施例使得第一新闻与标杆新闻之间的距离较小,说明第一新闻与标杆新闻相关性较高,则第二新闻与标杆新闻距离大则相当于与第一新闻距离大,即第一新闻与第二新闻相关性较弱,第二新闻与标杆新闻距离小则相当于与第一新闻距离小,即第一新闻与第二新闻相关性较强。例如,如果第一新闻标题为《明星A获奖》,则选取的标杆新闻可以是《明星A全纪录》,关键词是明星A。
本发明的一个实施例中还提供一种确定新闻之间相关性的方法,相比于前述的实施例,本实施例的确定新闻之间相关性的方法,步骤110,具体包括:
获取第一新闻的特征属性,并根据述第一新闻的特征属性生成第一新闻对应的向量,将第一新闻对应的向量与标杆新闻对应的向量进行比较。
步骤120,具体包括:获取第二新闻的特征属性,并根据述第二新闻的特征属性生成第二新闻对应的向量,并将第二新闻对应的向量与标杆新闻对应的向量进行比较。
在本实施例中,对特征属性不进行限制;利用新闻的一个或多个特征属性,容易将新闻量化称谓数字,能够更容易、更精确地计算新闻之间的距离。
本发明的一个实施例中还提供一种确定新闻之间相关性的方法,相比于前述的实施例,本实施例的确定新闻之间相关性的方法,步骤110,具体包括:
对第一新闻进行分词得到多个词,计算第一新闻的多个词的词频,作为第一新闻的特征属性;
步骤120,具体包括:对第二新闻进行分词得到多个词,计算第二新闻的多个词的词频,作为第二新闻的特征属性。
在本实施例中,可以为第一新闻分配一个随机数,根据随机数和计算得到的词频,为第一新闻构造出一个文章向量;同样地,第二新闻、标杆新闻也可以构造相应的文章向量;在本实施例中,对第一新闻、第二新闻、标杆新闻的文章向量取最小哈希值再进行计算,能够得到第一新闻与标杆新闻之间的具体距离值、第二新闻与标杆新闻之间的距离值。例如,新闻A、新闻B与标杆新闻之间的距离分别为4、3,差值较小为1表示新闻A、新闻B相关性较高,而新闻C与标杆新闻的差值为1,其与新闻A、新闻B的距离差值较大,则相关性较低。
本发明的一个实施例中还提供一种确定新闻之间相关性的方法,相比于前述的实施例,本实施例的确定新闻之间相关性的方法,步骤130,具体包括:
在距离差位于预设区间时,将第二新闻设置为第一新闻的相关新闻,以用于在需推送第一新闻的相关新闻时推送第二新闻。例如,结合前述的实施例内容,假设预设区间为0-1,则新闻A为新闻B的相关新闻,用户查看新闻A时可以为用户推送新闻B。
如图2所示,本发明的一个实施例中提供了一种确定新闻之间相关性的装置,包括:
第一距离计算模块210,用于将第一新闻与标杆新闻进行比较,得到第一新闻与标杆新闻的距离。在本实施例中,对标杆新闻不进行限制,任何一篇新闻都可以选定作为标杆新闻。
第二距离计算模块220,用于将第二新闻与标杆新闻进行比较,得到第二新闻与标杆新闻的距离。
相关性计算模块230,用于计算第一新闻和标杆新闻的距离与第一新闻与标杆新闻的距离之间的距离差,根据距离差确定第一新闻与第二新闻之间的相关性。在本实施例中,距离反映了新闻之间的差别,本实施例对计算距离的方式不进行限制;根据本实施例的技术方案,容易理解,当第一新闻与标杆新闻之间的距离,和第二新闻与标杆新闻之间的距离相似时,说明第一新闻与第二新闻之间的距离较近,也就是两个新闻之间的相关性较强;当第一新闻与标杆新闻之间距离较近,第二新闻与标杆新闻之间的距离较远时,说明第一新闻与第二新闻之间的距离较远,两个新闻之间的相关性较弱。
如图3所示,本发明的一个实施例中还提供一种确定新闻之间相关性的装置,相比于前述的实施例,本实施例的确定新闻之间相关性的装置,还包括:
第一标杆新闻获取模块310,用于识别第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的标杆新闻。在本实施例中,如果第一新闻、第二新闻与标杆新闻之间的距离过大,只能说明第一新闻、第二新闻与标杆新闻均有很大不同,但难以说明第一新闻、第二新闻之间的相关性如何;而同类型的新闻之间具有较高的相关性,则本实施例使得第一新闻与标杆新闻之间的距离较小,说明第一新闻与标杆新闻相关性较高,则第二新闻与标杆新闻距离大则相当于与第一新闻距离大,即第一新闻与第二新闻相关性较弱,第二新闻与标杆新闻距离小则相当于与第一新闻距离小,即第一新闻与第二新闻相关性较强。例如,如果第一新闻为体育新闻,则选取的标杆新闻为体育新闻。
如图3所示,本发明的一个实施例中还提供一种确定新闻之间相关性的装置,相比于前述的实施例,本实施例的确定新闻之间相关性的装置,还包括:
第二标杆新闻获取模块320,用于获取第一新闻中的关键词,并从标杆新闻集合中选择具有关键词的标杆新闻。在本实施例中,如果第一新闻、第二新闻与标杆新闻之间的距离过大,只能说明第一新闻、第二新闻与标杆新闻均有很大不同,但难以说明第一新闻、第二新闻之间的相关性如何;而具有相同关键词的新闻之间具有较高的相关性,则本实施例使得第一新闻与标杆新闻之间的距离较小,说明第一新闻与标杆新闻相关性较高,则第二新闻与标杆新闻距离大则相当于与第一新闻距离大,即第一新闻与第二新闻相关性较弱,第二新闻与标杆新闻距离小则相当于与第一新闻距离小,即第一新闻与第二新闻相关性较强。例如,如果第一新闻标题为《明星A获奖》,则选取的标杆新闻可以是《明星A全纪录》,关键词是明星A。
如图3所示,本发明的一个实施例中还提供一种确定新闻之间相关性的装置,相比于前述的实施例,本实施例的确定新闻之间相关性的装置,还包括:
第一向量生成模块330,用于获取第一新闻的特征属性,并根据述第一新闻的特征属性生成第一新闻对应的向量;第一标杆新闻获取模块310将第一新闻对应的向量与标杆新闻对应的向量进行比较。
第二向量生成模块340,用于获取第二新闻的特征属性,并根据述第二新闻的特征属性生成第二新闻对应的向量;第一标杆新闻获取模块320将第二新闻对应的向量与标杆新闻对应的向量进行比较。
在本实施例中,对特征属性不进行限制;利用新闻的一个或多个特征属性,容易将新闻量化称谓数字,能够更容易、更精确地计算新闻之间的距离。
本发明的一个实施例中还提供一种确定新闻之间相关性的装置,相比于前述的实施例,本实施例的确定新闻之间相关性的装置,第一向量生成模块330对第一新闻进行分词得到多个词,计算第一新闻的多个词的词频,作为第一新闻的特征属性.
第二向量生成模块340对第二新闻进行分词得到多个词,计算第二新闻的多个词的词频,作为第二新闻的特征属性。
在本实施例中,可以为第一新闻分配一个随机数,根据随机数和计算得到的词频,为第一新闻构造出一个文章向量;同样地,第二新闻、标杆新闻也可以构造相应的文章向量;在本实施例中,对第一新闻、第二新闻、标杆新闻的文章向量取最小哈希值再进行计算,能够得到第一新闻与标杆新闻之间的具体距离值、第二新闻与标杆新闻之间的距离值。例如,新闻A、新闻B与标杆新闻之间的距离分别为4、3,差值较小为1表示新闻A、新闻B相关性较高,而新闻C与标杆新闻的差值为1,其与新闻A、新闻B的距离差值较大,则相关性较低。
本发明的一个实施例中还提供一种确定新闻之间相关性的装置,相比于前述的实施例,本实施例的确定新闻之间相关性的装置,相关性计算模块310在距离差位于预设区间时,将第二新闻设置为第一新闻的相关新闻,以用于在需推送第一新闻的相关新闻时推送第二新闻。例如,结合前述的实施例内容,假设预设区间为0-1,则新闻A为新闻B的相关新闻,用户查看新闻A时可以为用户推送新闻B。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定新闻之间相关性的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种确定新闻之间相关性的方法,其特征在于,包括:
将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离;
将第二新闻与所述标杆新闻进行比较,得到所述第二新闻与所述标杆新闻的距离;
计算所述第一新闻与所述标杆新闻的距离和所述第一新闻与所述标杆新闻的距离之间的距离差,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性。
2.根据权利要求1所述的方法,其特征在于,在将第一新闻与标杆新闻进行比较之前,还包括:
识别所述第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的所述标杆新闻。
3.根据权利要求1-2任一项所述的方法,其特征在于,在将第一新闻与标杆新闻进行比较之前,还包括:
获取所述第一新闻中的关键词,并从标杆新闻集合中选择具有所述关键词的所述标杆新闻。
4.根据权利要求1-3任一项所述的方法,其特征在于,将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离,具体包括:
获取所述第一新闻的特征属性,并根据述第一新闻的特征属性生成所述第一新闻对应的向量,将所述第一新闻对应的向量与所述标杆新闻对应的向量进行比较;
将第二新闻与所述标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离,具体包括:
获取所述第二新闻的特征属性,并根据述第二新闻的特征属性生成所述第二新闻对应的向量,并将所述第二新闻对应的向量与所述标杆新闻对应的向量进行比较。
5.根据权利要求1-4任一项所述的方法,其特征在于,获取所述第一新闻的特征属性,具体包括:
对所述第一新闻进行分词得到多个词,计算所述第一新闻的多个词的词频,作为所述第一新闻的特征属性;
获取所述第二新闻的特征属性,具体包括:
对所述第二新闻进行分词得到多个词,计算所述第二新闻的多个词的词频,作为所述第二新闻的特征属性。
6.根据权利要求1-5中任一项所述的方法,其特征在于,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性,具体包括:
在所述距离差位于预设区间时,将所述第二新闻设置为所述第一新闻的相关新闻,以用于在需推送所述第一新闻的相关新闻时推送所述第二新闻。
7.一种确定新闻之间相关性的装置,其特征在于,包括:
第一距离计算模块,用于将第一新闻与标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离;
第二距离计算模块,用于将第二新闻与所述标杆新闻进行比较,得到所述第二新闻与所述标杆新闻的距离;
相关性计算模块,用于计算所述第一新闻和所述标杆新闻的距离与所述第一新闻与所述标杆新闻的距离之间的距离差,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性。
8.根据权利要求7所述的装置,其特征在于,还包括:
第一标杆新闻获取模块,用于识别所述第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的所述标杆新闻。
9.根据权利要求7-8任一项所述的装置,其特征在于,还包括:
第二标杆新闻获取模块,用于获取所述第一新闻中的关键词,并从标杆新闻集合中选择具有所述关键词的所述标杆新闻。
10.根据权利要求7-9任一项所述的装置,其特征在于,还包括:
第一向量生成模块,用于获取所述第一新闻的特征属性,并根据述第一新闻的特征属性生成所述第一新闻对应的向量;所述第一标杆新闻获取模块将所述第一新闻对应的向量与所述标杆新闻对应的向量进行比较;
第二向量生成模块,用于获取所述第二新闻的特征属性,并根据述第二新闻的特征属性生成所述第二新闻对应的向量;所述第一标杆新闻获取模块将所述第二新闻对应的向量与所述标杆新闻对应的向量进行比较。
CN201510974316.5A 2015-12-22 2015-12-22 确定新闻之间相关性的方法和装置 Active CN105528335B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510974316.5A CN105528335B (zh) 2015-12-22 2015-12-22 确定新闻之间相关性的方法和装置
PCT/CN2016/103397 WO2017107651A1 (zh) 2015-12-22 2016-10-26 确定新闻之间相关性、多新闻之间相关性计算方法和装置
US15/744,688 US10217025B2 (en) 2015-12-22 2016-10-26 Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510974316.5A CN105528335B (zh) 2015-12-22 2015-12-22 确定新闻之间相关性的方法和装置

Publications (2)

Publication Number Publication Date
CN105528335A true CN105528335A (zh) 2016-04-27
CN105528335B CN105528335B (zh) 2018-10-09

Family

ID=55770572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510974316.5A Active CN105528335B (zh) 2015-12-22 2015-12-22 确定新闻之间相关性的方法和装置

Country Status (1)

Country Link
CN (1) CN105528335B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107651A1 (zh) * 2015-12-22 2017-06-29 北京奇虎科技有限公司 确定新闻之间相关性、多新闻之间相关性计算方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265160A1 (en) * 2005-05-13 2009-10-22 Curtin University Of Technology Comparing text based documents
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104462323A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265160A1 (en) * 2005-05-13 2009-10-22 Curtin University Of Technology Comparing text based documents
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104090890A (zh) * 2013-12-12 2014-10-08 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104462323A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107651A1 (zh) * 2015-12-22 2017-06-29 北京奇虎科技有限公司 确定新闻之间相关性、多新闻之间相关性计算方法和装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news

Also Published As

Publication number Publication date
CN105528335B (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN104484459B (zh) 一种对知识图谱中的实体进行合并的方法及装置
CN103440335B (zh) 视频推荐方法及装置
US8239404B2 (en) Identifying entries and exits of strongly connected components
US7865780B2 (en) Method for test case generation
Zhao et al. A partition-based approach to structure similarity search
CN107861981A (zh) 一种数据处理方法及装置
CN105389352A (zh) 日志处理方法和装置
US20170091073A1 (en) Detection of antipatterns through statistical analysis
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN105095381A (zh) 新词识别方法和装置
CN104484311B (zh) 用于公式的数据处理方法和装置
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN109857804A (zh) 一种分布式模型参数的搜索方法、装置和电子设备
CN103942264A (zh) 推送包含新闻信息的网页的方法和装置
CN104317931A (zh) 网页标题的确定方法和装置
CN107341181A (zh) 搜索推荐方法、装置、计算机可读存储介质及计算机设备
Voigt et al. Metamodel matching based on planar graph edit distance
CN111045670B (zh) 一种二进制代码与源代码间复用关系的识别方法与装置
CN106126721A (zh) 一种实时计算平台的数据处理方法和装置
CN104778159A (zh) 一种基于词权重进行分词的方法和装置
CN105528335A (zh) 确定新闻之间相关性的方法和装置
CN104461761A (zh) 数据校验方法、装置和服务器
CN103262068B (zh) 用于使用单遍等级化单次遍历数据来产生叉积矩阵的系统及方法
CN105528336A (zh) 多标杆确定文章相关性的方法和装置
CN105404695A (zh) 试题查询方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.