CN107657067B - 一种基于余弦距离的前沿科技信息快速推送方法及系统 - Google Patents

一种基于余弦距离的前沿科技信息快速推送方法及系统 Download PDF

Info

Publication number
CN107657067B
CN107657067B CN201711125200.XA CN201711125200A CN107657067B CN 107657067 B CN107657067 B CN 107657067B CN 201711125200 A CN201711125200 A CN 201711125200A CN 107657067 B CN107657067 B CN 107657067B
Authority
CN
China
Prior art keywords
scientific
information
articles
distance
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711125200.XA
Other languages
English (en)
Other versions
CN107657067A (zh
Inventor
马艳
齐达立
陈玉峰
陈素红
曹建梅
邹立达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711125200.XA priority Critical patent/CN107657067B/zh
Publication of CN107657067A publication Critical patent/CN107657067A/zh
Application granted granted Critical
Publication of CN107657067B publication Critical patent/CN107657067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于余弦距离的前沿科技信息快速推送方法及系统,方法包括构造余弦距离索引和推送信息两个过程,它首先爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;然后通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。系统包括余弦距离索引模块、科技信息数据库和推送信息模块。本发明不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。

Description

一种基于余弦距离的前沿科技信息快速推送方法及系统
技术领域
本发明涉及网络数据推送技术领域,具体地说是一种基于余弦距离的前沿科技信息快速推送方法及系统。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展,社会各行业、各单位部门对情报信息的需求更加迫切,科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。
互联网的兴起与普及使得科技信息的获得更加快速与易得,然而,在大量的科技咨询中找到最新的前沿信息是费时与困难的。当前的科技情报推送系统,多以主题的方式对科技信息进行分类。当情报使用人员关注某一主题时,系统往往把这一主题的所有文章都加以推送,因而使用人员无法分清那些文章或者文献是最新的科研成果。比较直观的方法是根据信息文件的发布时间加以区分,只将近期发布的信息推送给用户。这种方法虽然可以将最新的科技信息找到,但是极易造成科技前沿信息的冗余与漏报:1)由于科技网站之间、文献数据库之间存在大量镜像与简单修改后再转载的情况,因此会有大量重复或者相似的文章被推送到用户端。2)系统在运行时,会对科技信息的数据源进行扩展,比如填加一个文献数据库,这时新增文献数据库中会有许多文献是没有被推送过但发布时间比较旧,然而只依据最新原则会将此类信息忽略。
科技信息数据库会存储大量的已被推送的文章,可以将新增文章与大量的文章进行一一比较,以判断该文章是否是重复或者相似的文章,是一件及为耗时的任务,这与科技情况信息的及时性要求相违背。
因此,亟需设计一种前沿科技信息的快速推送技术,来将没有推送过的信息及时地推送到用户端。
发明内容
针对现有技术的不足,本发明提出了一种基于余弦距离的前沿科技信息快速推送方法及系统,其能够将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送给用户。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送方法,它包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
作为本实施例一种可能的实现方式,所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti
2)基于TF-IDF技术提取Ti的TF-IDF向量,记为
Figure GDA0002850581440000021
并将
Figure GDA0002850581440000022
做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中;
3)周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类,向量集合
Figure GDA0002850581440000031
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇
Figure GDA0002850581440000032
对应树的一个叶节点,叶节点需要存储关键字
Figure GDA0002850581440000033
每个多个成员的簇
Figure GDA0002850581440000034
对应树的一个非叶节点,非叶节点需要存储关键字
Figure GDA0002850581440000035
Figure GDA0002850581440000036
每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点。
作为本实施例一种可能的实现方式,所述对当前科技信息文章向量进行聚类的过程包括以下步骤:
31)将每个向量都当做一个聚类,将向量集合T中的每个向量
Figure GDA0002850581440000037
看成一个具有单个成员的簇
Figure GDA0002850581440000038
这些簇构成T的一个聚类集合C={c1,c2,…,ci,…,cn};
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
作为本实施例一种可能的实现方式,所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算,具体计算步骤为:
321)用
Figure GDA0002850581440000039
表示两个向量之间的距离,定义
Figure GDA00028505814400000310
为余弦距离的倒数,即
Figure GDA00028505814400000311
322)定义
Figure GDA00028505814400000312
S2的计算公式为
Figure GDA00028505814400000313
其中
Figure GDA0002850581440000041
作为本实施例一种可能的实现方式,所述推送信息的过程包括以下步骤:
5)基于生成树t查找与
Figure GDA0002850581440000042
距离最小的向量
Figure GDA0002850581440000043
6)计算
Figure GDA0002850581440000044
如果
Figure GDA0002850581440000045
则判断Ti具有未推送的内容,需要推送给用户,其中μ是设置的相似度阈值,μ越大对相似文章越敏感,即轻微改动的文章易判定为相似文章;
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
作为本实施例一种可能的实现方式,所述查找与
Figure GDA0002850581440000046
距离最小的向量
Figure GDA0002850581440000047
的过程包括以下步骤:
51)从生成树t的根节点开始查询,设nx→t.root;
52)如果nx为叶节点,结束此过程,则将nx的关键字赋值给
Figure GDA0002850581440000048
返回
Figure GDA0002850581440000049
53)如果nx为非叶节点,计算
Figure GDA00028505814400000410
与nx的所有孩子节点关键字的距离,距离利用公式(1)计算,选择具有最小距离的关键字子节点,设为ny;令nx→ny,并转步骤52)。
另一方面,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送系统,它包括余弦距离索引模块、科技信息数据库和推送信息模块;
所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;
所述科技信息数据库用于存储科技信息文章;
所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
作为本实施例一种可能的实现方式,所述余弦距离索引模块包括:
文本爬取模块,用于爬取科技信息文章,并将爬取的科技信息文章文本化;
向量提取模块,用于基于TF-IDF技术提取科技信息文章的TF-IDF向量,并以键值对的形式存储到科技信息数据库中;
聚类模块,用于周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类;
余弦距离索引模块,用于在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引。
作为本实施例一种可能的实现方式,所述聚类模块包括:
聚类构成模块,用于将每个向量构造一个聚类集合;
距离模块,用于计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,计算聚类集合中每个簇对之间的相似度距离;
聚类集合更新模块,用于将具有相似度距离最小的簇对合并为一个新的簇,并更新聚类集合,直至聚类集合剩下一个簇为止。
作为本实施例一种可能的实现方式,所述推送信息模块包括:
查找模块,用于根据余弦距离索引查找数据库中与新增文章向量距离最小的原有文章;
对比模块,对比新增文章和与新增文章向量距离最小的原有文章是否为相同或者近似的文章,如果不是则判断该新增文章内容没有被推送过;
信息发送模块,用于根据用户订阅的主题将没有被推送过的新增文章内容则加以选择并发送给用户。
本发明实施例的技术方案可以具有的有益效果如下:
一方面,本发明实施例技术方案的一种基于余弦距离的前沿科技信息快速推送方法包括构造余弦距离索引和推送信息两个过程,它首先爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;然后通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。本发明实施例技术方案将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
一方面,本发明实施例技术方案的一种基于余弦距离的前沿科技信息快速推送系统包括余弦距离索引模块、科技信息数据库和推送信息模块;所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;所述科技信息数据库用于存储科技信息文章;所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。本发明实施例技术方案将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
附图说明
图1是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送方法的流程图;
图2是根据一示例性实施例示出的利用本发明进行前沿信息推送的框架图;
图3是根据一示例性实施例示出的一种科技信息数据库的结构图;
图4是根据一示例性实施例示出的一种余弦距离索引的结构图;
图5是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送系统的示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
图1是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送方法的流程图。如图1所示,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送方法,可以包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
图2是根据一示例性实施例示出的利用本发明进行前沿信息推送的框架图,如图2所述,利用本发明进行前沿信息推送的过程为:抓取的文章特征向量化后,既存储在科技信息数据库建立索引,也需要根据分类器判断是否为有未推送的内容,若有向用户推送该科技文章。
在一种可能的实现方式中,所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术在科技新闻网站、微博、微信公众平台和/或文献数据库中爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti
2)基于TF-IDF(词频-逆向文件频率,Term Frequency Inverse DocumentFrequency)技术提取Ti的TF-IDF向量,记为
Figure GDA0002850581440000081
并将
Figure GDA0002850581440000082
做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中。科技信息数据库的结构图如图3所示,右侧是数据存储结构,左侧是余弦距离索引结构。
3)周期性的采用自下而上(bottom-up)的层次凝聚聚类(HierarchicalAgglomerative Clustering)方法对当前科技信息文章向量进行聚类,向量集合
Figure GDA0002850581440000083
聚类方法有多种,其他比如平面划分等,本实施例并仅不限于层次凝聚聚类方法),所述采用层次凝聚聚类方法对当前科技信息文章向量进行聚类的过程包括以下步骤:
31)将每个向量都当做一个聚类,将向量集合T中的每个向量
Figure GDA0002850581440000084
看成一个具有单个成员的簇
Figure GDA0002850581440000085
这些簇构成T的一个聚类集合C={c1,c2,…,ci,…,cn};
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};簇的距离可以采用增量距离方法(本实施例的簇的距离方法不限于此种,其他比如有单链(Single-link)、全链(Complete-link)、平均链(Average-link)、中心点(Centriods method)、离差平方和方法计算(ward method)等方法)。所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算的具体步骤为:
321)用
Figure GDA0002850581440000091
表示两个向量之间的距离,定义
Figure GDA0002850581440000092
为余弦距离的倒数,即
Figure GDA0002850581440000093
322)定义
Figure GDA0002850581440000094
S2的计算公式为
Figure GDA0002850581440000095
其中
Figure GDA0002850581440000096
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇
Figure GDA0002850581440000097
对应树的一个叶节点,叶节点需要存储关键字
Figure GDA0002850581440000098
每个多个成员的簇
Figure GDA0002850581440000099
对应树的一个非叶节点,非叶节点需要存储关键字
Figure GDA00028505814400000910
Figure GDA00028505814400000911
每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点。如图4所示,叶节点只对应一个科技信息文章向量;而非叶节点对应一个簇的向量,且关键字为簇中的中心向量。生成树t中包含了簇的层次信息以及所有簇内和簇间的相似度。
在一种可能的实现方式中,所述推送信息的过程包括以下步骤:
5)基于生成树t查找与
Figure GDA00028505814400000912
距离最小的向量
Figure GDA00028505814400000913
在一种可能的实现方式中,所述查找与
Figure GDA00028505814400000914
距离最小的向量
Figure GDA00028505814400000915
的过程包括以下步骤:
51)从生成树t的根节点开始查询,设nx→t.root;
52)如果nx为叶节点,结束此过程,则将nx的关键字赋值给
Figure GDA00028505814400000916
返回
Figure GDA00028505814400000917
53)如果nx为非叶节点,计算
Figure GDA00028505814400000918
与nx的所有孩子节点关键字的距离,距离利用公式(1)计算,选择具有最小距离的关键字子节点,设为ny;令nx→ny,并转步骤52)。
6)计算
Figure GDA0002850581440000101
如果
Figure GDA0002850581440000102
则判断Ti具有未推送的内容,需要推送给用户,其中μ是设置的相似度阈值,μ越大对相似文章越敏感,即轻微改动的文章易判定为相似文章;
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
图5是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送系统的示意图。如图1所示,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送系统,它包括余弦距离索引模块、科技信息数据库和推送信息模块;
所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;
所述科技信息数据库用于存储科技信息文章;
所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
在一种可能的实现方式中,所述余弦距离索引模块包括:
文本爬取模块,用于爬取科技信息文章,并将爬取的科技信息文章文本化;
向量提取模块,用于基于TF-IDF技术提取科技信息文章的TF-IDF向量,并以键值对的形式存储到科技信息数据库中;
聚类模块,用于周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类;
余弦距离索引模块,用于在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引。
在一种可能的实现方式中,所述聚类模块包括:
聚类构成模块,用于将每个向量构造一个聚类集合;
距离模块,用于计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,计算聚类集合中每个簇对之间的相似度距离;
聚类集合更新模块,用于将具有相似度距离最小的簇对合并为一个新的簇,并更新聚类集合,直至聚类集合剩下一个簇为止。
在一种可能的实现方式中,所述推送信息模块包括:
查找模块,用于根据余弦距离索引查找数据库中与新增文章向量距离最小的原有文章;
对比模块,对比新增文章和与新增文章向量距离最小的原有文章是否为相同或者近似的文章,如果不是则判断该新增文章内容没有被推送过;
信息发送模块,用于根据用户订阅的主题将没有被推送过的新增文章内容则加以选择并发送给用户。
本实施例通过余弦距离索引模块与推送信息模块两个模块实现,抓取的文章特征向量化后,既存储在科技信息数据库建立索引,也需要根据分类器判断是否为有未推送的内容,若有向用户推送该科技文章。余弦距离索引模块用于爬取科技信息文章并存储到科技信息数据库中,并对库中的文章建立索引,使新增文章可以快速对比数据库的文章。推送信息模块用于将用户没有阅览过的科技信息加以选择并进行推送。新增的科技文章需要到科技信息数据库中查询,是否存在与该文章相同或者相似的文章已经被推送过,果没有相似的文章,再推送到用户处。
本发明实施例技术方案通过将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (4)

1.一种基于余弦距离的前沿科技信息快速推送方法,其特征是,包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户;
所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti
2)基于TF-IDF技术提取Ti的TF-IDF向量,记为
Figure FDA0002850581430000011
并将
Figure FDA0002850581430000012
做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中;
3)周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类,向量集合
Figure FDA0002850581430000013
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇
Figure FDA0002850581430000014
对应树的一个叶节点,叶节点需要存储关键字
Figure FDA0002850581430000015
每个多个成员的簇
Figure FDA0002850581430000016
对应树的一个非叶节点,非叶节点需要存储关键字
Figure FDA0002850581430000017
Figure FDA0002850581430000018
每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点;
所述对当前科技信息文章向量进行聚类的过程包括以下步骤:
31)将每个向量都当做一个聚类,将向量集合T中的每个向量
Figure FDA0002850581430000021
看成一个具有单个成员的簇
Figure FDA0002850581430000022
这些簇构成T的一个聚类集合C={c1,c2,…,ci,…,cn};
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
2.如权利要求1所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算,具体计算步骤为:
321)用
Figure FDA0002850581430000023
表示两个向量之间的距离,定义
Figure FDA0002850581430000024
为余弦距离的倒数,即
Figure FDA0002850581430000025
322)定义
Figure FDA0002850581430000026
S2的计算公式为
Figure FDA0002850581430000027
其中
Figure FDA0002850581430000028
3.如权利要求2所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述推送信息的过程包括以下步骤:
5)基于生成树t查找与
Figure FDA0002850581430000029
距离最小的向量
Figure FDA00028505814300000210
6)计算
Figure FDA00028505814300000211
如果
Figure FDA00028505814300000212
则判断Ti具有未推送的内容,需要推送给用户,其中μ是设置的相似度阈值;
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
4.如权利要求3所述的一种基于余弦距离的前沿科技信息快速推送方法,其特征是,所述查找与
Figure FDA0002850581430000031
距离最小的向量
Figure FDA0002850581430000032
的过程包括以下步骤:
51)从生成树t的根节点开始查询,设nx→t.root;
52)如果nx为叶节点,结束此过程,则将nx的关键字赋值给
Figure FDA0002850581430000033
返回
Figure FDA0002850581430000034
53)如果nx为非叶节点,计算
Figure FDA0002850581430000035
与nx的所有孩子节点关键字的距离,距离利用公式(1)计算,选择具有最小距离的关键字子节点,设为ny;令nx→ny,并转步骤52)。
CN201711125200.XA 2017-11-14 2017-11-14 一种基于余弦距离的前沿科技信息快速推送方法及系统 Active CN107657067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711125200.XA CN107657067B (zh) 2017-11-14 2017-11-14 一种基于余弦距离的前沿科技信息快速推送方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711125200.XA CN107657067B (zh) 2017-11-14 2017-11-14 一种基于余弦距离的前沿科技信息快速推送方法及系统

Publications (2)

Publication Number Publication Date
CN107657067A CN107657067A (zh) 2018-02-02
CN107657067B true CN107657067B (zh) 2021-03-19

Family

ID=61120143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711125200.XA Active CN107657067B (zh) 2017-11-14 2017-11-14 一种基于余弦距离的前沿科技信息快速推送方法及系统

Country Status (1)

Country Link
CN (1) CN107657067B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899448A (zh) * 2020-03-26 2020-11-06 中国铁建电气化局集团第二工程有限公司 牵引变电站智能巡检信息过滤的方法及系统
CN112163145B (zh) * 2020-10-09 2024-01-30 杭州安恒信息技术股份有限公司 基于编辑距离与余弦夹角的网站检索方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308498A (zh) * 2008-07-03 2008-11-19 上海交通大学 文本集合可视化系统
CN101634996A (zh) * 2009-08-13 2010-01-27 浙江大学 基于综合考量的个性化视频排序方法
CN103064842A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 信息订阅处理装置和信息订阅处理方法
CN103593336A (zh) * 2013-10-30 2014-02-19 中国运载火箭技术研究院 一种基于语义分析的知识推送系统及方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106534341A (zh) * 2016-12-02 2017-03-22 天脉聚源(北京)传媒科技有限公司 一种推送更新新闻的方法及装置
CN107305552A (zh) * 2016-04-20 2017-10-31 中国电信股份有限公司 辅助阅读方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308498A (zh) * 2008-07-03 2008-11-19 上海交通大学 文本集合可视化系统
CN101634996A (zh) * 2009-08-13 2010-01-27 浙江大学 基于综合考量的个性化视频排序方法
CN103064842A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 信息订阅处理装置和信息订阅处理方法
CN103593336A (zh) * 2013-10-30 2014-02-19 中国运载火箭技术研究院 一种基于语义分析的知识推送系统及方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN107305552A (zh) * 2016-04-20 2017-10-31 中国电信股份有限公司 辅助阅读方法和装置
CN106534341A (zh) * 2016-12-02 2017-03-22 天脉聚源(北京)传媒科技有限公司 一种推送更新新闻的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A combinatorial tweet clustering methodology utilizing inter and intra cosine similarity;Navneet Kaur et al;《Proceeding of the IEEE 28th Canadian Conference on Electrical and Computer Engineering》;20150731;第756-758页 *

Also Published As

Publication number Publication date
CN107657067A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
Dal Bianco et al. A practical and effective sampling selection strategy for large scale deduplication
CN102207946B (zh) 一种知识网络的半自动生成方法
CN109710792B (zh) 一种基于索引的快速人脸检索系统应用
Adamu et al. A survey on big data indexing strategies
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Ma et al. Typifier: Inferring the type semantics of structured data
CN107657067B (zh) 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
Benny et al. Hadoop framework for entity resolution within high velocity streams
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
Gandhi et al. Hybrid recommendation system with collaborative filtering and association rule mining using big data
Kruit et al. Extracting N-ary facts from wikipedia table clusters
Gaikwad et al. A survey analysis on duplicate detection in hierarchical data
Ji et al. Vocabulary hierarchy optimization and transfer for scalable image search
Singh et al. User specific context construction for personalized multimedia retrieval
Gautam et al. Document clustering through non-negative matrix factorization: a case study of Hadoop for computational time reduction of large scale documents
Huang et al. Scalable ensemble information-theoretic co-clustering for massive data
Ajeissh et al. An adaptive distributed approach of a self organizing map model for document clustering using ring topology
Vissamsetti et al. Twitter Data Analysis for Live Streaming by Using Flume Technology
Hau et al. Discovering missing links in large-scale linked data
Lavanya et al. Sampling Selection Strategy for Large Scale Deduplication for Web Data Search
Nguyen et al. Locality mutual clustering for document retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant