CN107657067B - 一种基于余弦距离的前沿科技信息快速推送方法及系统 - Google Patents
一种基于余弦距离的前沿科技信息快速推送方法及系统 Download PDFInfo
- Publication number
- CN107657067B CN107657067B CN201711125200.XA CN201711125200A CN107657067B CN 107657067 B CN107657067 B CN 107657067B CN 201711125200 A CN201711125200 A CN 201711125200A CN 107657067 B CN107657067 B CN 107657067B
- Authority
- CN
- China
- Prior art keywords
- scientific
- information
- articles
- distance
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000009193 crawling Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 47
- 238000005516 engineering process Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于余弦距离的前沿科技信息快速推送方法及系统,方法包括构造余弦距离索引和推送信息两个过程,它首先爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;然后通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。系统包括余弦距离索引模块、科技信息数据库和推送信息模块。本发明不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
Description
技术领域
本发明涉及网络数据推送技术领域,具体地说是一种基于余弦距离的前沿科技信息快速推送方法及系统。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展,社会各行业、各单位部门对情报信息的需求更加迫切,科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。
互联网的兴起与普及使得科技信息的获得更加快速与易得,然而,在大量的科技咨询中找到最新的前沿信息是费时与困难的。当前的科技情报推送系统,多以主题的方式对科技信息进行分类。当情报使用人员关注某一主题时,系统往往把这一主题的所有文章都加以推送,因而使用人员无法分清那些文章或者文献是最新的科研成果。比较直观的方法是根据信息文件的发布时间加以区分,只将近期发布的信息推送给用户。这种方法虽然可以将最新的科技信息找到,但是极易造成科技前沿信息的冗余与漏报:1)由于科技网站之间、文献数据库之间存在大量镜像与简单修改后再转载的情况,因此会有大量重复或者相似的文章被推送到用户端。2)系统在运行时,会对科技信息的数据源进行扩展,比如填加一个文献数据库,这时新增文献数据库中会有许多文献是没有被推送过但发布时间比较旧,然而只依据最新原则会将此类信息忽略。
科技信息数据库会存储大量的已被推送的文章,可以将新增文章与大量的文章进行一一比较,以判断该文章是否是重复或者相似的文章,是一件及为耗时的任务,这与科技情况信息的及时性要求相违背。
因此,亟需设计一种前沿科技信息的快速推送技术,来将没有推送过的信息及时地推送到用户端。
发明内容
针对现有技术的不足,本发明提出了一种基于余弦距离的前沿科技信息快速推送方法及系统,其能够将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送给用户。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送方法,它包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
作为本实施例一种可能的实现方式,所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti;
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇对应树的一个叶节点,叶节点需要存储关键字每个多个成员的簇对应树的一个非叶节点,非叶节点需要存储关键字 每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点。
作为本实施例一种可能的实现方式,所述对当前科技信息文章向量进行聚类的过程包括以下步骤:
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
作为本实施例一种可能的实现方式,所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算,具体计算步骤为:
作为本实施例一种可能的实现方式,所述推送信息的过程包括以下步骤:
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
51)从生成树t的根节点开始查询,设nx→t.root;
另一方面,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送系统,它包括余弦距离索引模块、科技信息数据库和推送信息模块;
所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;
所述科技信息数据库用于存储科技信息文章;
所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
作为本实施例一种可能的实现方式,所述余弦距离索引模块包括:
文本爬取模块,用于爬取科技信息文章,并将爬取的科技信息文章文本化;
向量提取模块,用于基于TF-IDF技术提取科技信息文章的TF-IDF向量,并以键值对的形式存储到科技信息数据库中;
聚类模块,用于周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类;
余弦距离索引模块,用于在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引。
作为本实施例一种可能的实现方式,所述聚类模块包括:
聚类构成模块,用于将每个向量构造一个聚类集合;
距离模块,用于计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,计算聚类集合中每个簇对之间的相似度距离;
聚类集合更新模块,用于将具有相似度距离最小的簇对合并为一个新的簇,并更新聚类集合,直至聚类集合剩下一个簇为止。
作为本实施例一种可能的实现方式,所述推送信息模块包括:
查找模块,用于根据余弦距离索引查找数据库中与新增文章向量距离最小的原有文章;
对比模块,对比新增文章和与新增文章向量距离最小的原有文章是否为相同或者近似的文章,如果不是则判断该新增文章内容没有被推送过;
信息发送模块,用于根据用户订阅的主题将没有被推送过的新增文章内容则加以选择并发送给用户。
本发明实施例的技术方案可以具有的有益效果如下:
一方面,本发明实施例技术方案的一种基于余弦距离的前沿科技信息快速推送方法包括构造余弦距离索引和推送信息两个过程,它首先爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;然后通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。本发明实施例技术方案将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
一方面,本发明实施例技术方案的一种基于余弦距离的前沿科技信息快速推送系统包括余弦距离索引模块、科技信息数据库和推送信息模块;所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;所述科技信息数据库用于存储科技信息文章;所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。本发明实施例技术方案将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
附图说明
图1是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送方法的流程图;
图2是根据一示例性实施例示出的利用本发明进行前沿信息推送的框架图;
图3是根据一示例性实施例示出的一种科技信息数据库的结构图;
图4是根据一示例性实施例示出的一种余弦距离索引的结构图;
图5是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送系统的示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
图1是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送方法的流程图。如图1所示,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送方法,可以包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
图2是根据一示例性实施例示出的利用本发明进行前沿信息推送的框架图,如图2所述,利用本发明进行前沿信息推送的过程为:抓取的文章特征向量化后,既存储在科技信息数据库建立索引,也需要根据分类器判断是否为有未推送的内容,若有向用户推送该科技文章。
在一种可能的实现方式中,所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术在科技新闻网站、微博、微信公众平台和/或文献数据库中爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti。
2)基于TF-IDF(词频-逆向文件频率,Term Frequency Inverse DocumentFrequency)技术提取Ti的TF-IDF向量,记为并将做为key,将Ti做为value,以键值对的形式存储到科技信息数据库中。科技信息数据库的结构图如图3所示,右侧是数据存储结构,左侧是余弦距离索引结构。
3)周期性的采用自下而上(bottom-up)的层次凝聚聚类(HierarchicalAgglomerative Clustering)方法对当前科技信息文章向量进行聚类,向量集合聚类方法有多种,其他比如平面划分等,本实施例并仅不限于层次凝聚聚类方法),所述采用层次凝聚聚类方法对当前科技信息文章向量进行聚类的过程包括以下步骤:
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};簇的距离可以采用增量距离方法(本实施例的簇的距离方法不限于此种,其他比如有单链(Single-link)、全链(Complete-link)、平均链(Average-link)、中心点(Centriods method)、离差平方和方法计算(ward method)等方法)。所述簇对<ci,cj>之间的相似度距离SD(ci,cj)采用增量距离方法进行计算的具体步骤为:
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇对应树的一个叶节点,叶节点需要存储关键字每个多个成员的簇对应树的一个非叶节点,非叶节点需要存储关键字 每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点。如图4所示,叶节点只对应一个科技信息文章向量;而非叶节点对应一个簇的向量,且关键字为簇中的中心向量。生成树t中包含了簇的层次信息以及所有簇内和簇间的相似度。
在一种可能的实现方式中,所述推送信息的过程包括以下步骤:
51)从生成树t的根节点开始查询,设nx→t.root;
7)根据用户订阅的主题,将科技信息文章推送给相关用户。
图5是根据一示例性实施例示出的一种基于余弦距离的前沿科技信息快速推送系统的示意图。如图1所示,本发明实施例提供的一种基于余弦距离的前沿科技信息快速推送系统,它包括余弦距离索引模块、科技信息数据库和推送信息模块;
所述余弦距离索引模块用于爬取科技信息文章并爬取的新增文章发送给科技信息数据库,并对爬取科技信息文章建立索引;
所述科技信息数据库用于存储科技信息文章;
所述推送信息模块用于通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,并判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户。
在一种可能的实现方式中,所述余弦距离索引模块包括:
文本爬取模块,用于爬取科技信息文章,并将爬取的科技信息文章文本化;
向量提取模块,用于基于TF-IDF技术提取科技信息文章的TF-IDF向量,并以键值对的形式存储到科技信息数据库中;
聚类模块,用于周期性的采用自下而上的层次凝聚聚类方法对当前科技信息文章向量进行聚类;
余弦距离索引模块,用于在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引。
在一种可能的实现方式中,所述聚类模块包括:
聚类构成模块,用于将每个向量构造一个聚类集合;
距离模块,用于计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,计算聚类集合中每个簇对之间的相似度距离;
聚类集合更新模块,用于将具有相似度距离最小的簇对合并为一个新的簇,并更新聚类集合,直至聚类集合剩下一个簇为止。
在一种可能的实现方式中,所述推送信息模块包括:
查找模块,用于根据余弦距离索引查找数据库中与新增文章向量距离最小的原有文章;
对比模块,对比新增文章和与新增文章向量距离最小的原有文章是否为相同或者近似的文章,如果不是则判断该新增文章内容没有被推送过;
信息发送模块,用于根据用户订阅的主题将没有被推送过的新增文章内容则加以选择并发送给用户。
本实施例通过余弦距离索引模块与推送信息模块两个模块实现,抓取的文章特征向量化后,既存储在科技信息数据库建立索引,也需要根据分类器判断是否为有未推送的内容,若有向用户推送该科技文章。余弦距离索引模块用于爬取科技信息文章并存储到科技信息数据库中,并对库中的文章建立索引,使新增文章可以快速对比数据库的文章。推送信息模块用于将用户没有阅览过的科技信息加以选择并进行推送。新增的科技文章需要到科技信息数据库中查询,是否存在与该文章相同或者相似的文章已经被推送过,果没有相似的文章,再推送到用户处。
本发明实施例技术方案通过将一个主题的科技信息查找出来,并进行快速比较,将没有推送过的信息及时地推送到用户端,使得用户可以及时地得到准确有效的前沿信息推送,不仅使推送给用户的前沿科技信息避免相似性冗余,而且采用余弦距离索引可以加快文章的相似性判断,及时地将前沿信息推送给用户。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。
Claims (4)
1.一种基于余弦距离的前沿科技信息快速推送方法,其特征是,包括以下过程:
构造余弦距离索引:爬取科技信息文章并存储到科技信息数据库中,并对爬取科技信息文章建立索引;
推送信息:通过快速对比新增文章和数据库的原有文章来查询是否有相同或者近似的文章,判断该新增文章内容是否已经被推送过,如果没有被推送过则加以选择并进行推送给用户;
所述构造余弦距离索引的过程包括以下步骤:
1)利用爬虫技术爬取科技信息文章,并将爬取的科技信息文章文本化,并记为Ti;
4)在聚类过程中构造出一棵包含簇的层次信息以及所有簇内和簇间的相似度的生成树t,即余弦距离索引,在生成树t中,每个只含单个成员的簇对应树的一个叶节点,叶节点需要存储关键字每个多个成员的簇对应树的一个非叶节点,非叶节点需要存储关键字 每次两个簇cx、cy合并生成一个新的非叶节点ni,ni的子节点是cx、cy对应的节点;
所述对当前科技信息文章向量进行聚类的过程包括以下步骤:
32)计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,并计算C中每个簇对<ci,cj>之间的相似度距离SD(ci,cj);
33)选取具有最小SD(ci,cj)的簇对<ci,cj>,将ci和cj合并为一个新的簇ck=ci∪cj,同时更新聚类集合C=C∪{ck}-{ci,cj};
34)重复上述步骤31)至步骤33),直至C中剩下一个簇为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711125200.XA CN107657067B (zh) | 2017-11-14 | 2017-11-14 | 一种基于余弦距离的前沿科技信息快速推送方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711125200.XA CN107657067B (zh) | 2017-11-14 | 2017-11-14 | 一种基于余弦距离的前沿科技信息快速推送方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107657067A CN107657067A (zh) | 2018-02-02 |
CN107657067B true CN107657067B (zh) | 2021-03-19 |
Family
ID=61120143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711125200.XA Active CN107657067B (zh) | 2017-11-14 | 2017-11-14 | 一种基于余弦距离的前沿科技信息快速推送方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657067B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899448A (zh) * | 2020-03-26 | 2020-11-06 | 中国铁建电气化局集团第二工程有限公司 | 牵引变电站智能巡检信息过滤的方法及系统 |
CN112163145B (zh) * | 2020-10-09 | 2024-01-30 | 杭州安恒信息技术股份有限公司 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101634996A (zh) * | 2009-08-13 | 2010-01-27 | 浙江大学 | 基于综合考量的个性化视频排序方法 |
CN103064842A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 信息订阅处理装置和信息订阅处理方法 |
CN103593336A (zh) * | 2013-10-30 | 2014-02-19 | 中国运载火箭技术研究院 | 一种基于语义分析的知识推送系统及方法 |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN106534341A (zh) * | 2016-12-02 | 2017-03-22 | 天脉聚源(北京)传媒科技有限公司 | 一种推送更新新闻的方法及装置 |
CN107305552A (zh) * | 2016-04-20 | 2017-10-31 | 中国电信股份有限公司 | 辅助阅读方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6845374B1 (en) * | 2000-11-27 | 2005-01-18 | Mailfrontier, Inc | System and method for adaptive text recommendation |
-
2017
- 2017-11-14 CN CN201711125200.XA patent/CN107657067B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN101634996A (zh) * | 2009-08-13 | 2010-01-27 | 浙江大学 | 基于综合考量的个性化视频排序方法 |
CN103064842A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 信息订阅处理装置和信息订阅处理方法 |
CN103593336A (zh) * | 2013-10-30 | 2014-02-19 | 中国运载火箭技术研究院 | 一种基于语义分析的知识推送系统及方法 |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN107305552A (zh) * | 2016-04-20 | 2017-10-31 | 中国电信股份有限公司 | 辅助阅读方法和装置 |
CN106534341A (zh) * | 2016-12-02 | 2017-03-22 | 天脉聚源(北京)传媒科技有限公司 | 一种推送更新新闻的方法及装置 |
Non-Patent Citations (1)
Title |
---|
A combinatorial tweet clustering methodology utilizing inter and intra cosine similarity;Navneet Kaur et al;《Proceeding of the IEEE 28th Canadian Conference on Electrical and Computer Engineering》;20150731;第756-758页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107657067A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11048966B2 (en) | Method and device for comparing similarities of high dimensional features of images | |
Kaleel et al. | Cluster-discovery of Twitter messages for event detection and trending | |
US20170212899A1 (en) | Method for searching related entities through entity co-occurrence | |
Dal Bianco et al. | A practical and effective sampling selection strategy for large scale deduplication | |
CN102207946B (zh) | 一种知识网络的半自动生成方法 | |
CN109710792B (zh) | 一种基于索引的快速人脸检索系统应用 | |
Adamu et al. | A survey on big data indexing strategies | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Ma et al. | Typifier: Inferring the type semantics of structured data | |
CN107657067B (zh) | 一种基于余弦距离的前沿科技信息快速推送方法及系统 | |
CN112836008B (zh) | 基于去中心化存储数据的索引建立方法 | |
Benny et al. | Hadoop framework for entity resolution within high velocity streams | |
US20100063966A1 (en) | Method for fast de-duplication of a set of documents or a set of data contained in a file | |
Gandhi et al. | Hybrid recommendation system with collaborative filtering and association rule mining using big data | |
Kruit et al. | Extracting N-ary facts from wikipedia table clusters | |
Gaikwad et al. | A survey analysis on duplicate detection in hierarchical data | |
Ji et al. | Vocabulary hierarchy optimization and transfer for scalable image search | |
Singh et al. | User specific context construction for personalized multimedia retrieval | |
Gautam et al. | Document clustering through non-negative matrix factorization: a case study of Hadoop for computational time reduction of large scale documents | |
Huang et al. | Scalable ensemble information-theoretic co-clustering for massive data | |
Ajeissh et al. | An adaptive distributed approach of a self organizing map model for document clustering using ring topology | |
Vissamsetti et al. | Twitter Data Analysis for Live Streaming by Using Flume Technology | |
Hau et al. | Discovering missing links in large-scale linked data | |
Lavanya et al. | Sampling Selection Strategy for Large Scale Deduplication for Web Data Search | |
Nguyen et al. | Locality mutual clustering for document retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |