CN112487782B - 一种基于文章相似数量的文章热度计算方法 - Google Patents
一种基于文章相似数量的文章热度计算方法 Download PDFInfo
- Publication number
- CN112487782B CN112487782B CN202011443545.1A CN202011443545A CN112487782B CN 112487782 B CN112487782 B CN 112487782B CN 202011443545 A CN202011443545 A CN 202011443545A CN 112487782 B CN112487782 B CN 112487782B
- Authority
- CN
- China
- Prior art keywords
- article
- similar
- articles
- calculating
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000002776 aggregation Effects 0.000 claims abstract description 12
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 229920001971 elastomer Polymers 0.000 description 2
- 239000000806 elastomer Substances 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文章相似数量的文章热度计算方法,其包括以下步骤:S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;S4.根据S3查询结果计算文章的热度评分。本发明的方法无需获得用户交换数据即可分析特定领域的热门文章及文章的热门程度,不会产生延时,计算量小,速度快。
Description
技术领域
本发明涉及大数据分析领域,具体地涉及一种基于文章相似数量的文章热度计算方法。
背景技术
目前互联网信息的热度算法主要由用户交互产生热度分和时间衰减的热度分计算得出。此类数据只有发布平台才有全面的数据,而通过互联网采集到的数据没有全面的用户交互数据,由于用户交互数据是实时产生的,所以爬虫采集的部分用户交互数据也有延迟。互联网爬虫把有限的资源用于采集文章内容,而用户交互的数据是实时产生的,采集的数据不准确、有延迟。
发明内容
本发明旨在提供一种基于文章相似数量的文章热度计算方法,以解决上述问题。为此,本发明采用的具体技术方案如下:
一种基于文章相似数量的文章热度计算方法,其包括以下步骤:
S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;
S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;
S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;
S4.根据S3查询结果计算文章的热度评分。
进一步地,S1的具体过程如下:
S11.将文章标题加文章内容合并成一个字符串;
S12.利用互联网开源分词器Ansj进行分词;
S13.对分词结果进行优化,根据位置计算权重,对关键词进行排序;
S14.根据关键词列表计算sha-1哈希值,sha-1哈希值即为相似度指纹码。
进一步地,S2的数据库字段至少包括文章标题、文章内容、发布时间和相似度指纹码。
进一步地,S2采用Elasticsearch进行存储。
进一步地,S3中根据聚合结果进行排序具体是相似文章数量由高到低进行排序。
进一步地,S4具体过程如下:
S41.根据聚合结果计算平均相似文章数量S,计算规则为:去掉相似最多和最少的数据,再求剩余的相似文章数量的平均值,计算公式如下:
其中,Si为排在第i位的相似文章数量;
S42.将需要查询的时间范围转换为以天为单位,时间范围天数为D;
S43.计算热度评分Score,公式如下:
其中,Sn为当前计算的文章的相似文章数量,评分基数BS是一个整数值,用于计算评分的基准,是热度评分结果的最高期望分值;
间隔时间IT是当前时间与文章发布时间间隔时间;
相似数量权重SW是相似文章数量在计算评分时评分时所占的权重,与时间权重相加为1;
时间权重TW是间隔时间在评分时所占的比重,相似权重一样的情况评分会随着时间递减,与相似度权重相加为1;
S44.根据文章相似指纹码获取发布时间最早的文章信息,从而获得热门文章列表与热门文章评分。
本发明采用上述技术方案,具有的有益效果是:本发明的方法无需获得用户交换数据即可分析特定领域的热门文章及文章的热门程度,不会产生延时,计算量小,速度快。
附图说明
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
图1是本发明的方法的主流程图;
图2是本发明的方法中计算相似度指纹码的流程图;
图3是本发明的方法中计算热度评分的流程图;
图4是根据本发明方法得到的热门文章列表与热门文章评分的示意图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
S1.数据预处理,根据文章标题和文章内容进行相似度计算,得到文章相似度指纹码。采用爬虫工具等从互联网上抓取原始文章数据,然后再对这些文章进行相似度指纹码计算。每篇文章都能得到一个相似度指纹码。如果相似度指纹码一样,则文章属于相似文章。文章相似指纹码的计算步骤如下:
S11.将文章标题加文章内容合并成一个字符串;
S12.利用互联网开源分词器Ansj进行分词;
S13.对分词结果进行优化,根据位置计算权重,对关键词进行排序;
S14.根据关键词列表计算sha-1哈希值,sha-1哈希值即为相似度指纹码。
S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库。数据库至少包括文章标题、文章内容、发布时间和相似度指纹码等字段。在一个具体实施例中,文章的存储采用Elasticsearch,相似度指纹码以字段的形式保存到文章文档中,示例如下(只展示部分字段):
Elasticsearch是一个分布式搜索和数据分析引擎,可以用于搜索各种文档。
S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序,例如,相似文章数量(即,相似度指纹码相同的文章数量)由高到低进行排序。
S4.根据S3的查询结果计算文章的热度评分,具体过程如下:
S41.根据聚合结果计算平均相似文章数量S,计算规则为:去掉相似最多和最少的数据,再求剩余的相似文章数量的平均值,计算公式如下:
其中,Si为排在第i位的相似文章数量;
S42.将需要查询的时间范围转换为以天为单位,记为D;
S43.计算热度评分Score,计算热度评分Score预先设置的参数如下:
评分基数BS(Base Score):评分基数BS是一个整数值,用于计算评分的基准,是热度评分结果的最高期望分值。例如将评分基数设置为200,那每篇文章计算热度评分的结果在0至200分之间;
间隔时间IT(Interval Time):当前时间与文章发布时间间隔时间;
相似数量权重SW(Similar Weight):相似文章数量在计算评分时评分时所占的权重,默认是0.75,与时间权重相加为1;
时间权重TW(Time Weight):间隔时间在评分时所占的比重,相似权重一样的情况评分会随着时间递减,默认是0.25,与相似度权重相加为1。
热度评分Score的计算公式如下:
例如,假设平均相似文章数量S为500,当前计算的文章有600篇相似的文章(即,Si=600),评分基数为200,发布时间与当前间隔时间为12小时(0.5天),计算1天的热度,时间和相似权重都按默认计算。
根据公式计算得到热度评分为:
应用展示可以取整为115。
S44.根据文章相似指纹码获取发布时间最早的文章信息,从而获得热门文章列表与热门文章评分,如图4所示,其示出了2020年10月2号计算得到的热门新闻top5。
本发明通过上述步骤,可以基于不同的时间范围,不同的评分基数,对采集的文章进行热度计算,可以分析特定领域的热门文章及文章的热门程度。本发明的方法无需获得用户交换数据即可计算文章的热度评分,不会产生延时,计算量小,速度快,能够做到基本上实时更新热度评分。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (4)
1.一种基于文章相似数量的文章热度计算方法,其特征在于,包括以下步骤:
S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;
S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;
S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;所述根据聚合结果进行排序为:根据相似文章数量由高到低进行排序;其中,相似文章为相似度指纹码一样的文章;
S4.根据S3查询结果计算文章的热度评分;
其中,所述步骤S4包括:
S41.根据聚合结果计算平均相似文章数量S,计算规则为:去掉相似最多和最少的数据,再求剩余的相似文章数量的平均值,计算公式如下:
其中,Si为排在第i位的相似文章数量;
S42.将需要查询的时间范围转换为以天为单位,记为D;
S43.计算热度评分Score,公式如下:
其中,评分基数BS是一个整数值,用于计算评分的基准,是热度评分结果的最高期望分值,Sn为当前计算的文章的相似文章数量;
间隔时间IT是当前时间与文章发布时间间隔时间,单位为天;
相似数量权重SW是相似文章数量在计算评分时所占的权重,与时间权重相加为1;
时间权重TW是间隔时间在评分时所占的比重,与所述相似数量权重相加为1;
S44.根据文章相似指纹码获取发布时间最早的文章信息,从而获得热门文章列表与热门文章评分。
2.如权利要求1所述的方法,其特征在于,S1的具体过程如下:
S11.将文章标题加文章内容合并成一个字符串;
S12.利用互联网开源分词器Ansj进行分词;
S13.对分词结果进行优化,根据位置计算权重,对关键词进行排序;
S14.根据关键词列表计算sha-1哈希值,sha-1哈希值即为相似度指纹码。
3.如权利要求1所述的方法,其特征在于,S2的数据库字段至少包括文章标题、文章内容、发布时间和相似度指纹码。
4.如权利要求3所述的方法,其特征在于,S2采用Elasticsearch进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443545.1A CN112487782B (zh) | 2020-12-11 | 2020-12-11 | 一种基于文章相似数量的文章热度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443545.1A CN112487782B (zh) | 2020-12-11 | 2020-12-11 | 一种基于文章相似数量的文章热度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487782A CN112487782A (zh) | 2021-03-12 |
CN112487782B true CN112487782B (zh) | 2024-04-09 |
Family
ID=74941687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011443545.1A Active CN112487782B (zh) | 2020-12-11 | 2020-12-11 | 一种基于文章相似数量的文章热度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487782B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536763A (zh) * | 2021-07-20 | 2021-10-22 | 北京中科闻歌科技股份有限公司 | 一种信息处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778260A (zh) * | 2014-03-03 | 2014-05-07 | 哈尔滨工业大学 | 一种个性化微博信息推荐系统和方法 |
US8893012B1 (en) * | 2012-10-17 | 2014-11-18 | Google Inc. | Visual indicator based on relative rating of content item |
CN108399197A (zh) * | 2018-01-30 | 2018-08-14 | 重庆邮电大学 | 基于用户置信度和时间上下文的协同过滤推荐方法 |
CN110415014A (zh) * | 2019-06-18 | 2019-11-05 | 北京清博大数据科技有限公司 | 一种品牌网络健康度确定方法、装置、终端及存储介质 |
CN110825868A (zh) * | 2019-11-07 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于话题热度的文本推送方法、终端设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10162864B2 (en) * | 2015-06-07 | 2018-12-25 | Apple Inc. | Reader application system utilizing article scoring and clustering |
-
2020
- 2020-12-11 CN CN202011443545.1A patent/CN112487782B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8893012B1 (en) * | 2012-10-17 | 2014-11-18 | Google Inc. | Visual indicator based on relative rating of content item |
CN103778260A (zh) * | 2014-03-03 | 2014-05-07 | 哈尔滨工业大学 | 一种个性化微博信息推荐系统和方法 |
CN108399197A (zh) * | 2018-01-30 | 2018-08-14 | 重庆邮电大学 | 基于用户置信度和时间上下文的协同过滤推荐方法 |
CN110415014A (zh) * | 2019-06-18 | 2019-11-05 | 北京清博大数据科技有限公司 | 一种品牌网络健康度确定方法、装置、终端及存储介质 |
CN110825868A (zh) * | 2019-11-07 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于话题热度的文本推送方法、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112487782A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8117208B2 (en) | System for entity search and a method for entity scoring in a linked document database | |
US8504550B2 (en) | Social network message categorization systems and methods | |
US7409404B2 (en) | Creating taxonomies and training data for document categorization | |
Bollegala et al. | Automatic discovery of personal name aliases from the web | |
CN103123653A (zh) | 基于贝叶斯分类学习的搜索引擎检索排序方法 | |
US7822752B2 (en) | Efficient retrieval algorithm by query term discrimination | |
CN105159932B (zh) | 一种数据检索引擎和排序系统和方法 | |
US20110161260A1 (en) | User-driven index selection | |
CN1818908A (zh) | 一种在搜索引擎中应用搜索者反馈信息的方法 | |
Pattaniyil et al. | Combining TF-IDF Text Retrieval with an Inverted Index over Symbol Pairs in Math Expressions: The Tangent Math Search Engine at NTCIR 2014. | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
US20070208684A1 (en) | Information collection support apparatus, method of information collection support, computer readable medium, and computer data signal | |
KR101059557B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
Bar-Yossef et al. | Efficient search engine measurements | |
CN112487782B (zh) | 一种基于文章相似数量的文章热度计算方法 | |
CN105183792A (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
CN110019637B (zh) | 一种标准文献检索的排序算法 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN103034709B (zh) | 检索结果重排序系统及其方法 | |
CN111782699A (zh) | 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法 | |
CN111966899A (zh) | 搜索排序方法、系统及计算机可读存储介质 | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 | |
CN102508920B (zh) | 一种基于Boosting分类算法的信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |