CN108304535B - 一种社区内容智能排序估算方法 - Google Patents
一种社区内容智能排序估算方法 Download PDFInfo
- Publication number
- CN108304535B CN108304535B CN201810088027.9A CN201810088027A CN108304535B CN 108304535 B CN108304535 B CN 108304535B CN 201810088027 A CN201810088027 A CN 201810088027A CN 108304535 B CN108304535 B CN 108304535B
- Authority
- CN
- China
- Prior art keywords
- score
- comment
- community content
- community
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012163 sequencing technique Methods 0.000 claims abstract description 16
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 7
- 230000003993 interaction Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种社区内容智能排序估算方法,其包括有如下步骤:步骤S1,计算社区内容的浏览分数visit_score;步骤S2,计算社区内容的点赞分数like_score;步骤S3,计算社区内容的评论分数comment_score;步骤S4,计算时间衰减值T;步骤S5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值T构建社区内容智能排序估算公式。本发明能对排序结果给出量化评价,不仅评价速度快,而且可靠性高。
Description
技术领域
本发明涉及社区内容、帖子的排序方法,尤其涉及一种社区内容智能排序估算方法。
背景技术
社区内容热度和时间结合排序是社区产品中很重要的技术,现有的智能排序基本都依赖于简单粗暴的设定发表时间参数或者人工介入。可大致分为两类:
一种是简单设置发表时间参数排序,设置发表时间范围,仅筛选此范围内热门的内容,此类方法采用参数较为单一,很容易错过较早发表,但近期比较受欢迎的内容,无法保证用户体验。
另一种方法是人工主观评价,利用人工主观评价来判定社区内容近期是否受欢迎,将人工认定的结果排序在前,此类方法的人工成本很高且耗时长,无法应用于全自动的方法。这类评价方式主观性较强,且无法量化。当需要比较的结果的数量较多时,比较难度增大,人工评价的耗时会大幅增长,评价的可靠性会相应降低。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种能对排序结果给出量化评价,且评价速度快、可靠性高的社区内容智能排序估算方法。
为解决上述技术问题,本发明采用如下技术方案。
一种社区内容智能排序估算方法,其包括有如下步骤:步骤S1,计算社区内容的浏览分数:其中,C为全部社区内容中每篇社区内容被浏览过的平均人数,m为社区内容被每个人浏览过的平均次数,n为浏览过该篇社区内容的人数,xi是浏览过该篇社区内容的n个人中每个人的浏览次数,i=1,2…,n;步骤S2,计算社区内容的点赞分数:Like_score=loge(like_uv+1);其中,like_uv为该篇社区内容的点赞人数;步骤S3,计算社区内容的评论分数:
Comment_score=
(loge(comment_pv+1))a*(loge(comment_uv+1))β;
其中,comment_pv是该社区内容被评论的次数,comment_uv是评论该社区内容的人数,0=<α<1,0=<β<1,并且α<β;
步骤S4,计算时间衰减值:其中,pt是社区内容发布时间距今的时间差,vt是社区内容最后被浏览的时间距今的时间差,it是社区内容最后互动时间距今的时间差,b为pt的惩罚因子,并且0<b≤1;步骤S5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值T构建社区内容智能排序估算公式:
其中,w1、w2和w3分别是浏览分数visit_score、点赞分数like_score和评论分数comment_score的权重系数,c1和c2均为系数因子,c1取值0或1,c2≥0。
优选地,所述步骤S5中,w1、w2和w3的默认值分别为:w1=0.2,w2=0.4,w3=0.4。
优选地,所述步骤S4中,时间差pt、时间差vt和时间差it的单位均为秒。
优选地,所述步骤S5中,当c1=0且c2≠0时,score仅涉及时间衰减,当c1=1且c2=0时,score仅涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,不涉及时间衰减,当c1和c2都不等于0时,score既涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,也涉及时间衰减。
本发明公开的社区内容智能排序估算方法,其基于社区内容的被浏览的次数、被浏览的人数、被点赞的次数、被点赞的人数、被评论的次数、被评论的人数、社区内容发布时间、社区内容被浏览时间、社区内容被互动时间诸多变量设计而成。并根据浏览分数、点赞分数、评论分数和时间衰减合成社区内容智能排序估算公式。相比现有技术而言,本发明能够更加全面客观的对社区内容进行评价,评价过程全程无需人工干预,同时,本发明能对排序结果给出量化评价,速度快、可靠性高。由此可见,本发明可以用于对社区内容进行快速评价排序,从而起到筛选近期优质受欢迎社区内容的作用。
具体实施方式
下面结合实施例对本发明作更加详细的描述。
本发明公开了一种社区内容智能排序估算方法,其包括有如下步骤:
步骤S1,计算社区内容的浏览分数:
其中,C为全部社区内容中每篇社区内容被浏览过的平均人数,m为社区内容被每个人浏览过的平均次数,n为浏览过该篇社区内容的人数,xi是浏览过该篇社区内容的n个人中每个人的浏览次数,i=1,2…,n;
步骤S2,计算社区内容的点赞分数:
Like_score=loge(like_uv+1);
其中,like_uv为该篇社区内容的点赞人数;
步骤S3,计算社区内容的评论分数:
Comment_score=
(loge(comment_pv+1))a*(loge(comment_uv+1))β;
其中,comment_pv是该社区内容被评论的次数,comment_uv是评论该社区内容的人数,0=<α<1,0=<β<1,并且α<β;
步骤S4,计算时间衰减值:
其中,pt是社区内容发布时间距今的时间差,vt是社区内容最后被浏览的时间距今的时间差,it是社区内容最后互动时间距今的时间差,b为pt的惩罚因子,并且0<b≤1;
步骤S5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值T构建社区内容智能排序估算公式:
其中,w1、w2和w3分别是浏览分数visit_score、点赞分数like_score和评论分数comment_score的权重系数,c1和c2均为系数因子,c1取值0或1,c2≥0。
上述方法的步骤S5中,w1、w2和w3的默认值分别为:w1=0.2,w2=0.4,w3=0.4。当c1=0且c2≠0时,score仅涉及时间衰减,当c1=1且c2=0时,score仅涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,不涉及时间衰减,当c1和c2都不等于0时,score既涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,也涉及时间衰减。
关于时间单位,所述步骤S4中,时间差pt、时间差vt和时间差it的单位均为秒。
本发明公开的社区内容智能排序估算方法,其基于社区内容的被浏览的次数、被浏览的人数、被点赞的次数、被点赞的人数、被评论的次数、被评论的人数、社区内容发布时间、社区内容被浏览时间、社区内容被互动时间诸多变量设计而成。并根据浏览分数、点赞分数、评论分数和时间衰减合成社区内容智能排序估算公式。相比现有技术而言,本发明能够更加全面客观的对社区内容进行评价,评价过程全程无需人工干预,同时,本发明能对排序结果给出量化评价,速度快、可靠性高。由此可见,本发明可以用于对社区内容进行快速评价排序,从而起到筛选近期优质受欢迎社区内容的作用。
本发明在实际应用过程中,可参考如下实施例:
A、设计浏览分数的计算:
其中,C是每篇社区内容平均被多少人浏览过,m是社区内容被每个人平均浏览过多少次,n是浏览过该篇社区内容的人数,xi代表的是浏览过该篇社区内容的n个人里每个人浏览的次数,i=1,2…,n。该公式的设计借鉴了贝叶斯推断的思想,在不知道每个用户浏览社区内容次数的情况下,先估计一个值,这个值就是C*m,然后不断用新的信息修正,使得它越来越接近新的值。该公式主要是解决了给一些只有较少人浏览过的社区内容,以相对公平的排名的问题。假设,一篇只被2个人浏览过和一篇被200人浏览过的社区内容,如果按正常算平均的方式,被200人浏览过的社区内容肯定要比只被2个人浏览过的社区内容分数高,但只被2个人浏览过的社区内容很有可能只是它的曝光度比较低,很少人能发现到,所以才造成了浏览它的人数比较少,但社区内容的质量不一定低,在没有曝光度数据情况下,为了让被较少人浏览过的社区内容有相对公平一点的分数,就引入了C和m,C和m是在平均情况下,社区内容会被多少人浏览,平均每人浏览多少次,相当于给了一个默认的得分。
B、设计点赞分数的计算公式:
Like_score=loge(like_uv+1);
其中,like_uv是点赞了社区内容的人数,e是自然数,约为2.71828;该公式的设计主要是基于这样一个考虑:对点赞人数取了对数,这样点赞人数的增加对得分增加的影响是越来越弱的,加1是为了避免对数的真数为0。
C、设计评论分数的计算公式:
Comment_score=
(loge(comment_pv+1))a*(loge(comment_uv+1))β;
其中,comment_pv是社区内容被评论的次数,comment_uv是评论了该社区内容的人数,e是自然数,约为2.71828,0=<α<1,0=<β<1,并且α<β。α<β是为了让comment_pv对comment_score的影响小于comment_uv对comment_score的影响。
D、设计时间衰减的计算公式:
其中,pt是社区内容的发布时间距今的时间差,单位为秒,vt是社区内容最后被浏览的时间距今的时间差,单位为秒,it是社区内容最后互动的时间距今的时间差,单位为秒,b为pt的惩罚因子,0<b≤1。该公式相当于对社区内容发布时间,最后被浏览时间,最后互动时间,三个时间距今的时间差做了几何平均,再作为e的指数,此处的e也是自然数,下同。之所以取几何平均而不取算术平均是基于这样一个考虑:三个时间都大,时间衰减才严重。比如一篇社区内容pt是1000s,vt,it都是1s,则几何平均是10s,但算术平均是(1000+1+1)/3=334s,取算术平均的话衰减会比较厉害,但是一篇社区内容发布时间比较久,最近被浏览或互动了,就不希望衰减的太厉害,所以取几何平均更合理,b其实是为了进一步弱化pt的影响,比如b取值0.5,如果pt=4年,pt取了b次方后,相当于pt=2年。
E、公式合成。对visit_score,like_score,comment_score会用sigmoid函数进行整合,将最终得分归一化到0到1之间,形式如下:
其中,w1、w2、w3分别是visit_score、like_score、comment_score的权重系数,默认规定w1=0.2,w2=0.4,w3=0.4,当然这些权重系数是可以通过训练取更合适的值的,这就涉及以后建立相关的模型了。w1*visit_score+w2*like_score+w3*comment_score后面加1,是为了防止e的指数是0的情况。
将visit_score,like_score,comment_score和时间衰减T合成到一起得到的社区内容智能排序估算公式为:
最终合成公式引入了两个系数因子c1,c2,其中c1只能取0或1,c2≥0,引入c1和c2是为了让公式更灵活。当c1等于0并且c2不等于0时,score就只考虑时间衰减,当c1等于1,c2等于0时,score就只考虑vist_score,like_score,comment_score,不考虑时间衰减,当c1和c2都不等于0时,score就既考虑vist_score,like_score,comment_score也考虑时间衰减。c2是时间衰减的重力因子,当c2越大,表示社区内容会随着时间下沉的越快。
本发明公开的社区内容智能排序估算方法,基于物理运动思想,将社区内容拟作一个质点,其热度作为向上的拉力,其发表时间作为向下的拉力,两个力共同作用决定了内容运动的方向和速度,最终根据所有内容的方向和速度进行排序。相比现有技术而言,本发明可以全自动评估社区中内容热度和时效性,能有效提升社区内容排序结果精度,并避免单个参数造成优质内容下沉、劣质内容排序在上的情况。精准的热门内容排序结果可以直接用于社区、资讯等应用,大幅度减少人工交互,提升用户体验。
以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。
Claims (4)
1.一种社区内容智能排序估算方法,其特征在于,包括有如下步骤:
步骤S1,计算社区内容的浏览分数:
其中,C为全部社区内容中每篇社区内容被浏览过的平均人数,m为社区内容被每个人浏览过的平均次数,n为浏览过该篇社区内容的人数,xi是浏览过该篇社区内容的n个人中每个人的浏览次数,i=1,2…,n;
步骤S2,计算社区内容的点赞分数:
Like_score=loge(like_uv+1);
其中,like_uv为该篇社区内容的点赞人数;
步骤S3,计算社区内容的评论分数:
Comment_score=
(loge(comment_pv+1))α *(loge(comment_uv+1))β;
其中,comment_pv是该社区内容被评论的次数,comment_uv是评论该社区内容的人数,0=<α<1,0=<β<1,并且α<β;
步骤S4,计算时间衰减值:
其中,pt是社区内容发布时间距今的时间差,vt是社区内容最后被浏览的时间距今的时间差,it是社区内容最后互动时间距今的时间差,b为pt的惩罚因子,并且0<b≤1;
步骤S5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值T构建社区内容智能排序估算公式:
其中,w1、w2和w3分别是浏览分数visit_score、点赞分数like_score和评论分数comment_score的权重系数,c1和c2均为系数因子,c1取值0或1,c2≥0。
2.如权利要求1所述的社区内容智能排序估算方法,其特征在于,所述步骤S5中,w1、w2和w3的默认值分别为:w1=0.2,w2=0.4,w3=0.4。
3.如权利要求1所述的社区内容智能排序估算方法,其特征在于,所述步骤S4中,时间差pt、时间差vt和时间差it的单位均为秒。
4.如权利要求1所述的社区内容智能排序估算方法,其特征在于,所述步骤S5中,当c1=0且c2≠0时,score仅涉及时间衰减,当c1=1且c2=0时,score仅涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,不涉及时间衰减,当c1和c2都不等于0时,score既涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,也涉及时间衰减。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810088027.9A CN108304535B (zh) | 2018-01-30 | 2018-01-30 | 一种社区内容智能排序估算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810088027.9A CN108304535B (zh) | 2018-01-30 | 2018-01-30 | 一种社区内容智能排序估算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304535A CN108304535A (zh) | 2018-07-20 |
CN108304535B true CN108304535B (zh) | 2021-07-30 |
Family
ID=62867159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810088027.9A Active CN108304535B (zh) | 2018-01-30 | 2018-01-30 | 一种社区内容智能排序估算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304535B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582852B (zh) * | 2018-12-05 | 2021-04-09 | 中国银行股份有限公司 | 一种全文检索结果的排序方法及系统 |
CN110457630B (zh) * | 2019-07-30 | 2022-03-29 | 北京航空航天大学 | 一种开源社区异常点赞用户的识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN105069099A (zh) * | 2015-08-06 | 2015-11-18 | 北京奇艺世纪科技有限公司 | 一种信息推荐方法及系统 |
CN107026892A (zh) * | 2016-11-03 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 消息推荐方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140236927A1 (en) * | 2013-02-21 | 2014-08-21 | i-skore, Inc. | Internet presence scoring |
US20140244388A1 (en) * | 2013-02-28 | 2014-08-28 | MetroStar Systems, Inc. | Social Content Synchronization |
-
2018
- 2018-01-30 CN CN201810088027.9A patent/CN108304535B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN105069099A (zh) * | 2015-08-06 | 2015-11-18 | 北京奇艺世纪科技有限公司 | 一种信息推荐方法及系统 |
CN107026892A (zh) * | 2016-11-03 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 消息推荐方法和装置 |
Non-Patent Citations (2)
Title |
---|
Rank Hotness With Newton’s Law of Cooling;Evan Miller;《https://www.evanmiller.org/rank-hotness-with-newtons-law-of-cooling.html》;20090215;955-696 * |
基于用户行为的情感影响力和易感性学习;廖祥文 等;《计算机学报》;20170430;第40卷(第4期);1-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304535A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Datta et al. | Algorithmic inferencing of aesthetics and emotion in natural images: An exposition | |
Lefevre et al. | Facial width-to-height ratio relates to alpha status and assertive personality in capuchin monkeys | |
CN108304535B (zh) | 一种社区内容智能排序估算方法 | |
CN109657156A (zh) | 一种基于循环生成对抗网络的个性化推荐方法 | |
CN106919951A (zh) | 一种基于点击与视觉融合的弱监督双线性深度学习方法 | |
Paluch et al. | Comparison of methods to evaluate changes in relative body mass index in pediatric weight control | |
CN108921092A (zh) | 一种基于卷积神经网络模型二次集成的黑色素瘤分类方法 | |
CN112256739B (zh) | 一种基于多臂赌博机的动态流大数据中数据项筛选方法 | |
CN110176050B (zh) | 文本生成图像的美学优化方法 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
CN106861012A (zh) | Vr体验场景下基于智能手环的用户情绪调节方法 | |
CN108920521A (zh) | 基于伪本体的用户画像-项目推荐系统及方法 | |
CN110825974B (zh) | 推荐系统内容排序方法及装置 | |
CN109446420A (zh) | 一种跨域协同过滤方法和系统 | |
CN106023093A (zh) | 一种基于改进图像块匹配的非局部均值图像去噪方法 | |
Mengke et al. | Evaluation of black-start scheme based on risk utility function | |
CN112116669B (zh) | 一种基于颜色和谐和平面构成的图像美学预测方法 | |
CN108182290B (zh) | 一种用于社区内容热度排序的估算方法 | |
CN111814609B (zh) | 一种基于深度森林和卷积神经网络的微表情识别方法 | |
Bova et al. | Hybrid method for prediction of users’ information behavior in the Internet based on bioinspired search | |
CN109887023B (zh) | 一种基于加权梯度幅度的双目融合立体图像质量评价方法 | |
CN1828306A (zh) | 基于m5’模型树实现配方产品的感官指标预测方法 | |
CN110910528A (zh) | 纸页抗张强度的预测方法及装置 | |
CN112529637B (zh) | 基于情景感知的服务需求动态预测方法及系统 | |
Zacarias et al. | Predicting the incidence of malaria cases in mozambique using regression trees and forests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |