CN106354737A - 提供投票排名信息的方法和装置 - Google Patents

提供投票排名信息的方法和装置 Download PDF

Info

Publication number
CN106354737A
CN106354737A CN201510440832.XA CN201510440832A CN106354737A CN 106354737 A CN106354737 A CN 106354737A CN 201510440832 A CN201510440832 A CN 201510440832A CN 106354737 A CN106354737 A CN 106354737A
Authority
CN
China
Prior art keywords
ranking
ratio
project
ballot
confidence interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510440832.XA
Other languages
English (en)
Inventor
吕波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingbangda Trade Co Ltd
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510440832.XA priority Critical patent/CN106354737A/zh
Publication of CN106354737A publication Critical patent/CN106354737A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种提供投票排名信息的方法和装置,有助于更准确地统计在所有时间段内的投票排名。本发明的提供投票排名信息的方法包括:计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;计算所述多个项目各自的所述比例的置信区间;对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;根据所述投票排名的顺序输出所述多个项目的投票排名信息。

Description

提供投票排名信息的方法和装置
技术领域
本发明涉及计算机技术领域,特别地涉及一种提供投票排名信息的方法和装置。
背景技术
最近几年来互联网行业得到了蓬勃的发展,随之带来的是“信息大爆炸”,用户担心的不再是信息获得的太少,而是信息太多。无法如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。
目前各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。
排名算法也比较多,如给出“某个时段”的排名,比如“过去24小时最热门的文章”。但是,更多场合需要的是需要“所有时段”的排名,比如“最受用户好评的产品”。这时,时间因素就不需要考虑了。
目前对于统计在所有时间段内的投票排名算法,普遍使用以下两种方法:
第一种方法是:得票数=赞成票-反对票。
第二种方法是:得票数=赞成票/总票数。
以上两种方法都是具有一定缺陷的。
方法一具有以下缺陷:假定有两个项目,项目A是60张赞成票,40张反对票,项目B是550张赞成票,450张反对票。那么谁应该排在前面呢?按照方法一的公式,B会排在前面,因为它的得分(550-450=100)高于A(60-40=20)。但是实际上,B的好评率只有55%(550/1000),而A为60%(60/100),所以正确的结果应该是A排在前面。
方法二具有以下缺陷:如果“总票数”很大,方法二其实是对的。问题出在如果“总票数”很少,这时就会出错。假定A有2张赞成票、0张反对票,B有100张赞成票、1张反对票。这种算法会使得A(得票数为2/2=1)排在B(得票数为100/101<1)前面。这显然错误。
因此现有技术中的统计在所有时间段内的投票排名的计算方式,其准确性仍有待提高。
发明内容
有鉴于此,本发明提供一种提供投票排名信息的方法和装置,有助于更准确地统计在所有时间段内的投票排名。
为实现上述目的,根据本发明的一个方面,提供了一种提供投票排名信息的方法。
本发明的提供投票排名信息的方法包括:计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;计算所述多个项目各自的所述比例的置信区间;对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;根据所述投票排名的顺序输出所述多个项目的投票排名信息。
可选地,所述置信区间是威尔逊区间。
可选地,计算多个项目各自获得的赞成票在该项目获得的总票数中的比例的步骤包括:计算多个项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为所述比例。
根据本发明的另一方面,提供了一种提供投票排名信息的装置。
本发明的提供投票排名信息的装置包括:比例计算模块,用于计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;置信区间计算模块,用于计算所述多个项目各自的所述比例的置信区间;排名模块,用于对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;输出模块,用于根据所述投票排名的顺序输出所述多个项目的投票排名信息。
可选地,所述置信区间是威尔逊区间。
可选地,所述比例计算模块还用于计算多个项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为所述比例。
根据本发明的技术方案,对多个项目各自获得的赞成票在该项目获得的总票数中的比例的置信区间的下限值由大至小进行排名,将该排名的顺序作为投票排名的顺序,从而对可信度进行了修正以弥补样本量过小的影响,有助于提高统计在所有时间段内的投票排名的准确性。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施方式的提供投票排名信息的方法的主要步骤的示意图;
图2是根据本发明实施方式中的提供投票排名信息的装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施方式的主要思想是依据统计学的二项分布算法,首先做如下假设:假设一,每个用户的投票都一个是独立事件;假设二,用户只有两个选择,要么投赞成票,要么投反对票;假设三,如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。那么当p越大,就代表这个项目的好评比例越高,越应该排在前面。但是p的可信性,取决于有多少人投票,如果样本太小,p就不可信。已经知道,p是“二项分布”中某个事件的发生概率,因此可以计算出p的置信区间。所谓“置信区间”,就是说以某个概率而言,p会落在的那个区间。比如某个产品的好评率是80%,但是这个值不一定可信。根据统计学,我们只能说,有95%的把握可以断定,好评率在75%到85%之间,即置信区间是[75%,85%]。
本发明实施方式中,提供投票排名信息的方法的主要步骤示于图1中,图1是根据本发明实施方式的提供投票排名信息的方法的主要步骤的示意图。
步骤S11:计算多个项目各自获得的赞成票在该项目获得的总票数中的比例。
步骤S12:计算上述多个项目各自的上述比例的置信区间。
步骤S13:对上述多个项目的上述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序。
步骤S14:根据上述投票排名的顺序输出上述多个项目的投票排名信息。
以下对于上述方法的原理作进一步分析说明。置信区间的宽窄与样本的数量有关。比如,A有8张赞成票,2张反对票;B有80张赞成票,20张反对票。这两个项目的赞成票比例都是80%,但是B的置信区间(假定[75%,85%])会比A的置信区间(假定[70%,90%])窄得多,因此B的置信区间的下限值(75%)会比A(70%)大,所以B应该排在A前面。
置信区间的实质,就是对可信度的修正,弥补样本量过小的影响。如果样本多,就说明比较可信,不需要很大的修正,所以置信区间会比较窄,下限值会比较大;如果样本少,就说明不一定可信,必须进行较大的修正,所以置信区间会比较宽,下限值会比较小。
动态设置置信区间主要是利用二项分布算法,通常计算“正态区间”(Normal approximation interval),但是,它只适用于样本较多的情况(np>5且n(1-p)>5),对于小样本,它的准确性很差。
所以本发明实施方式中,最好是使用“威尔逊区间”计算公式作为置信区间的计算公式,它有助于较好地解决样本小的问题。威尔逊区间计算公式如下:
p ^ + 1 2 n z 1 - &alpha; 2 2 &PlusMinus; z 1 - &alpha; 2 p ^ ( 1 - p ^ ) n + z 1 - &alpha; 2 2 4 n 2 1 + 1 n z 1 - &alpha; 2 2
在公式中,表示样本的“赞成票比例”,n表示样本的大小。
表示对应某个置信水平的z统计量,这是一个常数。
一般情况下,在95%的置信水平下,z统计量的值为1.96。
威尔逊置信区间的均值为:
p ^ + 1 2 n z 1 - &alpha; 2 2 1 + 1 n z 1 - &alpha; 2 2
它的下限值为
p ^ + 1 2 n z 1 - &alpha; 2 2 - z 1 - &alpha; 2 p ^ ( 1 - p ^ ) n + z 1 - &alpha; 2 2 4 n 2 1 + 1 n z 1 - &alpha; 2 2
可以看到,当n的值足够大时,这个下限值会趋向如果n非常小(投票人很少),这个下限值会大大小于实际上,起到了降低“赞成票比例”的作用,使得该项目的得分变小、排名下降。
对于投票样本比较大的项目,为了更好的体现真实情况,在本发明实施方式中可以对原始数据进行取对数的转化,即计算这些项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为上述比例。这样能够使得各变量的数值在同一数量层次,减少异方差性。也符合弹性方程,比如X变量增加百分之几,对Y变量有多大影响。另外取对数通常会缩小变量的取值范围,使得估计值对因变量和自变量的异常观测不那么明显
为了提升反映赞成票比例的真实情况,提升赞成票和总票数比例的准确性,本发明实施方式中,可利用多次重复计算来观测其二项分布。即在N次独立重复随机测试后,只考虑事件发生/不发生,每个元素的表示变量是布尔型的类条件概率P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下文件总数+2),先验概率P(c)=类c下文件总数/整个训练样本的文件总数。经过多次计算有助于赞成票和总票数比例的准确率。
上述方法的实现,可采用java开发语言,并且封装为一个对外提供服务的统一组件来提供服务。本发明实施方式中的提供投票排名信息的装置是利用java语言开发的一个算法功能组件,该装置具有计算好评率功能、计算置信区间功能、计算排名功能和对外接口。每个功能对外提供独立接口,供使用该装置的系统和软件调用。通过配置文件和接口参数设定常量值和区间计算参数。图2是根据本发明实施方式中的提供投票排名信息的装置的主要模块的示意图。如图2所示,提供投票排名信息的装置20包括比例计算模块21、置信区间计算模块22、排名模块23、以及输出模块24。
比例计算模块21用于计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;置信区间计算模块22用于计算所述多个项目各自的所述比例的置信区间;排名模块23用于对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;输出模块24用于根据所述投票排名的顺序输出所述多个项目的投票排名信息。比例计算模块21还可用于计算多个项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为所述比例。
根据本发明的实施方式,对多个项目各自获得的赞成票在该项目获得的总票数中的比例的置信区间的下限值由大至小进行排名,将该排名的顺序作为投票排名的顺序,从而对可信度进行了修正以弥补样本量过小的影响,有助于提高统计在所有时间段内的投票排名的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。本发明的技术方案不属于智力活动规则。

Claims (6)

1.一种提供投票排名信息的方法,其特征在于,包括:
计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;
计算所述多个项目各自的所述比例的置信区间;
对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;
根据所述投票排名的顺序输出所述多个项目的投票排名信息。
2.根据权利要求1所述的方法,其特征在于,所述置信区间是威尔逊区间。
3.根据权利要求1所述的方法,其特征在于,计算多个项目各自获得的赞成票在该项目获得的总票数中的比例的步骤包括:
计算多个项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为所述比例。
4.一种提供投票排名信息的装置,其特征在于,包括:
比例计算模块,用于计算多个项目各自获得的赞成票在该项目获得的总票数中的比例;
置信区间计算模块,用于计算所述多个项目各自的所述比例的置信区间;
排名模块,用于对所述多个项目的所述置信区间的下限值由大至小进行排名,将该排名的顺序作为所述投票排名的顺序;
输出模块,用于根据所述投票排名的顺序输出所述多个项目的投票排名信息。
5.根据权利要求4所述的装置,其特征在于,所述置信区间是威尔逊区间。
6.根据权利要求4所述的装置,其特征在于,所述比例计算模块还用于计算多个项目各自获得的赞成票的对数和该项目获得的总票数的对数的比值,将该比值作为所述比例。
CN201510440832.XA 2015-07-24 2015-07-24 提供投票排名信息的方法和装置 Pending CN106354737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510440832.XA CN106354737A (zh) 2015-07-24 2015-07-24 提供投票排名信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510440832.XA CN106354737A (zh) 2015-07-24 2015-07-24 提供投票排名信息的方法和装置

Publications (1)

Publication Number Publication Date
CN106354737A true CN106354737A (zh) 2017-01-25

Family

ID=57842752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510440832.XA Pending CN106354737A (zh) 2015-07-24 2015-07-24 提供投票排名信息的方法和装置

Country Status (1)

Country Link
CN (1) CN106354737A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784666A (zh) * 2018-12-20 2019-05-21 国网北京市电力公司 设备质量的检测方法及装置
CN111242424A (zh) * 2019-12-31 2020-06-05 国网北京市电力公司 质量数据的处理方法及装置
CN113051411A (zh) * 2021-02-04 2021-06-29 深圳市华球通网络有限公司 一种文章实时排名方法、装置、终端及存储介质
CN114093079A (zh) * 2020-07-30 2022-02-25 中国电信股份有限公司 基于区块链的电子投票方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794473A (zh) * 2009-06-03 2010-08-04 朱世康 一种网络投票的方法及装置
CN103383702A (zh) * 2013-07-17 2013-11-06 中国科学院深圳先进技术研究院 一种基于用户投票排名的个性化新闻推荐的方法及系统
CN103886667A (zh) * 2013-06-03 2014-06-25 绍兴数能网络技术开发有限公司 一种投票信息处理方法、装置及系统
CN104731585A (zh) * 2015-03-05 2015-06-24 天脉聚源(北京)传媒科技有限公司 一种投票页面的显示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794473A (zh) * 2009-06-03 2010-08-04 朱世康 一种网络投票的方法及装置
CN103886667A (zh) * 2013-06-03 2014-06-25 绍兴数能网络技术开发有限公司 一种投票信息处理方法、装置及系统
CN103383702A (zh) * 2013-07-17 2013-11-06 中国科学院深圳先进技术研究院 一种基于用户投票排名的个性化新闻推荐的方法及系统
CN104731585A (zh) * 2015-03-05 2015-06-24 天脉聚源(北京)传媒科技有限公司 一种投票页面的显示方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阮一峰: "基于用户投票的排名算法(五):威尔逊区间", 《HTTPS://WWW.OSCHINA.NET/QUESTION/12_45051?SORT=TIME&P=1》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784666A (zh) * 2018-12-20 2019-05-21 国网北京市电力公司 设备质量的检测方法及装置
CN111242424A (zh) * 2019-12-31 2020-06-05 国网北京市电力公司 质量数据的处理方法及装置
CN111242424B (zh) * 2019-12-31 2022-08-12 国网北京市电力公司 质量数据的处理方法及装置
CN114093079A (zh) * 2020-07-30 2022-02-25 中国电信股份有限公司 基于区块链的电子投票方法及装置
CN113051411A (zh) * 2021-02-04 2021-06-29 深圳市华球通网络有限公司 一种文章实时排名方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
Brodeur et al. Methods matter: P-hacking and publication bias in causal analysis in economics
Linzer Dynamic Bayesian forecasting of presidential elections in the states
Ostwald How to win a lost election: Malapportionment and Malaysia’s 2013 general election
Kaptein et al. Powerful and consistent analysis of likert-type rating scales
Toth et al. The role of heterogeneity in contact timing and duration in network models of influenza spread in schools
Dong Regression discontinuity designs with sample selection
CN106354737A (zh) 提供投票排名信息的方法和装置
CN107045786B (zh) 基于Kaplan-Meier法的驾驶者发生交通事故间隔时间的计算方法
US20160125157A1 (en) Systems and Methods to Monitor Health of Online Social Communities
Wright et al. How surprising was Trump's victory? Evaluations of the 2016 US presidential election and a new poll aggregation model
Kenny et al. Widespread partisan gerrymandering mostly cancels nationally, but reduces electoral competition
Volkening et al. Forecasting elections using compartmental models of infection
Denrell et al. Information sampling, belief synchronization, and collective illusions
Li A conditional sequential sampling procedure for drug safety surveillance
Fix et al. The complexities of state court compliance with US Supreme Court precedent
Morais ARL-unbiased geometric and CCC G control charts
CN106446543A (zh) 健康数据处理方法、装置及服务器集群
Birnbaum et al. Risky decision making: Testing for violations of transitivity predicted by an editing mechanism
Hsiao et al. Latent class mediation: A comparison of six approaches
Grimm et al. Residual structures in growth models with ordinal outcomes
Morais et al. An ARL-unbiased thinning-based EWMA chart to monitor counts
Burdick et al. Establishment of an equivalence acceptance criterion for accelerated stability studies
CN108074108A (zh) 一种净推荐值的显示方法及其终端
Putri et al. The effect of gender, education, and nationalism level of individual taxpayers toward tax Mojokerto compliance: A case study on KPP Pratama
Boero et al. The sensitivity of chi-squared goodness-of-fit tests to the partitioning of data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190715

Address after: 100086 6th Floor, Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Jingdong Zhenshi Information Technology Co.,Ltd.

Address before: 100080 First Floor 101, No. 2 Building, No. 20 Courtyard, Suzhou Street, Haidian District, Beijing

Applicant before: Beijing Jingbangda Trading Co.,Ltd.

Effective date of registration: 20190715

Address after: 100080 First Floor 101, No. 2 Building, No. 20 Courtyard, Suzhou Street, Haidian District, Beijing

Applicant after: Beijing Jingbangda Trading Co.,Ltd.

Address before: 100080 Beijing city Haidian District xingshikou Road No. 65 west Shan Creative Park District 11C four floor East West 1-4 layer 1-4 layer

Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170125