CN110337015B - 一种大样本下有线电视用户收视率误差修正方法 - Google Patents
一种大样本下有线电视用户收视率误差修正方法 Download PDFInfo
- Publication number
- CN110337015B CN110337015B CN201910544867.6A CN201910544867A CN110337015B CN 110337015 B CN110337015 B CN 110337015B CN 201910544867 A CN201910544867 A CN 201910544867A CN 110337015 B CN110337015 B CN 110337015B
- Authority
- CN
- China
- Prior art keywords
- sample
- audience rating
- variance
- cable television
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Graphics (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种大样本下有线电视用户收视率误差修正方法,具体步骤包括:步骤一:有线电视用户总体收视率P,对于有线电视用户样本量是n的简单随机样本,样本收视率p是P的无偏估计,计算样本收视率p的方差V(p)和V(p)的样本无偏估计;步骤二:用允许相对误差r来反映样本收视率的精度;步骤三:利用步骤一中得到的样本收视率p的方差和样本收视率p无偏估计得到样本量与相对误差的关系式;步骤四:根据关系式修正收视率误差。本发明适用于有线电视大数据公司、有线电视网络公司、电视台以及国家职能部门,辅助其在收视率调查时,以最高精度和最小成本定量的计算调查所需要的样本量,从而进一步修正收视率调查误差。
Description
技术领域
本发明涉及数据调查技术领域,更具体的说是涉及一种大样本下有线电视用户收视率误差修正方法。
背景技术
随着大数据时代的到来以及计算机技术的全面普及和快速发展,使得数据的采集、存储和分析能力不断提升,数据量级不断加大,对大量级的数据进行分析,会造成时间和经济成本等资源的大量消耗。比如目前全国有超过千万的有线电视用户的收视数据且数据结构复杂、数据来源于多方。如何对如此大量级有线电视用户收视数据进行分析和信息提取。另外,收视率属于总体比例估计问题。在现有200-300个频道中,收视率p平均为千分之三左右,属于低比例问题,对精度要求更高。为保证收视率估计的精度,在置信度、总体比例确定时,收视率估计中样本量越大估计精度越好。
如何提供一种相对误差、抽样比和样本量三者对于收视率误差修正方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种收视率误差修正方法,计算出各调查精度需求下有线电视用户样本量大小。本发明适用于有线电视大数据公司、有线电视网络公司、电视台以及国家职能部门,辅助其在收视率调查时,以最高精度和最小成本定量的计算调查所需要的样本量,从而进一步修正收视率调查误差。
为了实现上述目的,本发明提供如下技术方案:
一种大样本下有线电视用户收视率误差修正方法,具体步骤包括:
步骤一:有线电视用户总体收视率P,对于有线电视用户样本量是n的简单随机样本,样本收视率p是P的无偏估计,计算样本收视率p的方差V(p)和V(p)的样本无偏估计;
步骤二:用允许相对误差r来反映样本收视率的精度;
步骤三:利用步骤一中得到的样本收视率p的方差和样本收视率p无偏估计得到样本量与相对误差的关系式;
步骤四:根据关系式修正收视率误差。
优选的,在上述的一种大样本下有线电视用户收视率误差修正方法中,所述步骤一中,样本收视率p的方差:
V(p)的样本无偏估计为:
优选的,在上述的一种大样本下有线电视用户收视率误差修正方法中,样本收视率p的方差的计算步骤如下:设总体单元为Yi,样本单元为yi,其中样本量n是采用简单随机抽样的方式从总体中抽取n个单元组成的;
总体中具有某种属性的单元数为N1,不具有该种属性的单元数为N-N1;样本中具有某种属性的单元数为n1,不具有该种属性的单元数为n-n1;由此可知总体单元中具有该种属性的单元的比例为
相应地,总体方差为
样本单元中具有该种属性的单元的比例为
相应地,样本方差为
根据对称性论证法,有
将式(8)和式(9)代入式(7),即有
则由式(4)、式(5)和式(11)可得,p的方差为
优选的,在上述的一种大样本下有线电视用户收视率误差修正方法中,样本收视率p的方差的无偏估计计算步骤如下:
根据对称性论证法及V(y)的表达式,有
将式(14)和式(15)代入式(13),可得
则由式(5)、式(6)和式(17),可得
优选的,在上述的一种大样本下有线电视用户收视率误差修正方法中,所述步骤二中,对于精度的要求以相对误差限表示为:
优选的,在上述的一种大样本下有线电视用户收视率误差修正方法中,总体方差得到的样本量与相对误差的关系式:
其中tα/2为标准正态分布的双侧α分位数;
同理,利用样本方差得到的样本量与相对误差的关系式:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种大样本下有线电视用户收视率误差修正方法,从大样本下有线电视用户收视率调查中传统的抽样方法出现的问题为立足点,提出了大样本随机抽样理论方法,并运用事后分层抽样方法证明了在一定条件下大样本可以近似视为随机样本,具有随机样本的特性。然后,在大样本的随机抽样理论方法的基础上,进行了有线电视用户样本量与抽样误差的分析,并通过仿真分析得出:当有线电视用户样本量足够大时,在收视率估计中,置信度确定和总体方差要求低于某一固定值时,有线电视用户样本量越大允许误差越小,估计的精度就越好。即在一定条件下,大样本比小样本具有较高得精度以及收视率估计值p越低时估计的精度越低。最后,利用大样本随机抽样理论方法对收视率调查的样本量与误差精度进行了分析,并得出了相对误差、抽样比和样本量三者关系的区间估计并给出了相应的特征描述。故得到了在给定抽样误差和一定条件下大样本有线电视用户收视数据抽样调查一个量化标准,该标准可以给后续进行大量级数据抽样调查提供建议。然后根据公式(21)和控制变量法,在置信度为95%,控制相对误差和收视率p对有线电视用户样本量与抽样比的关系进行分析,得出了在相对误差给定后,有线电视用户样本量与抽样比呈现线性关系,抽样比确定时,有线电视用户样本量与相误差呈现负相关;在收视率给定后,有线电视用户样本量与抽样比也呈现线性关系,抽样比确定时,有线电视用户样本量与收视率呈现负相关。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的实施例不同置信度、抽样比、总体规模下相对误差的关系曲线;
图2附图为本发明实施例收视率与相对误差的关系曲线;
图3附图为本发明实施例在相对误差给定后样本量与抽样比的关系曲线;
图4附图为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种收视率误差修正方法,计算出各调查精度需求下有线电视用户样本量大小。本发明适用于有线电视大数据公司、有线电视网络公司、电视台以及国家职能部门,辅助其在收视率调查时,以最高精度和最小成本定量的计算调查所需要的样本量,从而进一步修正收视率调查误差。
第一、在一定的条件下有线电视用户的大样本可近似视为随机样本,具有随机样本的特性。
目前针对于有线电视用户大样本虽然无法做到事先随机抽样,但因其覆盖面广、时效性、低成本、可扩充(大数据量级还在快速增加)等优点。当有线电视用户大样本具有较好的代表性时,在提高抽样精度方面具有明显优越性。有线电视用户大样本分布广且来自各个层级可视为配额抽样所获得的样本。对于抽样比高的可视为达到配额。样本量越大,样本越分散,越能够克服数据偏差。有线电视用户大样本越能代表该总体分布特征,采用事后分层抽样方法所得到的样本近似于随机样本,具有随机样本的特性。
事后分层抽样是先对规模为N的有线电视用户总体中进行简单随机抽样或系统抽样,抽取容量为n的样本,再按某些特征对n个抽样单元分层。事后分层抽样要求各层权重可以通过某种途径获得。假设从有线电视用户总体中抽取了样本容量为n的大样本,将该样本按层权Wh(h=1,2,…,L)进行分层,落到第h层的抽样单元数和样本均值分别为nh和则事后分层估计量是总体均值的无偏估计量,落到各层的抽样单元可以近似视为独立地从各层中抽取的简单随机样本。理论上,当n充分大,事后分层估计量是无偏估计量,其方差由两部分构成,一部分是按比例分配分层抽样估计量的方差,一部分是因事后分层而非事先按比例分配分层引起的方差增加量。由此,只要有线电视用户样本量足够大,事后分层的精度与按比例分配事先分层的精度近似相同,即证明了在一定的条件下有线电视用户大样本可近似视为随机样本。
第二、从理论上对有线电视用户样本量与抽样误差进行分析。
通过对大样本的随机抽样理论方法的研究,我们已经证明了在一定的条件下大样本可近似视为随机样本,具有随机样本的特性。在统计推断过程中有线电视用户的样本量是足够大,在收视率估计中,置信度确定和总体方差要求低于某一值时,样本量越大允许误差越小,估计的精度就越好。
若估计有线电视用户总体收视率P,对于有线电视用户样本量是n的简单随机样本,样本收视率p是P的无偏估计,p的方差为:
V(p)的样本无偏估计为:
进而,可根据式(1)和式(2)对有线电视用户样本量与抽样误差进行分析。对精度(其实是收视率的一个置信区间,由收视率均值加减一个抽样误差得到的,精度一般与抽样误差成反比关系)的要求通常以允许绝对误差限d或允许相对误差限r来表示,误差限是在一定的显著性水平α(或置信度1-α)下的绝对或相对误差。对参数P以及它的估计p,以绝对误差限表示,有
P{|p-P|≤d}=1-α (3)
以相对误差限表示,有
由于实际估计的p多数情况下属于稀有事件的比例,用相对误差限更为合理。同时,在有线电视用户大样本背景下,可以解决p的精确分布很难求得的问题。因样本量大,可用正态分布近似,根据式(1)和式(4),利用总体方差得到的样本量与相对误差的关系式:
其中tα/2为标准正态分布的双侧α分位数。
同理,根据式(2)和式(4),利用样本方差得到的样本量与相对误差的关系式:
第三、运用仿真分析,给出各调查精度需求下有线电视用户样本量大小的确定标准。
在收视率调查中,收视率P一般是未知,此时可用估计量p来代替。因此,用式(6)来进行有线电视用户样本量与误差精度的仿真分析。
假设p=1%时,取有线电视用户样本量为10万和1万,分别计算置信度为95%和99%时的相对误差(表1和图1)。结果表明,相对误差随着抽样比的提高而下降。在抽样比和置信度固定时,有线电视用户样本量为10万的相对误差比样本量为1万的相对误差要低得多,这一点有力地说明了在一定条件下大样本比小样本具有较高的精度。
表1不同置信度、抽样比、总体规模下相对误差测算
当有线电视用户样本量n与抽样比f固与定时,比如取n为10万,f为10%。由表2和图2可知,随着收视率p的降低,相对误差增大。即p越低时估计的精度越低。
表2 p与相对误差的关系
根据以上分析分有线电视用户样本量与抽样误差和收视率关系以及公式(6)采用控制变量法,在置信度为95%和收视率p=1%的情况下,有线电视用户样本量、抽样比的变化对相对误差的影响进行了具体地分析,得出了样本量、抽样比和相对误差三者关系的区间估计并给出了相应的特征描述,如表3所示。
表3样本量、抽样比设置对相对误差的影响
由表3可总结出各调查精度需求下有线电视用户样本量大小的确定标准。
标准一、在给定相对误差在1%以下时,无需考虑抽样比,所抽取的有线电视用户样本量需达到380万户以上,即可推断总体情况,此时的样本可视为达到全抽样。
标准二、在给定相对误差为[0%,1%]、[1%,3%]、[3%,5%]、[5%,10%]这四个档次时,相应地抽样比也分为无需覆盖、低覆盖、中等覆盖和高覆盖四个等级,此时相对应的有线电视用户样本量近似分为极大规模样本380万户以上、大规模样本42万户到380万户、中等规模样本15万户到42万户、中小规模样本4万户到15万户四个量级。
标准三、当有线电视用户样本量低于4万户以下都属于小规模样本,要使其相对误差在1%、3%或5%以下,则对抽样比要求很高,实际运用中调查成本巨大。所以从实际调查精度和成本等方面考虑,针对小规模样本应给定其相对误差在10%以下比较合理。
在置信度为95%,假设收视率p=1%时,控制相对误差为1%、3%、5%和10%的情况下,有线电视用户样本量与抽样比的关系如下图3所示。易知,在相对误差给定后,有线电视用户样本量与抽样比呈现线性关系,且随着抽样比的提高,样本量不断在减少。在抽样比确定时,有线电视用户样本量与相误差呈现负相关。即给定相对误差越低,需要的样本量越大;给定相对误差越高,需要的样本量越小。
在置信度为95%,假设相对误差为3%,收视率p取0.1%、0.5%、1%和2%、的情况下,有线电视用户样本量与抽样比的关系如下图4所示。易知,在收视率给定后,有线电视用户样本量与抽样比呈现线性关系,且随着抽样比的提高,样本量不断在减少。在抽样比确定时,有线电视用户样本量与收视率呈现负相关。即给定收视率越低,需要的样本量越大;给定收视率越高,需要的样本量越小。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修正对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种大样本下有线电视用户收视率误差修正方法,其特征在于,具体步骤包括:
步骤一:有线电视用户总体收视率P,对于规模为N的有线电视用户样本量是n的简单随机样本,为抽样比,样本收视率p是P的无偏估计,计算样本收视率p的方差V(p)和V(p)的样本无偏估计;所述样本收视率p的方差:
所述V(p)的样本无偏估计为:
步骤二:用允许相对误差r反映样本收视率的精度;
步骤三:利用步骤一中得到的样本收视率p的方差和样本收视率p无偏估计得到样本量与相对误差的关系式;总体方差得到的样本量与相对误差的关系式:
其中tα/2为标准正态分布的双侧α分位数;
同理,利用样本方差得到的样本量与相对误差的关系式:
步骤四:根据关系式修正收视率误差。
2.根据权利要求1所述的一种大样本下有线电视用户收视率误差修正方法,其特征在于,样本收视率p的方差的计算步骤如下:设总体单元为Yi,样本单元为yi,其中样本量n是采用简单随机抽样的方式从总体中抽取n个单元组成的;
总体中具有某种属性的单元数为N1,不具有该种属性的单元数为N-N1;样本中具有某种属性的单元数为n1,不具有该种属性的单元数为n-n1;由此可知总体单元中具有该种属性的单元的比例为
相应地,总体方差为
样本单元中具有该种属性的单元的比例为
相应地,样本方差为
根据对称性论证法,有
将式(8)和式(9)代入式(7),即有
则由式(4)、式(5)和式(11)可得,p的方差为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544867.6A CN110337015B (zh) | 2019-06-21 | 2019-06-21 | 一种大样本下有线电视用户收视率误差修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544867.6A CN110337015B (zh) | 2019-06-21 | 2019-06-21 | 一种大样本下有线电视用户收视率误差修正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110337015A CN110337015A (zh) | 2019-10-15 |
CN110337015B true CN110337015B (zh) | 2021-07-20 |
Family
ID=68142582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910544867.6A Active CN110337015B (zh) | 2019-06-21 | 2019-06-21 | 一种大样本下有线电视用户收视率误差修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110337015B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1331447A (zh) * | 2000-07-04 | 2002-01-16 | 北京东方商景信息咨询有限责任公司 | 一种研究变换的受众媒体接触行为的统计方法 |
CN103297814A (zh) * | 2013-06-28 | 2013-09-11 | 百视通新媒体股份有限公司 | 基于iptv的收视评估方法及系统 |
CN104469432A (zh) * | 2014-12-31 | 2015-03-25 | 合一网络技术(北京)有限公司 | 一种基于用户的收视率修正方法及装置 |
CN109769146A (zh) * | 2018-12-25 | 2019-05-17 | 国家新闻出版广电总局广播电视规划院 | 广播电视节目收视率的确定方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379231A1 (en) * | 2015-06-26 | 2016-12-29 | The Nielsen Company (Us), Llc | Determining ratings data from population sample data having unreliable demographic classifications |
-
2019
- 2019-06-21 CN CN201910544867.6A patent/CN110337015B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1331447A (zh) * | 2000-07-04 | 2002-01-16 | 北京东方商景信息咨询有限责任公司 | 一种研究变换的受众媒体接触行为的统计方法 |
CN103297814A (zh) * | 2013-06-28 | 2013-09-11 | 百视通新媒体股份有限公司 | 基于iptv的收视评估方法及系统 |
CN104469432A (zh) * | 2014-12-31 | 2015-03-25 | 合一网络技术(北京)有限公司 | 一种基于用户的收视率修正方法及装置 |
CN109769146A (zh) * | 2018-12-25 | 2019-05-17 | 国家新闻出版广电总局广播电视规划院 | 广播电视节目收视率的确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于收视率预测的电视节目编排优化研究;盛蓉;《复旦大学硕士学位论文》;20100508;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110337015A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10560740B2 (en) | Methods, apparatus and articles of manufacture to estimate local market audiences of media content | |
Xu et al. | Estimating wind speed probability distribution by diffusion-based kernel density method | |
EP3471374B1 (en) | Method and device for identifying type of geographic location at where user is located | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
CN105243098B (zh) | 人脸图像的聚类方法及装置 | |
CN111639092B (zh) | 一种人员流动分析方法、装置、电子设备及存储介质 | |
CN114359563B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
WO2015021850A1 (en) | Multidimensional data process method and device thereof | |
CN113099475A (zh) | 网络质量检测方法、装置、电子设备及可读存储介质 | |
CN111026969A (zh) | 一种内容推荐方法、装置及存储介质和服务器 | |
CN110337015B (zh) | 一种大样本下有线电视用户收视率误差修正方法 | |
CN100511241C (zh) | 用于周期现象的聚类技术 | |
CN112465565A (zh) | 一种基于机器学习的用户画像预测的方法及装置 | |
CN114430530B (zh) | 空间划分方法、装置、设备、介质和程序产品 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
CN116611725A (zh) | 一种基于绿色生态指标的土地类型识别方法及装置 | |
CN110675009A (zh) | 小区便利性评价方法和装置 | |
Jin et al. | Modified tests for variance changes in autoregressive regression | |
CN111711957A (zh) | 基于流量的站点扩容预测方法、装置及系统 | |
CN109495900B (zh) | 一种扩容方法、装置和计算机可读存储介质 | |
CN111538653B (zh) | 方案的测试方法、装置、电子设备和存储介质 | |
CN104765755A (zh) | 一种基于k-均值聚类的终端推荐方法及装置 | |
CN107515794A (zh) | 一种气象数据获取方法 | |
CN110136043B (zh) | 一种基于位置大数据的交通小区人口推算方法 | |
CN111046307B (zh) | 用于输出信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |