CN108495155B - 收视习惯分析方法及系统 - Google Patents

收视习惯分析方法及系统 Download PDF

Info

Publication number
CN108495155B
CN108495155B CN201810220764.XA CN201810220764A CN108495155B CN 108495155 B CN108495155 B CN 108495155B CN 201810220764 A CN201810220764 A CN 201810220764A CN 108495155 B CN108495155 B CN 108495155B
Authority
CN
China
Prior art keywords
user
viewing
sub
time period
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810220764.XA
Other languages
English (en)
Other versions
CN108495155A (zh
Inventor
王妍
柴剑平
冯熙
李波
江茜
韩晶晶
檀雷雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201810220764.XA priority Critical patent/CN108495155B/zh
Publication of CN108495155A publication Critical patent/CN108495155A/zh
Application granted granted Critical
Publication of CN108495155B publication Critical patent/CN108495155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Graphics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种收视习惯分析方法及系统,包括:设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;采集用户对广播电视节目的收视数据;将时间区域划分成多个时间段,每一个时间段包括多个子时间段;构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵;对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯。所述方法及系统可以描述个体收视习惯,在给定决策条件下找到目标收视群体的关键问题。

Description

收视习惯分析方法及系统
技术领域
本发明涉及广播电视领域,更为具体地,涉及一种收视习惯分析方法及系统。
背景技术
面对互联网电视、移动新媒体带来的冲击,广播电视收视用户不断分流。在这样的环境下,如何从用户的收视行为中发现规律,找到可能影响用户收视的因素显得十分重要,广播电视用户收视习惯系统能够有效解决这一问题。
传统的收视调查以抽样用户为基础,存在样本户数量不够、样本户受到污染等问题。随着数字双向机顶盒的普及、采集与存储技术的不断发展,基于实时采集回传的大样本收视数据为用户行为分析提供了新的契机。广播电视用户收视习惯挖掘的理论基础为数据挖掘技术,更具体地说,涉及聚类方法。常用的聚类方法包括系统聚类、K均值聚类及其变种等。
用户收视习惯挖掘的本质是对用户在时间维度、频道维度和节目类型维度上的收视习惯进行刻画,并基于此进行收视群体的划分。现有的广播电视用户收视分析集中于对特定频道、节目的收视指标的分析,缺乏对用户个体收视习惯的描述,同时,在依据收视习惯对收视群体体进行划分时缺乏科学的、定量的阈值确定方法。
发明内容
鉴于上述问题,本发明的目的是提供一种描述个体收视习惯的收视习惯分析方法及系统。
根据本发明的一个方面,提供一种收视习惯分析系统,包括:设定模块,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;采集模块,采集用户对广播电视节目的收视数据;划分模块,将时间区域划分成多个时间段,每一个时间段包括多个子时间段;调用模块,调用设定模块设定的空间区域的用户在所述时间区域内的收视数据,发送给收视指标矩阵构建模块;收视指标矩阵构建模块,构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵,发送给收视偏好获得模块;收视偏好获得模块,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯。
根据本发明的另一个方面,提供一种收视习惯分析方法,其特征在于,包括:步骤S1,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;步骤S2,采集用户对广播电视节目的收视数据;步骤S3,将时间区域划分成多个时间段,每一个时间段包括多个子时间段;步骤S4,构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵;步骤S5,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯。
本发明所述收视习惯分析方法及系统通过从不同维度挖掘广播电视用户的收视习惯,以及提供个人收视习惯挖掘方法,能够有效确定用户的收视习惯,还能够依据收视习惯将用户划分成具有不同程度收视习惯的用户群,也就是说上述方法及系统可以实现对个体收视习惯的描述,并能够在给定决策条件下找到目标收视群体的关键问题。
附图说明
通过参考以下结合附图的说明,随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明所述收视习惯分析系统的构成框图;
图2是本发明所述收视习惯分析方法的流程图。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明所述收视习惯分析系统的构成框图,如图1所示,本发明所述收视习惯分析系统包括:
设定模块1,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标,其中,所述空间区域可以是省、市、区等,例如北京市;所述时间区域为选定各节目类型的计算时间段,例如,时间区域为2016年1月1日至2017年1月1日;所述收视指标可以是收视率、收视时长、收视频次等各种表征用户收视情况的指标;
采集模块2,采集用户对广播电视节目的收视数据;
划分模块3,将时间区域划分成多个时间段,每一个时间段包括多个子时间段,例如,将时间区域按照天分成多个时间段,每天按照小时分成24个子时间段;
调用模块4,调用设定模块1设定的空间区域的用户在所述时间区域内的收视数据,发送给收视指标矩阵构建模块5;
收视指标矩阵构建模块5,构建子时间段的收视指标的模型(收视指标的函数),将调用模块4传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵,发送给收视偏好获得模块6;
收视偏好获得模块6,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯。
在本发明的一个实施例中,上述收视偏好获得模块包括:
计算单元61,计算每一个用户的每两个类之间的距离,所述类为一个时间段的收视指标矩阵,所述收视指标矩阵中的一个子时间段的收视指标为类内的一个样本,
Figure BDA0001599811670000041
dij=|Ii FL-Ij FL|
其中,D(Gp,Gq)表示Gp和Gq两个类之间的距离,np、nq分别表示类Gp、 Gq中样本的个数,Ii FL表示类Gp中的样本,Ii FL表示类Gq中的样本,dij表示所述样本Ii FL和Ij FL之间的距离;
第一合并单元62,将距离最小的两个类合并为一个新类;
第一迭代单元63,将新类取代其合并的两个类代入计算单元第一合并单元,进行kh-1次合并,聚类个数为1,2,3……kh,得到(kh-1)个立方聚类准则统计量,其中,kh为小于或等于
Figure 1
的最大正整数,n为一个用户的样本总数;
第一选取单元64,取所述立方聚类准则统计量的最大值对应的聚类个数 kmax为最终聚类个数k;
第二迭代单元65,将新类取代其合并的两个类代入计算单元和合并单元,直到聚类个数k对应的类不变化,得到k个类构成的聚类结果;
第二选取单元66,选取聚类结果中包含收视指标最大值的类,将所述类作为用户的收视习惯。
在本发明的一个实施例中,上述收视习惯分析系统还包括分群模块7,根据各用户的所述收视习惯采用聚类的方法划分收视习惯对应的收视群体。
优选地,上述分群模块7包括:
分群样本采集单元71,将各用户的收视习惯对应的收视指标矩阵作为用户类,所述用户类的收视指标矩阵中各子时间段的收视指标作为样本;
类间距离计算单元72,将两个用户类的质心之间的欧几里得距离作为两个用户类之间的类间距离;
第二合并单元73,将类间距离最小的两个用户类合并为一个新用户类;
第三迭代单元74,将新用户类取代其合并的两个用户类代入类间距离计算单元72和第二合并单元73,进行ky-1次合并,聚类个数为1,2,3……ky,其中,ky为小于或等于
Figure BDA0001599811670000051
的最大正整数,M为用户类的总数;
DBI计算单元75,计算每一次聚类的戴维森堡丁指数,得到(ky-1) 个戴维森堡丁指数,
Figure BDA0001599811670000052
其中,Xi表示第i个用户类,Δ(Xi)表示用户类Xi的类内距离,Δ(Xj)表示用户类Xj的类内距离,所述类内距离定义为用户类内两两样本间欧几里得距离的最大值,δ(Xi,Xj)表示用户类Xi与用户类Xj之间的类间距离,k为聚类次数, DBIk为第k次聚类的戴维森堡丁指数;
分群个数确定单元76,将最小的戴维森堡丁指数对应的聚类个数kDmin作为分群个数;
聚类分群单元77,采用聚类算法(例如K-means、K-均值等)将各用户类分成kDmin个收视群体。
上述各实施例示出了本发明所述收视习惯分析系统各构成模块,但是本发明并不限于此,所述收视习惯分析系统还可以包括输入模块(电脑、手机、触摸屏等),还可以包括结果输出模块,用于输出用户的收视习惯或和收视群体,所述结果输出模块可以是显示屏等具有显示功能的构件,也可以是网络或射频等信号发射模块,将用户的收视习惯或和收视群体通过网络、射频等传输给广播电视厂商,另外,还可以包括节目推荐模块,根据用户的收视习惯推送节目。
图2是本发明所述收视习惯分析方法的流程图,如图2所示,所述收视习惯分析方法包括:
步骤S1,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;
步骤S2,采集用户对广播电视节目的收视数据,所述收视数据可以包括用户编号、收视起始时间、收视结束时间以及收视频道,所述广播电视节目信息包括节目名称、节目播出频道名称、节目播出时间、节目结束时间、节目类型以及节目子类型;
步骤S3,将时间区域划分成多个时间段,每一个时间段包括多个子时间段;
步骤S4,构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵;
步骤S5,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯。
优选地,在步骤S5中,包括:
步骤S51,计算每一个用户的每两个类之间的距离,所述类为一个时间段的收视指标矩阵,所述收视指标矩阵中的一个子时间段的收视指标为类内的一个样本;
步骤S52,将距离最小的两个类合并为一个新类;
步骤S53,将新类取代其合并的两个类代入步骤51-步骤52,进行kh-1次合并,聚类个数为1,2,3……kh,得到(kh-1)个立方聚类准则统计量,其中,kh为小于或等于
Figure BDA0001599811670000071
的最大正整数,n为一个用户的样本总数;
步骤S54,取所述立方聚类准则统计量的最大值对应的聚类个数kmax为最终聚类个数k;
步骤S55,将新类取代其合并的两个类代入步骤51-步骤53进行迭代更新,直到聚类个数k对应的类不变化,得到k个类构成的聚类结果;
步骤S56,选取聚类结果中包含收视指标最大值的类,将所述类作为用户的收视习惯。
在本发明的一个实施力中,上述收视习惯分析方法,还包括:
步骤S6,根据各用户的所述收视习惯采用聚类的方法划分收视习惯对应的收视群体。
优选地,步骤S6包括:
步骤S61,将各用户的收视习惯对应的收视指标矩阵用户类,所述用户类的收视指标矩阵中各子时间段的收视指标作为样本;
步骤S62,将两个用户类的质心之间的欧几里得距离作为两个用户类之间的类间距离;
步骤S63,将类间距离最小的两个用户类合并为一个新用户类;
步骤S64,将新用户类取代其合并的两个用户类代入步骤61-步骤62,进行ky-1次合并,聚类个数为1,2,3……ky,其中,ky为小于或等
Figure BDA0001599811670000082
的最大正整数,M为用户类的总数;
步骤S65,计算每一次聚类的戴维森堡丁指数,得到(ky-1)个戴维森堡丁指数;
步骤S66,将最小的戴维森堡丁指数对应的聚类个数kDmin作为分群个数;
步骤S67,采用聚类算法将各用户类分成kDmin个收视群体。
步骤S67采用的聚类算法可以采用K-means、K-均值等聚类算法,优选地采用K-均值聚类算法,具体地,包括:
步骤S671:从M个用户类中随机选取kDmin个用户类作为kDmin个收视群体的初始聚类中心;
步骤S672:将剩余的每个用户类分配到与类均值的欧几里得距离最小的初始聚类中心,所述类均值为初始聚类中心中样本的平均值;
步骤S673:计算每一次聚类的均方误差,
Figure BDA0001599811670000081
其中,ci表示用户类,x表示用户类ci内的样本,mi表示用户类ci中所有样本的平均值;
步骤S674,判断均方误差是否收敛;
如果均方根误差收敛,则说明收视群体划分完成,计算每一个收视群体中用户类的样本的均值,按照所述均值的大小对kDmin个收视群体进行排序,所述均值越大说明收视习惯越强,收视特征越明显。
如果均方根误差不收敛,将更新后的收视群体中用户类的样本的均值作为新的聚类中心,循环步骤S672-步骤S673,直至均方根误差收敛。
上述收视习惯分析系统及方法的各实施例中的收视指标,优选地,包括用户在每个子时间段的收视习惯指数、在每个子时间段对各频道的收视习惯指数和在每个子时间段对各节目类型的收视习惯指数中的一个或多个,其中,
Figure BDA0001599811670000091
Figure BDA0001599811670000092
It FL=Frequencyt×Lengtht
Figure BDA0001599811670000093
Figure BDA0001599811670000094
Itc FL=Frequencytc×Lengthtc
Figure BDA0001599811670000095
Figure BDA0001599811670000096
Itp FL=Frequencytp×Percenttp
其中,n1表示用户在t子时间段收看电视的时间段个数之和,N表示所述时间区域分成的时间段个数之和,Ti表示用户在一个时间段的t子时间段的收视时长,Frequencyt表示用户在t子时间段的在线频率;Lengtht表示用户在t 子时间段的平均收视时长;It FL表示用户在t子时间段的收视习惯指数;n2表示用户在t子时间段收看c频道的时间段个数之和,Tj表示用户在一个时间段的t子时间段收看c频道的时长,Frequencytc表示用户在t子时间段收看c频道的频率,Lengthtc表示用户在t子时间段收看c频道的平均收视时长,Itc TL表示用户在t子时间段收看c频道的收视习惯指数;n3表示用户在t子时间段收看p类型节目的时间段个数之和;n4表示一个时间段用户在t子时间段收看p 类型节目的个数;Tij表示用户在一个时间段的t子时间段收看p节目类型的时长;Bij表示用户在一个时间段的t子时间段收看的p节目类型的播出时长 Frequencytp表示用户在t子时间段收看p节目类型的频率;Percenttp表示用户在t子时间段收看p节目类型的平均收视百分比;Itp FL表示用户在t子时间段收看p节目类型的收视习惯指数。
采用上述收视习惯指数,经过本发明所述收视习惯分析方法,可以得到每个用户习惯收视的时段、在特定时段习惯收看的频道以及在特定时段习惯收看的节目类型。
本发明基于广播电视用户收视习惯分析方法及系统,通过从不同维度挖掘用户收视习惯,以及提供个人收视习惯挖掘方法,能够有效确定用户的收视习惯,还能够依据收视习惯将用户划分成具有不同程度收视习惯的用户群。基于收视习惯的收视群体划分方法能够帮助网络运营商了解用户特征,并根据特定收视习惯筛选目标收视用户,以达到精准化营销与个性化服务的目的。
综上所述,参照附图以示例的方式描述了根据本发明提出的收视习惯分析方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (7)

1.一种收视习惯分析系统,包括:
设定模块,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;
采集模块,采集用户对广播电视节目的收视数据;
划分模块,将时间区域划分成多个时间段,每一个时间段包括多个子时间段;
调用模块,调用设定模块设定的空间区域的用户在所述时间区域内的收视数据,发送给收视指标矩阵构建模块;
收视指标矩阵构建模块,构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵,发送给收视偏好获得模块;
收视偏好获得模块,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯,得到每个用户习惯收视的时段、在特定时段习惯收看的频道以及在特定时段习惯收看的节目类型,
其中,所述收视指标包括用户在每个子时间段的收视习惯指数、在每个子时间段对各频道的收视习惯指数和在每个子时间段对各节目类型的收视习惯指数,其中,
Figure FDA0002905028290000021
Figure FDA0002905028290000022
It FL=Frequencyt×Lengtht
Figure FDA0002905028290000023
Figure FDA0002905028290000024
Itc FL=Frequencytc×Lengthtc
Figure FDA0002905028290000025
Figure FDA0002905028290000026
Itp FL=Frequencytp×Percenttp
其中,n1表示用户在t子时间段收看电视的时间段个数之和,N表示所述时间区域分成的时间段个数之和,Ti表示用户在一个时间段的t子时间段的收视时长,Frequencyt表示用户在t子时间段的在线频率;Lengtht表示用户在t子时间段的平均收视时长;It FL表示用户在t子时间段的收视习惯指数;n2表示用户在t子时间段收看c频道的时间段个数之和,Tj表示用户在一个时间段的t子时间段收看c频道的时长,Frequencytc表示用户在t子时间段收看c频道的频率,Lengthtc表示用户在t子时间段收看c频道的平均收视时长,Itc FL表示用户在t子时间段收看c频道的收视习惯指数;n3表示用户在t子时间段收看p类型节目的时间段个数之和;n4表示一个时间段用户在t子时间段收看p类型节目的个数;Tij表示用户在一个时间段的t子时间段收看p节目类型的时长;Bij表示用户在一个时间段的t子时间段收看的p节目类型的播出时长Frequencytp表示用户在t子时间段收看p节目类型的频率;Percenttp表示用户在t子时间段收看p节目类型的平均收视百分比;Itp FL表示用户在t子时间段收看p节目类型的收视习惯指数;
其中,所述收视偏好获得模块包括:
计算单元,计算每一个用户的每两个类之间的距离,所述类为一个时间段的收视指标矩阵,所述收视指标矩阵中的一个子时间段的收视指标为类内的一个样本
Figure FDA0002905028290000031
dij=|Ii FL-Ij FL|
其中,D(Gp,Gq)表示Gp和Gq两个类之间的距离,np、nq分别表示类Gp、Gq中样本的个数,Ii FL表示类Gp中的样本,Ii FL表示类Gq中的样本,dij表示所述样本Ii FL和Ij FL之间的距离;
第一合并单元,将距离最小的两个类合并为一个新类;
第一迭代单元,将新类取代其合并的两个类代入计算单元和第一合并单元,进行kh-1次合并,聚类个数为1,2,3……kh,得到(kh-1)个立方聚类准则统计量,其中,kh为小于或等于
Figure FDA0002905028290000032
的最大正整数,n为一个用户的样本总数;
第一选取单元,取所述立方聚类准则统计量的最大值对应的聚类个数kmax为最终聚类个数k;
第二迭代单元,将新类取代其合并的两个类代入第一计算单元、第二计算单元和合并单元,直到聚类个数k对应的类不变化,得到k个类构成的聚类结果;
第二选取单元,选取聚类结果中包含收视指标最大值的类,将所述类作为用户的收视习惯。
2.根据权利要求1所述的收视习惯分析系统,其特征在于,还包括:
分群模块,根据各用户的所述收视习惯采用聚类的方法划分收视习惯对应的收视群体。
3.根据权利要求2所述的收视习惯分析系统,其特征在在于,所述分群模块包括:
分群样本采集单元,将各用户的收视习惯对应的收视指标矩阵作为用户类;
类间距离计算单元,将两个用户类的质心之间的欧几里得距离作为两个用户类之间的类间距离;
第二合并单元,将类间距离最小的两个用户类合并为一个新用户类;
第三迭代单元,将新用户类取代其合并的两个用户类代入类间距离计算单元和第二合并单元,进行ky-1次合并,聚类个数为1,2,3……ky,其中,ky为小于或等于
Figure FDA0002905028290000041
的最大正整数,M为用户类的总数;
DBI计算单元,计算每一次聚类的戴维森堡丁指数,得到(ky-1)个戴维森堡丁指数;
分群个数确定单元,将最小的戴维森堡丁指数对应的聚类个数kDmin作为分群个数;
聚类分群单元,采用聚类算法将各用户类分成kDmin个收视群体。
4.根据权利要求1所述的收视习惯分析系统,其特征在于,还包括:
结果输出模块,用于输出用户的收视习惯。
5.一种收视习惯分析方法,其特征在于,包括:
步骤S1,设定用于确定广播电视用户收视习惯所需的参数,其中,所述参数至少包括:空间区域、时间区域和收视指标;
步骤S2,采集用户对广播电视节目的收视数据;
步骤S3,将时间区域划分成多个时间段,每一个时间段包括多个子时间段;
步骤S4,构建子时间段的收视指标的模型,将调用模块传来的各用户的收视数据代入所述模型,得到各用户每个子时间段的收视指标,从而得到各用户的每个时间段的收视指标矩阵;
步骤S5,对每一个用户的多个时间段的收视指标矩阵进行聚类,将每一个用户的聚类结果中包含收视指标最大值的收视指标矩阵作为每一个用户的收视习惯,得到每个用户习惯收视的时段、在特定时段习惯收看的频道以及在特定时段习惯收看的节目类型,
其中,所述收视指标包括用户在每个子时间段的收视习惯指数、在每个子时间段对各频道的收视习惯指数和在每个子时间段对各节目类型的收视习惯指数,其中,
Figure FDA0002905028290000051
Figure FDA0002905028290000052
It FL=Frequencyt×Lengtht
Figure FDA0002905028290000053
Figure FDA0002905028290000054
Itc FL=Frequencytc×Lengthtc
Figure FDA0002905028290000061
Figure FDA0002905028290000062
Itp FL=Frequencytp×Percenttp
其中,n1表示用户在t子时间段收看电视的时间段个数之和,N表示所述时间区域分成的时间段个数之和,Ti表示用户在一个时间段的t子时间段的收视时长,Frequencyt表示用户在t子时间段的在线频率;Lengtht表示用户在t子时间段的平均收视时长;It FL表示用户在t子时间段的收视习惯指数;n2表示用户在t子时间段收看c频道的时间段个数之和,Tj表示用户在一个时间段的t子时间段收看c频道的时长,Frequencytc表示用户在t子时间段收看c频道的频率,Lengthtc表示用户在t子时间段收看c频道的平均收视时长,Itc FL表示用户在t子时间段收看c频道的收视习惯指数;n3表示用户在t子时间段收看p类型节目的时间段个数之和;n4表示一个时间段用户在t子时间段收看p类型节目的个数;Tij表示用户在一个时间段的t子时间段收看p节目类型的时长;Bij表示用户在一个时间段的t子时间段收看的p节目类型的播出时长Frequencytp表示用户在t子时间段收看p节目类型的频率;Percenttp表示用户在t子时间段收看p节目类型的平均收视百分比;Itp FL表示用户在t子时间段收看p节目类型的收视习惯指数;
其中,所述对每一个用户的多个时间段的收视指标矩阵进行聚类的方法包括:
步骤S51,计算每一个用户的每两个类之间的距离,所述类为一个时间段的收视指标矩阵,所述收视指标矩阵中的一个子时间段的收视指标为类内的一个样本
Figure FDA0002905028290000071
dij=|Ii FL-Ij FL|
其中,D(Gp,Gq)表示Gp和Gq两个类之间的距离,np、nq分别表示类Gp、Gq中样本的个数,Ii FL表示类Gp中的样本,Ii FL表示类Gq中的样本,dij表示所述样本Ii FL和Ij FL之间的距离;
步骤S52,将距离最小的两个类合并为一个新类;
步骤S53,将新类取代其合并的两个类代入步骤51-步骤52,进行kh-1次合并,聚类个数为1,2,3……kh,得到(kh-1)个立方聚类准则统计量,其中,kh为小于或等于
Figure FDA0002905028290000072
的最大正整数,n为一个用户的样本总数;
步骤S54,取所述立方聚类准则统计量的最大值对应的聚类个数kmax为最终聚类个数k;
步骤S55,将新类取代其合并的两个类代入步骤51-步骤53进行迭代更新,直到聚类个数k对应的类不变化,得到k个类构成的聚类结果;
步骤S56,选取聚类结果中包含收视指标最大值的类,将所述类作为用户的收视习惯。
6.根据权利要求5所述的收视习惯分析方法,其特征在于,还包括:
步骤S6,根据各用户的所述收视习惯采用聚类的方法划分收视习惯对应的收视群体。
7.根据权利要求6所述的收视习惯分析方法,其特征在于,所述步骤S6包括:
步骤S61,将各用户的收视习惯对应的收视指标矩阵作为用户类;
步骤S62,将两个用户类的质心之间的欧几里得距离作为两个用户类之间的类间距离;
步骤S63,将类间距离最小的两个用户类合并为一个新用户类;
步骤S64,将新用户类取代其合并的两个用户类代入步骤61-步骤62,进行ky-1次合并,聚类个数为1,2,3……ky,其中,ky为小于或等于
Figure FDA0002905028290000081
的最大正整数,M为用户类的总数;
步骤S65,计算每一次聚类的戴维森堡丁指数,得到(ky-1)个戴维森堡丁指数;
步骤S66,将最小的戴维森堡丁指数对应的聚类个数kDmin作为分群个数;
步骤S67,采用聚类算法将各用户类分成kDmin个收视群体。
CN201810220764.XA 2018-03-16 2018-03-16 收视习惯分析方法及系统 Active CN108495155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810220764.XA CN108495155B (zh) 2018-03-16 2018-03-16 收视习惯分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810220764.XA CN108495155B (zh) 2018-03-16 2018-03-16 收视习惯分析方法及系统

Publications (2)

Publication Number Publication Date
CN108495155A CN108495155A (zh) 2018-09-04
CN108495155B true CN108495155B (zh) 2021-07-13

Family

ID=63339823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810220764.XA Active CN108495155B (zh) 2018-03-16 2018-03-16 收视习惯分析方法及系统

Country Status (1)

Country Link
CN (1) CN108495155B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859383A (zh) * 2010-06-08 2010-10-13 河海大学 基于时间序列重要点分析的高光谱遥感图像波段选择方法
CN103297853A (zh) * 2013-06-07 2013-09-11 华东师范大学 一种基于多用户上下文识别的iptv节目推荐方法
CN105095516A (zh) * 2015-09-16 2015-11-25 中国传媒大学 基于谱聚类集成的广播电视用户分群系统及方法
CN106791964A (zh) * 2016-12-26 2017-05-31 中国传媒大学 广播电视节目推荐系统及方法
CN107071578A (zh) * 2017-05-24 2017-08-18 中国科学技术大学 Iptv节目推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192583B2 (en) * 2014-10-10 2019-01-29 Samsung Electronics Co., Ltd. Video editing using contextual data and content discovery using clusters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859383A (zh) * 2010-06-08 2010-10-13 河海大学 基于时间序列重要点分析的高光谱遥感图像波段选择方法
CN103297853A (zh) * 2013-06-07 2013-09-11 华东师范大学 一种基于多用户上下文识别的iptv节目推荐方法
CN105095516A (zh) * 2015-09-16 2015-11-25 中国传媒大学 基于谱聚类集成的广播电视用户分群系统及方法
CN106791964A (zh) * 2016-12-26 2017-05-31 中国传媒大学 广播电视节目推荐系统及方法
CN107071578A (zh) * 2017-05-24 2017-08-18 中国科学技术大学 Iptv节目推荐方法

Also Published As

Publication number Publication date
CN108495155A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108737856B (zh) 社会关系感知的iptv用户行为建模与节目推荐方法
EP3324312A1 (en) Content recommendation system with weighted metadata annotations
CN102769781B (zh) 推荐电视节目的方法及装置
CN110012060B (zh) 移动终端的信息推送方法、装置、存储介质和服务器
CN107071578A (zh) Iptv节目推荐方法
CN106791964B (zh) 广播电视节目推荐系统及方法
CN102780920A (zh) 电视节目推荐方法及系统
WO2007026357A2 (en) Enhanced electronic program guides
CN105744370A (zh) 基于群体收视行为的广播电视系统及其个性节目推荐方法
CN108521586B (zh) 兼顾时间上下文与隐式反馈的iptv电视节目个性化推荐方法
CN103377242A (zh) 用户行为分析方法、分析预测方法及电视节目推送系统
CN104423621A (zh) 拼音字符串处理方法和装置
US10165315B2 (en) Systems and methods for predicting audience measurements of a television program
CN111327967B (zh) 视频智能倍速播放方法、系统及存储介质
CN105163142A (zh) 一种用户偏好确定方法、视频推荐方法和系统
CN102426577A (zh) 信息处理设备、信息处理系统、信息处理方法和程序
CN104933135A (zh) 一种多媒体数据的聚类方法及装置
CN105843876A (zh) 多媒体资源的质量评估方法和装置
CN104902292A (zh) 一种基于电视报道的舆情分析方法和系统
CN102572543A (zh) 一种数字电视节目推荐系统及方法
CN106604068B (zh) 一种更新媒体节目的方法及其系统
US11934455B2 (en) Systems, methods, and apparatuses for audience metric determination
CN108495155B (zh) 收视习惯分析方法及系统
KR101034512B1 (ko) 가장 근접한 이웃 추천 방법 및 시스템
WO2023087933A1 (zh) 内容推荐方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant