CN115134665A - 基于机顶盒的数据处理方法及装置、存储介质、电子设备 - Google Patents
基于机顶盒的数据处理方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN115134665A CN115134665A CN202110302790.9A CN202110302790A CN115134665A CN 115134665 A CN115134665 A CN 115134665A CN 202110302790 A CN202110302790 A CN 202110302790A CN 115134665 A CN115134665 A CN 115134665A
- Authority
- CN
- China
- Prior art keywords
- set top
- top box
- top boxes
- data
- viewing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000009434 installation Methods 0.000 claims abstract description 134
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000002354 daily effect Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000036578 sleeping time Effects 0.000 description 5
- 230000003442 weekly effect Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010022437 insomnia Diseases 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005354 coacervation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4524—Management of client data or end-user data involving the geographical location of the client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及数据处理技术领域,提供了一种基于机顶盒的数据处理方法及装置、存储介质、电子设备,其中,基于机顶盒的数据处理方法包括:根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置;根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据知识图谱为机顶盒用户订购观影业务包。本公开能够为安装多个机顶盒的用户快速准确的订购业务包。
Description
技术领域
本公开涉及数据处理技术领域,特别涉及一种基于机顶盒的数据处理方法、基于机顶盒的数据处理装置、计算机存储介质及电子设备。
背景技术
随着数字化和三网融合的推进,电视业务成为当前通信运营商增收的重要来源。近年来,机顶盒产品得到了快速的发展和进步,为人们的日常生活提供了很大的便利。随着物质和经济水平的提高,出现了越来越多同时安装多部机顶盒的家庭。
目前,当接收到用户订购家庭IPTV(网络协议电视,Internet ProtocolTelevision)的请求以及用户提供的宽带账号之后,若用户的宽带账号下连接了多个机顶盒(而观影业务包只能在订购的机顶盒上使用),则无法准确将观影业务包与用户指定的机顶盒关联在一起,需要用户现场核实机顶盒账号之后二次办理订购业务,因此,延长了业务处理时间,影响业务处理效率。
鉴于此,本领域亟需开发一种新的基于机顶盒的数据处理方法及装置。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种基于机顶盒的数据处理方法、基于机顶盒的数据处理装置、计算机存储介质及电子设备,进而至少在一定程度上克服现有技术中业务处理效率较低的缺陷。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种基于机顶盒的数据处理方法,包括:步骤A:根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;步骤B:对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;步骤C:根据各所述聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置;根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包。
在本公开的示例性实施例中,所述方法还包括:定时执行上述步骤A-步骤C,并根据执行结果定时更新所述机顶盒的安装位置。
在本公开的示例性实施例中,在获取到每个宽带账户下接入的机顶盒的观影数据之后,所述方法还包括:对所述每个宽带账户下接入的机顶盒的观影数据进行预处理。
在本公开的示例性实施例中,所述对每个宽带账户下接入的机顶盒的观影数据进行预处理,包括:确定所述观影数据中的缺失值;根据预先设定的填充值,对所述缺失值进行填充处理。
在本公开的示例性实施例中,在对所述缺失值进行填充处理之后,所述方法还包括:确定所述观影数据中的异常数据;所述异常数据至少包括以下之一:连续预设时长内的观影数据相同、预设时长内的观影频率大于频率阈值、连续预设时长内的节目点播次数大于点播次数阈值;对包含所述异常数据的机顶盒的观影数据进行剔除处理。
在本公开的示例性实施例中,所述观影数据包括不同时间维度下的观影次数和/或观影时长,所述处于使用状态的机顶盒,通过以下方式确定:当所述机顶盒对应的观影次数大于次数阈值,和/或,所述机顶盒对应的观影时长大于时长阈值时,确定所述机顶盒处于使用状态。
在本公开的示例性实施例中,所述对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇,包括:通过肘部法则确定最佳聚类数;根据所述最佳聚类数,基于K均值聚类算法对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到所述至少两个聚类簇。
在本公开的示例性实施例中,在得到至少两个聚类簇之后,所述方法还包括:分别从各所述聚类簇中随机抽取N个机顶盒的观影数据;针对各聚类簇,分别获取各个时间区间所述N个机顶盒的观影数据之间的多个第一标准差,并确定所述多个第一标准差的第一平均值;以及,针对各所述聚类簇,分别获取每个机顶盒对应的观影数据的第二标准差,并确定所述N个机顶盒对应的第二标准差的第二平均值;根据所述第一平均值和所述第二平均值所处的数值区间以及预先存储的数值区间与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置。
在本公开的示例性实施例中,在标记各所述聚类簇中包含的机顶盒的安装位置之后,所述方法还包括:统计每个宽带账户下位于第一安装位置的机顶盒数量;若所述位于第一安装位置的机顶盒数量为M个,则从M个所述机顶盒中选取M-1个机顶盒;M为大于1的整数;将所述M-1个机顶盒由所述第一安装位置修正为第二安装位置。
在本公开的示例性实施例中,所述从M个所述机顶盒中选取M-1个机顶盒,包括:获取位于所述第一安装位置的M个机顶盒的观影数据的标准差;确定得到的M个标准差中的最小值;将除所述最小值之外的M-1个标准差所对应的M-1个机顶盒确定为选取的M-1个机顶盒。
在本公开的示例性实施例中,在标记各所述聚类簇中包含的机顶盒的安装位置之后,所述方法还包括:统计每个宽带账户下是否存在位于第二安装位置的至少两个机顶盒,并且,不存在位于第一安装位置的机顶盒;若是,则从所述至少两个机顶盒中选取目标机顶盒;将所述目标机顶盒由所述第二安装位置修正为所述第一安装位置。
在本公开的示例性实施例中,所述从所述至少两个机顶盒中选取目标机顶盒,包括:获取所述至少两个机顶盒中每个机顶盒的观影数据对应的标准差;将最小标准差对应的机顶盒确定为所述目标机顶盒。
根据本公开的第二方面,提供一种基于机顶盒的数据处理装置,包括:数据获取模块,用于根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;数据聚类模块,用于对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;位置标记模块,用于根据各所述聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置;知识图谱构建模块,用于根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包。
根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的基于机顶盒的数据处理方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的基于机顶盒的数据处理方法。
由上述技术方案可知,本公开示例性实施例中的基于机顶盒的数据处理方法、基于机顶盒的数据处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,一方面,根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户,能够筛选出存在多部在用机顶盒的账户,避免对一个宽带账户下仅存在一部在用机顶盒的数据(当用户需要订购观影业务包时,一般是订购在处于使用状态的机顶盒,因而,若仅有一部处于使用状态的机顶盒,则无需进行区分)进行后续分析处理所导致的浪费系统资源的问题,提高数据处理效率。进一步的,对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇,根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置,能够明确各个宽带账户下接入的机顶盒的使用情况以及不同使用情况的机顶盒所处的安装位置。另一方面,根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包,从而用户仅需提供宽带账号以及想要订购观影业务包的机顶盒的位置,便可以准确的为位于该位置的机顶盒订购观影业务包,解决现有技术中当一个宽带账户下连接多个机顶盒时,无法为用户准确订购观影业务包的技术问题,提高业务处理效率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中一种基于机顶盒的数据处理方法的流程图;
图2示出本示例性实施方式中确定观影数据中的异常数据,并对异常数据进行剔除处理的流程图;
图3示出本示例性实施方式中一种聚类方法的流程图;
图4示出本示例性实施方式中一种基于肘部法则确定最佳聚类数的结果示意图;
图5A-5C示出本示例性实施方式中各个聚类簇中包含的机顶盒的观影数据的波动示意图;
图6示出本示例性实施方式中另一种标记机顶盒安装位置的流程图;
图7示出本示例性实施方式中对位于第一安装位置的M个机顶盒进行修正处理的流程图;
图8示出本示例性实施方式中一种对目标机顶盒的标记位置进行修正处理的流程图;
图9示出本示例性实施方式中一种基于机顶盒的数据处理方法的整体流程图;
图10示出本公开示例性实施例中一种基于机顶盒的数据处理装置的结构示意图;
图11示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
目前,当接收到用户订购家庭IPTV(网络协议电视,Internet ProtocolTelevision)的请求以及用户提供的宽带账号之后,若用户的宽带账号下连接了多个机顶盒(而观影业务包只能在订购的机顶盒上使用),则无法准确将观影业务包与用户指定的机顶盒关联在一起,需要用户现场核实机顶盒账号之后二次办理订购业务,因此,增加了一线渠道的营销成本,同时延长了业务处理时间,影响业务处理效率。
在本公开的实施例中,首先提供了一种基于机顶盒的数据处理方法,至少在一定程度上克服现有技术中业务处理效率较低的缺陷。
图1示出本示例性实施方式中一种基于机顶盒的数据处理方法的流程图,该基于机顶盒的数据处理方法的执行主体可以是对机顶盒的相关数据进行处理的服务器。
参考图1,根据本公开的一个实施例的基于机顶盒的数据处理方法包括以下步骤:
步骤S110(即步骤A),根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;
步骤S120(即步骤B):对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;
步骤S130(即步骤C):根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置;
步骤S140,根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据知识图谱为机顶盒用户订购观影业务包。
在图1所示实施例所提供的技术方案中,一方面,根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户,能够筛选出存在多部在用机顶盒的账户,避免对一个宽带账户下仅存在一部在用机顶盒的数据(当用户需要订购观影业务包时,一般是订购在处于使用状态的机顶盒,因而,若仅有一部处于使用状态的机顶盒,则无需进行区分)进行后续分析处理所导致的浪费系统资源的问题,提高数据处理效率。进一步的,对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇,根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置,能够明确各个宽带账户下接入的机顶盒的使用情况以及不同使用情况的机顶盒所处的安装位置。另一方面,根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包,从而用户仅需提供宽带账号以及想要订购观影业务包的机顶盒的位置,便可以准确的为位于该位置的机顶盒订购观影业务包,解决现有技术中当一个宽带账户下连接多个机顶盒时,无法为用户准确订购观影业务包的技术问题,提高业务处理效率。
以下对图1中的各个步骤的具体实现过程进行详细阐述:
机顶盒是一个连接电视机与外部信号源的设备,全称为数字视频变换盒,它可以将压缩的数字信号转成电视内容,使用户能在现有电视机上观看数字电视节目,并通过网络进行交互式数字化娱乐、教育和商业化活动。
在步骤S110中,根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户。
本步骤中,可以先确定每个宽带账户下接入的机顶盒,具体的,每条家庭宽带唯一对应一个宽带接入号,因而,可以根据各个机顶盒所接入的宽带接入号确定出每个宽带账户下接入的机顶盒。
进而,可以获取每个宽带账户下接入的机顶盒的观影数据,上述观影数据可以包括不同时间维度下的观影次数和/或观影时长,举例而言,观影数据可以包括:月观影数据(包括月观影次数和月观影时长)、周观影数据(包括周观影次数和周观影时长)、天观影数据(包括天观影次数和天观影时长)。其中,月观影数据即一个月内每两个小时作为一个时间区间所对应的观影数据,假如该月有31天,那么对应31*12=372个特征值);周观影数据即将一周7天内每两个小时作为一个时间区间所对应的观影数据,对应7*12=84个特征值;天观影数据即将1天内每两个小时作为一个时间区间所对应的观影数据,即对应24/2=12个特征值。示例性的,上述观影数据还可以包括观影频率(例如:2次/天),可以根据实际情况自行设定,属于本公开的保护范围。
在得到上述观影数据之后,可以对观影数据进行预处理,具体的,可以确定上述观影数据中的缺失值,缺失值即所有观影数据取值为空或null的数据,进而,可以采用人工核实的方式确定上述观影数据对应的机顶盒是否缺失不存在观影记录,进而,在核实之后,可以将上述缺失值填充为预先设定的填充值,例如:0。
在对缺失值进行填充处理之后,可以参考图2,图2示出确定观影数据中的异常数据,并对异常数据进行剔除处理的流程图,包含步骤S201-S202,以下结合图2对步骤S110进行解释:
在步骤S201中,确定观影数据中的异常数据。
本步骤中,可以将满足以下条件之一的观影数据确定为异常数据:连续预设时长内的观影数据相同(例如:以2小时为一个时间区间统计一次,连续12次统计到的观影数据相同,即连续24小时内统计到的观影次数相同)、预设时长内的观影频率大于频率阈值(例如:2小时内的观影频率大于7200次,即每秒一次)、连续预设时长内的节目点播次数大于点播次数阈值(例如:连续一周的节目点播次数居于所处城市内所有机顶盒用户的最大值)。
在步骤S202中,对包含异常数据的机顶盒的观影数据进行剔除处理。
本步骤中,可以对包含上述异常数据的机顶盒的观影数据进行剔除处理,以保证后续聚类时的数据准确度以及聚类结果的准确度。
进而,可以根据预处理之后的观影数据确定每个宽带账户下处于使用状态的机顶盒数量。具体的,当不同时间维度下的观影次数大于次数阈值(可以根据实际情况自行设定,属于本公开的保护范围),和/或,观影时长大于时长阈值(可以根据实际情况自行设定,属于本公开的保护范围)时,则可以确定机顶盒处于使用状态。举例而言,当机顶盒A的月观影次数大于等于15次,或者,机顶盒A的月观影时长大于等于60分钟时,可以确定该机顶盒A处于使用状态。
当一条家庭宽带下仅存在一部机顶盒时,当检测到处于使用状态的机顶盒数量为一部时,则可以将该家庭宽带对应的用户标记为:1部ITV1部在用_活跃,当检测到处于使用状态的机顶盒数量为0部时,则可以将该家庭宽带对应的用户标记为:1部ITV_未使用。
当一条家庭宽带下存在多部机顶盒,而检测到处于使用状态的机顶盒数量为一部时,则可以将该家庭宽带对应的用户标记为:多部ITV1部在用_活跃,当检测到处于使用状态的机顶盒数量为0部时,则可以将该家庭宽带对应的用户标记为:多部ITV_未使用。
当检测出一条家庭宽带下存在多部机顶盒,且检测到处于使用状态的机顶盒数量大于数量阈值(例如:1)时,则可以将该家庭宽带确定为目标宽带账户。
在步骤S120中,对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇。
本步骤中,可以对上述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,具体的,可以参考图3,图3示出本公开示例性实施方式中一种聚类方法的流程图,包含步骤S301-S302,以下结合图3对步骤S130进行解释:
在步骤S301中,通过肘部法则确定最佳聚类数。
本步骤中,可以通过肘部法则(Elbow Method)确定最佳聚类数。肘部法则的核心是:随着聚类数K的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE(SSE是所有样本的聚类误差,代表了聚类效果的好坏)自然会逐渐变小。当K小于最佳聚类数时,由于K的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当K到达最佳聚类数时,再增加K所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着K值的继续增大而趋于平缓,也就是说SSE和K的关系图是一个手肘的形状,而这个肘部对应的K值就是数据的最佳聚类数。
示例性的,可以参考图4,图4示出基于肘部法则确定最佳聚类数K的结果示意图,横轴表示聚类簇数(1.0-4.0),纵轴表示上述误差平方和SSE,参考图4可知,当聚类簇数为2.0或3.0时,随着聚类簇数的继续增大SSE趋于平缓,因而,可以确定出最佳聚类数K为2.0或3.0,本申请中以最佳聚类数K为3.0为例进行说明。
示例性的,本申请中还可以通过SC系数法(ilhouette Coefficient,轮廓系数)、CH(Calinski-Harabasz Index)系数法确定最佳聚类数,还可以在SC系数法的基础上结合肘部法则来确定最佳聚类数,可以根据实际情况自行设定,属于本公开的保护范围。
在步骤S302中,根据最佳聚类数,基于K均值聚类算法对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇。
本步骤中,在确定出最佳聚类数之后,可以基于K均值聚类算法对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇。参照上述步骤S301的相关解释,当K值取3.0时,可以得到3个聚类簇,分别是cluster_0、cluster_1、cluster_2。示例性的,在聚类之后,cluster_0中可以包括155899个机顶盒,cluster_1中可以包含23642个机顶盒,cluster_2中可以包括6986个机顶盒,可以参考以下表1:
表1
clusters | 机顶盒数量 |
cluster_0 | 155899 |
cluster_1 | 23642 |
cluster_2 | 6986 |
其中,K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。通过基于K均值聚类算法对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,鉴于该算法原理简单、易于操作,能够提高数据的处理效率。
需要说明的是,还可以基于以下算法之一进行聚类:均值漂移聚类算法(是基于滑动窗口的算法来找到数据点的密集区域)、DBSCAN算法(基于密度的聚类算法)、最大期望聚类算法(假设数据是呈高斯分布的,用高斯混合模型做聚类)、凝聚层次聚类算法(包括自上而下算法和自下而上算法)、图团体检测算法(当数据可以被表示为网络或图示,则可以使用图团体检测算法完成聚类)进行聚类,可以根据实际情况自行设定,属于本公开的保护范围。
继续参考图1,在步骤S130中,根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置。
本步骤中,在得到至少两个聚类簇之后,可以根据各个聚类簇中包含的机顶盒在指定时间段(例如:0点到6点)的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各个聚类簇中包含的机顶盒的安装位置。或者,还可以基于随机算法从各聚类簇中随机抽取1000个机顶盒在指定时间段的观影数据,根据每个聚类簇中的1000个机顶盒在指定时间段的观影数据和安装位置的对应关系,标记各个聚类簇中包含的机顶盒的安装位置,均可以根据实际情况自行设定,属于本公开的保护范围。
示例性的,以各个聚类簇中包含的机顶盒在指定时间段(例如:0点到6点)的观影数据为例进行说明,针对每个聚类簇中包含的机顶盒,其在指定时间段的观影数据可以包括三组数据:天观影数据(1天内每两个小时作为一个时间区间所对应的观影数据,即对应24小时/2=12个特征值)、周观影数据(7天内每两个小时作为一个时间区间所对应的观影数据,即对应7*12=84个特征值)、月观影数据(即一个月内每两个小时作为一个时间区间所对应的观影数据,假如该月有31天,那么对应31天*12=372个特征值)。
以观影数据为观影次数为例,可以参考图5A-5C,图5A示出各个聚类簇(即上述cluster_0、cluster_1和cluster_2)中包含的机顶盒的天观影次数的波动示意图,横轴表示一天的采集次数(每间隔2个小时采集一次),纵轴表示该簇中所有机顶盒的观影次数之和;图5B示出各个聚类簇中包含的机顶盒的周观影次数的波动示意图,横轴表示一周7天的采集次数(每天每间隔2个小时采集一次,为避免文字重叠,以4个小时为间隔进行标注),纵轴表示该簇中所有机顶盒的观影次数之和;图5C示出各个聚类簇中包含的机顶盒的月观影次数的波动示意图,横轴表示一个月31天的采集次数(每天每间隔2个小时采集一次,为避免文字重叠,以4个小时为间隔进行标注),纵轴表示该簇中所有机顶盒的观影次数之和。
由图5A-图5C中任一可知,cluster_0(共155899部机顶盒)在每天0点到6点的观影次数较少,平均次数基本趋近为0;cluster_1(共23642部机顶盒)在每天0点到6点有过观影行为,但不是稳定和常态出现,平均次数居于1和2之间;cluster_2(共6986部机顶盒)在每天0点到6点的观影次数明显较高,平均次数基本大于2。
而结合平时生活中的实际情况可知,每天的0点到6点,一般都是人的睡眠时间,因此,位于客厅的机顶盒在该时间段一般不会被使用(即0点到6点基本不存在观影数据);而一般居住在主卧的,都是每个家庭中需要上班的年轻人,需要保证充足的睡眠,因此一般不会经常性在0点到6点进行观影(即0点到6点存在较少的观影数据);而相对于主卧和客厅而言,居住在次卧的多半都是家里的老人,老人不需要按时上班,并且,老人可能存在失眠(睡眠时长不规律)、睡眠时间短、不到天亮就醒来等情况,因此,可能在0点到6点有较为频繁的观影行为(即0点到6点存在较多的观影数据)。
综上,参考表2,我们可以预先存储指定时间段的不同观影数据对应不同的安装位置:
表2
指定时间段的观影数据 | 安装位置 |
0点到6点的观影次数处于[0,1]区间 | 客厅 |
0点到6点的观影次数处于[1,2]区间 | 主卧 |
0点到6点的观影次数大于2 | 次卧 |
从而,可以将上述cluster_0中包含的机顶盒的安装位置标记为:客厅,将上述cluster_1中标记的机顶盒的安装位置标记为:主卧;将上述cluster_2中包含的机顶盒的安装位置标记为:次卧。
示例性的,在得到至少两个聚类簇之后,还可以参考图6,图6示出本示例性实施方式中另一种标记机顶盒安装位置的流程图,包含步骤S601-步骤S604,以下结合图6对步骤S130进行解释:
在步骤S601中,分别从各聚类簇中随机抽取N个机顶盒的观影数据。
本步骤中,示例性的,可以从各个聚类簇中随机抽取1000个机顶盒的观影数据(包括上述月观影数据、周观影数据和天观影数据)。
在步骤S602中,针对各聚类簇,分别获取多个时间区间上述N个机顶盒的观影数据之间的多个第一标准差,并确定多个第一标准差的第一平均值。
本步骤中,针对各个聚类簇,可以分别获取各个时间区间上述1000个机顶盒(例如:机顶盒1、机顶盒2、机顶盒3……机顶盒1000)的观影数据之间的多个第一标准差。示例性的,此处以从cluster_0中选取5个机顶盒的观影数据为例进行解释说明,当月观影数据为7月的观影数据时,参考表3,可以取上述5个机顶盒在7月1日18点到20点该时间区间内的观影数据:
表3
则示例性的,在上述7月1日18点到20点该时间区间内,上述观影数据的平均值为则第一标准差可以是:类似的,可以计算出372个(31天*每天12个时间区间)第一标准差,进而,可以对上述372个第一标准差求平均值,得到cluster_0中包含的1000个机顶盒的第一标准差对应的第一平均值。
需要说明的是,在得到上述第一平均值之后,也可以直接根据上述第一平均值所处的数值区间,确定上述cluster_0、cluster_1、cluster_2中包含的机顶盒的安装位置。
具体的,结合平时生活中的实际情况可知,大部分的家庭基本会在固定的时间段(例如:每天的19点到22点)在客厅进行观影,因而,客厅相比较主卧和次卧而言,具有较为稳定的观影数据。而参照上述步骤S140的相关解释,居住在次卧的老年人可能存在失眠(睡眠时长不规律)、睡眠时间短、不到天亮就醒来等情况,因而,次卧相比较客厅和主卧而言,具有较不稳定的观影数据。而标准差是一组数据平均值分散程度的一种度量,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值,数据较为稳定。因而,可以将数值最小的第一平均值对应的聚类簇中机顶盒的安装位置标记为:客厅,将数值最大的第一平均值对应的聚类簇中机顶盒的安装位置标记为:次卧,将数值居于中间位的第一平均值对应的聚类簇中机顶盒的安装位置标记为:主卧。
从而,当得到cluster_0对应的第一平均值为1.48,cluster_1对应的第一平均值为5.79,cluster_2对应的第一平均值为11.27时,可以确定出1.48<5.79<11.27,进一步的,可以将cluster_0中包含的机顶盒的安装位置标记为:客厅;将cluster_1中包含的机顶盒的安装位置标记为:主卧;将cluster_2中包含的机顶盒的安装位置标记为:次卧。
在步骤S603中,针对各聚类簇,分别获取每个机顶盒对应的观影数据的第二标准差,并确定N个机顶盒对应的N个第二标准差的第二平均值。
本步骤中,针对各个聚类簇,可以获取每个机顶盒对应的观影数据的第二标准差,此处仍以上述cluster_0中的机顶盒1来进行解释说明,当月观影数据为7月的观影数据时,则机顶盒1的观影数据存在372个特征值,可以求取该372个特征值对应的第二标准差作为机顶盒1的观影数据的第二标准差。而我们从上述cluster_0中随机抽取了总共1000个机顶盒,因此,可以得到1000个第二标准差。进而,可以求取上述1000个第二标准差对应的第二平均值,得到cluster_0中包含的1000个机顶盒的观影数据的第二标准差对应的第二平均值。
需要说明的是,在得到上述第二平均值之后,也可以直接根据上述第二平均值所处的数值区间,确定上述cluster_0、cluster_1、cluster_2中包含的机顶盒的安装位置。举例而言,当得到cluster_0对应的第二平均值为0.77,cluster_1对应的第二平均值为4.08,cluster_2对应的第二平均值为6.66时,参照上述步骤S603的相关解释,当确定出0.77<4.08<6.66时,可以将cluster_0中包含的机顶盒的安装位置标记为:客厅;将cluster_1中包含的机顶盒的安装位置标记为:主卧;将cluster_2中包含的机顶盒的安装位置标记为:次卧。
在步骤S604中,根据第一平均值和第二平均值所处的数值区间以及预先存储的数值区间与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置。
本步骤中,参考表4,表4示出针对每个聚类簇所得到的第一平均值、第二平均值:
表4
clusters | 第一平均值 | 第二平均值 |
cluster_0 | 1.48 | 0.77 |
cluster_1 | 5.79 | 4.08 |
cluster_2 | 11.27 | 6.66 |
由表4可知,cluster_0的第一平均值和第二平均值数值均偏小,基本处于0到2.0之间;cluster_1的第一平均值和第二平均值均居于中间值,基本处于4.0到6.0之间;而cluster_2的第一平均值和第二平均值均处于最大值,处于6.5到12之间。从而,可以将上述cluster_0中包含的机顶盒的安装位置标记为:客厅;将cluster_1中包含的机顶盒的安装位置标记为:主卧;将cluster_2中包含的机顶盒的安装位置标记为:次卧。
示例性的,参考表5,对于处于使用状态的机顶盒数量大于数量阈值的家庭,可以对其机顶盒使用情况进行如下标记:
表5
示例性的,还可以根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应知识图谱,示例性的,可以参考表6,知识图谱中可以包含以下信息:
表6
从而,当用户想要为家庭宽带下安装的某部机顶盒订购观影业务包时,仅需向业务办理人员提供其姓名或宽带账号以及机顶盒位置(例如:客厅),进而,业务办理人员可以直接根据上述知识图谱定位到该机顶盒,并将订购的观影业务包绑定在该机顶盒上,从而,能够解决现有技术中当一个宽带账户下连接多个机顶盒时,无法为用户准确订购观影业务包的技术问题,提高业务处理效率。
在标记完各聚类簇中包含的机顶盒的安装位置之后,还可以对一个宽带账户下的多部在用机顶盒的安装位置进行修正处理,以保证标记的准确度。示例性的,可以参考图7,图7示出本示例性实施方式中对位于第一安装位置的M个机顶盒进行修正处理的流程图,包含步骤S701-步骤S703,以下结合图7对具体的实施方式进行解释:
在步骤S701中,统计每个宽带账户下位于第一安装位置的机顶盒数量。
本步骤中,可以统计每个宽带账户下位于第一安装位置的机顶盒数量,其中,第一安装位置可以是客厅或主卧。
若统计出位于第一安装位置的机顶盒数量为一个,即位于客厅的机顶盒数量为一个,并且,位于主卧的机顶盒数量为一个时,则无需对该家庭宽带下安装的机顶盒的标记位置进行修正处理。
在步骤S702中,若位于第一安装位置的机顶盒数量为M个,则从M个机顶盒中选取M-1个机顶盒。
本步骤中,示例性的,若统计出位于第一安装位置的机顶盒数量为M个(M为大于1的整数,例如:2,3,4……),则可以获取位于第一安装位置的M个机顶盒的观影数据的标准差,确定得到的M个标准差中的最小值,进而,将除最小值之外的M-1个标准差所对应的M-1个机顶盒确定为选取的M-1个机顶盒。
举例而言,当统计出位于客厅的机顶盒数量为3个(例如:机顶盒11、机顶盒12、机顶盒13)时,则可以获取上述3个机顶盒各自对应的观影数据的标准差,示例性的,可以计算出上述机顶盒11的月观影数据对应的标准差(例如:x1)、上述机顶盒12的月观影数据对应的标准差(例如:x2)、上述机顶盒13的月观影数据对应的标准差(例如:x3),若确定出x1<x2<x3,则可以将机顶盒12和机顶盒13确定为从上述3个机顶盒中选取的2个机顶盒。
在步骤S703中,将M-1个机顶盒由第一安装位置修正为第二安装位置。
本步骤中,在选取出上述M-1个机顶盒之后,可以将上述M-1个机顶盒由上述第一安装位置修正为第二安装位置,即将上述机顶盒12和机顶盒13的安装位置重新标记为:第二安装位置(次卧)。从而,本公开能够避免一个宽带账户下出现多个位于客厅或者卧室的机顶盒,使得标记结果更加贴合实际,保证标记准确度。
示例性的,还可以参考图8,图8示出本示例性实施方式中对目标机顶盒的标记位置进行修正处理的流程图,包含步骤S801-步骤S803,以下结合图8对具体的实施方式进行解释:
在步骤S801中,统计每个宽带账户下是否存在位于第二安装位置的至少两个机顶盒,并且,不存在位于第一安装位置的机顶盒。
本步骤中,可以统计每个宽带账户下是否存在位于第二安装位置(次卧)的2个以上机顶盒,并且,不存在位于第一安装位置(可以是客厅或主卧)的机顶盒,例如:存在3个位于次卧的机顶盒,而不存在位于客厅的机顶盒。
在步骤S802中,若是,则从上述至少两个机顶盒中选取目标机顶盒。
本步骤中,若存在上述情况,则可以从上述至少两个机顶盒中选取目标机顶盒。示例性的,当位于第二安装位置的机顶盒包括机顶盒21、机顶盒22、机顶盒23时,则可以分别获取机顶盒21的观影数据对应的标准差(例如:y1)、机顶盒22的观影数据对应的标准差(例如:y2)和机顶盒23的观影数据对应的标准差(例如:y3),进而,当确定出y1<y2<y3时,可以将机顶盒21确定为上述目标机顶盒。
在步骤S803中,将目标机顶盒由第二安装位置修正为第一安装位置。
本步骤中,可以将目标机顶盒由第二安装位置修正为第一安装位置,即将上述机顶盒21的安装位置重新标记为:客厅。从而,本申请能够使得标记结果中存在多个位于次卧的机顶盒而不存在位于客厅或主卧的机顶盒的情况,使得标记结果更加贴合实际,保证标记准确度。
需要说明的是,在执行完上述步骤S703之后,若家庭宽带下存在以下情况:位于第二安装位置的至少两个机顶盒,并且,不存在位于第一安装位置的机顶盒,则可以继续执行上述步骤S801-步骤S803所示的修正过程,可根据实际情况自行设定,属于本公开的保护范围。
需要说明的是,本公开中还可以定时执行上述步骤S110-步骤S130,以根据用户的实际使用情况,定期更新相关机顶盒的使用情况及其安装位置,保证标记准确度。
在步骤S140中,根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据知识图谱为机顶盒用户订购观影业务包。
本步骤中,可以根据执行结果定时更新各个家庭宽带下机顶盒的安装位置,进而根据更新后的机顶盒安装位置更新知识图谱,确保其中存储的信息的准确性,从而,本公开能够定时追踪机顶盒的使用情况,及时根据最新的机顶盒使用情况和位置标记情况为用户办理相关业务,提高相关业务的处理效率和处理准确度。
图9示出本示例性实施方式中一种基于机顶盒的数据处理方法的整体流程图,包含数据准备阶段S901、数据处理阶段S902和数据修正阶段S903,以下对各个阶段包含的数据处理过程进行解释说明:
数据准备阶段S901:采集观影数据;数据预处理;
数据处理阶段S902:确定每个宽带账户下未使用机顶盒的情况、每个宽带账户下处于使用状态的机顶盒数量为1的情况、每个宽带账户下处于使用状态的机顶盒数量大于或等于2的情况;
对于处于使用状态的机顶盒数量大于或等于2的情况,对机顶盒的观影数据进行聚类,将聚类结果结合各聚类簇中包含的机顶盒在指定时间段的观影数据,标记各聚类簇中包含的机顶盒的安装位置,得到52种情况的机顶盒使用情况标识;
数据修正阶段S903:对于同一条宽带下出现多个客厅或主卧的情况,以及,同一条宽带下位于次卧的机顶盒数目大于阈值,而标记的位于客厅或主卧的机顶盒数目为零,则对相关家庭宽带下机顶盒的安装位置进行修正。
基于以上技术方案,本公开不仅能够筛选出存在多部在用机顶盒的账户,避免对一个宽带账户下仅存在一部在用机顶盒的数据(当用户需要订购观影业务包时,一般是订购在处于使用状态的机顶盒,因而,若仅有一部处于使用中的机顶盒,则无需进行区分便可以准确订购)进行后续分析处理所导致的浪费系统资源的问题,提高数据处理效率。还能够在用户仅需提供宽带账号以及想要订购观影业务包的机顶盒的位置的情况下,便可以准确的为位于该位置的机顶盒订购观影业务包,解决现有技术中当一个宽带账户下连接多个机顶盒时,无法为用户准确订购观影业务包的技术问题,提高业务处理效率。
本公开还提供了一种基于机顶盒的数据处理装置,图10示出本公开示例性实施例中一种基于机顶盒的数据处理装置的结构示意图;如图10所示,基于机顶盒的数据处理装置1000可以包括数据获取模块1001、数据聚类模块1002、位置标记模块1003和知识图谱构建模块1004。其中:
数据获取模块1001,用于根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户。
在本公开的示例性实施例中,数据获取模块用于确定观影数据中的缺失值,并根据预先设定的填充值对缺失值进行填充处理;以及,确定观影数据中的异常数据,并对包含异常数据的机顶盒的观影数据进行剔除处理;其中,异常数据至少包括以下之一:连续预设时长内的观影数据相同、预设时长内的观影频率大于频率阈值、连续预设时长内的节目点播次数大于点播次数阈值。
在本公开的示例性实施例中,观影数据包括不同时间维度下的观影次数和/或观影时长,处于使用状态的机顶盒,通过以下方式确定:当机顶盒对应的观影次数大于次数阈值,和/或,机顶盒对应的观影时长大于时长阈值时,确定机顶盒处于使用状态。
数据聚类模块1002,用于对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇。
在本公开的示例性实施例中,数据聚类模块用于通过肘部法则确定最佳聚类数;根据最佳聚类数,基于K均值聚类算法对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇。
位置标记模块1003,用于根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置。
在本公开的示例性实施例中,位置标记模块用于分别从各聚类簇中随机抽取N个机顶盒的观影数据;N为大于1的整数;针对各聚类簇,分别获取多个时间区间N个机顶盒的观影数据之间的多个第一标准差,并确定多个第一标准差的第一平均值;以及,针对各聚类簇,分别获取每个机顶盒对应的观影数据的第二标准差,并确定N个机顶盒对应的N个第二标准差的第二平均值;根据第一平均值和/或第二平均值所处的数值区间以及预先存储的数值区间与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置。
在本公开的示例性实施例中,位置标记模块用于统计每个宽带账户下位于第一安装位置的机顶盒数量;若位于第一安装位置的机顶盒数量为M个,则从M个机顶盒中选取M-1个机顶盒;M为大于1的整数;将M-1个机顶盒由第一安装位置修正为第二安装位置。
在本公开的示例性实施例中,位置标记模块用于获取位于第一安装位置的M个机顶盒的观影数据的标准差;确定得到的M个标准差中的最小值;将除最小值之外的M-1个标准差所对应的M-1个机顶盒确定为选取的M-1个机顶盒。
在本公开的示例性实施例中,位置标记模块用于统计每个宽带账户下是否存在位于第二安装位置的至少两个机顶盒,并且,不存在位于第一安装位置的机顶盒;若是,则从上述至少两个机顶盒中选取目标机顶盒;将目标机顶盒由第二安装位置修正为第一安装位置。
在本公开的示例性实施例中,位置标记模块用于获取上述至少两个机顶盒中每个机顶盒的观影数据对应的标准差;将最小标准差对应的机顶盒确定为目标机顶盒。
在本公开的示例性实施例中,通过数据获取模块、数据聚类模块和位置标记模块定时执行上述步骤,并根据执行结果定时更新机顶盒的安装位置。
知识图谱构建模块1004,用于根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据知识图谱为机顶盒用户订购观影业务包。
上述基于机顶盒的数据处理装置中各模块的具体细节已经在对应的基于机顶盒的数据处理方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
此外,在本公开实施例中还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图11来描述根据本公开的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130以及显示单元1140。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1110可以执行如图1中所示的:步骤S110(步骤A),根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;步骤S120(步骤B),对目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;步骤S130(步骤C),根据各聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各聚类簇中包含的机顶盒的安装位置;步骤S140,根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据知识图谱为机顶盒用户订购观影业务包。
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202,还可以进一步包括只读存储单元(ROM)11203。
存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204,这样的程序模块11205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (13)
1.一种基于机顶盒的数据处理方法,其特征在于,包括:
步骤A:根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;
步骤B:对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;
步骤C:根据各所述聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置;
根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定时执行上述步骤A-步骤C,并根据执行结果定时更新所述机顶盒的安装位置。
3.根据权利要求1所述的方法,其特征在于,在获取到每个宽带账户下接入的机顶盒的观影数据之后,所述方法还包括:
确定所述观影数据中的缺失值,并根据预先设定的填充值对所述缺失值进行填充处理;以及,
确定所述观影数据中的异常数据,并对包含所述异常数据的机顶盒的观影数据进行剔除处理;
其中,所述异常数据至少包括以下之一:连续预设时长内的观影数据相同、预设时长内的观影频率大于频率阈值、连续预设时长内的节目点播次数大于点播次数阈值。
4.根据权利要求3所述的方法,其特征在于,所述观影数据包括不同时间维度下的观影次数和/或观影时长,所述处于使用状态的机顶盒,通过以下方式确定:
当所述机顶盒对应的观影次数大于次数阈值,和/或,所述机顶盒对应的观影时长大于时长阈值时,确定所述机顶盒处于使用状态。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇,包括:
通过肘部法则确定最佳聚类数;
根据所述最佳聚类数,基于K均值聚类算法对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到所述至少两个聚类簇。
6.根据权利要求5所述的方法,其特征在于,在得到至少两个聚类簇之后,所述方法还包括:
分别从各所述聚类簇中随机抽取N个机顶盒的观影数据;N为大于1的整数;
针对各聚类簇,分别获取多个时间区间所述N个机顶盒的观影数据之间的多个第一标准差,并确定所述多个第一标准差的第一平均值;以及,
针对各所述聚类簇,分别获取每个机顶盒对应的观影数据的第二标准差,并确定所述N个机顶盒对应的N个第二标准差的第二平均值;
根据所述第一平均值和/或所述第二平均值所处的数值区间以及预先存储的数值区间与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置。
7.根据权利要求1至6任意一项所述的方法,其特征在于,在标记各所述聚类簇中包含的机顶盒的安装位置之后,所述方法还包括:
统计每个宽带账户下位于第一安装位置的机顶盒数量;
若所述位于第一安装位置的机顶盒数量为M个,则从M个所述机顶盒中选取M-1个机顶盒;M为大于1的整数;
将所述M-1个机顶盒由所述第一安装位置修正为第二安装位置。
8.根据权利要求7所述的方法,其特征在于,所述从M个所述机顶盒中选取M-1个机顶盒,包括:
获取位于所述第一安装位置的M个机顶盒的观影数据的标准差;
确定得到的M个标准差中的最小值;
将除所述最小值之外的M-1个标准差所对应的M-1个机顶盒确定为选取的M-1个机顶盒。
9.根据权利要求1至6任意一项所述的方法,其特征在于,在标记各所述聚类簇中包含的机顶盒的安装位置之后,所述方法还包括:
统计每个宽带账户下是否存在位于第二安装位置的至少两个机顶盒,并且,不存在位于第一安装位置的机顶盒;
若是,则从所述至少两个机顶盒中选取目标机顶盒;
将所述目标机顶盒由所述第二安装位置修正为所述第一安装位置。
10.根据权利要求9所述的方法,其特征在于,所述从所述至少两个机顶盒中选取目标机顶盒,包括:
获取所述至少两个机顶盒中每个机顶盒的观影数据对应的标准差;
将最小标准差对应的机顶盒确定为所述目标机顶盒。
11.一种基于机顶盒的数据处理装置,其特征在于,包括:
数据获取模块,用于根据每个宽带账户下接入的机顶盒的观影数据,确定处于使用状态的机顶盒数量大于数量阈值的目标宽带账户;
数据聚类模块,用于对所述目标宽带账户下处于使用状态的机顶盒的观影数据进行聚类,得到至少两个聚类簇;
位置标记模块,用于根据各所述聚类簇中包含的机顶盒在指定时间段的观影数据以及预先存储的观影数据与安装位置的对应关系,标记各所述聚类簇中包含的机顶盒的安装位置;
知识图谱构建模块,用于根据每个宽带账户下接入的机顶盒的安装位置,构建机顶盒用户对应的知识图谱,并根据所述知识图谱为所述机顶盒用户订购观影业务包。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~10中任意一项所述的基于机顶盒的数据处理方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~10中任意一项所述的基于机顶盒的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302790.9A CN115134665B (zh) | 2021-03-22 | 2021-03-22 | 基于机顶盒的数据处理方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302790.9A CN115134665B (zh) | 2021-03-22 | 2021-03-22 | 基于机顶盒的数据处理方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115134665A true CN115134665A (zh) | 2022-09-30 |
CN115134665B CN115134665B (zh) | 2024-03-01 |
Family
ID=83374163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110302790.9A Active CN115134665B (zh) | 2021-03-22 | 2021-03-22 | 基于机顶盒的数据处理方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115134665B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383945A (zh) * | 1998-07-17 | 2009-03-11 | 联合视频制品公司 | 将用户配置信息应用到电视设备装置的系统和方法 |
CN101800880A (zh) * | 2009-02-10 | 2010-08-11 | 中兴通讯股份有限公司 | 一种iptv一户多机的实现方法及系统 |
US20140013345A1 (en) * | 2011-07-06 | 2014-01-09 | Rentrak Corporation | Aggregation-based methods for detection and correction of television viewership aberrations |
KR20140129547A (ko) * | 2013-04-30 | 2014-11-07 | 숭실대학교산학협력단 | 사용자 컨텍스트를 이용한 셋탑박스 기반 서비스 선택 방법 및 그 시스템 |
CN110335061A (zh) * | 2019-05-23 | 2019-10-15 | 中国平安人寿保险股份有限公司 | 交易模式画像建立方法、装置、介质及电子设备 |
CN111078818A (zh) * | 2019-12-27 | 2020-04-28 | 同盾(广州)科技有限公司 | 地址分析方法、装置、电子设备及存储介质 |
CN111178421A (zh) * | 2019-12-25 | 2020-05-19 | 贝壳技术有限公司 | 检测用户状态的方法、装置、介质以及电子设备 |
WO2021007757A1 (zh) * | 2019-07-15 | 2021-01-21 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
-
2021
- 2021-03-22 CN CN202110302790.9A patent/CN115134665B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383945A (zh) * | 1998-07-17 | 2009-03-11 | 联合视频制品公司 | 将用户配置信息应用到电视设备装置的系统和方法 |
CN101800880A (zh) * | 2009-02-10 | 2010-08-11 | 中兴通讯股份有限公司 | 一种iptv一户多机的实现方法及系统 |
US20140013345A1 (en) * | 2011-07-06 | 2014-01-09 | Rentrak Corporation | Aggregation-based methods for detection and correction of television viewership aberrations |
KR20140129547A (ko) * | 2013-04-30 | 2014-11-07 | 숭실대학교산학협력단 | 사용자 컨텍스트를 이용한 셋탑박스 기반 서비스 선택 방법 및 그 시스템 |
CN110335061A (zh) * | 2019-05-23 | 2019-10-15 | 中国平安人寿保险股份有限公司 | 交易模式画像建立方法、装置、介质及电子设备 |
WO2021007757A1 (zh) * | 2019-07-15 | 2021-01-21 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
CN111178421A (zh) * | 2019-12-25 | 2020-05-19 | 贝壳技术有限公司 | 检测用户状态的方法、装置、介质以及电子设备 |
CN111078818A (zh) * | 2019-12-27 | 2020-04-28 | 同盾(广州)科技有限公司 | 地址分析方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115134665B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10728614B2 (en) | Methods and apparatus to replicate panelists using a local minimum solution of an integer least squares problem | |
RU2257014C2 (ru) | Система и способ для близкого к реальному масштабу времени сбора данных и сообщения о действиях большого числа абонентов в отношении пользования телевидением | |
CN103891298B (zh) | 用于收集和管理电视收视数据的方法和系统 | |
WO2020190649A1 (en) | Methods and apparatus to estimate population reach from different marginal rating unions | |
CN106462858A (zh) | 通过数据库所有者针对错误认定和/或未覆盖补偿印象数据的方法和装置 | |
US20080183705A1 (en) | Method and system for evaluating media-playing sets | |
US20140188563A1 (en) | Customer demographic data change detection based on monitored utility consumption | |
CN103714067A (zh) | 一种信息推送方法和装置 | |
CN104933128A (zh) | 一种资讯推送方法及系统 | |
CN106377113A (zh) | 物联网床垫的睡眠监测方法及系统 | |
CN109389178A (zh) | 一种维修厂评级方法、系统及电子设备和存储介质 | |
CN108021998B (zh) | 网络问卷的答题时长预测方法及装置 | |
CN115134665A (zh) | 基于机顶盒的数据处理方法及装置、存储介质、电子设备 | |
CN112235814B (zh) | 一种云sim卡无线网络优化方法、终端装置及服务端装置 | |
WO2024109183A1 (zh) | 目标台区识别方法、装置、计算机设备及存储介质 | |
WO2021041909A1 (en) | Onboarding of return path data providers for audience measurement | |
CN115600008A (zh) | 基于收视行为的大数据营销方法、装置及可读存储介质 | |
CN112291625B (zh) | 信息质量处理方法、装置、电子设备及存储介质 | |
CN110351577A (zh) | 直播信息处理方法及装置、存储介质、电子设备 | |
CN114217838A (zh) | 一种智能穿戴的表盘更新方法及系统 | |
CN113888014A (zh) | 一种基于用户体验的反馈系统 | |
CN114861678A (zh) | 时间信息的确定方法和装置、存储介质及电子装置 | |
CN111897420A (zh) | 一种基于vr技术的可视化展览品系统及方法 | |
CN110852830A (zh) | 一种目标用户信息的获取方法与一种服务订阅系统 | |
JP2020048078A (ja) | 視聴分析装置及び視聴分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |