CN116781984A

CN116781984A - 一种机顶盒数据优化存储方法

Info

Publication number: CN116781984A
Application number: CN202311048726.8A
Authority: CN
Inventors: 聂小波; 唐双元
Original assignee: Shenzhen Huaxing Digital Co ltd
Current assignee: Shenzhen Huaxing Digital Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-09-19
Anticipated expiration: 2043-08-21
Also published as: CN116781984B

Abstract

本发明涉及机顶盒数据处理技术领域，具体涉及一种机顶盒数据优化存储方法。该方法根据用户在每天内日志数据量的波动情况获取用户的观影置信度，依据用户的每种类型天的日志数据的时间间隔之间的差异，获取每种类型的天的间隔离散值，并结合每天的日志数据量的波动情况获取用户的习惯特征值；结合用户在每个时间段的均观影时长、观影置信度与习惯特征值，获取每个时间段的优化均观影时长，并依据其与各用户在时间段的均观影时长的相似程度获取用户的观影时长相似值，选取最优K值进而筛选出离散日志数据。本发明基于用户的观影习惯特征确定的观影时长相似值选取最优K值，提高离散日志数据的筛选的准确率。

Description

一种机顶盒数据优化存储方法

技术领域

本发明涉机顶盒数据处理技术领域，具体涉及一种机顶盒数据优化存储方法。

背景技术

机顶盒是一种用于接收和解码电视信号的设备，可以提供丰富的多媒体内容和互联网功能。通常会根据用户的行为数据进行分析，进行个性化且智能的观影喜好分析以及个人定制，因此，会对用户机顶盒中的日志数据进行采集以及存储。在日志数据中可能存在错误、无效或冗余的日志数据，这类日志数据不仅占据存储空间，而且影响对用户的观影喜好分析，因此，需要对这类日志数据进行清洗和过滤，从而实现优化存储的日志数据内容。

现有技术通常利用K均值聚类算法对用户的日志数据进行聚类分析，并根据轮廓系数筛选出最优的K值。由于部分用户在日常生活中对于看电视的需求较低，该类用户的日志数据在参与最优的K值判定时的参考价值相对较差，使得K值设置不合理，导致聚类簇内部聚集性较差，进而降低日志数据中离散日志数据的筛选的准确率。

发明内容

为了解决机顶盒的离散日志数据筛选不准确的技术问题，本发明的目的在于提供一种机顶盒数据优化存储方法，所采用的技术方案具体如下：

本发明提出了一种机顶盒数据优化存储方法，该方法包括：

获取至少两个用户的机顶盒在历史时间段内每天存储的日志数据；

根据每个用户在历史时间段内存在看电视行为的天数，以及存在看电视行为天内日志数据量的波动情况，获取每个用户的观影置信度；

将历史时间段内的天分为预设第一数量种类型；对于每个用户的每种类型的天，依据每天内日志数据的时间间隔之间的差异，获取每种类型的天的间隔离散值；根据每个用户的每种类型下每天内日志数据量的波动情况与所述间隔离散值，获取每个用户的习惯特征值；

将每天划分为至少两个时间段；获取每个用户在每个时间段的均观影时长；结合每个用户在每个时间段的均观影时长、所述观影置信度与所述习惯特征值，获取每个时间段的优化均观影时长；依据每个用户在各时间段内均观影时长与所述优化均观影时长的相似程度，获取每个用户的观影时长相似值；

基于每个用户的观影时长相似值选取对日志数据进行聚类的最优K值，依据最优K值对日志数据聚类，筛选离散日志数据，将剩余日志数据进行存储。

进一步地，所述观影置信度的获取方法，包括：

统计每个用户在历史时间段内存在看电视行为的天数作为对应用户的观影天数；将每个用户在历史时间段内所述观影天数与总天数的比值，作为每个用户的观影天数参考值；将每个用户在存在看电视行为的天内日志数据量的标准差作为每个用户的观影次数波动值；

根据每个用户的观影天数参考值与观影次数波动值，获取每个用户的观影置信度；所述观影天数参考值与所述观影置信度为正相关的关系；所述观影次数波动值与所述观影置信度为负相关的关系。

进一步地，所述间隔离散值的获取方法，包括：

对于每个用户的每种类型的天，将每天内日志数据之间的时间间隔进行累加，得到每天的综合时间跨度值；将每种类型下每天分别与其他天的综合时间跨度值之间的差值绝对值进行累加，得到每种类型下每天的间隔初始离散值；

将每种类型下每天的间隔初始离散值进行累加，得到每个用户的每种类型的天的间隔离散值。

进一步地，所述习惯特征值的获取方法，包括：

将每个用户的每种类型下每天的日志数据量的标准差，作为每个用户的每种类型的天的数量特征值；将所述数量特征值与所述间隔离散值的乘积，作为每个用户的每种类型的天的初始习惯特征值；

将每个用户的每种类型的天的初始习惯特征值进行累加并归一化，得到每个用户的习惯特征值。

进一步地，所述均观影时长的获取方法，包括：

对于每个用户，统计用户在每天内每个时间段的观影时间，将用户在所有天内每个时间段的观影时间的均值，作为用户在每个时间段的均观影时长。

进一步地，所述优化均观影时长的获取方法，包括：

将每个用户的所述观影置信度与所述习惯特征值的比值作为每个用户的观影调整值；将每个用户在每个时间段的均观影时长与所述观影调整值的乘积，作为每个用户的每个时间段的初始优化均观影时长；

将所有用户的每个时间段的所述初始优化均观影时长的均值，作为每个时间段的优化均观影时长。

进一步地，所述观影时长相似值的获取方法，包括：

以时间为横轴，均观影时长为纵轴建立二维坐标系；

对于每个用户，将用户在每个时间段的均观影时长在二维坐标系中进行标注得到第一坐标点，对所述第一坐标点进行曲线拟合，得到用户的观看时长分布曲线；将每个时间段的优化均观影时长在二维坐标系中进行标注得到第二坐标点，对所述第二坐标点进行曲线拟合，得到整体观看时长分布曲线；

利用DTW算法，分别获取每个用户的观看时长分布曲线与整体观看时长分布曲线之间的DTW值，作为每个用户的观影时长差异值；将所述观影时长差异值进行负相关并归一化，作为每个用户的观影时长相似值。

进一步地，所述最优K值的获取方法，包括：

对于预设第二数量个K值，对于每个K值，利用K均值聚类算法对历史时间段内所有用户的日志数据进行聚类，得到K值下每个日志数据的轮廓系数；

将K值下每个日志数据的轮廓系数与其所属用户对应的观影时长相似值的乘积，作为K值下每个日志数据的优化轮廓系数；将K值下所有日志数据的优化轮廓系数的均值作为K值对应的优化整体轮廓系数；将最大的所述优化整体轮廓系数对应的K值作为最优K值。

进一步地，所述离散日志数据的获取方法，包括：

基于最优K值利用K均值聚类算法对历史时间段内日志数据进行聚类；将以每个日志数据为中心的预设半径内日志数据量进行归一化，作为每个日志数据的局部密度；将所述局部密度小于预设密度阈值的日志数据作为离散日志数据。

进一步地，所述曲线拟合的方法，为：

所述曲线拟合的方法为最小二乘法

本发明具有如下有益效果：

本发明实施例中，常规情况下根据用户所有的机顶盒的日志数据的聚类结果进行影视推荐，但是存在部分用户日常看电视需求较差，这些用户的机顶盒的日志数据不具有较高的参考价值，若这些用户的机顶盒的日志数据参与聚类时容易导致聚类结果较差；本发明从获取表征用户的观影行为的稳定情况的观影置信度，以及呈现用户观影习惯特征的习惯特征值两个方面呈现用户的机顶盒的日志数据的参考价值；并基于上述两个参数对用户每个时间段的观看电视的均观影时长进行调整，使得到的优化均观影时长能够表征整体用户的观影时长，以及观影习惯；均观影时长表征单个用户观看电视的时间分布情况，优化均观影时长呈现整体用户观看电视的时间分布情况，通过分析单个用户与整体用户的时段分布的相似程度情况，获取用户的观影时长相似值，反映用户是否符合整体用户的习惯特征，进而呈现机顶盒的日志数据的参考价值，利用观影时长相似值对用户的日志数据聚类后的信息进行调整，使选取的最优K值更加合理；从根据最优K值对日志数据进行聚类，使基于聚类结果筛选出的离散机顶盒的日志数据更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种机顶盒数据优化存储方法的方法流程图。

具体实施方式

一种机顶盒数据优化存储方法实施例：

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种机顶盒数据优化存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明所针对的具体场景：常规的聚类仅仅是基于每个用户机顶盒中存储的每一次日志数据中，观影时长作为聚类特征。而通过轮廓系数确定簇类数量时，其中采集的部分用户的日志数据并具有较高的参考价值，而这类数据在影响簇类数量判定不准确的同时，还会进一步由于聚类效果不好，导致其中离散数据的判定不准确。

下面结合附图具体的说明本发明所提供的一种机顶盒数据优化存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种机顶盒数据优化存储方法的方法流程图，该方法包括：

步骤S1：获取至少两个用户的机顶盒在历史时间段内每天存储的日志数据。

获取多个用户的机顶盒在历史时间段内存储的每天的日志数据，每天中可能包含多个日志数据。获取每个日志数据的时间戳信息，并得到其时序上的日志数据分布。同时，每个日志数据对应着用户的当前观看影视内容信息，观看时长，以及收藏，下载等信息。历史时间段的时序范围可以自行调节，根据其优化存储空间的频率进行设定，本发明实施例的历史时间段选取近半年。

步骤S2：根据每个用户在历史时间段内存在看电视行为的天数，以及存在看电视行为天内日志数据量的波动情况，获取每个用户的观影置信度。

存在看电视行为的天数从整体呈现观看电视行为的可信度，存在看电视行为天内日志数据量的波动表征观影行为的稳定情况，两者均能够反映用户观影内容的参考程度，提高观影置信度的准确性。

优选地，观影置信度的具体获取方法为：统计每个用户在历史时间段内存在看电视行为的天数作为对应用户的观影天数；将每个用户在历史时间段内观影天数与总天数的比值，作为每个用户的观影天数参考值；将每个用户在存在看电视行为的天内日志数据量的标准差作为每个用户的观影次数波动值；根据每个用户的观影天数参考值与观影次数波动值，获取每个用户的观影置信度；观影天数参考值与观影置信度为正相关的关系；观影次数波动值与观影置信度为负相关的关系。

作为一个示例，对于每个用户单独进行分析，用户在历史时间段内存在看电视行为的天数，即用户对家用电视的使用频率，一定程度上表征出用户在当前场景下的观看电视行为的可信程度。将用户在历史时间段内存在看电视行为的天数与总天数的比值，作为用户的观影天数参考值。历史时间段的总天数不变，当存在看电视行为的天数越多时，则看电视行为天参考值越大，说明用户的观影内容的参考价值更高，更适合后续的推荐。

直接利用存在看电视行为的天数判定观影内容的参考价值是不准确的，需要进一步结合存在看电视行为天内日志数据量，当用户在存在看电视行为天内日志数据量相近且稳定时，用户的日志数据的参考性更高。将用户在存在看电视行为天内日志数据量的标准差作为用户的观影次数波动值，当观影次数波动值越小，说明用户在存在看电视行为天内日志数据量较为稳定，参考性较大。

因此，当用户的观影天数参考值越大，同时观影次数波动值越小，则用户的观影日志数据的参考性越大。本发明实施例中利用归一化函数将用户的观影次数波动值进行归一化处理得到归一化的观影次数波动值，并使用常数1减去归一化的观影次数波动值，实现观影次数波动值的负相关映射；将常数1减去归一化的观影次数波动值的结果与观影天数参考值的乘积作为用户的观影置信度。实现观影天数参考值与观影置信度为正相关的关系；观影次数波动值与观影置信度为负相关的关系。在本发明另一个实施例中可以将观影天数参考值与观影次数波动值的比值作为观影置信度，使观影天数参考值与观影置信度为正相关的关系，观影次数波动值与观影置信度为负相关的关系。在本发明其他实施例中可选择其他基础数学运算构成负相关的关系，在此不做限定。用户的观影置信度的计算公式如下：

，

式中，G为每个用户的观影置信度；N为观影天数，即历史时间段内存在看电视行为的天数；为历史时间段的总天数；/>为每个用户在第n个存在看电视行为天内日志数据量；/>为每个用户在存在看电视行为天内日志数据量的均值；/>为每个用户的观影天数参考值；/>为每个用户在存在看电视行为天内日志数据量的标准差，即每个用户的观影次数波动值；Norm为归一化函数。

需要说明的是，当历史时间段内存在看电视行为的天数N越大时，说明用户经常看电视，用户观影内容的参考价值较高，则观影置信度G越大；当观影次数波动值越小，说明用户在存在看电视行为天内日志数据量波动较为稳定，参考价值更高，则观影置信度G越大。

步骤S3：将历史时间段内的天分为预设第一数量种类型；对于每个用户的每种类型的天，依据每天内日志数据的时间间隔之间的差异，获取每种类型的天的间隔离散值；根据每个用户的每种类型下每天内日志数据量的波动情况与间隔离散值，获取每个用户的习惯特征值。

观影置信度仅仅是根据用户在时序上所表现的连续观影行为的稳态计算得到的初步特征，观影置信度虽然存在普适性，但是不具有单个用户与整体的差异的特征，而该部分特征则是更加能够表示其参考价值的体现。对单个用户与整体的差异特征进行下面分析：

首先，对单个用户进行行为习惯的判定。由于场景的特殊性，家用的电视机顶盒的日志数据，对于大部分用户来说，其工作决定了用户在时间上是否具有看电视的条件，而工作大部分都是相对稳定的，因此单个用户来说，其近期内的观影时段同样相近。但是不同用户的不同工作使得休息日都各不相同，但大部分都是以一周为休息日。因此，本发明实施例中预设第一数量A取经验值7，实施者可根据实际情况自行设定，即将历史时间段内的天分为七种类型。

考虑到大部分用户的休息日与工作日的观影习惯不同，例如用户为周六日双休，周日至周四考虑到第二天要上班，则每周这些天晚上看电视的时间可能较少；而周五周六不需要考虑第二天上班，则可能观影时间较长。这种情况会导致当以一周的观影时长进行分析时，会将上述特征认为是看电视习惯不稳定，因此，通过将历史数据按照一周为时间跨度，能够使得整体行为习惯的判定更加准确，鲁棒性更高。

对于每个用户的历史时间段的日志数据，以一周为时间跨度，从第一天的日志数据集合，将其作为第一种类型的第一个数据集合，并以七天为间隔，即将第八天的日志数据集合/>作为第一种类型的第二个数据集合，并以此类推，直至结束，完成第一种类型天的判断。同时以上述方式进行类推，分别获取其他六种类型的天的日志数据。假设其中/>恰好为周一，则七种类型天按照顺序，分别表示周一全部的日志数据，周二全部的日志数据，以此类推，直至周日。

每种类型天内日志数据的时间间隔之间的差异情况，呈现每种类型天的观影时段的规律性，进而反映看电视习惯的强弱程度。

优选地，间隔离散值的具体获取方法为：对于每个用户的每种类型的天，将每天内日志数据之间的时间间隔进行累加，得到每天的综合时间跨度值；将每种类型下每天分别与其他天的综合时间跨度值之间的差值绝对值进行累加，得到每种类型下每天的间隔初始离散值；将每种类型下每天的间隔初始离散值进行累加，得到每个用户的每种类型的天的间隔离散值。

作为一个示例，对于每种类型下每天的日志数据，每天可能包含多个日志数据，连续的日志数据之间存在一定的时间跨度。由于本发明实施例中日志数据对应着用户的当前影视的观看时长，则每条日志数据包含当前影视的开始观影时间和结束观影时间。每天的综合时间跨度值的获取方法为：

对于连续的两条日志数据，将上一条日志数据的结束观影时间与下一条日志数据的开始观影时间之间的时间间隔，作为连续的两条日志数据之间的时间间隔，将每天内日志数据之间时间间隔进行累加作为每天的综合时间跨度值。假设，某天的日志数据包含3条日志数据，日志数据依次为“2022.06.22，12:00-13:40，通天塔”，“2022.06.22，19:40-20:00，通天塔”，“2022.06.22，20:30-11:30，通天塔”，则该天的日志数据的时间间隔依次为6小时，30分钟，则该天的综合时间跨度值为6小时30分钟。

以周一类型的日志数据进行分析，若历史时间段中有三天周一，周一类型天的日志数据集合依次为、/>与/>，分别计算得到每个周一的综合时间跨度值，依次为/>、/>与。分别计算第一个周一的综合时间跨度值/>与其他周一的综合时间跨度值的差值绝对值，依次得到/>、/>，并进行累加，将累加的结果/>+作为第一个周一的间隔初始离散值。根据上述方法，分别获取其他两个周一的的间隔初始离散值。将三天周一的间隔初始离散值进行累加得到周一类型的天的间隔离散值。根据上述方法，分别获取每种类型的天的间隔离散值。

每个用户的每种类型的天的间隔离散值的计算公式如下：

，

式中，为每个用户的第j种类型的天的间隔离散值；M为每个用户的第j种类型的天的数量；A为预设第一数量，取经验值7；/>为第j种类型下第m+1天的综合时间跨度值；/>为第j种类型下第g+1天的综合时间跨度值；/>为第j种类型下第m+1天的间隔初始离散值；/>为绝对值函数。

需要说明的是，当综合时间跨度值越大时，说明用户在该天观影时间较为分散；当/>越大时，说明第j种类型下第m+1天与第g+1天之间观影时间的分布差异较大，则间隔初始离散值/>越大，说明第j种类型下每天的观影时间的分布差异较大，进一步反映第j种类型天的观影时段的规律性越弱，则间隔离散值/>越大。

间隔离散值呈现看电视行为分布的规律程度，每种类型天的每天的日志数据量的波动情况反映每种类型天的习惯特征的强弱程度，将两者结合分析使每种类型天的习惯特征表征越准确。

优选地，习惯特征值的具体获取方法为：将每个用户的每种类型下每天的日志数据量的标准差，作为每个用户的每种类型的天的数量特征值；将数量特征值与间隔离散值的乘积，作为每个用户的每种类型的天的初始习惯特征值；将每个用户的每种类型的天的初始习惯特征值进行累加并归一化，得到每个用户的习惯特征值。

作为一个示例，每天的日志数据量呈现观影的习惯特征，对于每个用户的每种类型天，将每种类型下每天的日志数据量的标准差作为每种类型的天的数量特征值。当数量特征值越小时，说明每种类型下每天内日志数据量之间的差异较小，则每种类型天的习惯特征的规律性较强，越具有参考价值。

间隔离散值呈现每种类型天下每天的观影时间的分布差异情况，可以从观影时间分布情况呈现每种类型天的习惯的规律特征。将每种类型的天的间隔离散值与数量特征值结合进行分析，使每种类型天的习惯特征表征越准确。

将每种类型天的数量特征值与间隔离散值的乘积，作为每种类型天的初始习惯特征值。初始习惯特征值越小，说明每种类型天的习惯的规律性越强。将每种类型天的初始习惯特征值进行累加，并对累加的结果利用归一化函数进行归一化处理，得到用户的习惯特征值。习惯特征值的计算公式如下：

，

式中，w为每个用户的习惯特征值；为每个用户的第j种类型的天的间隔离散值；M为每个用户的第j种类型的天的数量；A为预设第一数量，取经验值7；/>为每个用户的第j种类型下第m+1天内日志数据量；/>为每个用户的第j种类型的天内日志数据量的均值；为每个用户的每种类型的天的数量特征值；/>为每个用户的每种类型的天的初始习惯特征值；Norm为归一化函数。

需要说明的是，当越小时，说明每种类型的天内观影时间分布的规律性越强，则用户的习惯特征值/>越小；当用户的每种类型天的数量特征值越小时，说明每种类型下每天内日志数据量之间的差异较小，则每种类型天的习惯特征的规律性较强，则用户的习惯特征值/>越小。

根据上述获取用户的习惯特征值的方法，获取每个用户的习惯特征值。

步骤S4：将每天划分为至少两个时间段；获取每个用户在每个时间段的均观影时长；结合每个用户在每个时间段的均观影时长、观影置信度与习惯特征值，获取每个时间段的优化均观影时长；依据每个用户在各时间段内均观影时长与优化均观影时长的相似程度，获取每个用户的观影时长相似值。

为了能够得到普适性较强，用于表征大部分用户的看电视习惯值，需要对每个用户的日常观影进行统计组合。

对每个用户的每天内日志数据包含的日志数据进行统计，本发明实施例将每天24小时分别划分为24个时间段，即。统计每个时间段内用户是否在该时间段存在观影行为，本发明实施例中根据日志数据的时间戳进行判定，例如，某一日志数据开始时间为12：50，其持续时长为90分钟，则由该日志数据得到，对应用户在/>三个时间段内均存在观影行为。

均观影时长的具体获取方法为：对于每个用户，统计用户在每天内每个时间段的观影时间，将用户在所有天内每个时间段的观影时间的均值，作为用户在每个时间段的均观影时长。

若历史时间段仅有3天，以这一时间段进行分析，3天内用户在这一时间段附近的观影记录为：第一天的日志数据为/>，则观影时间为20分钟；第二天的日志数据为/>，则观影时间为0；第三天的日志数据为，/>，则观影时间为40分钟。计算这些观影时间的均值，得到用户在/>时间段的均观影时长为20分钟。根据上述计算方法，获取每个用户在每个时间段的均观影时长。

用户在某个时间段的均观影时长表征整体的观看电视的时长，若直接将所有用户在每个时间段的均观影时长的均值，作为每个时间段的优化均观影时长，由于部分用户呈现出来的习惯信息较少，使得这部分用户在每个时间段对应的均观影时长的可信度较差，若直接参与计算，会导致每个时间段的均观影时长存在差异，进而导致曲线拟合出的整体观时长分布曲线的效果不佳。因此，需要进一步获取每个时间段的优化均观影时长。

各时间段的均观影时长反映整体的观看电视的时间长度，通过表征用户看电视的习惯特征的观影置信度与习惯特征值对每个用户在个时间段的均观影时长进行调整，使得优化均观影时长的可信度更高。

优选地，优化均观影时长的具体获取方法为：将每个用户的观影置信度与习惯特征值的比值作为每个用户的观影调整值；将每个用户在每个时间段的均观影时长与观影调整值的乘积，作为每个用户的每个时间段的初始优化均观影时长；将所有用户的每个时间段的初始优化均观影时长的均值，作为每个时间段的优化均观影时长。

观影置信度越大，说明用户的观影天数呈现的参考性越大；习惯特征值越小，说明用户呈现的观影习惯的规律性越强。将用户的观影置信度G与习惯特征值w的比值作为用户的观影调整值。将用户的观影调整值与对应用户在每个时间段的均观影时长的乘积，作为用户在每个时间段的初始优化均观影时长，以实现观影调整值对用户在每个时间段的均观影时长的调整。将所有用户在每个时间段的初始优化均观影时长的均值作为整体用户在每个时间段的优化均观影时长。每个时间段的优化均观影时长的计算公式如下：

，

式中，为每天中第i个时间段的优化均观影时长；R为采集机顶盒的日志数据的用户的数量；/>为第r个用户的观影置信度；/>为第r个用户的习惯特征值；/>为第r个用户在第i个时间段的均观影时长；/>为第r个用户的观影调整值；/>为第r个用户在第i个时间段的初始优化均观影时长。

需要说明的是，当观影置信度越大时，说明用户的观影习惯可信度越大，当习惯特征值/>小时，说明用户的观影习惯的规律性越强，则用户的观影调整值/>越大，即用户的观影习惯的可能度越大；以观影调整值作为每个时间段的均观影时长/>的调整系数，当用户在每个时间段的均观影时长/>越大时，说明说明每个时间段的观影时长越大，则优化均观影时长/>越大。

根据上述方法，获取每个时间段的优化均观影时长，24个时间段的每个时间段均对应一个优化均观影时长。

观影时长分布曲线表征单个用户观看电视的时间分布情况，整体观影时长分布曲线表征整体用户观看电视的时间分布情况，通过分析单个用户与整体用户的时段分布的相似程度情况，获取用户的观影时长相似值，反映用户是否符合整体用户的习惯特征。

优选地，观影时长相似值的获取方法为：以时间为横轴，均观影时长为纵轴建立二维坐标系；对于每个用户，将用户在每个时间段的均观影时长在二维坐标系中进行标注得到第一坐标点，对第一坐标点进行曲线拟合，得到用户的观看时长分布曲线；将每个时间段的优化均观影时长在二维坐标系中进行标注得到第二坐标点，对第二坐标点进行曲线拟合，得到整体观看时长分布曲线；利用DTW算法，分别获取每个用户的观看时长分布曲线与整体观看时长分布曲线之间的DTW值，作为每个用户的观影时长差异值；将观影时长差异值进行负相关并归一化，作为每个用户的观影时长相似值。

（1）获取用户的观看时长分布曲线。

作为一个示例，以时间为横轴，均观影时长为纵轴建立二维坐标系。对于每个用户，将用户在每个时间段对应的均观影时长在二维坐标系中进行标注得到第一坐标点。由于本发明实施例中一天被分为24个时间段，则每个用户在二维坐标系中对应有24个第一坐标点。利用最小二乘法对用户的第一坐标点进行曲线拟合，得到用户的观看时长分布曲线。其中，最小二乘法曲线拟合为本领域技术人员公知技术，在此不再赘述。

（2）获取整体观看时长分布曲线。

将每个时间段对应的优化均观影时长在二维坐标系中进行标注得到第二坐标点。由于本发明实施例中一天被分为24个时间段，则在二维坐标系中对应有24个第二坐标点。利用最小二乘法对用户的第二坐标点进行曲线拟合，得到整体观看时长分布曲线。

（3）获取每个用户的观影时长相似值。

观影时长分布曲线表征单个用户观看电视的时间分布情况，整体观影时长分布曲线表征整体用户观看电视的时间分布情况，均表征用户的日常作息习惯、工作与出行等行为特征所带来的能够观看电视以及观看电视的一个意愿程度等多方面维度信息，最终体现出来的用户通常观看电视的时段分布。因此，通过分析单个用户与整体用户的时段分布差异情况，差异越小，说明其相似程度越高，则表明单个用户越符合整体用户的习惯特征，具有更高的普适性，进一步说明用户对应的日志数据在参与聚类后，具有参考价值更高。

对于每个用户的观看时长分布曲线，利用动态时间规整（Dynamic-Time-Warping，DTW）算法获取用户的观看时长分布曲线与整体观看时长分布曲线之间的DTW值，当DTW值越小时，说明单个用户与整体用户的观影时长的相似程度越大，将其作为用户的观影时长差异值。

将利用归一化函数对观影时长差异值的倒数进行归一化处理，以实现观影时长差异值的负相关并归一化处理，得到用户的观影时长相似值。在本发明另一个实施例可以先利用归一化函数对观影时长差异值进行归一化处理，得到归一化的观影时长差异值，然后使用常数1与归一化的观影时长差异值的差值作为观影时长相似值，实现对观影时长差异值的负相关并归一化处理。在本发明其他实施例中可选择其他基础数学运算构成负相关并归一化的关系，在此不做限定。

其中，动态时间规整算法为本领域技术人员公知技术，在此不再进行赘述。

在本发明其他实施例中，对于每个用户，计算用户在每个时间段的第一坐标点与第二坐标点之间的欧式距离。由于每个时间段内第一坐标点与第二坐标点之间的欧式距离越小，说明单个用户与整体用户的时段分布越相似，则将每个时间段内第一坐标点与第二坐标点之间的欧式距离进行累加结果的倒数，作为用户的观影时长相似值。

根据上述计算方法，获取每个用户的观影时长相似值。

步骤S5：基于每个用户的观影时长相似值选取对日志数据进行聚类的最优K值，依据最优K值对日志数据聚类，筛选离散日志数据，将剩余日志数据进行存储。

对于预设第二数量个K值，对于每个K值，利用K均值聚类算法对历史时间段内所有用户的日志数据进行聚类，得到K值下每个日志数据的轮廓系数；将K值下每个日志数据的轮廓系数与其所属用户对应的观影时长相似值的乘积，作为K值下每个日志数据的优化轮廓系数；将K值下所有日志数据的优化轮廓系数的均值作为K值对应的优化整体轮廓系数；将最大的优化整体轮廓系数对应的K值作为最优K值；基于最优K值利用K均值聚类算法对历史时间段内日志数据进行聚类；将以每个日志数据为中心的预设半径内日志数据量进行归一化，作为每个日志数据的局部密度；将局部密度小于预设密度阈值的日志数据作为离散日志数据。

（1）本发明实施例中K值的取值范围为，即预设第二数量取经验值5，实施者可根据实际情况自行设定。对于每个K值，基于K值利用K均值聚类算法对历史时间段内所有用户的日志数据进行聚类得到聚类簇，获取每个日志数据的轮廓系数。其中，K均值聚类算法中每个样本点的轮廓系数的计算方法为公知技术，在此不再赘述。

（2）选取最优K值。

每个用户均有对应的观影时长相似值，即每个用户对应的日志数据均有对应的观影时长相似值。根据日志数据的轮廓系数与其所属用户的观影时长相似值，获取每个日志数据的优化轮廓系数。优化轮廓系数的计算公式如下：

，

其中，为第i个日志数据的优化轮廓系数；/>为第i个日志数据的轮廓系数；/>为第i个日志数据所属第r个用户对应的观影时长相似值。

需要说明的是，当越大，说明第i个日志数据代表用户的观影特征具有普适性越高，则优化轮廓系数/>越大；将/>作为日志数据的轮廓系数/>的调整值，使得轮廓系数表征数据聚簇的紧密程度的准确性越高，轮廓系数/>越大，则数据聚簇越紧密，则优化轮廓系数/>越大。

计算每个K值下所有日志数据的优化轮廓系数的均值，作为对应K值的优化整体轮廓系数。将最大的优化整体轮廓系数对应的K值作为最优K值。

（3）筛选离散日志数据。

基于最优K值利用K均值聚类算法对历史时间段内所有的日志数据进行聚类，得到K个聚类簇。统计每个聚类簇内以每个日志数据为中心的预设半径内日志数据量，将该日志数据量进行归一化处理，得到每个日志数据的局部密度。每个日志数据均有对应的局部密度，局部密度越大时，说明日志数据附近的较为聚集，进而说明该日志数据的普适性越高，越具有参考价值。

对于每个日志数据，当日志数据的局部密度小于预设密度阈值时，说明日志数据附近日志数据的聚集程度较低，进而说明日志数据并不具有参考价值或者参考价值较差，更偏向于冗余数据，需要进行清洗。因此，将局部密度小于预设密度阈值的日志数据作为离散日志数据。

本发明实施例中预设半径取经验值10，预设密度预设取经验值0.1，实施者可根据实际情况自行设定。

将筛除离散日志数据后的日志数据存储在运营商专门的数据库中，例如关系型数据库或非关系型数据库。具体数据库类型由用户自身所用数据库类型决定，本发明实施例选取关系型数据库进行日志数据的存储。

一种机顶盒数据分类方法实施例：

机顶盒是一种用于接收和解码电视信号的设备，可以提供丰富的多媒体内容和互联网功能。通常会根据用户的行为数据进行分析，进行个性化且智能的观影喜好分析以及个人定制，因此，会对用户机顶盒中的日志数据进行分类。在日志数据中可能存在错误、无效或冗余的日志数据，这类日志数据不仅占据存储空间，而且影响对用户的观影喜好分析，因此，需要对这类日志数据进行清洗和过滤，从而实现数据分类。

现有技术通常利用K均值聚类算法对用户的日志数据进行聚类分析，并根据轮廓系数筛选出最优的K值。由于部分用户在日常生活中对于看电视的需求较低，该类用户的日志数据在参与最优的K值判定时的参考价值相对较差，使得聚类簇内部聚集性较差，导致K值设置不合理。

为了解决参考价值较低的机顶盒的日志数据参与聚类后，导致K值选取不合理，使机顶盒的日志数据分类效果不佳的技术问题，本发明的目的在于提供一种机顶盒数据优化存储方法，所采用的技术方案具体如下：

步骤S1：获取至少两个用户的机顶盒在历史时间段内每天存储的日志数据；

步骤S2：根据每个用户在历史时间段内存在看电视行为的天数，以及存在看电视行为天内日志数据量的波动情况，获取每个用户的观影置信度；

步骤S3：将历史时间段内的天分为预设第一数量种类型；对于每个用户的每种类型的天，依据每天内日志数据的时间间隔之间的差异，获取每种类型的天的间隔离散值；根据每个用户的每种类型下每天内日志数据量的波动情况与所述间隔离散值，获取每个用户的习惯特征值；

步骤S4：将每天划分为至少两个时间段；获取每个用户在每个时间段的均观影时长；结合每个用户在每个时间段的均观影时长、所述观影置信度与所述习惯特征值，获取每个时间段的优化均观影时长；依据每个用户在各时间段内均观影时长与所述优化均观影时长的相似程度，获取每个用户的观影时长相似值；

步骤S5：基于每个用户的观影时长相似值选取对日志数据进行聚类的最优K值，依据最优K值对日志数据聚类，进行数据分类。

本发明实施例提供一种机顶盒数据分类方法具有如下技术效果：

本发明实施例中，常规情况下根据用户所有的机顶盒的日志数据的聚类结果进行影视推荐，但是存在部分用户日常看电视需求较差，这些用户的机顶盒的日志数据不具有较高的参考价值，若这些用户的机顶盒的日志数据参与聚类时容易导致聚类结果较差；本发明从获取表征用户的观影行为的稳定情况的观影置信度，以及呈现用户观影习惯特征的习惯特征值两个方面呈现用户的机顶盒的日志数据的参考价值；并基于上述两个参数对用户每个时间段的观看电视的均观影时长进行调整，使得到的优化均观影时长能够表征整体用户的观影时长，以及观影习惯；均观影时长表征单个用户观看电视的时间分布情况，优化均观影时长呈现整体用户观看电视的时间分布情况，通过分析单个用户与整体用户的时段分布的相似程度情况，获取用户的观影时长相似值，反映用户是否符合整体用户的习惯特征，进而呈现机顶盒的日志数据的参考价值，利用观影时长相似值对用户的日志数据聚类后的信息进行调整，使选取的最优K值更加合理，提高数据分类效果。

其中，步骤S1-S4在上述一种机顶盒数据优化存储方法实施例中已给出了详细说明，不再赘述。以下对于步骤S5进行详细描述。

对于预设第二数量个K值，对于每个K值，利用K均值聚类算法对历史时间段内所有用户的日志数据进行聚类，得到K值下每个日志数据的轮廓系数；将K值下每个日志数据的轮廓系数与其所属用户对应的观影时长相似值的乘积，作为K值下每个日志数据的优化轮廓系数；将K值下所有日志数据的优化轮廓系数的均值作为K值对应的优化整体轮廓系数；将最大的优化整体轮廓系数对应的K值作为最优K值。

（2）选取最优K值。

，

基于最优K值利用K均值聚类算法对历史时间段内每个用户的日志数据进行聚类，得到K个聚类簇，进行机顶盒的日志数据分类。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种机顶盒数据优化存储方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述观影置信度的获取方法，包括：

3.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述间隔离散值的获取方法，包括：

4.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述习惯特征值的获取方法，包括：

5.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述均观影时长的获取方法，包括：

6.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述优化均观影时长的获取方法，包括：

7.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述观影时长相似值的获取方法，包括：

以时间为横轴，均观影时长为纵轴建立二维坐标系；

8.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述最优K值的获取方法，包括：

9.根据权利要求1所述的一种机顶盒数据优化存储方法，其特征在于，所述离散日志数据的获取方法，包括：

10.根据权利要求7所述的一种机顶盒数据优化存储方法，其特征在于，所述曲线拟合的方法，为：

所述曲线拟合的方法为最小二乘法。