CN110996144B

CN110996144B - 一种电视用户收视偏好分析方法

Info

Publication number: CN110996144B
Application number: CN201911314363.1A
Authority: CN
Inventors: 王宏志; 丁小欧; 张冠巍
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-10-08
Anticipated expiration: 2039-12-19
Also published as: CN110996144A

Abstract

本发明涉及一种电视用户收视偏好分析方法，包括：获取数据，进行格式整理及清洗，得到清洗后的数据条目；提取数据条目中的频道名称、节目名称，并对节目进行分类；将数据条目按频道名称分别存储，并根据时段归类；选定时段，对数据条目分类，统计所选时段内频道名称、节目名称、节目类别出现频次，得到热点词统计报告；抽选用户；将数据条目按照用户CA卡号分别存储，根据时段对数据条目归类，并按照时间顺序对事件标识排序，得到用户在各时段内的时序事件序列；生成行为模式图；提取体现偏好倾向的用户行为模式；进行用户行为识别，根据识别结果分析所选用户偏好，得到用户收视偏好报告。该方法能够更为准确、全面的分析用户收视偏好。

Description

一种电视用户收视偏好分析方法

技术领域

本发明涉及广播电视技术领域，尤其涉及一种电视用户收视偏好分析方法。

背景技术

随着数字电视的普及，多样化的网络应用服务极大地丰富了用户的视听体验，用户在收看电视时有了更多节目选择，并可以享受更为丰富的个性化服务，用户的收视行为也变得更加复杂。在这样的环境下，如何从复杂多变的收视行为中发现用户收视特征、确定用户收视偏好这一问题，就显得十分重要，广播电视用户收视偏好分析能够有效解决这一问题。传统的电视用户收视偏好分析方法通常仅局限于电视设备对某一节目的瞬时收视率采集计算，该结果具有较强的片面性，不能很好地描述用户的偏好与收视特征。同时，电视用户的行为类别多且模式复杂(如大小声、换台、点播等)，往往难以建立有效的分析模型，现有方法对用户偏好的分析准确性较差。

发明内容

本发明的目的是针对上述至少一部分问题，提供一种面向电视用户的收视行为分析方法，实现更为准确、全面地挖掘电视用户收视偏好。

为了实现上述目的，本发明提供了一种电视用户收视偏好分析方法，包括如下步骤：

S1、从服务器获取待分析的数据，对数据进行格式整理及清洗，得到清洗后的数据条目；

S2、提取清洗后数据条目中出现的频道名称、节目名称，并对节目进行分类，归纳节目类别；

S3、将清洗后数据条目按频道名称分别存储，并根据时段对数据条目进行归类；

S4、选定时段，依据归纳得到的节目类别对存储的数据条目进行分类，统计所选时段内频道名称、节目名称、节目类别出现频次，得到相应的热点词统计报告；

S5、提取清洗后数据条目对应的用户列表，抽选用户；

S6、将所选用户对应的清洗后数据条目按照用户CA卡号分别存储，根据时段对数据条目进行归类，并按照时间顺序对事件标识排序，得到用户在各时段内的时序事件序列；

S7、根据所选用户对应的时序事件序列生成该用户的行为模式图；

S8、根据得到的行为模式图，提取体现偏好倾向的用户行为模式；

S9、基于相应的存储数据进行用户行为识别，根据识别结果分析所选用户偏好，得到用户收视偏好报告。

优选地，所述步骤S1中对数据进行清洗，包括剔除不可用错误项以及修复可用错误项；

其中，不可用错误项包括编码错误项、字段约束错误项；可用错误项包括字段文字明显错误项、字段部分内容丢失项。

优选地，所述步骤S2中对节目进行分类，归纳节目类别，包括：

S2-1、根据频道名称确定频道类别，将专门类频道下的各个节目分入其频道对应的类别中；

S2-2、将综合类频道下各个节目，结合其节目名称中的关键词，分入相应的类别中。

优选地，所述步骤S2-1进一步包括，扫描数据条目，获取数据条目中的频道名称；若其属于专门类频道，则构成包含频道名称的元组，通过标签或索引的方式将各个元组与其对应的节目类别关联，建立一次分类知识库；若其不属于专门类频道，则继续执行步骤S2-2。

优选地，所述步骤S2-2进一步包括如下三部分：

建立词典、扫描数据条目，获取频道名称、节目名称，构成包含频道名称和节目名称的元组，以各元组作为键，建立词典，并统计各元组的出现频次，得到包括频次计数值的节目元组；

分词与合并、以天为单位，枚举词典中所有元素，使用NLP方法对节目名称进行分词处理，每个节目名称至少得到一个关键词；将各个关键词匹配到相应的节目元组中，形成包含频道名称、关键词和频次计数值的关键词元组；将频道名称和关键词均相同的关键词元组进行合并，频次计数值相加；

构成知识库、读取并合并所有日期下频道名称和关键词均相同的关键词元组，得到汇总后的关键词元组集合，通过标签或索引的方式将各个关键词元组与其对应的节目类别关联，建立二次分类知识库。

优选地，所述步骤S4中，依据归纳得到的节目类别对存储的数据条目进行分类进一步包括：

S4-1、根据所选时段提取存储的数据条目，得到由频道名称和节目名称构成的节目二元组；

S4-2、在一次分类知识库中查询节目二元组中的频道名称，若存在，则返回该节目二元组对应的节目类别并结束，若不存在，则继续执行步骤S4-3；

S4-3、使用NLP方法对节目二元组中的节目名称进行分词，每个节目名称得到至少一个关键词；对于每个节目二元组，将频道名称与分词得到的各个关键词分别组成关键词二元组，在二次分类知识库中查询各个关键词二元组，返回关键词二元组对应的节目类别；将关键词二元组对应的节目类别逐个列出，并分别计算各节目类别对应频次在所有节目类别对应频次之和中所占比例，作为判断该节目二元组属于该节目类别的概率。

优选地，所述步骤S5中，在抽选用户前，统计各个用户的事件触发频次并设置抽样频次阈值；抽选用户时，根据事件触发频次及抽样频次阈值进行有选择抽样。

优选地，所述步骤S7中，生成行为模式图时，以事件标识作为节点、相邻事件先后顺序作为有向边，构建状态转移图，并设置初始频次阈值，删除状态转移图中出现频次低于初始频次阈值的边。

优选地，所述步骤S8提取体现偏好倾向的用户行为模式时，体现偏好倾向的用户行为模式包括浏览行为、时移节目播放行为和VOD点播行为。

优选地，所述步骤S9基于相应的存储数据进行用户行为识别时，识别结果包括用户行为模式名称、起止时间、经历时间、频道名称、节目名称、频道名称和节目名称所对应的节目类别及相应概率。

本发明的上述技术方案具有如下优点：本发明提供了一种电视用户收视偏好分析方法，该方法提取数据中的频道名称、节目名称，对节目进行分类，归纳节目类别，对不同类别的节目的收视数据进行更为准确的统计；根据电视用户事件，生成用户的行为模式图，通过分析行为模式图中的行为，确定用户包含收视偏好信息的事件序列，从中挖掘用户收视偏好。该方法能够分析在不同时段内，与用户偏好相关的有效行为，避免了采集瞬时收视率的片面性，并且能够有效减弱与收视偏好无关的行为(如大小声调节、亮度调节等)对分析结果的影响，构建更为准确的用户行为分析模型，实现对用户收视偏好特征的挖掘计算。

附图说明

图1是本发明实施例提供的一种电视用户收视偏好分析方法步骤图；

图2是本发明实施例中将综合类频道下各个节目分入相应的类别的流程图；

图3是本发明实施例中对任一个频道名称加节目名称构成的元组，判断其对应的节目类别的流程图；

图4是本发明实施例中得到的4个用户三天内的行为模式图；

图5是本发明实施例中得到的34个用户在5月内的行为模式图；

图6是本发明实施例中提取的用户主要行为模式示意图；

图7是本发明实施例中得到的一种用户的偏好分析结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种电视用户收视偏好分析方法，该方法包括如下步骤：

S1、从服务器获取待分析的数据，对数据进行格式整理及清洗，得到清洗后的数据条目。

由于电视台采集的原始数据转存成文本形式后，通常规模庞大，容易存在许多数据质量问题，因此需要对数据进行预处理、筛选、清洗操作。此步骤S1中，主要进行数据格式整理、数据除杂、异常值去除等预处理工作，以便于后续计算分析。

S2、提取清洗后数据条目中出现的频道名称、节目名称，并对节目进行分类，归纳节目类别。

对于一些专项频道，例如CCTV-6电影频道，可认为其广播的节目类别为电影，而对于一些综合频道，例如CCTV-1综合频道以及各地方卫视等，根据时段不同，节目类别复杂多样。数据条目中的文字信息包括频道名称、节目名称等，“节目名称”一项中除节目本身的名称外还可能一些包括对于此节目的限定性描述内容，此步骤S2中，提取数据中所有的节目名称并结合其播送的频道名称，更为精确地判定节目类别，将所有出现的节目归纳入不同的类别之中，如CCTV-6电影频道的节目均归为“电影”类别，CCTV-1综合频道根据时段及节目名称，归为“新闻”类别、“综艺”类别、“电视剧”类别等，以便更为准确地确定用户偏好的节目类别、节目名称及关键词等信息。

S3、将清洗后数据条目按频道名称分别存储，并根据时段对数据条目进行归类。

此步骤S3中，将数据条目根据频道名称及时段进行划分，对应同一频道的数据存储在一起，并按时段(每日、每小时为单位)对数据进行归类，便于根据频道、所选时段抽取相应的数据，以供不同频道、不同时段的流量统计与分析使用。

S4、选定时段，依据归纳得到的节目类别对存储的数据条目进行分类，统计所选时段内频道名称、节目名称、节目类别出现频次，得到相应的热点词统计报告。

此步骤S4中，可设置时间范围(时段)、频道范围，根据所选时段、频道从步骤S3中归类后的数据条目中提取出相应数据，根据步骤S2归纳的节目类别，对数据条目中各个频道、不同时段的节目数据进行具体分选，根据播送的具体节目内容，确定各个数据条目中播送节目所对应的准确节目类别。在此基础上，对频道名称、节目名称、节目类别及相关热点词的统计结果将更为准确、具体，避免有用户的收视数据被计入错误的节目名称、节目类别等情况发生。

上述步骤S2至S4可认为是以频道/节目为中心的用户收视行为分析，能够对各频道的整体收视状况进行归纳总结，可实现分析不同时段的热点频道、热点节目和热点词等，以从宏观上反映用户群体的收视偏好。

S5、提取清洗后数据条目对应的用户列表，抽选用户。

CA卡即CMMB移动电视CA解密卡，用于CMMB移动电视终端设备上，针对部分对CMMB加密的城市的终端设备。为便于分析，可将每个CA卡号对应为一个电视用户，根据用户列表中的CA卡号，抽选待分析的用户。此步骤S5中，根据实际情况，可以设定具体抽样条件，随机抽选多个具有代表性的用户，或者挑选若干指定用户，根据需要有针对性地进行分析。

S6、将所选用户对应的清洗后数据条目按照用户CA卡号分别存储，根据时段对数据条目进行归类，并按照时间顺序对事件标识排序，得到用户在各时段内的时序事件序列。

此步骤S6中，针对每个抽选出的用户，提取清洗后数据条目中该用户对应的各个事件并进行排序，得到用户在某一时段的时序事件序列，从而获得用户在一段时间内的各项操作，用户行为模式分析正式基于此特征展开。

S7、根据所选用户对应的时序事件序列生成该用户的行为模式图。

此步骤S7中，将用户的行为模式抽象为一个有向图(即行为模式图)，对于一段时序事件序列所代表的用户连续动作，以事件标识为节点，相邻事件的先后顺序作为有向边，构建状态转移图，一条有向边的权值即该一组两个时序事件的触发次数计数值。

S8、根据得到的行为模式图，提取体现偏好倾向的用户行为模式。

由于电视用户的行为类别多且模式复杂，一个完整、有效的用户行为模式通常包括一系列长度不等的时序事件，传统的收视偏好分析方法通常不能有效地识别出这些事件序列。通过行为模式图能够更为直观、有效地确定一种用户行为模式所对应的一连串时序事件，以便后续基于此实现用户行为识别。此步骤S8的目的即基于行为模式图，确定出几种具有代表性的、体现偏好倾向的用户行为模式，及相应的构成用户行为模式的事件序列。通过分析这些用户行为模式出现频次、持续时间等信息，即可挖掘用户收视的偏好。

此步骤S9中，可根据需要，提取待分析的存储数据，识别数据中，构成了体现偏好倾向的用户行为模式的各个事件序列，根据识别出的事件序列，进而可确定用户观看播送时间的长短、偏爱观看的节目类别或点播常用的关键词等信息，实现对用户收视偏好的分析。优选地，用户收视偏好报告中体现的信息可包括：用户CA卡号、用户偏好收看的频道名称、节目名称、节目类别、收看时长及时长占比等。

上述步骤S5至步骤S9可认为是以用户为中心的用户行为分析，将用户作为主要研究对象，对单个或一组抽样用户进行研究，主要研究其收视行为及偏好节目类别等信息，以便电视台可以针对用户制定个性化推送服务。

本发明所提供的电视用户收视偏好分析方法能够对提取自电视台服务器的大量收视数据进行综合分析，不仅对于节目类别进行了更为精准地划分，能够对不同频道、不同时段，群体用户收看电视的偏好进行准确统计，确定群体用户收视热点，还能够针对特定的用户，更为全面地分析其行为模式中所体现的收视偏好，以便电视台发展个性化定制服务。并且，该方法提出以构建用户行为模式图的方式得到整体的、有效的用户行为模式画像，可去除复杂多变的用户行为中不能体现出收视偏好的干扰信息，实现更加准确地分析用户行为，减少现有技术中统计瞬时收视率的片面性，并降低用户行为识别与分析的难度。

优选地，步骤S1中对数据进行清洗，包括剔除待分析数据中的不可用错误项以及修复可用错误项。其中，不可用错误项包括编码错误项、字段约束错误项；可用错误项包括字段文字明显错误项、字段部分内容丢失项。

编码错误项：数据中的一些条目，由于丢包、损坏等原因无法解码。因此在处理过程中可直接删除或跳过。

字段约束错误项：字段中存在约束错误，例如，在某些条目中，结束时间早于开始时间、时间超出数据集范围等。对此类数据，同样可采取删除或跳过的措施。

字段文字明显错误项：字段中存在明显的、可修改的文字错误，则对其进行修改，例如，在某些条目中，频道名称中出现的CCTV＝1，即可直接修改为CCTV-1。字段文字明显错误项应满足修改无歧义，否则属于字段约束错误项，执行删除或者跳过。

字段部分内容丢失项：字段中部分内容丢失，在不影响实验分析的情况下，可忽略丢失情况，正常分析。例如，在一些条目中，节目名称由于过长，存在丢包和被截断的情况，但是，在分类中，仍然可以使用剩下的部分进行分词分析，所以可忽略丢失部分，直接当作正常数据进行处理。

优选地，步骤S2中对节目进行分类，归纳节目类别，包括：

S2-1、根据频道名称确定频道类别，将专门类频道下的各个节目分入其频道对应的类别中。

此步骤S2-1可认为是按照频道类别进行的一次节目分类。在确定频道类别时，频道类别划分及类别名称的确定，优选以中央电视台频道分类为标准，分类包括如综合、财经、综艺、电影、电视剧等项目，再根据常见的频道类别进行补充，如旅游、汽车、政务等附加项目。当然也可根据实际需要划分哪些频道为专门类频道，以及需要分类为多少种类别。

对于专门类频道，即认为其播放的各个节目在类别上具有一致性，无需再进一步划分出各个节目的具体类别，进而减少分类相关的计算量。例如对于CCTV-6电影频道，将该频道下的各个节目(不论名称、时段)均分入“电影”类别之中，对于CCTV-2财经频道，将该频道下的各个节目(不论名称、时段)均分入“财经”类别之中。特别地，待分类频道中包括中央台频道、卫视频道等，除普通频道外，还可能有与普通频道对应的高清频道，为进一步减少分类相关的计算量，可将对应的高清频道与普通频道归为同一个频道，不作多个频道处理，提高分析效率。

优选地，此步骤S2-1进一步具体包括：扫描数据条目，获取数据条目中的频道名称，判断频道名称，若其属于专门类频道，则以频道名称构成元组，通过标签或索引的方式将各个元组与其对应的节目类别关联，建立一次分类知识库。若其不属于专门类频道，则继续执行步骤S2-2。

优选地，此步骤S2-1中的元组还可包括节目名称，通过标签或索引的方式将各个元组与其对应的节目类别关联，即实现了对各个节目类别的判断。进一步地，此步骤S2-1还包括统计各元组出现频次，以便初步地、整体性地统计专门类频道下各节目的收视频次等信息，能够对专门类频道整体收视情况给出一个总结性结果，以供热点分析。

此步骤S2-2可认为是按照频道类别加具体节目信息进行的二次分类。对于不属于专门类频道的综合类频道，包括各地方卫视频道、CCTV-1综合频道等，其所播放的节目种类很多、综合性较强，包含了多种不同类别，无法仅凭频道名称来为其分类，因此需要更为细化的、以节目名称及具体内容为判断依据的二次分类进行确定，以便更为准确地划分具体节目类别。

但是，节目名称的变化性较大，同一类节目、甚至同一节目可能会出现不同的名称，而同一名称的节目在不同频道又可能指代了完全不同的节目。例如，对于一些节目，可能会出现全名与缩写等不同形式，如“奔跑吧！兄弟”与“跑男”是同一节目的不同名称；而如“欢乐颂”这一节目名称，在浙江卫视等频道指代了某一电视剧，但在音乐频道里指代的则更可能是世界名曲。又例如，对于一些电视剧，节目名称中可能会出现第一集、第二季、大结局等跟随具体播出内容不断变化的描述性字段；对于综艺节目，节目名称可能会根据嘉宾的不同出现不同的简介性质字段等等。

为了解决这些问题，优选地，本发明提出采用频道名称+关键词共同作为二次分类依据来进行节目类别的确认，其中关键词来源于节目名称。数据条目中的节目名称包括节目自身的、准确的名称，以及关于节目的描述性信息。

在一些优选的实施方式中，本发明在构建知识库以便归纳所有节目的类别时，对某一数据条目，得到其频道名称和节目信息(包括准确的节目名称以及可能含有的描述性字段等)后，使用NLP方法对节目信息进行分词切割，得到至少一个关键词，并与频道名称分别组成元组作为键值，而节目原本的类别即作为键值所对应的类别。NLP(NaturalLanguage Processing)方法为现有技术，在此不再赘述。

优选地，如图2所示，步骤S2-2进一步包括如下三部分：

建立词典、扫描数据条目，获取频道名称、节目名称，构成包含频道名称和节目名称的元组，如图2所示，元组的初始形式可表示为(频道，节目)。以各元组作为键，建立词典，以便下一步的分词的进行。进一步地，步骤S2-2还统计各元组的出现频次，得到包括频次计数值的节目元组，如图2所示，统计频次后，节目元组的形式可表示为(频道，节目，计数值)。

分词与合并、以天为单位，枚举字典中的元素，使用NLP方法对节目名称进行分词处理，每个节目名称至少得到一个关键词，具体进行分词处理获取关键词的数量、长度等要求，可根据需要进行设定，优选得到两个及以上关键词。将各个关键词匹配到相应的节目元组中，形成包含频道名称、关键词和频次计数值的关键词元组，即对原有的节目名称进一步提取、细分，如图2所示，关键词元组的形式可表示为(频道，关键词，计数值)，关键词对应的计数值来自于分词前相应节目所对应的计数值。将各个包含关键词的关键词元组中，频道名称和关键词均相同的关键词元组进行合并，频次计数值相加。本部分中，通过不同的关键词可合并相同节目、不同名称的情况，而区分相同名称、不同节目的情况，实现更为准确地判断节目类别。优选地，本部分可多线程实现以提高处理效率。

构成知识库、读取并合并所有日期下频道名称和关键词均相同的关键词元组，得到汇总后的关键词元组集合，通过标签或索引的方式将各个关键词元组与其对应的节目类别关联，实现对各个元组(即各个不同关键词所代表的节目)的分类，建立二次分类知识库。优选地，本部分还可将汇总过的关键词元组集合按序输出，得到频道名称、关键词、相应类别及频次计数结果，初步地、整体性地统计综合类频道的收视节目频次，对综合类频道的整体收视情况给出一个总结性结果，以供热点分析。如下表1示出了一个具体实施方式中得到的部分二次分类结果。

表1二次分类结果(部分)

综合步骤S2-1和步骤S2-2得到的知识库，即将以上一次分类与二次分类的结果分别入库，可用于对任意一个(频道名称，节目名称)二元组进行节目类别的准确判断。

优选地，如图3所示，步骤S4中，依据步骤S2归纳得到的节目类别，即一次分类、二次分类得到的知识库，对存储的数据条目进行分类，进一步具体包括：

S4-1、根据所选时段提取存储的数据条目，得到由频道名称和节目名称构成的节目二元组。如图3所示，节目二元组的形式可表示为(频道，节目)。

S4-2、在一次分类知识库中查询每个节目二元组中的频道名称，若存在，则返回该节目二元组对应的节目类别并结束，若不存在，则继续执行步骤S4-3。如图3所示，若查询得到该频道属于专门类频道，则无需再对其具体节目进行判断，直接根据频道类别确定其节目类别即可。

S4-3、使用NLP方法对(未确定节目类别的)各个节目二元组中的节目名称进行分词，每个节目名称得到至少一个关键词；对于每个节目二元组，将频道名称与对节目名称分词得到的各个关键词分别组成若干个关键词二元组，在二次分类知识库中查询各个关键词二元组，返回所有关键词二元组对应的节目类别。此处的所有关键词二元组指的是一个节目名称分词后得到的所有关键词分别组成的若干个关键词二元组。

将所有关键词二元组对应的节目类别逐个列出，并分别计算各个节目类别对应频次在所有节目类别对应频次总和中所占比例，作为判断该节目二元组属于该节目类别的概率。此处的所有节目类别指的是查询一个节目名称分词得到各个关键词所对应的所有节目类别。如图3所示，利用各个关键词二元组在二次分类知识库中查询，可得到相应的节目类别及该关键词对应的频次计数值，根据分词得到的不同关键词查询，可能返回不同的节目类别和不同的频次计数值。所有关键词二元组查询后，有几率得到若干节目类别，分别将每个节目类别下对应的各关键词的频次计数值累积，作为该节目类别对应的频次，将单个节目类别出现频次在(一个节目名称对应的)所有节目类别频次中所占比例作为此节目属于该节目类别的概率，根据概率大小可判断该节目二元组对应的节目类别及可能性。

优选地，步骤S4中，选定时段后，统计所选时段内频道名称、节目名称、关键词等出现频次信息后，可设定相应的热点词阈值，超过热点词阈值，即认为是热点词。汇总各个热点词数据，即可得到热点词统计报告，进一步地，为获得更为直观的可视化结果，热点词报告中，出现频次越高的热点词，越突出显示，例如形成词云展示。

优选地，步骤S5在抽选用户前，统计各个用户的事件触发频次并设置针对事件触发频次的抽样频次阈值。抽选用户时，根据事件触发频次及抽样频次阈值进行有选择抽样，抽选特定的群体进行分析，或避免抽取到不常收看电视的用户等特殊情况。

如下表2给出了几种常见的事件标识(Message ID)对照表。

表2.事件标识对照表

在步骤S6中，将数据条目按照CA卡号进行归类，并以事件标识及其触发先后为依据，按时间顺序排列这些条目，得到用户在某一时段的时序事件序列，即用户在该时段内所进行的一系列操作，方便抽取相应的数据进行分析。

由于收视数据体量庞大，在一个具体的实施方式中，根据统计，仅5月1日一天，就有约46万个CA卡号出现在数据流中，将其完全分类存储显然是一项极其艰巨而效率低下的任务，因此，可采用随机选取部分用户的数据进行分析，提取出抽选的用户在某段时间内(例如5月份某一天)的动作序列，从中筛选出适合分析的部分(数据质量好、序列号连续、特征明显、具有代表性等)，为行为模式分析等后续处理的进行做准备。如下表3给出了按用户CA卡号分类整理、分别存储数据后生成的结果示意，表3示出了在一个具体的实施例中，5月7日用户825010213880008的某一连续动作中的第30-34条动作构成的时序事件序列。

表3 5月7日用户825010213880008的某一连续动作中的第30-34条动作

为了得到一个初步的、整体的用户行为模式画像，优选地，步骤S7中根据所选用户对应的时序事件序列生成该用户相应的行为模式图时，可设置初始频次阈值，根据预定的初始频次阈值，删去状态转移图中出现频次低于初始频次阈值(即出现次数过少)的边，剔除发生频率较低的用户行为，以更加贴合用户的主要的、有效的行为模式。

优选地，如下所示的程序1使用伪代码的形式，进一步描述了对于给定用户，生成行为模式图的过程。程序1共分为两部分：第一部分(程序1(a))为如何根据数据条目生成有向图的点和边，第二部分(程序1(b))为如何根据得到的点和边绘制有向图。

程序1(a)用于生成有向图的点集和边集，其中，D表示输入的数据库，即输入的用户数据条目，G(V,E)表示有向图，V表示有向图中的点集，E表示有向图中的边集。TargetUsers表示选取的用户，user表示数据库D中的用户，item表示(存储事件的)数据条目,item.eventID为每一条数据条目的事件标识。根据输入的用户数据条目中的随机序列字段，将这些数据条目划分为不同的循环段(cycle)，以保证每个循环段都是用户在一段时间内的连续动作，cycle_group用于存储各个循环段构成的集合。然后，依次处理每个循环段，以出现的事件标识作为点，相邻两事件间建立一条边，对于重复出现的边，统计其出现次数作为边上的权值。最终得到用于绘制有向图的点集和边集。

程序1(b)用于绘制有向图，根据上一步得到的点集和边集，将点和边依次绘制出来。其中，threshold表示(用户)给定的频次阈值，edges.items表示表示条目之间存在的边的集合，edge.counter表示每条边的频数。

在一个具体的实施方式中，根据上述程序1，对随机抽取的若干用户进行了模式图的绘制，如图4所示，举例了CA卡号分别为825010269689626、825010354067360、825010367831984、825010373957410的4个用户(设为用户A、用户B、用户C、用户D)三天内的整体的行为模式图，图4(a)、图4(b)、图4(c)、图4(d)分别示出了用户A、用户B、用户C、用户D的行为模式图。

进一步地，如图5所示，步骤S7还可以将抽取的多个用户的行为累加在一起，得到群体用户模式图，这样的好处是，相比于具有明显偏好和习惯的个体的用户模式图，群体用户模式图中的行为方式显示了所有用户行为模式的加和，因此更具有代表性和普遍性。通过分析群体用户的行为模式图，可以更好地确定出群体用户中常见且能够体现用户偏好的行为模式及其具体由哪些时序事件(用户动作)构成。

优选地，步骤S8中提取体现偏好倾向的用户行为模式时，可以通过设置行为筛选阈值的方式对行为模式图进行筛选，例如从小到大逐步提高行为筛选阈值，不断去除行为模式图中触发频次较小的行为模式(即剔除出现次数较少的边)，最终提取出具有代表性的、多发性的用户行为模式。图5给出了对随机抽取的34名用户在整个5月份内的群体的用户行为模式图，图5(a)、图5(b)、图5(c)、图5(d)分别示出了行为筛选阈值设定为500、1000、1500和2000时，筛选后的结果。

特别地，将行为筛选阈值设置为2000时，可以发现，整个有向图可以被分为三条支路：

(1)6|EPG显示事件—21|频道进入事件—5|频道退出事件—6|EPG显示事件

上述各个事件间为单向关系，有循环的迹象，其中，21|频道进入事件与5|频道退出事件之间偶尔会有7|音量调节等动作。很明显，该支路描述了用户换台、收看节目、继续换台的这一过程，该模式为用户偏好研究中最重要、也是出现频次最高的模式之一。

(2)6|EPG显示事件—19|中间件事件—26|链接地址跳转事件

上述各个事件间为双向关系，该支路描述了用户在收看节目的行为和使用应用程序的行为之间的转换过程，因此出现频次极高。

(3)6|EPG显示事件—26|链接跳转事件—97|时移节目播放事件

上述各个事件间为双向关系，该支路描述了用户收看时移节目的过程，同样是研究用户偏好的重要内容。

而当行为筛选阈值较小时，一些出现次数较少的事件逐渐显现。这些事件中，有些是对已有行为模式的补充，例如，当行为筛选阈值设置为1500时，将出现表示用户按下功能键的24|功能键按键事件、表示用户呼出菜单的8|菜单事件以及长时间无操作时告知服务器当前用户仍然在线的20|心跳事件等；此外，还有一些事件是对新的行为模式的描述，例如，当阈值设置为500时，将出现支路：26|链接跳转事件—96|VOD点播事件，该支路描述了用户使用VOD点播功能点播并收看节目的过程，虽然在数据中出现的次数较少，但作为研究用户行为与偏好的重要因素之一，同样值得关注。

如图6所示，优选地，本发明通过行为模式图，结合对具体数据流的观察与分析，提取出了如下四种最常见的用户行为模式：

(1)浏览行为

(2)时移节目播放行为

(3)VOD点播行为

(4)中间件过度行为

进一步地，步骤S8提取体现偏好倾向的用户行为模式时，体现偏好倾向的用户行为模式包括浏览行为、时移节目播放行为和VOD点播行为。中间件过度行为由于用户实际参与较少，与用户的行为偏好关联不大，因此可暂不提供识别。

特别地，步骤S9中，基于上述步骤S8提取的体现偏好倾向的用户行为模式，构建自动机，即可计算实现对用户行为与偏好的识别。优选地，步骤S9基于相应的存储数据进行用户行为识别时，识别结果包括用户行为模式名称、起止时间、经历时间、频道名称、节目名称、频道名称和节目名称所对应的节目类别及相应概率。

进一步地，如下程序2以伪代码的形式描述了步骤S9中具体的用户行为识别过程。输入数据可采用先前已经处理过的、按用户CA卡号分类存储的数据条目，对于给定用户的数据条目，首先根据随机序列字段将这些数据切割为不同循环段(cycle)，其中都是一段连续事件序列。对于每一个循环段，时序扫描循环段中各数据条目的事件标识(Message ID)，并根据构建的自动机进行状态转移，当转移到识别处某一行为的状态时，则做输出处理，输出其用户行为模式名称、起止时间、经历时间、频道名称、节目名称、频道名称与节目名称所对应的可能分类及其概率等行为偏好描述信息，同时统计该用户在节目类别的累计时长。当所有的循环段扫描完毕后，行为已经全部识别，此时，可根据统计的各个节目类别的累计时长，推测用户最有可能偏好的频道节目分类，即对于某一分类，用户在其上观看的累计时长越长，则说明用户越有可能喜好这一类别的频道、节目。

其中，D表示数据库(Classified with CACardNo，根据用户CA卡号分类)，ClassStat表示各节目类别的总时间统计结果，item.duration表示数据条目中的事件持续时间，item.programName表示数据条目中的节目名称，porgramClasses表示节目类别。程序2的结果包括两部分：其一为对用户的行为识别结果，其二为用户对于频道节目类别的偏好分析结果。表4展示了对指定用户的行为识别的不同结果的举例。

表4用户行为识别结果举例

如表4所示，用户行为识别的结果由以下字段组成：

(1)Behavior(行为)

用户行为种类判定，结果中主要分为三类：浏览行为(Look Through)、时移播放行为(Time-shiftedPlay)以及VOD点播行为(VOD Play)。根据上述的自动机状态的转移得出结果。

(2)Start Time(起始时间)、End Time(终止时间)

当前行为的起止时间，对于浏览行为，可从5|频道退出事件中的字段中直接获取，而对于时移播放行为和VOD点播行为，则需要根据第一次和最后一次出现的时移播放/VOD点播事件得出。其计算方式如公式(1)、(2)所示：

StartTime＝Event₁.Time (1)

End Time＝Event_n.Time (2)

Event₁.Time表示该事件第一次出现在数据中的时刻，Event_n.Time表示该事件最后一次出现在数据中的时刻。

(3)Duration(经历时间)

当前行为所持续的时间，即起止时间之差，其计算方式如公式(3)所示：

Duration＝End Time-Start Time (3)

(4)Channel Name(频道名称)、Program Name(频道名称)

当前行为所涉及到的频道名称和节目名称。特别地，对于时移行为和VOD播放行为，其频道名称为非必要字段，有时为空，此时可将频道名称设为None(空)。

(5)Keywords(关键词)

由节目名称分词得到的若干关键词，其计算方式如公式(4)所示。

Keywords＝cut(ProgramName)

＝[Keyword_1,Keyword_2,...,Keyword_n]

(4)

ProgramName表示对节目名称，cut(ProgramName)表示对节目名称进行分词的函数。

(6)Possible Class(es)and Possibility(可能类别和概率)

列出所有可能的节目分类类别及其概率。设f(x)为Keyword到Class(类别)的映射，则有公式(5)、(6)：

Class_i＝f(Keyword_i) (5)

num(Class_i)表示类别Class_i出现的频数。

对于表4中给出的结果，表4的(a)栏中识别到了用户的浏览行为，用户在2016年5月2日9:55:21至10:06:45历时11:24的时间里，收看了CCTV-1的2015出彩中国人节目，经分类分析，该节目100％可能性为综艺节目；表4的(b)栏中识别到了用户的时移播放行为，用户在2016年5月2日00:15:21至00:16:27这1:06的时间里，通过时移播放功能收看了江西卫视的财经新风向节目，而根据分类分析结果，该节目25％的可能性为新闻类节目，75％的可能性为财经类节目；表4的(c)栏中识别到了用户的VOD点播行为，用户在2016年5月20日17:21:58至18:02:05历时40:07的时间里，使用VOD点播功能收看了欢乐颂第42集，根据分类分析，该节目100％为电视剧类节目。

请参阅图7，图7展示了一个具体实施方式中，采用本发明所述方法对四位不同用户的偏好分析结果。如图7所示，优选地，以用户收看某一类节目的总时长作为判断其偏好类别的依据，如公式(7)所示：

图7(a)、图7(b)、图7(c)、图7(d)分别给出了四位不同用户在5月收看某一类节目的总时长占整体观看的时间的扇形图。图7(a)显示，该用户所涉猎的节目内容很多，其中，综艺(21.92％)、科教(14.76％)与电影(13.28％)三种节目类别占据了超过50％的收看时长，说明该用户更倾向于收看这三种节目；图7(b)中，用户整个5月份只收看了4种类别的节目，且电视剧占据了57.91％的绝对优势，很显然，电视剧为该用户最爱收看的节目类别；图7(c)中，用户收看的节目类别丰富且分布较为平均，其中比例较大的，如电视剧(18.12％)、电影(15.04％)、综艺(13.99％)、国际(13.16％)，可以推断用户所偏好的节目类别更可能出现在这些节目类别中；图7(d)中，电视剧(24.64％)、电影(23.17％)占据了更大比重，可以此断定为用户的偏好类别。

进一步地，在实际操作中，可规定：设用户所收看节目的所有节目类别的集合为U，则用户偏好集合A应满足如下条件：(1)A为U的子集，元素个数不超过5；(2)将U中所有元素按收视时长百分比从大到小排序，A中各元组应在前5名之内；(3)A中元素收视时长百分比之和应大于50％。用户偏好集合A表示为：

A＝{c|c∈U,P(c_i)＝p_i,i∈[1,n]} (8)

且满足：

c_i∈U,

则p_i≥p_j,且

综上，本发明提供了一种在现实的电视数据中进行用户收视行为分析的方法。该方法实现了分别从以频道/节目为中心和以用户为中心这两个角度入手，对不同用户、不同频道、不同节目、不同时间等多个维度上的用户收视情况进行研究分析。本发明提出了用户收视行为数据的清洗方法，以及两次分类策略来判断节目类别的方法，通过一次分类(按频道分类)以及二次分类(按频道+关键词分类)，可以更为准确地判断用户所收看的节目属于哪一类别。同时，本发明建立用户行为模式分析图模型，并提取了四种常见的用户行为模式：浏览行为、时移节目播放行为、VOD点播行为和中间件过度行为，且其中前三者为用户收视行为分析的重点，在收视偏好分析中应作为重点分析对象。通过本发明所述方法，能够实现不同频道收视率对比、特定频道每小时流量分析、不同频道在不同时段内流量变化对比、制定时段的热点分析(包括热点频道、热点节目、热点关键词)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电视用户收视偏好分析方法，其特征在于，该方法包括如下步骤：

S5、提取清洗后数据条目对应的用户列表，抽选用户；

S9、基于相应的存储数据进行用户行为识别，根据识别结果分析所选用户偏好，得到用户收视偏好报告；

所述步骤S2中对节目进行分类，归纳节目类别，包括：

S2-2、将综合类频道下各个节目，结合其节目名称中的关键词，分入相应的类别中；

所述步骤S2-1进一步包括，扫描数据条目，获取数据条目中的频道名称；若其属于专门类频道，则构成包含频道名称的元组，通过标签或索引的方式将各个元组与其对应的节目类别关联，建立一次分类知识库；若其不属于专门类频道，则继续执行步骤S2-2；

所述步骤S2-2进一步包括如下三部分：

2.根据权利要求1所述的方法，其特征在于，

所述步骤S1中对数据进行清洗，包括剔除不可用错误项以及修复可用错误项；

3.根据权利要求1所述的方法，其特征在于，

所述步骤S4中，依据归纳得到的节目类别对存储的数据条目进行分类进一步包括：

4.根据权利要求1所述的方法，其特征在于，

所述步骤S5中，在抽选用户前，统计各个用户的事件触发频次并设置抽样频次阈值；抽选用户时，根据事件触发频次及抽样频次阈值进行有选择抽样。

5.根据权利要求1所述的方法，其特征在于，

所述步骤S7中，生成行为模式图时，以事件标识作为节点、相邻事件先后顺序作为有向边，构建状态转移图，并设置初始频次阈值，删除状态转移图中出现频次低于初始频次阈值的边。

6.根据权利要求1所述的方法，其特征在于，

所述步骤S8提取体现偏好倾向的用户行为模式时，体现偏好倾向的用户行为模式包括浏览行为、时移节目播放行为和VOD点播行为。

7.根据权利要求1所述的方法，其特征在于，

所述步骤S9基于相应的存储数据进行用户行为识别时，识别结果包括用户行为模式名称、起止时间、经历时间、频道名称、节目名称、频道名称和节目名称所对应的节目类别及相应概率。