CN104363478B - 一种节目标签关联规则分析系统及方法 - Google Patents

一种节目标签关联规则分析系统及方法 Download PDF

Info

Publication number
CN104363478B
CN104363478B CN201410713438.4A CN201410713438A CN104363478B CN 104363478 B CN104363478 B CN 104363478B CN 201410713438 A CN201410713438 A CN 201410713438A CN 104363478 B CN104363478 B CN 104363478B
Authority
CN
China
Prior art keywords
program
label
program label
frequency
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410713438.4A
Other languages
English (en)
Other versions
CN104363478A (zh
Inventor
殷复莲
柴剑平
王妍
潘幸艺
路璐
王欣然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201410713438.4A priority Critical patent/CN104363478B/zh
Publication of CN104363478A publication Critical patent/CN104363478A/zh
Application granted granted Critical
Publication of CN104363478B publication Critical patent/CN104363478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种节目标签关联规则分析系统及方法。系统包括:节目标签采集单元,用于采集节目名称及其节目标签;输入单元,用于输入至少一个节目名称、空间区域、时间区域并生成调用指令;节目标签数据库,按照节目名称对节目标签进行汇总存储并接收调用指令导出节目标签数据源;节目播放收视数据库,将各节目播放信息和收看信息存储为播放收视数据源,并接收调用指令将其导出;收视空间构造单元,接收数据源构造具有节目标签收视空间;节目标签关联规则分析单元,分析节目标签的关联规则。本发明所述系统能够体现电视节目多重特点、数据反馈充足且准确产生节目标签的关联规则。

Description

一种节目标签关联规则分析系统及方法
技术领域
本发明涉及广播电视领域,更为具体地,涉及一种节目标签关联规则分析系统及方法。
背景技术
随着广播电视行业的发展以及电视资源的不断丰富,用户在收视过程中形成了不同的收视偏好。通过建立电视节目分类体系对用户收视行为进行分析成为了广电行业研究焦点。
现有技术中电视节目分类体系如图1所示,传统的电视节目分类是具有包含关系的树状结构,一个电视节目只能被分类到分类体系中的一种节目类型,过于注重节目所属类别,忽视了电视节目具有的多重特点,未能多维地体现节目内容。基于传统的电视节目分类体系,对用户收视行为进行分析,并不能准确全面的得到用户的收视偏好。
为了提高确定用户收视偏好的准确性,常采用关联规则对收视情况进行分析。关联规则分析,就是对事务数据库中的对象,分析发掘对象之间某种关联关系的规则,它侧重于确定数据不同的属性域之间的联系,找出满足特定要求的数据属性域之间的相互关系。具体地,针对某一例电视剧的问卷调查,或为对传统节目分类中大类的喜好问卷调查,前者数据范围过于窄小,缺乏代表性;后者数据范围过于宽泛,体现特点不足。同时,通过问卷调研获得观众的收视数据,其分析结果依赖于抽样调查的样本是否具有代表性。为了克服上述缺点,现有技术中采用对机顶盒数据的采集获得观众的收视数据,采用传统节目分类体系中范围较大的新闻类、电视剧类等对上述收视数据的单一收视指标进行关联规则分析,例如,对电视剧类的电视节目的收视率、收视次数或者收视时长进行关联规则分析,主要存在以下几个缺点:
第一,分类过粗略对节目内容体现不足,只采用节目分类体系无法获得具体的节目内容信息,也无法为针对节目内容展开的观众偏好研究提供强有力的支持;
第二,节目分类体系采用单一标准,即,对某一节目进行分类时,一定要将该节目作为体系中的某一子类,其使得节目中多组特点被忽视,只能得到用户对所述一个子类的收视情况,并不能将它作为其他子类收视情况的依据,出现了节目内容被单一化的缺点,从而导致关联规则分析不准确。
发明内容
鉴于上述问题,本发明的目的是提供一种能够体现电视节目多重特点、数据反馈充足且准确产生关联规则的节目标签关联规则分析系统及方法。
根据本发明的一个方面,提供一种节目标签关联规则分析系统,包括:节目标签采集单元,用于从存储节目信息的数据库或者网站上采集节目名称及其节目标签,其中,节目标签是对电视节目内容的多角度概括;输入单元,用于输入确定广播电视用户收视偏好所需的至少一个节目名称、空间区域、时间区域并生成所述节目名称的节目标签数据源和上述空间区域和时间区域内所述节目名称的播放收视数据源调用指令;节目标签数据库,接收节目标签采集单元采集的节目标签并按照节目名称对其进行汇总存储,并接收输入单元的上述调用指令导出所述节目标签数据源;节目播放收视数据库,将各节目的播放信息和通过用户机顶盒的收视信号采集的用户对各节目的收看信息存储为播放收视数据源,并接收输入单元的上述调用指令导出所述播放收视数据源;收视空间构造单元,接收节目标签数据库调出的节目标签数据源和节目播放收视数据库调出的播放收视数据源构造具有节目标签的收视空间;节目标签关联规则分析单元,分析上述收视空间中各节目标签及其组合的支持度和置信度,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则。
根据本发明的另一个方面,提供一种节目标签关联规则分析方法,包括:通过节目标签采集单元采集节目名称及其节目标签,并按照节目名称对其进行汇总和存储;通过输入单元输入确定用户偏好所需的至少一个节目名称、空间区域、时间区域并生成上述空间区域和时间区域内所述节目名称的节目标签数据源和播放收视数据源的调用指令;根据输入单元的调用指令分别从节目标签数据库和节目播放收视数据库导出符合调用指令的节目标签数据源和播放收视数据源,并导入到收视空间构造单元;利用上述数据源构造具有节目标签的收视空间;对上述收视空间内的各节目标签及其组合的支持度和置信度进行分析,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则。
本发明所述节目标签关联规则分析系统及方法从多角度概括电视节目内容,体现了电视节目的多重特点,且分析的是电视节目多个节目标签的关联关系,得到的是具有较强关联关系的节目标签,所有包含上述节目标签的节目都产生关联规则,所以能够准确分析各节目的关联规则。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是现有技术电视节目树状分类结构的构成示意图;
图2是本发明节目标签关联规则分析系统的构成框图;
图3是本发明节目标签的示意图;
图4是本发明节目标签关联规则分析方法的流程图;
图5是本发明节目标签数据源构成方法的流程图;
图6是本发明节目标签关联规则产生方法的流程图;
图7是本发明节目标签的各组合频集的构造方法的流程图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图2是本发明节目标签关联规则分析系统的构成框图,如图2所示,本发明所述节目标签关联规则分析系统包括:
节目标签采集单元100,用于从存储节目信息的数据库或者网站上采集节目名称及其节目标签,其中,节目标签是对电视节目内容的多角度概括,每一个节目标签体现电视节目一个方面的特性,如图3所示,节目标签包括节目类型标签、年代标签、参加人员标签等,其中节目类型标签可以是新闻类、电视剧类、动漫类等;年代标签可以是古代、现代、抗日年代等;参加人员标签可以是演员、导演、编剧等;
输入单元120,用于输入确定广播电视用户收视偏好所需的至少一个节目名称、空间区域、时间区域并生成所述节目名称的节目标签数据源和上述空间区域和时间区域内所述节目名称的播放收视数据源调用指令,例如,输入单元输入的节目名称为“新闻联播”、空间区域为“北京市”、时间区域为“2013年-2014年”,则生成调用指令中的节目标签数据源为“新闻联播”的节目标签数据集合,调用指令中的播放收视数据源是北京市广播电视用户2013年至2014年对“新闻联播”的播放收视数据集合输入单元100可以是触摸屏、键盘、手写板、鼠标等具有书写或者确定功能的装置;
节目标签数据库110,接收节目标签采集单元100采集的节目标签并按照节目名称对其进行汇总存储,并接收输入单元的上述调用指令导出所述节目标签数据源,其中,以单个节目为例说明汇总存储的节目标签,如图3所示,以节目名称为中心的扁平化节目标签数据源,从多维角度体现节目内容,并不将节目只分到一个子类克服了现有节目分类体系分类过于粗略,对节目内容体现不足的缺点。
节目播放收视数据库130,将各节目的播放信息和通过用户机顶盒的收视信号采集的用户对各节目的收看信息存储为播放收视数据源,并接收输入单元的上述调用指令导出所述播放收视数据源;
收视空间构造单元140,接收节目标签数据库调出的节目标签数据源和节目播放收视数据库调出的播放收视数据源构造具有节目标签的收视空间;
节目标签关联规则分析单元150,分析上述收视空间中各节目标签及其组合的支持度和置信度,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则;
优选地,本发明所述节目标签装置还包括:节目单制定单元160,将产生关联规则的节目标签和节目标签组合排列形成电子节目单,例如,产生关联规则的节目标签为{"爱情"}{"古代"},节目标签组合为{"军旅""抗日年代"}{"农村""谍战"},说明节目标签【爱情】和【古代】具有较强的关联关系,节目标签【军旅】和【抗日年代】组合与【农村】和【谍战】组合具有较强的关联关系,即用户的收视偏好是古代爱情类电视节目和农村题材的谍战类抗日战争年代的军旅类节目,所以将【爱情】【古代】,【军旅】【抗日年代】【农村】【谍战】组合排列形成节目单;节目单发送单元170,将所述电子节目单通过短信、微信、APP、邮件发送给节目制作商、节目发行商,或者电视台,为制作节目或者播放节目提供决策支持。
本发明所述节目单制定系统利用节目标签采集单元使节目具有了多个节目标签,在节目标签关联规则中根据用户对节目标签或者其组合的兴趣度对产生关联规则,包括了所有包含产生关联规则的电视节目,关联规则分析准确。
图4是本发明节目标签关联规则分析方法的流程图,如图4所示,所述分群方法包括以下几个步骤:
首先,在步骤S400中,通过节目标签采集单元采集节目名称及其节目标签,并对其按照节目名称进行汇总和存储,即,将同一节目名称中从不同数据库或者网站采集得到的相同标签只保留一个,组成节目标签互不相同的该节目名称的标签集,具体地,利用正则表示法从广播电视公司已有的节目数据库或者利用网站API接口从网站上或者利用网络爬虫从视频网站上采集节目名称及其采集节目标签,或者上述三种方式任意组合采集节目标签。
然后,在步骤S410中,通过输入单元输入确定用户偏好所需的至少一个节目名称、空间区域、时间区域并生成上述空间区域和时间区域内所述节目标签的节目标签数据源和播放收视数据源的调用指令。
生成上述调用指令以后,在步骤S420中,根据输入单元的调用指令分别从节目标签数据库和节目播放收视数据库导出符合调用指令的节目标签数据源和播放收视数据源,并导入到收视空间构造单元,例如,输入单元输入的节目名为p1 … pm,则节目标签数据库导出的节目标签数据源Tag为,
B=[b1...bj]
其中,Tag表示节目标签集合,m表示节目的个数,p1 … pm为节目的名称,表示第1至m个节目,[tagm,1,…tagm,k]表示节目Pm的1至k个节目标签,k表示节目标签的个数,当节目标签不足k个时,为0;,为节目标签集合Tag中所有非零和非重叠节目标签的集合,j表示节目P1至Pm的节目标签的非零和非重叠个数,0<j≤mk。
节目播放收视数据库导出的播放收视数据源R为,
其中,R表示收视时长集合,n表示用户数目,Un表示第n个用户的用户名,Sn表示用户Un的收视矩阵,IDn,m表示用户Un收视记录编号,Pn,m表示用户Un收看的节目Pm,tvn,m表示用户Un收看的节目Pm的收视时长,Tn,m表示用户Un收看的节目Pm的播出时长,0<tvn,m≤Tn,m,矩阵中包含用户没有收看的节目,没收看节目的所有数据为0。
导入原始数据源以后,在步骤S430中,利用上述数据源构造具有节目标签的收视空间,以节目标签数据源Tag和播放收视数据源R为例说明上述收视空间的构成,将节目标签数据源Tag和播放收视数据源R按照节目名称进行汇总得到具有节目标签的收视空间,即节目标签收视数据源RTag,
其中,Sn'表示用户Un的节目标签收视矩阵。
构造了具有节目标签的收视空间以后,在步骤S440中,对上述收视空间内的节目标签进行关联规则分析,产生各节目标签的关联规则,其具体过程将在图6描述中详细说明。
优选地,本发明所述分群方法还包括:将产生关联规则的节目标签和标签组合排列形成节目单;将节目单发送给节目制作商、节目发行商、电视台。
另外,为了使节目标签能够从多角度全面概括广播电视节目,优选地,在步骤S400中,利用正则表示法、网站API接口和网络爬虫三种方式组合采集节目标签,具体地采集过程如图5所示,首先,在步骤S500中,利用正则表示法从广播电视公司已有的节目数据库采集节目名称及其节目标签,以体育节目为例说明上述采集过程,表1为匹配体育项目的正则表达式,
通过表中的表达式从节目数据库的众多体育项目的节目名称和节目单内容中匹配出体育项目文字和关于体育项目的热点文字,形成节目标签,如表2所示,
节目名 节目标签1 节目标签2
全运会游泳 体育类 冰上/水上运动
全运会特别报道 体育类 赛事特别报道
…… …… ……
同时,在步骤S510中,利用网站API接口从网站上获取节目名称及其节目标签,例如,豆瓣API、新浪微博、淘宝开放平台等许多网站对外界提供API接口,具体过程如下:首先向网站请求授权并获取访问令牌,通过此令牌连接授权数据,读入电视节目名称,使用电视节目名称搜索节目条目,读取上述条目中的电视节目信息,生成节目标签,如表3所示,
电视节目名称 标签1 标签2 标签3
爱情公寓 喜剧 爱情 都市
插翅难逃 剧情 动作 犯罪
弹孔 年代 军旅 战争
……
同时,在步骤S520中,利用网络爬虫从视频网站上采集节目名称及其节目标签采集节目标签,具体地,首先选取具有丰富节目信息的视频网站URL作为“种子”列表,使用电视节目名称作为搜索的关键词,运行网络爬虫程序对URL对应的网页内容下载解析生成上述节目名称的节目标签。
利用上述三种方法获得节目名称及其节目标签之后,在步骤S530中,按照节目名称汇总节目标签并存储,即,将利用上述三种方法从广播电视公司和各种网站上得到的相同节目名称和节目标签合并成一个存储到节目标签数据库。
本发明采用上述三种方式组合对节目名称及其节目标签进行采集,可对全体节目进行标注,为关联规则挖掘提供了全面的节目数据,克服了关联规则分析时数据范围过小、代表性不足的问题,并且本发明可适用于全网收视数据进行关联分析,避免了由于抽样操作带来的误差。
图6是本发明节目标签关联规则产生方法的流程图,如图6所示,所述节目标签关联规则的产生方法包括:
首先,在步骤S600中,扫描具有节目标签的收视空间,根据每一个非零和非重叠节目标签的支持度得到标签频集,例如,对节目标签收视数据源RTag进行扫描,节目标签bj的支持度support(bj)为:
其中,|bj|表示节目标签bj在节目标签收视数据集RTag中的出现频次,d为节目标签收视数据集RTag中的非零收视记录的总数,0<d≤(n*m);
如果support(bj)满足support(bj)>min sup,将bj作为一个元素纳入到标签频集FT,完成扫描后,得到标签频集FT,FT=[ft1 ... fta],其中,min sup为最小支持度阈值,满足0<min sup<1,是一个设定值;a为大于最小支持度阈值的节目标签的个数,0≤a≤j,ft1...fta表示节目标签的标签频集FT中的节目标签名称。
得到标签频集以后,在步骤S610中,扫描所述标签频集,得到上述节目标签频集中的节目标签的各种组合形式大于最小支持度阈值的各组合频集,构造各组合频集的方法将在图7的描述中详细说明;
得到标签频集和各组合频集以后,在步骤S620中,分别构造标签频集和各组合频集的非空真子集;
然后,在步骤S630中,根据标签频集、各组合频集及其非空真子集,计算每个非空真子集的置信度,例如,标签频集FT中真子集的t置信度为,
其中,|FT|表示节目标签组合FT在节目标签收视数据集RTag中的出现频次,|t|的为节目标签组合FT的非空真子集t在节目标签收视数据集RTag中的出现频次。
得到所有非空真子集的置信度以后,在步骤S640中,判断非空真子集的置信度是否大于最小置信度阈值。
若是非空真子集的置信度大于最小置信度阈值,在步骤S650中,产生关联规则:非空真子集其补集,说明产生关联规则的非空真子集中的节目标签或节目标签组合与该真子集的补集中的节目标签或者节目标签组合有较强的关联关系,例如,在上例中真子集的t置信度conf(t)>min conf,输出关联规则,即,真子集t中的节目标签与其补集(FT-t)中的节目标签有较强的关联关系,其中,min conf为最小置信度阈值,满足0<minconf<1,是一个设定值,又如,FT为{"军旅","抗日年代","农村"}三个节目标签组成的标签频集,若产生关联规则{"军旅""抗日年代"}{"农村"},说明节目标签【军旅】和【抗日年代】组合与节目标签【农村】具有较强的关联关系,即用户的收视偏好是农村题材的抗日战争年代的军旅类节目。
若真子集的置信度不大于最小置信度阈值,则不产生关联规则。
本发明关联规则分析的是电视节目多个节目标签的关联关系,得到的是具有较强关联关系的节目标签,所有包含上述节目标签的节目都产生关联规则,克服了广电领域中关联规则分析,分类过于粗略,对节目内容体现不足的缺点,所以能够准确分析各节目的关联规则。
图7是本发明节目标签的各组合频集的构造方法的流程图,如图7所示,本发明节目标签的各组合频集的构造方法包括:
首先,在步骤S700中,扫描标签频集,计算上述标签频中的任意两个节目标签组合的支持度,得到大于最小支持度阈值的两个节目标签组合的双组合频集,例如,标签频集FT=[ft1 ft2 ft3 ft4],计算两个节目标签组合[ft1 ft2]、[ft1 ft3]、[ft1 ft4]、[ft2 ft3]、[ft2 ft4]和[ft3 ft4]的支持度,如果除了组合[ft1 ft3]的支持度小于最小支持度阈值,其他都大于最小支持度阈值,得到双组合频集[ft1ft2 ft1ft4 ft2ft3 ft2ft4 ft3ft4],如果所有两个节目标签组合的支持度都不大于最小支持度,则不进行三个节目标签的组合及其支持度的计算。
得到双组合标签频集后,在步骤S710中,扫描双组合频集,将双组合频集中任意两个元素合并,将合并后的组合中包含元素数不为3的组合删去,得到三个节目标签的组合,例如,对上例中双组合频集[ft1ft2 ft1ft4 ft2ft3 ft2ft4 ft3ft4]的任意两个元素合并,得到合并后的组合为[ft1 ft2 ft4]、[ft1 ft2 ft3]、[ft1 ft2 ft3 ft4]和[ft2 ft3 ft4],删除包含元素数不为3的组合[ft1 ft2 ft3 ft4]。
得到由双组合频集中元素合并的三个节目标签的组合之后,在步骤S720中,判断上述每一个三个节目标签组合的具有两个元素的真子集是否均包含在双组合频集内,例如,上例中三个节目标签的组合[ft1 ft2 ft4]、[ft1 ft2 ft3]和[ft2 ft3 ft4],判断上述每一个组合的具有两个元素的真子集是否均包含在双组合频集内。
若是三个节目标签组合的具有两个元素的真子集不全包含在双组合频集内,在步骤S730中,则删除该三个节目标签组合,例如,上例中三个节目标签组合[ft1 ft2 ft3]的包含两个元素的真子集[ft1 ft3]不包含在双组合频集内,所以删除该三个节目标签的组合。
若是三个节目标签组合的具有两个元素的真子集均包含在双组合频集内,则执行步骤S740,计算满足上述要求的三个节目标签组合的支持度,得到大于最小支持度阈值的三个节目标签组合构成的三组合频集,例如,步骤S720的例子中,三个节目标签组合[ft1ft2 ft4]和[ft2 ft3 ft4]的包含两个元素的真子集均在双频组合频集内,计算上述两个组合的支持度,若两个支持度均大于最小支持度阈值,则三组合频集为[ft1ft2ft4ft2ft3ft4]。
然后,在步骤S750中,重复上述步骤,直到得到满足大于最小支持度阈值要求的标签频集中所有节目标签组合的组合频集。
本发明节目标签的各组合频集的构造方法采用了迭代的方法,减少了运算量,加快了运算速度。
综上所述,参照附图以示例的方式描述了根据本发明提出的节目标签关联规则分析系统及方法。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。

Claims (9)

1.一种节目标签关联规则分析系统,包括:
节目标签采集单元,用于从存储节目信息的数据库或者网站上采集节目名称及其节目标签,其中,节目标签是对电视节目内容的多角度概括;
输入单元,用于输入确定广播电视用户收视偏好所需的至少一个节目名称、空间区域、时间区域并生成所述节目名称的节目标签数据源和上述空间区域和时间区域内所述节目名称的播放收视数据源调用指令;
节目标签数据库,接收节目标签采集单元采集的节目标签并按照节目名称对其进行汇总存储,并接收输入单元的上述调用指令导出所述节目标签数据源;
节目播放收视数据库,将各节目的播放信息和通过用户机顶盒的收视信号采集的用户对各节目的收看信息存储为播放收视数据源,并接收输入单元的上述调用指令导出所述播放收视数据源;
收视空间构造单元,接收节目标签数据库调出的节目标签数据源和节目播放收视数据库调出的播放收视数据源构造具有节目标签的收视空间;
节目标签关联规则分析单元,分析上述收视空间中各节目标签及其组合的支持度和置信度,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则,
其中,所述支持度为:
其中,support(bj)为节目标签bj的支持度,|bj|表示节目标签bj在节目标签收视数据集RTag中的出现频次,d为节目标签收视数据集RTag中的非零收视记录的总数,0<d≤(n*m),
其中,所述置信度为:
其中,conf(t)为标签频集FT中真子集t的置信度,|FT|表示节目标签组合FT在节目标签收视数据集RTag中的出现频次,|t|为节目标签组合FT的 非空真子集t在节目标签收视数据集RTag中的出现频次。
2.根据权利要求1所述的系统,其中,所述节目标签关联规则分析系统还包括:节目单制定单元,将产生关联规则的节目标签和节目标签组合排列形成电子节目单。
3.根据权利要求2所述的系统,其中,所述节目标签关联规则分析系统还包括:节目单发送单元,将所述电子节目单通过短信、微信、APP、邮件发送给节目制作商、节目发行商、电视台。
4.一种节目标签关联规则分析方法,包括:
通过节目标签采集单元采集节目名称及其节目标签,并按照节目名称对其进行汇总和存储;
通过输入单元输入确定用户偏好所需的至少一个节目名称、空间区域、时间区域并生成上述空间区域和时间区域内所述节目名称的节目标签数据源和播放收视数据源的调用指令;
根据输入单元的调用指令分别从节目标签数据库和节目播放收视数据库导出符合调用指令的节目标签数据源和播放收视数据源,并导入到收视空间构造单元;
利用上述节目标签数据源和播放收视数据源构造具有节目标签的收视空间;
对上述收视空间内的各节目标签及其组合的支持度和置信度进行分析,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则,
其中,所述支持度为:
其中,support(bj)为节目标签bj的支持度,|bj|表示节目标签bj在节目标签收视数据集RTag中的出现频次,d为节目标签收视数据集RTag中的非零收视记录的总数,0<d≤(n*m),
其中,所述置信度为:
其中,conf(t)为标签频集FT中真子集t的置信度,|FT|表示节目标签组合FT在节目标签收视数据集RTag中的出现频次,|t|为节目标签组合FT的非空真子集t在节目标签收视数据集RTag中的出现频次。
5.根据权利要求4所述的方法,其中,所述节目标签关联规则分析方法还包括:将产生关联规则的节目标签和标签组合排列形成节目单。
6.根据权利要求5所述的方法,其中,所述节目标签关联规则分析方法还包括:将节目单发送给节目制作商、节目发行商、电视台。
7.根据权利要求4所述的方法,其中,所述通过节目标签采集单元采集节目名称及其节目标签的方法包括:利用正则表示法从广播电视公司已有的节目数据库或者利用网站API接口从网站上或者利用网络爬虫从视频网站上采集节目名称及其节目标签,或者上述三种方式任意组合采集节目标签。
8.根据权利要求4所述的方法,其中,所述对上述收视空间内的各节目标签及其组合的支持度和置信度进行分析,输出满足最小支持度和最小置信度要求的节目标签及其组合的关联规则的方法包括:
扫描具有节目标签的收视空间,将支持度大于最小支持度阈值的每一个非零和非重叠节目标签纳入到标签频集;
扫描所述标签频集,得到上述节目标签频集中的节目标签的各种组合形式大于最小支持度阈值的各组合频集;
分别构造标签频集和各组合频集的非空真子集;
根据标签频集、各组合频集及其非空真子集得到各非空真子集的置信度;
判断所述真子集的置信度是否大于最小置信度阈值;
如果大于最小置信度阈值,则产生关联规则:说明产生关联规则的非空真子集中的节目标签或节目标签组合与该真子集的补集中的节目标签或者节目标签组合有较强的关联关系;
如果不大于最小置信度阈值,则不产生关联规则。
9.根据权利要求8所述的方法,其中,所述扫描所述标签频集,得到上述节目标签频集中的节目标签的各种组合形式大于最小支持度阈值的各组合频集的方法包括:
扫描标签频集,计算上述标签频集中的任意两个节目标签组合的支持度,得到大于最小支持度阈值的两个节目标签组合的双组合频集;
扫描双组合频集,将双组合频集中任意两个元素合并,将合并后的组合中包含元素数不为3的组合删去,得到三个节目标签的组合;
判断上述每一个三个节目标签组合的具有两个元素的真子集是否均包含在双组合频集内;
若是三个节目标签组合的具有两个元素的真子集不全包含在双组合频集内,则删除该三个节目标签组合;
若是三个节目标签组合的具有两个元素的真子集均包含在双组合频集内,则计算满足上述要求的三个节目标签组合的支持度,得到大于最小支持度阈值的三个节目标签组合构成的三组合频集;
重复上述步骤,直到得到满足大于最小支持度阈值要求的标签频集中所有节目标签组合的组合频集。
CN201410713438.4A 2014-11-28 2014-11-28 一种节目标签关联规则分析系统及方法 Active CN104363478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410713438.4A CN104363478B (zh) 2014-11-28 2014-11-28 一种节目标签关联规则分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410713438.4A CN104363478B (zh) 2014-11-28 2014-11-28 一种节目标签关联规则分析系统及方法

Publications (2)

Publication Number Publication Date
CN104363478A CN104363478A (zh) 2015-02-18
CN104363478B true CN104363478B (zh) 2017-05-03

Family

ID=52530697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410713438.4A Active CN104363478B (zh) 2014-11-28 2014-11-28 一种节目标签关联规则分析系统及方法

Country Status (1)

Country Link
CN (1) CN104363478B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231354A (zh) * 2016-07-28 2016-12-14 青岛海信传媒网络技术有限公司 节目聚合方法及装置
CN108271075A (zh) * 2016-12-31 2018-07-10 深圳市优朋普乐传媒发展有限公司 节目的自动编排方法、系统和终端
CN107205168A (zh) * 2017-06-30 2017-09-26 环球智达科技(北京)有限公司 节目信息的聚合方法
CN110188241B (zh) * 2019-06-04 2023-07-25 成都索贝数码科技股份有限公司 一种赛事智能制作系统及制作方法
CN114095786A (zh) * 2021-11-17 2022-02-25 四川长虹电器股份有限公司 一种基于社区发现算法的智能电视用户家庭成员识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675384B1 (en) * 1995-12-21 2004-01-06 Robert S. Block Method and apparatus for information labeling and control
CN101677373A (zh) * 2008-09-19 2010-03-24 北京千术达投资有限公司 多媒体数字电视节目查询系统
CN101888503A (zh) * 2010-06-12 2010-11-17 中山大学 一种数字电视节目的分类检索方法
CN102523522A (zh) * 2011-12-15 2012-06-27 四川长虹电器股份有限公司 基于用户收视习惯的电视节目检索方法
CN103458275A (zh) * 2013-09-02 2013-12-18 深圳市茁壮网络股份有限公司 实时交互的数字电视资讯推荐系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA02005778A (es) * 1999-12-10 2002-09-18 United Video Properties Inc Funciones para ser utilizadas con aplicaciones avanzadas basadas en decodificadores de senales en disposiciones de television interactiva.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675384B1 (en) * 1995-12-21 2004-01-06 Robert S. Block Method and apparatus for information labeling and control
CN101677373A (zh) * 2008-09-19 2010-03-24 北京千术达投资有限公司 多媒体数字电视节目查询系统
CN101888503A (zh) * 2010-06-12 2010-11-17 中山大学 一种数字电视节目的分类检索方法
CN102523522A (zh) * 2011-12-15 2012-06-27 四川长虹电器股份有限公司 基于用户收视习惯的电视节目检索方法
CN103458275A (zh) * 2013-09-02 2013-12-18 深圳市茁壮网络股份有限公司 实时交互的数字电视资讯推荐系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Digital TV Program Recommendation System Based on Collaboration Filtering;Yin, FL 等;《9th International Conference on Bio-Inspired Computing - Theories and Applications (BIC-TA) 》;20141019;531-538 *
Digital TV Program Recommendation System Based on Latent Factor Model;Yin, FL etc;《International Conference on Advances in Materials Science and Information Technologies in Industry (AMSITI) 》;20140112;1692-1695 *

Also Published As

Publication number Publication date
CN104363478A (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
CN104363478B (zh) 一种节目标签关联规则分析系统及方法
WO2017096832A1 (zh) 媒体数据推荐方法及服务器
CN103218385B (zh) 服务器装置、信息终端和计算机可读记录介质
CN102073635B (zh) 节目端点时间检测装置和方法以及节目信息检索系统
US9442933B2 (en) Identification of segments within audio, video, and multimedia items
CN103686231B (zh) 影片的集成管理、失效替换与续播的方法及系统
CN102073864B (zh) 四层结构的体育视频中足球项目检测系统及实现
US8930976B2 (en) Context-based automatic selection of factor for use in estimating characteristics of viewers viewing same content
CN103226569A (zh) 一种视频提供方法、装置和系统
CN104754413A (zh) 基于图像搜索识别电视信号并推荐信息的方法和设备
JP4370850B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN102737029A (zh) 搜索方法及系统
CN103947214A (zh) 背景相关的交互式电视
CN102880712A (zh) 一种用于对搜索的网络视频进行排序的方法和系统
CN101681372A (zh) 将相关信息提供给本地网中的装置的用户的方法和系统
CN103052954A (zh) 推荐系统的基于简档内容检索
US9305215B2 (en) Apparatus, method and computer readable recording medium for analyzing video using image captured from video
US8712831B2 (en) Method and system for quantifying viewer awareness of advertising images in a video source
CN101944111B (zh) 新闻视频的搜索方法和装置
JP2012129979A (ja) 区間作成装置、区間作成方法、及び区間作成プログラム
CN105843876A (zh) 多媒体资源的质量评估方法和装置
CN103942275A (zh) 一种视频识别方法与设备
CN109508407A (zh) 融合时间与兴趣相似度的电视产品推荐方法
US8036932B2 (en) Method and system for valuing advertising content
CN104602040B (zh) 一种节目单制定系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant