CN105323601A - 基于多屏用户行为数据的人员属性标识方法 - Google Patents
基于多屏用户行为数据的人员属性标识方法 Download PDFInfo
- Publication number
- CN105323601A CN105323601A CN201410344200.9A CN201410344200A CN105323601A CN 105323601 A CN105323601 A CN 105323601A CN 201410344200 A CN201410344200 A CN 201410344200A CN 105323601 A CN105323601 A CN 105323601A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- analysis
- algorithm
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明主要解决的是面对越来越灵活的双向新媒体业务,通过双向网络及互联网的信息回传优势,将DVB双向终端、IPTV、OTT、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据,通过HDFS分布式存储,ETL提取转换加载,利用算法处理模块及多维度分析模块,将海量多屏用户行为数据进行多维度分析,通过分析用户的行为趋势,来了解用户的不同属性,并进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓。
Description
技术领域
本发明属于数据处理领域,尤其涉及一种基于多屏用户行为数据的人员属性标识方法。
背景技术
随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD(VideoOnDemand)即视频点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。同时,随着互联网的普及,基于互联网视频业务的OTT(OverTheTop,指通过互联网向用户提供各种应用服务)、IPTV(交互式网络电视)、智能电视、手机及平板电脑等智能终端的市场占有率都呈现快速增长趋势。
从最终用户的角度来说,用户获取视频内容的渠道已经从单屏(电视机第一大屏)逐步向多屏获取的方向发展。而无论是业务推广,还是广告投放,或是信息宣传都需要了解用户的属性,用户的具体属性决定了业务、广告、信息等投放内容是否能够有效传递至最终用户。
传统的抽样调查方法,是利用统计学原理,将众多用户按照一定的规则和比例进行分类,并从中抽取一定量的样本户,通过对这些样本户基本信息的深入调查来获取样本户的基本属性,从而推及全体,即每一个样本户的基本属性信息都代表了一定数量的用户属性。
但传统的抽样调查方法由于同一样本属性的用户还存在不同的习惯、兴趣爱好等差异化情况,故调查结果会存在较大的误差,直接影响到最终的业务、广告、信息的投放传递效果,如果要减少误差范围,就需要将调查精度及广度进行大幅度提升,而这样会直接增加调查难度和调查成本。而进行上百万、上千万、甚至上亿用户的全样本调查,其调查难度可想而知,所需的调查成本将是一个天文数字。
如何以最经济的投入,快速有效地、精确地获取最终用户的属性信息,成为了传媒行业丞待解决的问题。
发明内容
本发明主要解决的是面对越来越灵活的双向新媒体业务,通过双向网络及互联网的信息回传优势,将DVB(DigitalVideoBroadcasting)双向终端、IPTV、OTT、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据,通过HDFS(HadoopDistributedFileSystem)分布式存储,ETL(Extract-Transform-Load)提取转换加载,利用算法处理模块及多维度分析模块,将海量多屏用户行为数据进行多维度分析,通过分析用户的行为趋势,来了解用户的不同属性,并进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓。
通过该方法可利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,并快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。同时可以根据分析得出的用户人员轮廓及其行为趋势,实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
附图说明
图1为本发明实施例提供的基于多屏用户行为数据的人员属性标识方法的实现流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
如图1所示,为本发明实施例提供的基于多屏用户行为数据的人员属性标识方法的实现流程图,详述如下:
在步骤S1中,首先将通过双向网络及互联网的信息回传优势,将DVB双向终端、IPTV、OTT、智能电视、手机、平板电脑等智能终端用户的多屏行为数据进行采集,并融合时间数据、频道数据、节目数据、广告数据等基本信息数据及第三方采集系统获取到的用户聊天数据、电视数据、论坛发贴、搜索记录、网址访问等非视频行为数据;
在步骤S2中,通过HDFS分布式存储模块进行三备份分布式存储;
在步骤S3中,由ETL模块完成对海量行为数据的提取、转化及加载,即将不符合用户行为特点规律的数据进行剔除,将过滤后较为零散的、较为混乱的原始数据进行标准格式的转化,并加载在固定的数据表中;
在步骤S4中,然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用基本统计分析算法,例如描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法、修正收视媒体指标分析方法等,得到需要标识用户的群体特点;再利用高级数据分析算法,例如关联规则挖掘涉及的Apriori算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCH、CURE、DBSCAN,等并结合第一步计算得到的群体特点参考,对用户行为特点聚类、分类;从视频观看内容以及第三方数据中,利用智能关联规则挖掘算法、节目评估模型以及内容关键词作为关联标签一并计入。,经过上述处理之后,可以得到时间、社交、偏好、行为、价值、空间、兴趣等的多维度分析,以得出用户的行为趋势及其属性,并利用群体特点、行为分类以及内容关键词对用户进行属性分类及属性标识,将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓;
在步骤S5中,由业务、广告、信息投放模块根据得出的用户人员轮廓及用户属性标识,进行精准定位及精准投放,以提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。
由于利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,同时由于采用了优化组合的算法包及数据模型进行海量的数据预处理操作,并进行多维度分析,使进行海量全样本调查成为可能,能快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。可以实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
通过该方法可利用运营商双向网络及互联网的信息回传优势,以最经济的投入获取海量用户的多屏行为数据,并快速有效地、精确地分析出用户属性信息,并得到用户的人员轮廓及其行为趋势。同时可以根据分析得出的用户人员轮廓及其行为趋势,实时为业务、广告、信息的投放及传递提供数据支撑及精准定位,提升业务、广告、信息的投放效果及传递效果,将获得的收益最大化。大大降低了海量用户属性调查难度及调查成本。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于多屏用户行为数据的人员属性标识方法,其特征在于:所述方法包括如下步骤:
A、将海量多屏用户行为数据进行采集,并融合基本信息数据及非视频行为数据;
B、通过分布式存储模块对步骤A中的数据进行三备份分布式存储;
C、通过ETL模块完成对海量行为数据的提取、转化及加载,然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用统计分析算法,包括描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法和/或修正收视媒体指标分析方法,或利用高级数据分析算法,包括关联规则挖掘涉及的Apriori算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCH、CURE、DBSCAN,神经网络算法和/或高维数据统计分析,或利用智能关联规则挖掘算法、节目评估模型和/或高级时间序列预测方法,通过将上述算法结合符合传媒行业的特点,进行算法间优化组合,形成特定的算法包及数据模型,针对转化后的海量行为数据进行数据的查询、分析、运算、模型演化等数据预处理操作,然后通过多维度分析模块,将预处理之后的海量多屏行为数据进行时间、社交、偏好、行为、价值、空间等的多维度分析,以得出用户的行为趋势及其属性,并对用户进行属性分类及属性标识;
D、将不同的用户标识不同属性的标签,通过标识不同的属性标签来获知用户的行为趋势,并抽象化得到趋近于最终用户行为趋势的人员轮廓,最后由业务、广告、信息投放模块根据得出的用户人员轮廓及用户属性标识。
2.如权利要求1所述的方法,其特征在于:所述多屏用户行为数据包括DVB双向终端、IPTV、OTT、智能电视、手机和/或平板电脑的多屏行为数据。
3.如权利要求1所述的方法,其特征在于:所述基本信息数据包括时间数据、频道数据、节目数据和/或广告数据。
4.如权利要求1所述的方法,其特征在于:所述非视频行为数据包括第三方采集系统获取到的用户聊天数据、电视数据、论坛发贴、搜索记录和/或网址访问。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410344200.9A CN105323601A (zh) | 2014-07-18 | 2014-07-18 | 基于多屏用户行为数据的人员属性标识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410344200.9A CN105323601A (zh) | 2014-07-18 | 2014-07-18 | 基于多屏用户行为数据的人员属性标识方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105323601A true CN105323601A (zh) | 2016-02-10 |
Family
ID=55250067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410344200.9A Pending CN105323601A (zh) | 2014-07-18 | 2014-07-18 | 基于多屏用户行为数据的人员属性标识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105323601A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105959745A (zh) * | 2016-05-25 | 2016-09-21 | 北京铭嘉实咨询有限公司 | 广告投放方法和系统 |
CN106372158A (zh) * | 2016-08-30 | 2017-02-01 | 百度在线网络技术(北京)有限公司 | 用户行为数据的处理方法及装置 |
CN106982393A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的采集汇聚方法 |
CN107295369A (zh) * | 2016-04-01 | 2017-10-24 | 尼尔森网联媒介数据服务有限公司 | 同源数据监测装置和方法 |
CN107741986A (zh) * | 2017-10-25 | 2018-02-27 | 广州优视网络科技有限公司 | 用户行为预测及相应信息推荐方法和装置 |
CN107908610A (zh) * | 2017-12-04 | 2018-04-13 | 北京中燕信息技术有限公司 | 一种数据处理方法及装置 |
CN108063977A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 用户数统计方法及装置 |
CN108063958A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 网络电视用户数据修正方法及装置 |
CN108462888A (zh) * | 2018-03-14 | 2018-08-28 | 江苏有线数据网络有限责任公司 | 用户电视及上网行为的智能关联分析方法及系统 |
CN110636344A (zh) * | 2018-06-22 | 2019-12-31 | 上海淘播播电子商务有限公司 | 一种基于新媒体多源跨屏数据分析的节目评估方法 |
CN111143129A (zh) * | 2019-12-24 | 2020-05-12 | 维沃移动通信有限公司 | 信息备份方法及电子设备 |
CN112799619A (zh) * | 2021-01-07 | 2021-05-14 | 恩亿科(北京)数据科技有限公司 | 一种跨屏创建方法及系统 |
US11200592B2 (en) * | 2016-01-25 | 2021-12-14 | Adobe Inc. | Simulation-based evaluation of a marketing channel attribution model |
CN114661947A (zh) * | 2022-03-15 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 偏好差异检测方法、装置、电子设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214207A1 (en) * | 2006-03-09 | 2007-09-13 | Fengzhou Xie | Method and system for accurate issuance of data information |
CN102592236A (zh) * | 2011-12-28 | 2012-07-18 | 北京品友互动信息技术有限公司 | 一种互联网广告人群分析系统和分析方法 |
CN103177380A (zh) * | 2013-02-26 | 2013-06-26 | 北京集奥聚合科技有限公司 | 结合用户群与预投放的广告投放效果的优化方法和装置 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN103686236A (zh) * | 2013-11-19 | 2014-03-26 | 乐视致新电子科技(天津)有限公司 | 推荐视频资源的方法及系统 |
CN103854206A (zh) * | 2014-03-06 | 2014-06-11 | 北京品友互动信息技术有限公司 | 一种分析人群特征的方法和设备 |
-
2014
- 2014-07-18 CN CN201410344200.9A patent/CN105323601A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070214207A1 (en) * | 2006-03-09 | 2007-09-13 | Fengzhou Xie | Method and system for accurate issuance of data information |
CN102592236A (zh) * | 2011-12-28 | 2012-07-18 | 北京品友互动信息技术有限公司 | 一种互联网广告人群分析系统和分析方法 |
CN103177380A (zh) * | 2013-02-26 | 2013-06-26 | 北京集奥聚合科技有限公司 | 结合用户群与预投放的广告投放效果的优化方法和装置 |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN103686236A (zh) * | 2013-11-19 | 2014-03-26 | 乐视致新电子科技(天津)有限公司 | 推荐视频资源的方法及系统 |
CN103854206A (zh) * | 2014-03-06 | 2014-06-11 | 北京品友互动信息技术有限公司 | 一种分析人群特征的方法和设备 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11200592B2 (en) * | 2016-01-25 | 2021-12-14 | Adobe Inc. | Simulation-based evaluation of a marketing channel attribution model |
CN107295369A (zh) * | 2016-04-01 | 2017-10-24 | 尼尔森网联媒介数据服务有限公司 | 同源数据监测装置和方法 |
CN105959745A (zh) * | 2016-05-25 | 2016-09-21 | 北京铭嘉实咨询有限公司 | 广告投放方法和系统 |
CN105959745B (zh) * | 2016-05-25 | 2019-10-22 | 北京铭嘉实咨询有限公司 | 广告投放方法和系统 |
CN106372158A (zh) * | 2016-08-30 | 2017-02-01 | 百度在线网络技术(北京)有限公司 | 用户行为数据的处理方法及装置 |
CN108063977A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 用户数统计方法及装置 |
CN108063977B (zh) * | 2016-11-08 | 2020-08-21 | 北京国双科技有限公司 | 用户数统计方法及装置 |
CN108063958A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 网络电视用户数据修正方法及装置 |
CN108063958B (zh) * | 2016-11-08 | 2020-10-13 | 北京国双科技有限公司 | 网络电视用户数据修正方法、装置、存储介质及处理器 |
CN106982393B (zh) * | 2017-03-21 | 2019-09-27 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的采集汇聚方法 |
CN106982393A (zh) * | 2017-03-21 | 2017-07-25 | 上海星红桉数据科技有限公司 | 基于海量跨屏收视行为数据的采集汇聚方法 |
CN107741986B (zh) * | 2017-10-25 | 2021-12-24 | 阿里巴巴(中国)有限公司 | 用户行为预测及相应信息推荐方法和装置 |
CN107741986A (zh) * | 2017-10-25 | 2018-02-27 | 广州优视网络科技有限公司 | 用户行为预测及相应信息推荐方法和装置 |
CN107908610A (zh) * | 2017-12-04 | 2018-04-13 | 北京中燕信息技术有限公司 | 一种数据处理方法及装置 |
CN108462888B (zh) * | 2018-03-14 | 2021-01-19 | 江苏有线数据网络有限责任公司 | 用户电视及上网行为的智能关联分析方法及系统 |
CN108462888A (zh) * | 2018-03-14 | 2018-08-28 | 江苏有线数据网络有限责任公司 | 用户电视及上网行为的智能关联分析方法及系统 |
CN110636344A (zh) * | 2018-06-22 | 2019-12-31 | 上海淘播播电子商务有限公司 | 一种基于新媒体多源跨屏数据分析的节目评估方法 |
CN111143129A (zh) * | 2019-12-24 | 2020-05-12 | 维沃移动通信有限公司 | 信息备份方法及电子设备 |
CN112799619A (zh) * | 2021-01-07 | 2021-05-14 | 恩亿科(北京)数据科技有限公司 | 一种跨屏创建方法及系统 |
CN114661947A (zh) * | 2022-03-15 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 偏好差异检测方法、装置、电子设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105323601A (zh) | 基于多屏用户行为数据的人员属性标识方法 | |
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
Verma et al. | Big data analytics: Challenges and applications for text, audio, video, and social media data | |
CN105447184B (zh) | 信息抓取方法及装置 | |
CN104809634B (zh) | 旅游数据调研与监测系统 | |
CN108648010B (zh) | 用于向用户提供内容的方法、系统及相应介质 | |
CN108462888B (zh) | 用户电视及上网行为的智能关联分析方法及系统 | |
CN110647512B (zh) | 一种数据存储和分析方法、装置、设备和可读介质 | |
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
CN104936023A (zh) | 一种数字电视用户行为的大数据采集与分析方法及系统 | |
CN109597899B (zh) | 媒体个性化推荐系统的优化方法 | |
CN114371946B (zh) | 基于云计算和大数据的信息推送方法及信息推送服务器 | |
US20130339342A1 (en) | Method and system for displaying comments associated with a query | |
CN112364086A (zh) | 一种基于大数据平台的业务可视化方法及系统 | |
CN106658158B (zh) | 一种媒资数据的下发方法及下发装置 | |
CN114663132A (zh) | 一种基于实时用户画像的智能营销方法及装置 | |
EP2904577A1 (en) | Content analytics | |
CN118153964A (zh) | 基于大数据技术的供应商企业风险评估方法及系统 | |
CN106570174B (zh) | 运行于cmmb超级热点业务平台的大数据分析方法及系统 | |
CN106933971A (zh) | 一种基于科技服务的数据分析统计系统 | |
CN116501957A (zh) | 用户标签画像处理方法、用户画像系统、设备和存储介质 | |
Patel et al. | Using social big media for customer analytics | |
CN111556368B (zh) | Ab测试在ott tv的应用方法、系统及存储介质 | |
CN114841155A (zh) | 主题内容智能聚合方法、装置、电子设备及存储介质 | |
US20150100515A1 (en) | Customer data unification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160210 |
|
WD01 | Invention patent application deemed withdrawn after publication |