CN108197271A - 一种基于大数据的影视作品市场分析方法 - Google Patents

一种基于大数据的影视作品市场分析方法 Download PDF

Info

Publication number
CN108197271A
CN108197271A CN201810008505.0A CN201810008505A CN108197271A CN 108197271 A CN108197271 A CN 108197271A CN 201810008505 A CN201810008505 A CN 201810008505A CN 108197271 A CN108197271 A CN 108197271A
Authority
CN
China
Prior art keywords
data
films
television programs
film
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810008505.0A
Other languages
English (en)
Inventor
王莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810008505.0A priority Critical patent/CN108197271A/zh
Publication of CN108197271A publication Critical patent/CN108197271A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明涉及一种基于大数据的影视作品市场分析方法,包括如下步骤:从社交网站获取数据;进行K‑Means聚类剔除异常数据;剔除异常数据的数据,构建一个分析流,进行多次K‑Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。剔除异常值,对数据进行一次K‑Means聚类,将剔除异常数据的数据构建一个分析流,用K‑Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。

Description

一种基于大数据的影视作品市场分析方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于大数据的影视作品市场分析方法。
背景技术
传统的数据分析方法和软件无法进行获取、加工和清洗的数据我们可以称之为大数据。大数据应用的关键在于数据获取变得更加便捷,数据仓库技术,可视化的分析结果。大数据犹如没有开发的“金矿”,可以开发和利用这些大数据为影视作品的投资决策提供数据支撑,运用在影视行业。
近年来,大数据在各行各业引领浪潮,成为重要的生产要素,在影视作品的生产过程中,需要大数据驱动创新,节目受众需求多样化需要大数据分析。
发明内容
本发明的目的在于,针对上述现有技术的问题,提供设计一种基于大数据的影视作品市场分析方法,以解决上述技术问题。
为了达到上述目的,本发明的技术方案是:
一种基于大数据的影视作品市场分析方法,包括如下步骤:
从社交网站获取数据;
进行K-Means聚类剔除异常数据;
剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。
进一步的, 在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。
进一步的,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。
进一步的, 从社交网站获取数据还包括利用python提取与设定数据指标匹配的字段,并存入ORACLE 数据库管理系统。
进一步的,步骤利用python提取与设定数据指标匹配的字段,并存入ORACLE 数据库管理系统还包括:将提取的与设定的数据指标匹配字段进行Z标准化,去除数据的单位限制,转化为无量纲的纯数值,并存入ORACLE 数据库管理系统。
进一步的, 进行K-Means聚类剔除异常数据包括:
剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,作为异常数据剔除。
进一步的,将剔除异常数据的数据构建一个分析流,用K-Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。
进一步的,所述分析流由节点组成,每个单独的节点就是一个函数或程序进行聚类分析。
进一步的, 该方法还包括使用分箱节点对离散型数据按其数值大小进行分段操作,对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策。
K-Means 聚类为了把现有的拥有样本的数据集分成各个相似度较高的簇,K值需要根据需求经验确定,可多次尝试不同的K值确定合适的K值。
当需要对一系列离散型数据按其数值大小进行分段操作时,使用分箱节点。用Clementine设置分箱节点对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策等。
本发明的有益效果在于,本发明通过大数据对应是作品进行市场分析,大为影视作品的投资决策提供数据支撑。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明提供的一种基于大数据的影视作品市场分析方法流程图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
如图1所示,本发明实施例提供的一种基于大数据的影视作品市场分析方法,包括如下步骤:
定义观影评论数据指标;
从社交网站获取数据,利用python提取与设定数据指标匹配的字段,将提取的与设定的数据指标匹配字段进行Z标准化,去除数据的单位限制,转化为无量纲的纯数值,并存入ORACLE 数据库管理系统;
进行K-Means聚类剔除异常数据,剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,作为异常数据剔除;
剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。
所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。
将剔除异常数据的数据构建一个分析流,用K-Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。
所述分析流由节点组成,每个单独的节点就是一个函数或程序进行聚类分析。
该方法还包括使用分箱节点对离散型数据按其数值大小进行分段操作,对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策。
ORACLE 数据库管理系统作为数据存放的工具,使用 Clementine数据挖掘工具,使用Python 高级程序设计语言,进行数据挖掘数据预处理。数据来源自豆瓣,时光网等网页网络观影人群对影视作品的评分。
数据的准备阶段,根据需求确定纳入分析的数据指标,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值,利用python提取这些字段,存放进数据库;
将上述提取的数据进行 Z 标准化,去除数据的单位限制,将其转化为无量纲的纯数值;
剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,该影片存在恶意刷好评或差评现象,作为异常数据剔除;
将剔除异常数据的数据纳入Clementine软件构建一个分析流,分析流由一
个个带有特定功能的节点组成, 然后用K-Means聚类算法或分层聚类演算法其中之一进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级,最后利用导出类型中的若干模块将数据存入目标文件。每个单独的节点就是一个函数或程序进行聚类分析;
K-Means 聚类为了把现有的拥有样本的数据集分成各个相似度较高的簇,K值需要自己根据需求经验确定,可多次尝试不同的K值确定合适的K值。
使用分箱节点对离散型数据按其数值大小进行分段操作,用Clementine设置分箱节点对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策等。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (9)

1.一种基于大数据的影视作品市场分析方法,其特征在于包括如下步骤:
从社交网站获取数据;
进行K-Means聚类剔除异常数据;
剔除异常数据的数据,构建一个分析流,进行多次K-Means聚类和设置分箱节点对影片评分和观影人群进行分析后将数据存入目标文件。
2.根据权利要求1所述的一种基于大数据的影视作品市场分析系统,其特征在于, 在进行步骤从社交网站获取数据之前,定义需要的观影评论数据指标。
3.根据权利要求2所述的一种基于大数据的影视作品市场分析方法,其特征在于,所述数据指标包括影片评价得分均值,影片被网友评分次数,评分网友平均年龄,评分网友性别分布,评论该影片的网友的评分次数的均值,评价该影片的网友所有评分得分均值的均值。
4.根据权利要求3所述的一种基于大数据的影视作品市场分析方法,其特征在于, 从社交网站获取数据还包括利用python提取与设定数据指标匹配的字段,并存入ORACLE 数据库管理系统。
5.根据权利要求4所述的一种基于大数据的影视作品市场分析方法,其特征在于,步骤利用python提取与设定数据指标匹配的字段,并存入ORACLE 数据库管理系统还包括:将提取的与设定的数据指标匹配字段进行Z标准化,去除数据的单位限制,转化为无量纲的纯数值,并存入ORACLE 数据库管理系统。
6.根据权利要求5所述的一种基于大数据的影视作品市场分析方法,其特征在于, 进行K-Means聚类剔除异常数据包括:
剔除异常值,对数据进行一次K-Means聚类,评论该影片的网友的评分次数的均值过高或过低,且评价该影片的网友所有评分得分均值的均值过高或过低,判断评论该影片的用户多为异常用户,作为异常数据剔除。
7.根据权利要求6所述的一种基于大数据的影视作品市场分析方法,其特征在于,将剔除异常数据的数据构建一个分析流,用K-Means聚类算法或分层聚类演算法进行聚类处理,并设置分箱节点对数据按观影人群年龄和评分分级后将数据存入目标文件。
8.根据权利要求7所述的一种基于大数据的影视作品市场分析方法,其特征在于,所述分析流由节点组成,每个单独的节点就是一个函数或程序进行聚类分析。
9.根据权利要求8所述的一种基于大数据的影视作品市场分析方法,其特征在于, 该方法还包括使用分箱节点对离散型数据按其数值大小进行分段操作,对数据按观影人群年龄和评分分级,分析观影人群的年龄分布等信息指导影视作品投资决策。
CN201810008505.0A 2018-01-04 2018-01-04 一种基于大数据的影视作品市场分析方法 Pending CN108197271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810008505.0A CN108197271A (zh) 2018-01-04 2018-01-04 一种基于大数据的影视作品市场分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810008505.0A CN108197271A (zh) 2018-01-04 2018-01-04 一种基于大数据的影视作品市场分析方法

Publications (1)

Publication Number Publication Date
CN108197271A true CN108197271A (zh) 2018-06-22

Family

ID=62588342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810008505.0A Pending CN108197271A (zh) 2018-01-04 2018-01-04 一种基于大数据的影视作品市场分析方法

Country Status (1)

Country Link
CN (1) CN108197271A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446275A (zh) * 2018-09-03 2019-03-08 厦门快商通信息技术有限公司 一种基于大数据的航空数据分析方法、设备及存储介质
CN110245688A (zh) * 2019-05-21 2019-09-17 中国平安财产保险股份有限公司 一种数据处理的方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103686231A (zh) * 2012-08-28 2014-03-26 财团法人工业技术研究院 影片的集成管理、失效替换与续播的方法及系统
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN104965823A (zh) * 2015-07-30 2015-10-07 成都鼎智汇科技有限公司 一种基于大数据的观点抽取方法
CN106055657A (zh) * 2016-06-03 2016-10-26 北京网智天元科技股份有限公司 用于特定人群的观影指数评价系统
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103686231A (zh) * 2012-08-28 2014-03-26 财团法人工业技术研究院 影片的集成管理、失效替换与续播的方法及系统
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN104965823A (zh) * 2015-07-30 2015-10-07 成都鼎智汇科技有限公司 一种基于大数据的观点抽取方法
CN106055657A (zh) * 2016-06-03 2016-10-26 北京网智天元科技股份有限公司 用于特定人群的观影指数评价系统
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446275A (zh) * 2018-09-03 2019-03-08 厦门快商通信息技术有限公司 一种基于大数据的航空数据分析方法、设备及存储介质
CN110245688A (zh) * 2019-05-21 2019-09-17 中国平安财产保险股份有限公司 一种数据处理的方法及相关装置

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN102364498B (zh) 一种基于多标签的图像识别方法
CN103237201B (zh) 一种基于社会化标注的案件视频研判方法
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN105095884B (zh) 一种基于随机森林支持向量机的行人识别系统及处理方法
CN101187927A (zh) 一种刑事案件的串并案智能分析方法
CN103955703A (zh) 一种基于朴素贝叶斯的医疗影像疾病分类方法
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN103425996A (zh) 一种并行分布式的大规模图像识别方法
CN103177266A (zh) 储藏物害虫智能识别系统
CN103324929B (zh) 基于子结构学习的手写中文识别方法
CN108197271A (zh) 一种基于大数据的影视作品市场分析方法
Gerhana et al. Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period
CN112579808A (zh) 数据标注处理方法及装置、系统
CN106326914B (zh) 一种基于svm的珍珠多分类方法
CN110866547A (zh) 基于多特征和随机森林的中药饮片自动分类系统及方法
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
CN110837859A (zh) 一种融合多维度医疗数据的肿瘤精细分类系统及方法
CN110111348A (zh) 一种基于双层模型的宫廷服饰龙纹自动分割方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN108846435A (zh) 自动确定聚类中心的用户影评密度峰值聚类方法
CN111180045B (zh) 一种从方剂信息中挖掘药对与功效关系的方法
CN112966727A (zh) 一种基于花朵特征的植物种类识别系统
CN108256434B (zh) 基于混淆矩阵的高层语义视频行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180622