CN109033118B - 一种基于对象的动态数据判断方法及装置 - Google Patents
一种基于对象的动态数据判断方法及装置 Download PDFInfo
- Publication number
- CN109033118B CN109033118B CN201810500956.6A CN201810500956A CN109033118B CN 109033118 B CN109033118 B CN 109033118B CN 201810500956 A CN201810500956 A CN 201810500956A CN 109033118 B CN109033118 B CN 109033118B
- Authority
- CN
- China
- Prior art keywords
- submodule
- data
- network application
- release state
- state data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种明星发展方向的预测方法及装置,属于数据处理技术领域。所述方法包括:收集与对象相关的发布状态数据及动态关注数据;分析收集的发布状态数据及动态关注数据并为对象制定标签;根据制定的标签及对象的历史数据,判断对象的动态发展方向。本发明中,通过对对象相关的发布状态数据、发布状态数据对应的关注人员的留言数据以及关注人员的基本信息等大数据进行分析,从而判断对象的动态发展方向,对于人物而言,有助于了解自身情况,了解粉丝喜好,从而制作更受欢迎的作品;对于产品而言,有助于产品开发商了解用户的使用需求和关注点,从而研制更受用户喜爱的产品。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于对象的动态数据判断方 法及装置。
背景技术
近年来,随着人们生活水平的不断提高,文娱产业也随之快速发展,各种 影视作品走进人们的生活,不仅为人们的生活添加了乐趣,而且让人们看到了 很多新鲜事物。但不得不说的是,人们在观影、购物等的选择上,往往与影视 作品及广告中出现的明星人物有很大关系,人们在面对自己感兴趣的同一类型 的多个电影、电视剧时,常常会选择观看自己喜欢的明星出演的那一个,而且 购物时,也通常购买自己喜欢的明星所拍摄的广告中的物品。因而,对于明星 来说,充分了解粉丝的喜好,不仅能够出品更受欢迎的影视作品,更好的发展 自己,而且能够提高相关的收拾率、营业额等。但由于粉丝的数量众多,而且喜好各不相同,因而对于明星来说,正确的选择好的发展方向也是存在困难的。
目前,各行各业快速发展,竞争激烈,均面临发展方向的选择问题,而不 单单是文娱产业。
发明内容
为解决现有技术的不足,本发明提供一种基于对象的动态数据判断方法及 装置。
第一方面,本发明提供一种基于对象的动态数据判断方法,包括:
收集与对象相关的发布状态数据及动态关注数据;
分析所述发布状态数据及动态关注数据并为所述对象制定标签;
根据所述标签及所述对象的历史数据,判断所述对象的动态发展方向。
可选地,所述收集与对象相关的发布状态数据及动态关注数据,包括:
通过网络爬虫抓取与对象相关的网络应用账号中的发布状态数据、所述发 布状态数据对应的留言数据、所述与对象相关的网络应用账号中出现的其他网 络应用账号;
在所述其他网络应用账号中识别目标网络应用账号,并对所述目标网络应 用账号进行清洗得到有效网络应用账号;
收集所述有效网络应用账号对应的关注人员的基本信息,并在所述留言数 据中提取所述有效网络应用账号对应的关注人员的留言数据,将所述关注人员 的基本信息和所述关注人员的留言数据对应作为关注人员的动态关注数据。
可选地,所述分析所述发布状态数据及动态关注数据并为所述对象制定标 签,包括:
根据所述关注人员的基本信息对关注人员进行分类;
根据所述发布状态数据及所述关注人员的留言数据统计各类型的发布状态 数据的活跃度;
结合所述分类的结果及所述活跃度,对所述对象进行评分;
根据评分结果为所述对象制定标签。
可选地,所述根据所述关注人员的基本信息对关注人员进行分类,包括:
根据所述关注人员的基本信息中预设信息与数值标识的对应关系,构建各 关注人员对应的空间点坐标;
在构建的各空间点坐标中选择预设数量的点作为各类别的基准点,并将除 所述基准点外的各点作为待划分点;
依次将各待划分点作为当前待划分点,计算所述当前待划分点与各基准点 之间的欧式距离,并将所述当前待划分点划分至最小欧氏距离对应的基准点所 在的类别中。
可选地,所述根据所述标签及所述对象的历史数据,判断所述对象的动态 发展方向,包括:
根据所述对象的历史数据,确定所述的历史类型;
比对所述标签和所述历史类型的契合度,并根据所述契合度判断所述对象 的动态发展方向。
第二方面,本发明提供一种基于对象的动态数据判断装置,包括:
收集模块,用于收集与对象相关的发布状态数据及动态关注数据;
标定模块,用于分析所述收集模块收集的发布状态数据及动态关注数据并 为所述对象制定标签;
判断模块,用于根据所述标定模块制定的标签及所述对象的历史数据,判 断所述对象的动态。
可选地,所述收集模块包括:抓取子模块、识别子模块、清洗子模块、收 集子模块、提取子模块和作为子模块;
所述抓取子模块,用于通过网络爬虫抓取与对象相关的网络应用账号中的 发布状态数据、所述发布状态数据对应的留言数据、所述与对象相关的网络应 用账号中出现的其他网络应用账号;
所述识别子模块,用于在所述抓取子模块抓取的其他网络应用账号中识别 目标网络应用账号;
所述清洗子模块,用于对所述识别子模块识别的目标网络应用账号进行清 洗得到有效网络应用账号;
所述收集子模块,用于收集所述清洗子模块得到的有效网络应用账号对应 的关注人员的基本信息;
所述提取子模块,用于在所述抓取子模块抓取的留言数据中提取所述清洗 子模块得到的有效网络应用账号对应的关注人员的留言数据;
所述作为子模块,用于将所述收集子模块收集的关注人员的基本信息和所 述提取子模块提取的关注人员的留言数据对应作为关注人员的动态关注数据。
可选地,所述标定模块包括:分类子模块、统计子模块、评分子模块和制 定子模块;
所述分类子模块,用于根据所述收集子模块收集的关注人员的基本信息对 关注人员进行分类;
所述统计子模块,用于根据所述抓取子模块抓取的发布状态数据及所述提 取子模块提取的关注人员的留言数据统计各类型的发布状态数据的活跃度;
所述评分子模块,用于根据所述分类子模块的分类结果和所述统计子模块 得到的活跃度,对所述对象进行评分;
所述制定子模块,用于根据所述评分子模块的评分结果为所述对象制定标 签。
可选地,所述分类子模块包括:构建单元、选择单元、计算单元和划分单 元;
所述构建单元,用于根据所述收集子模块收集的关注人员的基本信息中预 设信息与数值标识的对应关系,构建各关注人员对应的空间点坐标;
所述选择单元,用于在所述构建单元构建的各空间点坐标中选择预设数量 的点作为各类别的基准点,并将除所述基准点外的各点作为待划分点;
所述计算单元,用于依次将各待划分点作为当前待划分点,计算所述当前 待划分点与所述选择单元选择的各基准点之间的欧式距离;
所述划分单元,用于将所述当前待划分点划分至所述计算单元计算的最小 欧氏距离对应的基准点所在的类别中。
可选地,所述判断模块包括:确定子模块、比对子模块和判断子模块;
所述确定子模块,用于根据所述对象的历史数据,确定所述对象的历史类 型;
所述比对子模块,用于比对所述标定模块制定的标签和所述确定子模块确 定的历史类型的契合度;
所述判断子模块,用于根据所述比对子模块得到的契合度判断所述对象的 动态发展方向。
本发明的优点在于:
本发明中的对象可以是人物(例如明星)也可以是产品(例如手机),通过 对与对象相关的发布状态数据、发布状态数据对应的关注人员的留言数据以及 关注人员的基本信息等大数据进行分析,来明确对象在关注人员中最受欢迎的 方向和特性,从而制定相应的标签,并结合制定的标签及对象的历史数据,判 断对象的动态发展方向。该方式中,对于人物而言,有助于其了解自身情况, 了解粉丝喜好,从而制作更受欢迎的作品;对于产品而言,有助于产品开发商 了解用户的使用需求和关注点,从而研制更受用户喜爱的产品。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:
附图1为本发明提供的一种基于对象的动态数据判断方法流程图;
附图2为本发明提供的另一种基于对象的动态数据判断方法流程图;
附图3为本发明提供的一种基于对象的动态数据判断装置组成框图;
附图4为本发明提供的一种基于对象的动态数据判断装置细化图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示 了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻 地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
根据本发明的实施方式,提供一种基于对象的动态数据判断方法,如图1 所示,包括:
步骤1:收集与对象相关的发布状态数据及动态关注数据;
其中,对象包括但不限于人物、产品,例如明星、手机。
根据本发明的实施方式,步骤1包括:
通过网络爬虫抓取与对象相关的网络应用账号中的发布状态数据、发布状 态数据对应的留言数据、与对象相关的网络应用账号中出现的其他网络应用账 号;
在抓取的其他网络应用账号中识别目标网络应用账号,并对目标网络应用 账号进行清洗得到有效网络应用账号;
收集有效网络应用账号对应的关注人员的基本信息,并在留言数据中提取 有效网络应用账号对应的关注人员的留言数据,将关注人员的基本信息和关注 人员的留言数据对应作为关注人员的动态关注数据。
其中,关注人员,例如为某明星的粉丝,某产品的用户等。
步骤2:分析收集的发布状态数据及动态关注数据并为对象制定标签;
根据本发明的实施方式,步骤2包括:
根据关注人员的基本信息对关注人员进行分类;
根据发布状态数据及关注人员的留言数据统计各类型的发布状态数据的活 跃度;
结合分类的结果及活跃度,对对象进行评分;
根据评分结果为对象制定标签。
其中,根据关注人员的基本信息对关注人员进行分类,包括:
根据关注人员的基本信息中预设信息与数值标识的对应关系,构建各关注 人员对应的空间点坐标;
在构建的各空间点坐标中选择预设数量的点作为各类别的基准点,并将除 基准点外的各点作为待划分点;
依次将各待划分点作为当前待划分点,计算当前待划分点与各基准点之间 的欧式距离,并将当前待划分点划分至最小欧氏距离对应的基准点所在的类别 中。
步骤3:根据制定的标签及对象的历史数据,判断对象的动态发展方向。
具体的,根据对象的历史数据,确定对象的历史类型;比对制定的标签和 确定的历史类型的契合度,并根据契合度判断对象的动态发展方向。
实施例二
根据本发明的实施方式,提供一种基于对象的动态数据判断方法,并以对 象为明星、关注人员为粉丝为例进行详细说明,如图2所示,包括:
步骤101:收集与明星相关的发布状态数据及粉丝的动态关注数据;
根据本发明的实施方式,步骤101包括:
步骤101-1:通过网络爬虫抓取与明星相关的网络应用账号中的发布状态数 据、发布状态数据对应的留言数据、与明星相关的网络应用账号中出现的其他 网络应用账号;
具体的,将与明星相关的网络应用账号中各预设位置的路径信息提供给网 络爬虫,网络爬虫抓取相应路径信息中的发布状态数据、发布状态数据对应的 留言数据及与明星相关的网络应用账号中出现的其他网络应用账号;
其中,与明星相关的网络应用账号例如:明星自己的微博账号、明星工作 室的微博账号及微信公众号等;预设位置例如:微博中的“微博”标题栏,其 中含有明星相关的发布状态数据及粉丝的留言数据;微博中的“粉丝”标题栏, 其中含有粉丝的微博账号;微信公众号的“关注者”标题栏,其中含有粉丝的 微信账号等。
步骤101-2:在抓取的其他网络应用账号中识别粉丝的网络应用账号,并对 粉丝的网络应用账号进行清洗得到有效网络应用账号;
其中,在抓取的其他网络应用账号中识别粉丝的网络应用账号,具体为: 在抓取的其他网络应用账号中,去除明星家属、其他明星等与明星关系密切的 人的账号,并将剩余的网络应用账号作为目标网络应用账号,即粉丝的网络应 用账号;本发明中,通过去除明星家属、其他明星等与明星关系密切的人的账 号,使得后续的分析数据更加客观。
进一步地,对粉丝的网络应用账号进行清洗得到有效网络应用账号,具体 为:在识别的粉丝的网络应用账号中查找与明星相关的网络应用账号的交互量 为零的网络应用账号并去除,得到有效网络应用账号;
更加具体的,获取与明星相关的网络应用账号的访问数据,分析获取的访 问数据得到各访问地址,将各访问地址与识别的各粉丝的网络应用账号的地址 进行比对,得到零访问次数的网络应用账号;分析抓取的留言数据得到零留言 次数的网络应用账号;将得到的零访问次数的网络应用账号及零留言次数的网 络应用账号中均含有的网络应用账号作为无效网络应用账号,在识别的各粉丝 的网络应用账号中去除无效网络应用账号,得到有效网络应用账号。
例如,某粉丝Q关注了某明星E的微博,但是却从未访问过明星E的微博 主页,而且从未在明星E的微博状态中留言,则误关注的可能性非常大,其对 于明星的标签制定没有任何意义。
本发明中,通过对识别的粉丝的网络应用账号进行清洗,去除无效的网络 应用账号,不但不会影响分析结果,而且能够降低后续分析的工作量,提高分 析效率。
步骤101-3:收集得到的有效网络应用账号对应的粉丝的基本信息,并在留 言数据中提取有效网络应用账号对应的粉丝的留言数据,将得到的粉丝的基本 信息和提取的粉丝的留言数据对应作为各粉丝的动态关注数据。
其中,收集得到的有效网络应用账号对应的粉丝的基本信息,具体为:根 据得到的各有效网络应用账号,获取绑定的各身份信息,并结合各有效网络应 用账号中的发布状态数据定位对应的粉丝的日常消费水平,将各粉丝的身份信 息和日常消费水平作为各粉丝的基本信息;
其中,身份信息包括:性别、年龄、所在地、职业等,其可根据需求自行 设定。
进一步的,在留言数据中提取有效网络应用账号对应的粉丝的留言数据, 具体为:在抓取的留言数据中,提取各有效网络应用账号的留言数据,得到对 应的粉丝的留言数据。
步骤102:分析收集的发布状态数据及粉丝的动态关注数据并为明星制定 标签;
根据本发明的实施方式,步骤102包括:
步骤102-1:根据收集的粉丝的基本信息对粉丝进行分类;
根据本发明的实施方式,步骤102-1包括:
步骤A1:根据收集的粉丝的基本信息中预设信息与数值标识的对应关系, 构建各粉丝对应的空间点坐标;
其中,预设信息、对应关系、及坐标中各元素对应的含义均可以根据需求 自行设定;
例如,在本实施例中,根据收集的粉丝的基本信息中的年龄、职业、日常 消费水平与数值标识的对应关系,并将年龄作为x轴,将职业作为y轴,将日 常消费水平作为z轴,构建各粉丝对应的空间点坐标;其中,对应关系包括: 年龄在10-24岁对应的数值标识为1,年龄在25-34岁对应的数值标识为2,年 龄在35-44岁对应的数值标识为3,年龄在45-60岁对应的数值标识为4,年龄 在60岁之后对应的数值标识为5;学生对应的数值标识为10,蓝领对应的数值 标识为20,白领对应的数值标识为30,金领对应的数值标识为40,无业人员对应的数值标识为50等;月均日常消费水平在3000元以下对应的数值标识为100, 月均日常消费水平在3000元以上10000元以下对应的数值标识为200,月均日 常消费水平在10000元以上20000元以下对应的数值标识为300;月均日常消费 水平在20000元以上对应的数值标识为400等;则对于一个36岁的白领,月均 日常消费水平在8000元的粉丝而言,其对应的空间点坐标为(3,30,200)。
步骤A2:在构建的各空间点坐标中选择预设数量的点作为各类别的基准点, 并将除基准点外的各点作为待划分点;
其中,预设数量及基准点的选取原则均可根据需求自行设定,例如坐标点 N(1,10,100)可以代表一类人群,则将其作为一个基准点;坐标点M(3, 40,400)可以代表第二类人群,则将其作为一个基准点,坐标点P(3,50,300) 可以代表第三类人群,则将其作为一个基准点。
步骤A3:依次将各待划分点作为当前待划分点,计算当前待划分点与各基 准点之间的欧式距离,并将当前待划分点划分至最小欧氏距离对应的基准点所 在的类别中。
例如,当前待划分点T与基准点N之间的欧式距离为d1,与基准点M之 间的欧式距离为d2,与基准点P之间的欧式距离为d3,且d2<d1<d3,则将 点C划分至基准点M所在的类别中。
步骤102-2:根据抓取的发布状态数据及提取的粉丝的留言数据统计各类型 的发布状态数据的活跃度;
根据本发明的实施方式,步骤102-2包括:
步骤B1:根据抓取的发布状态数据的内容对发布状态数据进行分类,得到 各类型的发布状态数据;
例如,将明星拍摄广告相关的发布状态数据作为一类,将明星拍摄电视剧 相关的发布状态数据作为一类,还可根据需求,将拍摄电视剧相关的发布状态 数据进行细分为偶像剧相关的发布状态数据、古装剧相关的发布状态数据等。
步骤B2:根据各状态发布数据对应的粉丝的留言数据,统计各类型的发布 状态数据的活跃度;
具体的,统计各类型的发布状态数据中各发布状态数据对应的留言数据的 总数量,根据统计的总数量定位对应类型的发布状态数据的活跃度;
例如,某明星偶像剧相关的发布状态数据对应的留言数据的总数量为3万, 古装剧相关的发布状态数据对应的留言数据的总数量为1万,品牌服装广告相 关的发布状态数据对应的留言数据的总数量为5万;活跃度的数值不超过1, 则定位偶像剧相关的发布状态数据的活跃度为0.5,定位古装剧相关的发布状态 数据的活跃度为0.2,定位品牌服装广告相关的发布状态数据的活跃度为0.7。
步骤102-3:结合分类的结果及统计的活跃度,对明星进行评分;
根据本发明的实施方式,步骤102-3具体包括:
步骤C1:确定抓取的各发布状态数据的留言数据对应的粉丝所属的粉丝类 别;
步骤C2,根据统计的各类别的发布状态数据的活跃度、各类别的发布状态 数据中留言数据对应的各粉丝所属的粉丝类别对应的权重,对明星在各类别的 发布状态数据对应的影视方向上进行评分;
评分公式为K=H+R1+R2…+Rn,其中,K为明星在某影视方向上的评 分,H为该影视方向对应类别的发布状态数据的活跃度,R1、R2…Rn为粉丝 1、粉丝2…粉丝n所属的粉丝类别对应的权重,1、2…n用于区分不同的 粉丝。
例如,某明星E的偶像剧相关的发布状态数据的活跃度为0.5,古装剧相关 的发布状态数据的活跃度为0.2,品牌服装广告相关的发布状态数据的活跃度为 0.7;偶像剧相关的发布状态数据中留言数据对应的粉丝包括(1,10,100,)、 (2,20,200)…(3,30,200),分别所属的粉丝类别对应的权重为0.1、0.2…0.4; 古装剧相关的发布状态数据中留言数据对应的粉丝包括(2,20,200)、(3,30, 200)…(4,30,300,),分别所属的粉丝类别对应的权重为0.2、0.4…0.6; 品牌服装广告相关的发布状态数据中留言数据对应的粉丝包括(2,30,300)、 (3,40,400)…(4,40,400,)分别所属的粉丝类别对应的权重为0.3、0.7…0.8;
该明星E在偶像剧方向上的评分=0.5+0.1+0.2…+0.4;
该明星E在古装剧方向上的评分=0.2+0.2+0.4…+0.6;
该明星E在品牌服装广告方向上的评分=0.7+0.3+0.7…+0.8。
本发明中,通过对粉丝数据进行分析,找到明星在粉丝中受欢迎的影视方 向,以为后续判断明星的动态发展方向提供数据支撑。
步骤102-4:根据评分结果为明星制定标签。
具体的,在各评分结果中选取较高的分值,并根据选取的分值对应的方向, 为明星制定标签。
例如,根据上述明星E的评分,其较高的分值为品牌服装和偶像剧对应的 评分,则对明星E制定的标签为服装和偶像剧。
步骤103:根据制定的标签及明星的先前影视数据,判断明星的动态发展 方向。
具体的,根据明星的先前影视数据,确定明星的先前影视类型;比对制定 的标签和确定的先前影视类型的契合度,并根据契合度判断明星的动态发展方 向。
例如,上述明星E的先前影视数据中古装剧和品牌服装广告较多、偶像剧 较少,则确定明星E先前的影视类型为:古装剧和服装,与制定的明星E的标 签“服装和偶像剧”的契合度为不完全契合,并预测明星E可以在未来多拍摄 一些偶像剧,以进一步提高人气,提高收视率;同时在服装广告上面持续发展。
本发明中,通过对粉丝的相关数据进行分析,确定受欢迎的方向,从而可 为明星的发展提供参考性建议,例如,适合拍摄什么样的广告,适合接什么样 的剧本,适合与什么样的品牌合作等等。
需要指出的,本发明中的方法,不限于判断明星的动态发展方向,还可应 用于其他人物、产品或事件;例如收集并分析某款手机的动态发布数据及用户 的动态关注数据,从而了解用户的使用需求及关注点,并结合用户所属的用户 类别,为该款手机进行多方向评分,以制定标签,进而判断该款手机未来的动 态发展方向。
实施例三
根据本发明的实施方式,提供一种基于对象的动态数据判断装置,如图3 所示,包括:
收集模块201,用于收集与对象相关的发布状态数据及动态关注数据;
标定模块202,用于分析收集模块201收集的发布状态数据及动态关注数据 并为对象制定标签;
判断模块203,用于根据标定模块202制定的标签及对象的历史数据,判断 对象的动态发展方向。
根据本发明的实施方式,如图4所示,收集模块201包括:抓取子模块、 识别子模块、清洗子模块、收集子模块、提取子模块和作为子模块,其中:
抓取子模块,用于通过网络爬虫抓取与对象相关的网络应用账号中的发布 状态数据、发布状态数据对应的留言数据、与对象相关的网络应用账号中出现 的其他网络应用账号;
识别子模块,用于在抓取子模块抓取的其他网络应用账号中识别目标网络 应用账号;
清洗子模块,用于对识别子模块识别的目标网络应用账号进行清洗得到有 效网络应用账号;
收集子模块,用于收集清洗子模块得到的有效网络应用账号对应的关注人 员的基本信息;
提取子模块,用于在抓取子模块抓取的留言数据中提取清洗子模块得到的 有效网络应用账号对应的关注人员的留言数据;
作为子模块,用于将收集子模块收集的关注人员的基本信息和提取子模块 提取的关注人员的留言数据对应作为关注人员的动态关注数据。
其中,与对象相关的网络应用账号例如为:某人物自己的微博账号、某人 物工作室的微博账号及微信公众号、某品牌的微博账号及微信公众号等;预设 位置例如:微博中的“微博”标题栏,其中含有与对象相关的发布状态数据及 关注人员的留言数据;微博中的“粉丝”标题栏,其中含有关注人员的微博账 号;微信公众号的“关注者”标题栏,其中含有关注人员的微信账号等。
根据本发明的实施方式,识别子模块具体用于:在抓取子模块抓取的其他 网络应用账号中,去除与对象关系密切的人的账号,并将剩余的网络应用账号 作为目标网络应用账号;
本发明中,通过去除与对象关系密切的人的账号,使得后续的分析数据更 加客观。
根据本发明的实施方式,清洗子模块具体用于:在识别子模块识别的目标 网络应用账号中查找与对象相关的网络应用账号的交互量为零的网络应用账号 并去除,得到有效网络应用账号。
本发明中,通过对识别的目标网络应用账号进行清洗,去除无效的网络应 用账号,不但不会影响分析结果,而且能够降低后续分析的工作量,提高分析 效率。
根据本发明的实施方式,收集子模块具体用于:根据清洗子模块得到的各 有效网络应用账号,获取绑定的各身份信息,并结合各有效网络应用账号中的 发布状态数据定位对应的关注人员的日常消费水平,将各关注人员的身份信息 和日常消费水平作为各关注人员的基本信息;其中,身份信息包括:性别、年 龄、所在地、职业等,其可根据需求自行设定。
根据本发明的实施方式,提取子模块具体用于:在抓取子模块抓取的留言 数据中,提取清洗子模块得到的各有效网络应用账号的留言数据,得到对应的 关注人员的留言数据。
根据本发明的实施方式,如图4所示,标定模块202包括:分类子模块、 统计子模块、评分子模块和制定子模块,其中:
分类子模块,用于根据收集子模块收集的关注人员的基本信息对关注人员 进行分类;
统计子模块,用于根据抓取子模块抓取的发布状态数据及提取子模块提取 的关注人员的留言数据统计各类型的发布状态数据的活跃度;
评分子模块,用于根据分类子模块的分类结果和统计子模块得到的活跃度, 对对象进行评分;
制定子模块,用于根据评分子模块的评分结果为对象制定标签。
根据本发明的实施方式,分类子模块包括:构建单元、选择单元、计算单 元和划分单元,其中:
构建单元,用于根据收集子模块收集的关注人员的基本信息中预设信息与 数值标识的对应关系,构建各关注人员对应的空间点坐标;
选择单元,用于在构建单元构建的各空间点坐标中选择预设数量的点作为 各类别的基准点,并将除基准点外的各点作为待划分点;
计算单元,用于依次将各待划分点作为当前待划分点,计算当前待划分点 与选择单元选择的各基准点之间的欧式距离;
划分单元,用于将当前待划分点划分至计算单元计算的最小欧氏距离对应 的基准点所在的类别中。
根据本发明的实施方式,统计子模块包括:分类单元和统计单元,其中:
分类单元,用于根据抓取子模块抓取的发布状态数据的内容对发布状态数 据进行分类,得到各类型的发布状态数据;
统计单元,用于根据抓取子模块抓取的各状态发布数据对应的关注人员的 留言数据,统计分类单元得到的各类型的发布状态数据的活跃度;
本发明中,统计单元具体用于:统计分类单元得到的各类型的发布状态数 据中各发布状态数据对应的留言数据的总数量,根据统计的总数量定位对应类 型的发布状态数据的活跃度。
根据本发明的实施方式,评分子模块包括:确定单元和评分单元,其中:
确定单元,用于确定抓取子模块抓取的各发布状态数据的留言数据对应的 关注人员所属的关注人员类别;
评分单元,用于根据统计单元统计的各类别的发布状态数据的活跃度、各 类别的发布状态数据中留言数据对应的各关注人员所属的关注人员类别的权重, 对对象在各类别的发布状态数据对应的发展方向上进行评分。
其中,评分公式为K=H+R1+R2…+Rn,其中,K为对象在某发展方向 上的评分,H为该发展方向对应类别的发布状态数据的活跃度,R1、R2…Rn 为关注人员1、关注人员2…关注人员n所属的关注人员类别的权重,1、2…n 用于区分不同的关注人员。
根据本发明的实施方式,制定子模块具体用于:在评分单元得到的各评分 结果中选取较高的分值,并根据选取的分值对应的方向,为对象制定标签。
根据本发明的实施方式,如图4所示,判断模块203包括:确定子模块、 比对子模块和判断子模块,其中:
确定子模块,用于根据对象的历史数据,确定明星的历史类型;
比对子模块,用于比对标定模块202制定的标签和确定子模块确定的历史 类型的契合度;
判断子模块,用于根据比对子模块得到的契合度判断对象的动态发展方向。
实施例四
根据本发明的实施方式,提供一种计算机可读存储介质,其上存储有计算 机程序,当该计算机程序被处理器执行时,实现本发明实施例一所述的方法。
本发明中的对象可以是人物(例如明星),还可以是产品(例如手机)等, 通过对与对象相关的发布状态数据、发布状态数据对应的关注人员的留言数据 以及关注人员的基本信息等大数据进行分析,来明确对象在关注人员中最受欢 迎的方向和特性,从而制定相应的标签,并结合制定的标签及对象的历史数据, 判断对象的动态发展方向。该方式中,对于人物而言,有助于其了解自身情况, 了解粉丝喜好,从而制作更受欢迎的作品;对于产品而言,有助于产品开发商 了解用户的使用需求和关注点,从而研制更受用户喜爱的产品。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易 想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护 范围应以所述权利要求的保护范围为准。
Claims (6)
1.一种基于对象的动态数据判断方法,其特征在于,包括:
收集与对象相关的发布状态数据及动态关注数据;
分析所述发布状态数据及动态关注数据并为所述对象制定标签;
根据所述标签及所述对象的历史数据,判断所述对象的动态发展方向;
其中,所述收集与对象相关的发布状态数据及动态关注数据,包括:
通过网络爬虫抓取与对象相关的网络应用账号中的发布状态数据、所述发布状态数据对应的留言数据、所述与对象相关的网络应用账号中出现的其他网络应用账号;
在所述其他网络应用账号中识别目标网络应用账号,并对所述目标网络应用账号进行清洗得到有效网络应用账号;
收集所述有效网络应用账号对应的关注人员的基本信息,并在所述留言数据中提取所述有效网络应用账号对应的关注人员的留言数据,将所述关注人员的基本信息和所述关注人员的留言数据对应作为关注人员的动态关注数据;
所述分析所述发布状态数据及动态关注数据并为所述对象制定标签,包括:
根据所述关注人员的基本信息对关注人员进行分类;
根据所述发布状态数据的内容对发布状态数据进行分类,得到各类型的发布状态数据;
根据各类型的发布状态数据的留言数据统计各类型的发布状态数据的活跃度;
结合各类型的发布状态数据的留言数据对应的关注人员所属分类对应的权重及各类型的发布状态数据的活跃度,对所述对象在各类型的发布状态数据对应的方向上进行评分;
根据各评分结果中最高分值对应的方向为所述对象制定标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关注人员的基本信息对关注人员进行分类,包括:
根据所述关注人员的基本信息中预设信息与数值标识的对应关系,构建各关注人员对应的空间点坐标;
在构建的各空间点坐标中选择预设数量的点作为各类别的基准点,并将除所述基准点外的各点作为待划分点;
依次将各待划分点作为当前待划分点,计算所述当前待划分点与各基准点之间的欧式距离,并将所述当前待划分点划分至最小欧氏距离对应的基准点所在的类别中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述标签及所述对象的历史数据,判断所述对象的动态发展方向,包括:
根据所述对象的历史数据,确定所述的历史类型;
比对所述标签和所述历史类型的契合度,并根据所述契合度判断所述对象的动态发展方向。
4.一种基于对象的动态数据判断装置,其特征在于,包括:
收集模块,用于收集与对象相关的发布状态数据及动态关注数据;
标定模块,用于分析所述收集模块收集的发布状态数据及动态关注数据并为所述对象制定标签;
判断模块,用于根据所述标定模块制定的标签及所述对象的历史数据,判断所述对象的动态;
其中,所述收集模块包括:抓取子模块、识别子模块、清洗子模块、收集子模块、提取子模块和作为子模块;
所述抓取子模块,用于通过网络爬虫抓取与对象相关的网络应用账号中的发布状态数据、所述发布状态数据对应的留言数据、所述与对象相关的网络应用账号中出现的其他网络应用账号;
所述识别子模块,用于在所述抓取子模块抓取的其他网络应用账号中识别目标网络应用账号;
所述清洗子模块,用于对所述识别子模块识别的目标网络应用账号进行清洗得到有效网络应用账号;
所述收集子模块,用于收集所述清洗子模块得到的有效网络应用账号对应的关注人员的基本信息;
所述提取子模块,用于在所述抓取子模块抓取的留言数据中提取所述清洗子模块得到的有效网络应用账号对应的关注人员的留言数据;
所述作为子模块,用于将所述收集子模块收集的关注人员的基本信息和所述提取子模块提取的关注人员的留言数据对应作为关注人员的动态关注数据;
所述标定模块包括:分类子模块、统计子模块、评分子模块和制定子模块;
所述分类子模块,用于根据所述收集子模块收集的关注人员的基本信息对关注人员进行分类;
所述统计子模块,用于根据所述抓取子模块抓取的发布状态数据及所述提取子模块提取的关注人员的留言数据统计各类型的发布状态数据的活跃度;
所述评分子模块,用于根据所述分类子模块的分类结果和所述统计子模块得到的活跃度,对所述对象进行评分;
所述制定子模块,用于根据所述评分子模块的评分结果为所述对象制定标签。
5.根据权利要求4所述的装置,其特征在于,所述分类子模块包括:构建单元、选择单元、计算单元和划分单元;
所述构建单元,用于根据所述收集子模块收集的关注人员的基本信息中预设信息与数值标识的对应关系,构建各关注人员对应的空间点坐标;
所述选择单元,用于在所述构建单元构建的各空间点坐标中选择预设数量的点作为各类别的基准点,并将除所述基准点外的各点作为待划分点;
所述计算单元,用于依次将各待划分点作为当前待划分点,计算所述当前待划分点与所述选择单元选择的各基准点之间的欧式距离;
所述划分单元,用于将所述当前待划分点划分至所述计算单元计算的最小欧氏距离对应的基准点所在的类别中。
6.根据权利要求4所述的装置,其特征在于,所述判断模块包括:确定子模块、比对子模块和判断子模块;
所述确定子模块,用于根据所述对象的历史数据,确定所述对象的历史类型;
所述比对子模块,用于比对所述标定模块制定的标签和所述确定子模块确定的历史类型的契合度;
所述判断子模块,用于根据所述比对子模块得到的契合度判断所述对象的动态发展方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500956.6A CN109033118B (zh) | 2018-05-23 | 2018-05-23 | 一种基于对象的动态数据判断方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500956.6A CN109033118B (zh) | 2018-05-23 | 2018-05-23 | 一种基于对象的动态数据判断方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033118A CN109033118A (zh) | 2018-12-18 |
CN109033118B true CN109033118B (zh) | 2021-06-29 |
Family
ID=64611685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810500956.6A Active CN109033118B (zh) | 2018-05-23 | 2018-05-23 | 一种基于对象的动态数据判断方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033118B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823894A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种产品受众特征抽取方法 |
CN103838819A (zh) * | 2013-12-20 | 2014-06-04 | 深圳指掌时代网络科技有限公司 | 一种信息发布方法及系统 |
CN104298719A (zh) * | 2014-09-23 | 2015-01-21 | 新浪网技术(中国)有限公司 | 基于社交行为进行用户的类别划分、广告投放方法和系统 |
CN106294532A (zh) * | 2016-05-18 | 2017-01-04 | 广东电网有限责任公司信息中心 | 基于微博情感分析的形象评价算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110258017A1 (en) * | 2010-04-15 | 2011-10-20 | Ffwd Corporation | Interpretation of a trending term to develop a media content channel |
-
2018
- 2018-05-23 CN CN201810500956.6A patent/CN109033118B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838819A (zh) * | 2013-12-20 | 2014-06-04 | 深圳指掌时代网络科技有限公司 | 一种信息发布方法及系统 |
CN103823894A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种产品受众特征抽取方法 |
CN104298719A (zh) * | 2014-09-23 | 2015-01-21 | 新浪网技术(中国)有限公司 | 基于社交行为进行用户的类别划分、广告投放方法和系统 |
CN106294532A (zh) * | 2016-05-18 | 2017-01-04 | 广东电网有限责任公司信息中心 | 基于微博情感分析的形象评价算法 |
Non-Patent Citations (1)
Title |
---|
"大数据背景下手机电视的发展策略";冯运生;《编辑学刊》;20150715;第48-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109033118A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107894998B (zh) | 视频推荐方法及装置 | |
CN106776619B (zh) | 用于确定目标对象的属性信息的方法和装置 | |
CN105160008B (zh) | 一种定位推荐用户的方法及装置 | |
US20130297608A1 (en) | Content presentation device, content presentation terminal, content presentation system, content presentation program, and content presentation method | |
US20130298159A1 (en) | System and method for allocating advertisements | |
CN109711890B (zh) | 一种用户数据处理方法及其系统 | |
CN110035314A (zh) | 信息的展示方法和装置、存储介质、电子装置 | |
JP5002441B2 (ja) | マーケティングデータ分析方法、マーケティングデータ分析システム、データ分析サーバ装置およびプログラム | |
CN107909443A (zh) | 信息推送方法、装置及系统 | |
CN110881134B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108509893A (zh) | 基于微表情识别的影视评分方法、存储介质及智能终端 | |
WO2022001122A1 (zh) | 数据处理方法、装置、设备以及存储介质 | |
CN113505301A (zh) | 一种信息查询方法及其相关设备 | |
KR101976056B1 (ko) | 추천 시스템 및 추천 방법 | |
CN108810577B (zh) | 一种用户画像的构建方法、装置及电子设备 | |
CN107506441A (zh) | 一种数据排列方法、装置、电子设备以及存储介质 | |
CN110267057A (zh) | 一种直播数据的分类的方法及装置 | |
US11587122B2 (en) | System and method for interactive perception and content presentation | |
CN109033118B (zh) | 一种基于对象的动态数据判断方法及装置 | |
CN104394435B (zh) | 数字机顶盒开机检测方法和装置 | |
CN112837108A (zh) | 信息处理方法、装置及电子设备 | |
Vandecasteele et al. | Spott: On-the-spot e-commerce for television using deep learning-based video analysis techniques | |
CN115049962A (zh) | 视频服饰检测方法、装置及设备 | |
Arya et al. | Predicting behavioural patterns in discussion forums using deep learning on hypergraphs | |
Turov et al. | Digital signage personalization through analysis of the visual information about viewers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 100029 Third Floor of Yansha Shengshi Building, 23 North Third Ring Road, Xicheng District, Beijing Patentee after: GUOZHENGTONG TECHNOLOGY Co.,Ltd. Address before: 100195 Haidian District, Beijing, 18 apricot Road, No. 1 West Tower, four floor. Patentee before: GUOZHENGTONG TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |