CN109033286B - 数据统计方法和装置 - Google Patents

数据统计方法和装置 Download PDF

Info

Publication number
CN109033286B
CN109033286B CN201810765772.2A CN201810765772A CN109033286B CN 109033286 B CN109033286 B CN 109033286B CN 201810765772 A CN201810765772 A CN 201810765772A CN 109033286 B CN109033286 B CN 109033286B
Authority
CN
China
Prior art keywords
target monitoring
preset
search
data
monitoring object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810765772.2A
Other languages
English (en)
Other versions
CN109033286A (zh
Inventor
赵颖泽
罗金浩
崔树营
周栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cat Eyes Culture Media Co ltd
Original Assignee
Beijing Cat Eyes Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cat Eyes Culture Media Co ltd filed Critical Beijing Cat Eyes Culture Media Co ltd
Priority to CN201810765772.2A priority Critical patent/CN109033286B/zh
Publication of CN109033286A publication Critical patent/CN109033286A/zh
Application granted granted Critical
Publication of CN109033286B publication Critical patent/CN109033286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据统计方法和装置,该方法包括:提取目标监控对象的关键词;以关键词为搜索词在多个预设媒体平台上进行搜索,得到对应多个预设媒体平台的多组搜索结果;对多组搜索结果进行语义筛选,得到语义与目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;对每个预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;按照热度数据的类型对多个预设媒体平台的热度数据进行分类汇总,得到目标监控对象的多种类型的热度数据的统计数据。本发明能够降低人工统计的人力和时间成本,提升数据统计的准确度,以及使得统计结果的数据源更加全面。

Description

数据统计方法和装置
技术领域
本发明涉及大数据技术领域,特别是涉及一种数据统计方法和装置。
背景技术
随着大数据技术的不断发展,电影行业逐步进入到了数据驱动的时代,无论是电影发行方,还是演员的经纪人,都希望依靠大数据来指导电影宣发过程的推广效果。
在传统的数据统计方法中,片方需要在宣传活动之后利用人力去跟踪各个媒体对发行的电影的用户反馈,如观察与该电影相关的微博的转发量、该电影的百度搜索指数等,来评估宣传活动的宣传效果。但依赖人工统计数据的方法费时费力,而且在统计时所涉及的媒体也很难做到全面覆盖。
因此,相关技术中的数据统计方法普遍存在着耗时费力、统计结果的数据源不全面以及准确度低的问题。
发明内容
本发明提供了一种数据统计方法和装置,以解决相关技术中的数据统计方法所存在的耗时费力、统计结果的数据源不全面以及准确度低的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种数据统计方法,包括:
提取目标监控对象的关键词;
以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;
按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
根据本发明的另一方面,本发明还公开了一种数据统计装置,包括:
第一提取模块,用于提取目标监控对象的关键词;
搜索模块,用于以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
筛选模块,用于对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
第二提取模块,用于对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;
分类汇总模块,用于按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
与现有技术相比,本发明包括以下优点:
在本发明实施例中,通过提取目标监控对象的关键词,并在多个预设媒体平台上以所述关键词进行搜索,然后,对搜索结果进行语义筛选,将语义与目标监控对象的语义不匹配的搜索结果过滤掉,然后,提取筛选后得到的每个目标搜索结果的多种类型的预设热度指标,并对得到来自多个预设媒体平台的关于多种类型的预设热度指标的热度数据进行分类汇总,从而得到该目标监控对象的所述多种类型的热度数据的统计数据,该过程中实现了对目标监控对象的多种热度数据的自动统计,降低了人工统计的人力和时间成本,并且,通过直接对搜索结果进行过滤,以及提取过滤后的搜索结果的能够反映热度的用户行为数据,即各类预设热度指标,从而大大提升了数据统计的准确度;此外,该搜索结果来自于多个预设媒体平台,从而使得统计结果的数据源更加全面。
附图说明
图1是本发明的一种数据统计方法实施例的步骤流程图;
图2是本发明的另一种数据统计方法实施例的步骤流程图;
图3是本发明的一种数据统计装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种数据统计方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,提取目标监控对象的关键词;
可选地,所述目标监控对象的类型至少包括以下之一:
电影、电视剧、综艺、影视剧演员。
在一个示例中,可以从影视平台的热映列表、待映列表中确定需要监控宣传效果的电影、电视剧、综艺、影视剧演员,提取这些对象的关键词来作为本次热点数据统计时的搜索词。
就电影类型、电视剧类型、综艺类型的目标监控对象而言,它们的关键词可以是名称、别名、简称等等;就影视剧演员而言,它的关键词可以是姓名、别名、粉丝昵称、外号等。
因此,不论是哪种类型的目标监控对象,它的关键词的数量可以为一个或多个,优选多个。
此外,该目标监控对象的数量也可以是一个或多个,不同的目标监控对象之间的类型可以相同或不同。
可选地,本发明实施例的方法可以将提取的目标监控对象的关键词以字符串的形式存储。
这样,本发明实施例可以对多种类型的监控对象的热度数据进行全面、准确的自动统计,便于监控对象的发行方根据本发明实施例的统计数据来判断宣传活动的效果如何。
在一个示例中,该目标监控对象的类型为电影,那么该目标监控对象则可以是一部电影,例如目标监控对象为:电影《黑天鹅》。那么该目标监控对象的关键词可以包括黑天鹅。
步骤102,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
可选地,所述预设媒体平台的类型至少包括:
视频网站、搜索引擎网站、新闻网站、社交媒体网站、即时通讯应用程序、短视频应用程序。
在一个示例中,该多个预设媒体平台包括视频网站1、视频网站2、搜索引擎网站1、新闻网站1、社交媒体网站1(例如微博网站)、即时通讯应用程序1、短视频应用程序1。
那么可以在上述视频网站1、视频网站2、搜索引擎网站1、新闻网站1、社交媒体网站1(例如微博网站)、即时通讯应用程序1、短视频应用程序1中分别以“黑天鹅”为关键词进行搜索,则可以得到多组搜索结果:
第一组搜索结果:来自视频网站1的与黑天鹅有关的多种视频——视频列表;
第二组搜索结果:来自视频网站2的与黑天鹅有关的多种视频——视频列表;
第三组搜索结果:来自搜索引擎网站1的与黑天鹅有关的多种网页——网页列表;
第四组搜索结果:来自新闻网站1的与黑天鹅有关的多种新闻——新闻列表;
第五组搜索结果:来自微博网站的与黑天鹅有关的多种微博——微博列表;
第六组搜索结果:来自即时通讯程序1的与黑天鹅有关的多种文章——文章列表;
第七组搜索结果:来自短视频应用程序1的与黑天鹅有关的多种短视频——短视频列表。
可选地,在一个实施例中,在执行步骤102时,可以采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果。
其中,由于人工在各个预设媒体平台上输入关键词,然后点击搜索按钮进行搜索的步骤繁琐,且工作量大,因此,在本发明实施例中,可以利用能够模拟人工搜索的预设模拟搜索程序来将步骤101中的关键词输入到所述多个预设媒体平台上来进行搜索,并截取对应所述多个预设媒体平台的多组搜索结果,这样,可以在搜索任务量大时,提升搜索效率,节省搜索时间。
其中,该预设模拟搜索程序可以将步骤101提取的各个关键词逐个输入到各个预设媒体平台进行搜索,并从各个预设媒体平台获取多组搜索结果。
可选地,在一个实施例中,在步骤102之前,根据本发明实施例的方法还可以包括:
确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;
其中,对于上述实施例各种类型的预设媒体平台来说,其中,社交媒体网站、即时通讯应用程序以及短视频应用程序的搜索功能在使用时,必须是登录用户才可以使用搜索功能,因此,本发明实施例需要从多个预设媒体平台中确定出哪些目标预设媒体平台在使用搜索功能前需要进行身份认证,这里的目标预设媒体平台则包括微博网站、即时通讯应用程序1和短视频应用程序1。
采用预设模拟登录程序登录所述目标预设媒体平台。
其中,可以采用能够模拟人工登录的预设模拟登录程序来登录微博网站、即时通讯应用程序1和短视频应用程序1,然后,才可以执行步骤102,即使用预设模拟搜索程序来在多个预设媒体平台上进行关键词的搜索。
其中,该预设模拟登录程序,可以预先以用户身份注册目标预设媒体平台,从而生成目标预设媒体平台的注册用户信息,然后,再使用注册用户信息模拟用户来在各个目标预设媒体平台上进行登录。
这样,本发明实施例通过预设模拟登录程序可以在需要进行身份认证通过后才可以使用搜索功能的目标预设媒体平台上模拟用户的登录,从而可以从登录用户才可见的搜索结果中来统计目标监控对象的热度数据,使得统计数据更加全面。
步骤103,对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
由于以关键词搜索出的内容可能与目标监控对象,例如预期的电影、电视剧、综艺作品的内容并不相关。
例如目标监控对象为电影《黑天鹅》,则每组搜索结果中都可能出现与电影黑天鹅无关的,而与黑天鹅这个词有关的搜索结果,例如黑天鹅蛋糕的相关搜索结果、黑天鹅动物的相关搜索结果。
因此,为了提升对电影《黑天鹅》的热度数据的统计结果的准确度,需要各个预设媒体平台的各组搜索结果进行语义筛选,排除语义与“电影《黑天鹅》”的语义匹配度小于预设阈值(例如90%)的搜索结果,只保留语义与“电影《黑天鹅》”的语义匹配度大于或等于预设阈值(例如90%)的搜索结果(即语义与目标监控对象的语义相匹配的目标搜索结果)。
这样,通过对上述七组搜索结果进行语义筛选,使得每组搜索结果中的搜索结果都得到了语义筛选,从而得到七组筛选结果,其中,每组筛选结果包括筛选后的语义与目标监控对象的语义相匹配的多个目标搜索结果。
这样,七组筛选结果如下:
第一组搜索结果:来自视频网站1的语义与电影黑天鹅匹配的多种视频——视频筛选结果列表;
第二组搜索结果:来自视频网站2的语义与电影黑天鹅匹配的多种视频——视频筛选结果列表;
第三组搜索结果:来自搜索引擎网站1的语义与电影黑天鹅匹配的多种网页——网页筛选结果列表;
第四组搜索结果:来自新闻网站1的语义与电影黑天鹅匹配的多种新闻——新闻筛选结果列表;
第五组搜索结果:来自微博网站的语义与电影黑天鹅匹配的多种微博——微博筛选结果列表;
第六组搜索结果:来自即时通讯程序1的语义与电影黑天鹅匹配的多种文章——文章筛选结果列表;
第七组搜索结果:来自短视频应用程序1的语义与电影黑天鹅匹配的多种短视频——短视频筛选结果列表。
步骤104,对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;
由于各个预设媒体平台的搜索结果的内容格式千差万别,难以被程序统一识别处理,因此,需要从各个预设媒体平台的各个筛选结果列表中提取出多种类型的预设热度指标。
其中,预设热度指标为搜索结果携带的可以反映目标监控对象的热度的用户行为数据。在本发明实施例中,预设热度指标的类型可以包括:当日浏览量、当日搜索量、当日转发量、当日评论量、当日讨论量。
其中,对于当日浏览量指标而言,如果搜索结果的类型为网页、新闻、文章,则该当日浏览量指标还可以体现为当日阅读量指标;如果搜索结果的类型为短视频、视频,则该当日浏览量指标还可以体现为当日播放量指标。
其中,对于该当日讨论量这个热度指标,一般情况下,只有微博网站的搜索结果为话题时,搜索结果具有该类型的热度指标。
在一个示例中,对于上述七组筛选结果列表中的每组筛选结果列表而言,其都包括多个筛选后的多个目标搜索结果,因此,可以对每组筛选结果中的每个目标搜索结果均提取上述多种类型的预设热度指标(例如当日浏览量、当日搜索量、当日转发量、当日评论量),使得每个目标搜索结果都有多种类型的热度数据(当日浏览量数值、当日搜索量数值、当日转发量数值、当日评论量数值)。
可选地,可以将7个预设媒体平台的七组筛选结果列表中每个目标搜索结果的多种类型的热度数据转换为格式化数据,存储于数据库中。
例如,可以在数据库中创建如表1所示的数据表,这里示意性的示出了视频网站1和视频网站2的各类预设热度指标的数值,对其他预设媒体平台的目标搜索结果的各类预设指标的数值省略,存储方式类似,因此,这里未示出。
Figure BDA0001728992590000081
表1
其中,对于视频网站的该当日浏览量的指标,在步骤104提取时,可以提取当日播放量的指标,将该当日播放量的数值存储至该当日浏览量的字段下面。
其中,由于当日讨论量这个热度指标,只有微博网站的搜索结果为话题时,话题才具有的热度指标,而其他预设媒体平台的搜索结果一般不具有该热度指标,因此,在统计该热度指标时,对于没有该热度指标的搜索结果,可以直接将该热度指标的数值置零。
其中,对于上述预设热度指标其是以天,即日为单位的,本发明实施例的统计方法以天为单位来对目标监控对象的搜索结果的热度指标进行统计。例如本发明实施例的统计系统的网络时间的日期为2018年6月29日,则本发明实施例的方法统计的各个热度指标就是2018年6月29日的;当本发明实施例的统计系统的网络时间的日期为2018年6月30日时,则本发明实施例的方法统计的各个热度指标就是2018年6月30日的。
这样,本发明实施例的方法可以对目标监控对象的每天的热度指标数值进行统计,若其中某一天对该目标监控对象进行了宣传活动,则通过查看统计结果中在该宣传活动日前后的统计数据的变化,则可以明显看出该宣传活动是否有效,从而及时调整宣传方式。
步骤105,按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
在一个示例中,如表1所示,可以按照热度数据的类型,这里包括当日浏览量、当日搜索量、当日转发量、当日评论量以及当日讨论量,来对各个预设媒体平台的热度数据进行分类汇总,即将当日浏览量的一列数据的数据值求和,即该电影《黑天鹅》的当日浏览量热度的统计数据;将当日搜索量的一列数据的数据值求和,即该电影《黑天鹅》的当日搜索量热度的统计数据;针对其他类型的热度数据的汇总方式类似,这里不再赘述。
这样,就可以得到该电影《黑天鹅》在系统网络时间这一天内各个热度指标在各大预设媒体平台上的汇总数据,即,该电影《黑天鹅》的多种类型的热度数据的统计数据。
那么通过以天为单位,在每天的固定时间对当天的该电影《黑天鹅》的多种类型的热度数据进行统计,从而可以得到该电影《黑天鹅》的各种类型的热度数据的每天的变化情况,得到各个类型的热度数据的日变化趋势曲线。
对于上述日变化趋势曲线的商业用途而言,例如目前统计了从2018年5月1日~2018年6月29日该电影《黑天鹅》的上述5种热度指标的统计数据,这些统计数据可以构成日变化趋势曲线。其中,例如该电影《黑天鹅》的片方在2018年5月30日进行了电影宣传活动1,则通过查看该日变化趋势曲线中在2018年5月30日前后的5种热度指标的变化趋势,则可以看出该电影宣传活动1是否有效。例如2018年5月30日之后的5种热度指标的统计数据明显高于2018年5月30日之前的5种热度指标的统计数据,则说明该电影宣传活动1有效,可以继续加大此方式的宣传;相反,如果2018年5月30日之后的5种热度指标的统计数据与2018年5月30日之前的5种热度指标的统计数据之间的变化很小,则说明该电影宣传活动1的宣传效果不好,可以采用其他方式的宣传活动来对电影《黑天鹅》进行宣传。
当然,在对比宣传活动前后的统计数据时,不一定比较所有热度指标的统计数据,由于不同热度指标的统计数据对宣传效果的影响并不相同,因此,可以根据实际需求重点比较对宣传效果影响较大的热度指标(例如当日浏览量、当日转发量等)的统计数据在宣传活动前后的变化趋势,来确定该宣传活动是否有效。
这样,对于片方,在上线预告片或其他宣传活动后,如果可以看到例如所关注的某个热度指标,例如日播放量的日趋势曲线有明显增长,则可以得知营销效果显著,如果增长不明显,则证明活动失败。通过总结经验,可以帮助片方有效提高宣传活动的产出收益。
在本发明实施例中,通过提取目标监控对象的关键词,并在多个预设媒体平台上以所述关键词进行搜索,然后,对搜索结果进行语义筛选,将语义与目标监控对象的语义不匹配的搜索结果过滤掉,然后,提取筛选后得到的每个目标搜索结果的多种类型的预设热度指标,并对得到来自多个预设媒体平台的关于多种类型的预设热度指标的热度数据进行分类汇总,从而得到该目标监控对象的所述多种类型的热度数据的统计数据,该过程中实现了对目标监控对象的多种热度数据的自动统计,降低了人工统计的人力和时间成本,并且,通过直接对搜索结果进行过滤,以及提取过滤后的搜索结果的能够反映热度的用户行为数据,即各类预设热度指标,从而大大提升了数据统计的准确度;此外,该搜索结果来自于多个预设媒体平台,从而使得统计结果的数据源更加全面。
参照图2,示出了本发明的另一种数据统计方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,当所述目标监控对象的数量为多个时,提取多个所述目标监控对象中每个目标监控对象的关键词,得到对应多个所述目标监控对象的多个关键词列表;
其中,具体实现可以参照上述实施例的步骤101,区别在于,这里的目标监控对象的数量为多个,那么可以根据目标监控对象的不同,得到多个关键词列表。
这里,本发明实施例对该多个目标监控对象的类型是否一致并不做限定,它们可以相同或不同,这并不影响本发明实施例的方法实现。
步骤202,以所述多个关键词列表中每个关键词列表中的关键词为搜索词,在多个预设媒体平台上进行搜索,得到每个目标监控对象的对应所述多个预设媒体平台的多组搜索结果;
本步骤与步骤102类似,区别在于是对多个目标监控对象执行步骤102的步骤,具体实现参照步骤102的具体阐述,这里不再赘述。
步骤203,对每个目标监控对象的所述多组搜索结果进行语义筛选,得到语义与所述每个目标监控对象的语义相匹配的多组筛选结果;
本步骤与步骤103类似,区别在于是对多个目标监控对象执行步骤103的步骤,具体实现参照步骤103的具体阐述,这里不再赘述。
步骤204,对每个目标监控对象的每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到每个目标监控对象的多种类型的热度数据;
本步骤与步骤104类似,区别在于是对多个目标监控对象执行步骤104的步骤,具体实现参照步骤104的具体阐述,这里不再赘述。
步骤205,针对每个目标监控对象,按照热度数据的类型对所述多个预设媒体平台的多种类型的热度数据进行分类汇总,得到每个所述目标监控对象的多种类型的热度数据的统计数据。
本步骤与步骤105类似,区别在于是多个目标监控对象执行步骤105的步骤,具体实现参照步骤105的具体阐述,这里不再赘述。
那么当目标监控对象为多个(例如片方A宣传的电影A,其他片方发行的与电影A存在竞争关系的电影B和电影C)时,则可以根据上述多种类型的热度数据的统计数据,来计算出热度榜单,即对电影A、电影B和电影C的不同类型的统计数据进行排序,从而得到不同类型的热度榜单,这样,可以帮助电影A的发行方来实时了解同一时期,有竞争关系的影片的热度对比,帮助其更有针对性地制定影片宣传方案。
本发明实施例的方法可以对大量电影、电视剧、综艺以及影视剧演员的热度数据(如阅读量/播放量、评论量、转发量等)进行监控统计,从而可以将统计结果来作为评估电影、电视剧、综艺以及影视剧演员的宣传活动的宣传效果好坏的标准。
其中,需要注意的是,影视剧演员与电影、电视剧、综艺是并列关系,该影视剧演员并不一定是主演上述作品的演员,而是需要宣传的影视剧演员。
借助于本发明实施例的上述技术方案,为了实现对影视剧、综艺、影视剧演员的宣传效果进行数据监控,首先可以从各主要媒体平台获取用户的反馈数据,影响力比较大的平台包括常见的视频网站,短视频APP,互联网新闻网站,社交媒体网站等。由于这些网站的数据量庞大,需要有针对性地提取出与电影、电视剧、综艺、影人相关的数据源,避免海量抓取,浪费资源;在完成数据的抓取后,需要将各平台的不同格式的热度数据处理成统一格式,便于进行最后数据的汇总;最后汇总的全网热度数据,可以很好的反映出电影、电视剧、综艺、影人的热度情况,每次宣传活动结束后,可以根据宣传活动前后的热度变化,可以评估出宣传活动的效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图3,示出了本发明一种数据统计装置实施例的结构框图,具体可以包括如下模块:
第一提取模块31,用于提取目标监控对象的关键词;
搜索模块32,用于以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
筛选模块33,用于对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
第二提取模块34,用于对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;
分类汇总模块35,用于按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
可选地,所述目标监控对象的类型至少包括以下之一:
电影、电视剧、综艺、影视剧演员。
可选地,所述预设媒体平台的类型至少包括:
视频网站、搜索引擎网站、新闻网站、社交媒体网站、即时通讯应用程序、短视频应用程序。
可选地,所述搜索模块32,还用于采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果。
可选地,所述装置还包括:
确定模块,用于确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;
登录模块,用于采用预设模拟登录程序登录所述目标预设媒体平台。
可选地,所述第一提取模块31,还用于当所述目标监控对象的数量为多个时,提取多个所述目标监控对象中每个目标监控对象的关键词,得到对应多个所述目标监控对象的多个关键词列表;
所述搜索模块32,还用于以所述多个关键词列表中每个关键词列表中的关键词为搜索词,在多个预设媒体平台上进行搜索,得到每个目标监控对象的对应所述多个预设媒体平台的多组搜索结果;
所述筛选模块33,还用于对每个目标监控对象的所述多组搜索结果进行语义筛选,得到语义与所述每个目标监控对象的语义相匹配的多组筛选结果;
所述第二提取模块34,还用于对每个目标监控对象的每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到每个目标监控对象的多种类型的热度数据;
所述分类汇总模块35,还用于针对每个目标监控对象,按照热度数据的类型对所述多个预设媒体平台的多种类型的热度数据进行分类汇总,得到每个所述目标监控对象的多种类型的热度数据的统计数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据统计方法和一种数据统计装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种数据统计方法,其特征在于,包括:
提取目标监控对象的关键词;
以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果,包括:采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据,所述预设热度指标为搜索结果携带的可以反映所述目标监控对象的热度的用户行为数据;
按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
2.根据权利要求1所述的方法,其特征在于,所述目标监控对象的类型至少包括以下之一:
电影、电视剧、综艺、影视剧演员。
3.根据权利要求1所述的方法,其特征在于,所述以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果之前,所述方法还包括:
确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;
采用预设模拟登录程序登录所述目标预设媒体平台。
4.根据权利要求1所述的方法,其特征在于,当所述目标监控对象的数量为多个时,
所述提取目标监控对象的关键词,包括:
提取多个所述目标监控对象中每个目标监控对象的关键词,得到对应多个所述目标监控对象的多个关键词列表;
所述以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果,包括:
以所述多个关键词列表中每个关键词列表中的关键词为搜索词,在多个预设媒体平台上进行搜索,得到每个目标监控对象的对应所述多个预设媒体平台的多组搜索结果;
所述对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果,包括:
对每个目标监控对象的所述多组搜索结果进行语义筛选,得到语义与所述每个目标监控对象的语义相匹配的多组筛选结果;
所述对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据,包括:
对每个目标监控对象的每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到每个目标监控对象的多种类型的热度数据;
所述按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据,包括:
针对每个目标监控对象,按照热度数据的类型对所述多个预设媒体平台的多种类型的热度数据进行分类汇总,得到每个所述目标监控对象的多种类型的热度数据的统计数据。
5.一种数据统计装置,其特征在于,包括:
第一提取模块,用于提取目标监控对象的关键词;
搜索模块,用于以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果,包括:采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;
筛选模块,用于对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;
其中,每组筛选结果包括筛选后的多个目标搜索结果;
第二提取模块,用于对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;
分类汇总模块,用于按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。
6.根据权利要求5所述的装置,其特征在于,所述目标监控对象的类型至少包括以下之一:
电影、电视剧、综艺、影视剧演员。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
确定模块,用于确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;
登录模块,用于采用预设模拟登录程序登录所述目标预设媒体平台。
8.根据权利要求5所述的装置,其特征在于,
所述第一提取模块,还用于当所述目标监控对象的数量为多个时,提取多个所述目标监控对象中每个目标监控对象的关键词,得到对应多个所述目标监控对象的多个关键词列表;
所述搜索模块,还用于以所述多个关键词列表中每个关键词列表中的关键词为搜索词,在多个预设媒体平台上进行搜索,得到每个目标监控对象的对应所述多个预设媒体平台的多组搜索结果;
所述筛选模块,还用于对每个目标监控对象的所述多组搜索结果进行语义筛选,得到语义与所述每个目标监控对象的语义相匹配的多组筛选结果;
所述第二提取模块,还用于对每个目标监控对象的每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到每个目标监控对象的多种类型的热度数据;
所述分类汇总模块,还用于针对每个目标监控对象,按照热度数据的类型对所述多个预设媒体平台的多种类型的热度数据进行分类汇总,得到每个所述目标监控对象的多种类型的热度数据的统计数据。
CN201810765772.2A 2018-07-12 2018-07-12 数据统计方法和装置 Active CN109033286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810765772.2A CN109033286B (zh) 2018-07-12 2018-07-12 数据统计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810765772.2A CN109033286B (zh) 2018-07-12 2018-07-12 数据统计方法和装置

Publications (2)

Publication Number Publication Date
CN109033286A CN109033286A (zh) 2018-12-18
CN109033286B true CN109033286B (zh) 2021-10-29

Family

ID=64642351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810765772.2A Active CN109033286B (zh) 2018-07-12 2018-07-12 数据统计方法和装置

Country Status (1)

Country Link
CN (1) CN109033286B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382345B (zh) * 2018-12-27 2024-04-19 北京网智天元大数据科技有限公司 话题筛选和发布的方法、装置和服务器
CN111797248B (zh) * 2019-04-08 2023-08-01 中移(苏州)软件技术有限公司 多媒体信息的搜索方法、装置、服务器及计算机存储介质
CN110807318A (zh) * 2019-11-01 2020-02-18 深圳前海微众银行股份有限公司 数据监控方法、装置、设备及计算机可读存储介质
CN110990571B (zh) * 2019-12-02 2024-04-02 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN103580952A (zh) * 2013-09-29 2014-02-12 苏州中联互通信息科技有限公司 一种网络监控系统
CN104133868A (zh) * 2014-07-21 2014-11-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
KR101175168B1 (ko) * 2010-05-25 2012-08-20 김대중 단말 기기에서 하나의 웹 사이트를 통해 복수 개의 웹 사이트를 검색하는 장치 및 방법
CN103514299B (zh) * 2013-10-18 2018-04-17 北京奇虎科技有限公司 信息搜索方法和装置
CN104462399B (zh) * 2014-12-11 2018-04-20 北京百度网讯科技有限公司 搜索结果的处理方法及装置
CN105653738B (zh) * 2016-03-01 2020-05-22 北京百度网讯科技有限公司 基于人工智能的搜索结果播报方法和装置
CN106777206A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 影视剧类关键词搜索展现方法及装置
CN106649737B (zh) * 2016-12-23 2020-06-12 北京奇虎科技有限公司 针对综艺类query的搜索结果的推送方法及装置
CN106649738A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 在搜索结果页中聚合人物类资讯信息的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN103580952A (zh) * 2013-09-29 2014-02-12 苏州中联互通信息科技有限公司 一种网络监控系统
CN104133868A (zh) * 2014-07-21 2014-11-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统

Also Published As

Publication number Publication date
CN109033286A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
Shao et al. Anatomy of an online misinformation network
Alizadeh et al. Content-based features predict social media influence operations
CN109033286B (zh) 数据统计方法和装置
Bhuiyan et al. Retrieving YouTube video by sentiment analysis on user comment
US20190310988A1 (en) Systems and methods for identifying documents based on citation history
US9424319B2 (en) Social media based content selection system
EP2657855A1 (en) Method, device and system for processing public opinion topics
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
WO2013185601A1 (zh) 一种获取产品信息的方法、装置及计算机存储介质
CN104573054A (zh) 一种信息推送方法和设备
US20170193531A1 (en) Intelligent Digital Media Content Creator Influence Assessment
CN113407773A (zh) 一种短视频智能推荐方法、系统、电子设备及存储介质
CN111159561A (zh) 根据用户行为和用户画像构建推荐引擎的方法
Dooms et al. A framework for dataset benchmarking and its application to a new movie rating dataset
Nakade et al. Preliminary research on thesaurus-based query expansion for Twitter data extraction
US20240169004A1 (en) Methods and systems for self-tuning personalization engines in near real-time
Xue et al. Cross-media topic detection associated with hot search queries
CN111368070A (zh) 热点事件的确定方法及装置
WO2014139056A1 (en) Social media based content selection system
CN111382331A (zh) 一种基于大数据的处理舆情话题的方法、装置和系统
CN113259150B (zh) 一种数据处理方法、系统以及存储介质
CN117235242B (zh) 一种基于智能问答数据库的热点信息筛选方法及系统
Shang et al. AMICA: Alleviating Misinformation for Chinese Americans
Bamane et al. Classification of YouTube data based on Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant