CN113360661B

CN113360661B - 多租户的媒体大数据应用云服务平台

Info

Publication number: CN113360661B
Application number: CN202110916021.8A
Authority: CN
Inventors: 刘帆; 王凤美; 徐群浩; 任鼎
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-12
Anticipated expiration: 2041-08-11
Also published as: CN113360661A

Abstract

本发明涉及大数据技术智能辅助媒体融合生产领域，具体涉及一种多租户的媒体大数据应用云服务平台，通过租户管理装置对各个租户信息进行配置；数据采集装置基于采集需求配置信息在互联网中采集公开数据；预处理装置对公开数据进行预处理，得到处理数据；存储装置存储处理数据；智能分析及应用装置调用存储装置中的处理数据，基于处理数据、预设的数据分析模型和基本配置信息，提取互联网线索信息、热点话题信息、竞媒信息、传播信息和/或版权追踪信息；租户管理装置按照发送配置信息，给租户发送信息。通过搭建统一的云服务平台来实现媒体大数据应用，充分利用云计算的特性，将软件系统与数据进行统一管理，节省资源。

Description

多租户的媒体大数据应用云服务平台

技术领域

本发明涉及大数据技术智能辅助媒体融合生产领域，具体涉及一种多租户的媒体大数据应用云服务平台。

背景技术

随着大数据、人工智能技术在全球的迅猛发展，互联网新闻传播形态发生了巨大改变。网站、论坛贴吧、移动新闻客户端、微博、微信、数字报、自媒体和短视频平台等新媒体传播渠道的兴起，人们能够非常方便的通过大数据技术获取和传播各种信息，媒体大数据技术赋能智能媒体建设加快了媒体融合业务的深度发展。面对互联网庞杂多样的信息，如果仅以人工的方式去甄别新闻选题、追踪新闻的传播效果，需要消耗大量的人力和物力。大型媒体集团通过搭建独立的媒体大数据应用系统来对互联网信息进行采集、分析和应用，从而提升新闻生产的效率，提高新闻的传播力、引导力、影响力和公信力。

但是，搭建独立的媒体大数据应用系统需要耗费大量的硬件服务器，大大提高了建设成本，且建设周期长，无法快速满足应用需求及灵活扩展，对于相同的信源不同的媒体单位需要做多次数据采集、存储和分析，造成严重的资源浪费，而单独的媒体单位在服务器资源满负荷运转的情况下，往往选择仅采集互联网重点信源，从而造成信息覆盖不全面导致新闻选题及传播效果分析不够精准的情况。

发明内容

有鉴于此，本发明的目的在于提供一种多租户的媒体大数据应用云服务平台，以克服搭建独立的媒体大数据应用系统需要耗费大量的硬件服务器，大大提高了建设成本，且建设周期长，无法快速满足应用需求及灵活扩展，对于相同的信源不同的媒体单位需要做多次数据采集、存储和分析，造成严重的资源浪费，而单独的媒体单位在服务器资源满负荷运转的情况下，往往选择仅采集互联网重点信源，从而造成信息覆盖不全面导致新闻选题及传播效果分析不够精准的情况的问题。

为实现以上目的，本发明采用如下技术方案：

一种多租户的媒体大数据应用云服务平台，包括：

租户管理装置，用于对各个租户信息进行配置；其中，所述租户信息包括采集需求配置信息、基本配置信息和发送配置信息；

数据采集装置，用于基于所述采集需求配置信息在互联网中采集公开数据；

预处理装置，用于对所述公开数据进行预处理，得到处理数据；

存储装置，用于存储所述处理数据；

智能分析及应用装置，用于调用所述存储装置中的所述处理数据，基于所述处理数据、预设的数据分析模型和所述基本配置信息，提取互联网线索信息、热点话题信息、竞媒信息、传播信息和/或版权追踪信息；

所述租户管理装置，还用于按照所述发送配置信息，将所述互联网线索信息、所述热点话题信息、所述竞媒信息、所述传播信息和/或所述版权追踪信息发送给对应的租户。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述智能分析及应用装置包括线索发现模块；

所述预设的数据分析模型包括微博线索发现模型和主题帖线索发现模型，所述互联网线索信息包括微博热度值和主题帖热度值；

所述线索发现模块，用于调用所述存储装置中的所述处理数据，基于所述处理数据、所述微博线索发现模型和所述基本配置信息，提取所述微博热度值；其中，所述处理数据包括微博的阅读数、微博的转发数、微博的评论数和微博的点赞数；

所述微博线索发现模型包括：

Q_weibo=W₁×ln(x_read+1)+W₂×ln(x_forward+1)+W₃×ln(x_comment+1)+W₄×ln(x_likes+1)

Q_weibo为所述微博热度值，x_read为所述微博的阅读数，x_forward为所述微博的转发数，x_comment为所述微博的评论数，x_likes为所述微博的点赞数，W_i为权重，W₁+W₂+W₃+W₄=1；

所述线索发现模块，还用于调用所述存储装置中的所述处理数据，基于所述处理数据、所述主题帖线索发现模型和所述基本配置信息，提取所述主题帖热度值；其中，所述处理数据包括主题帖热度值、主题帖点击数或者浏览数，以及，主题帖回复数；

所述主题帖线索发现模型包括：

Q_bbs=W₁×ln(x_click+1)+W₂×ln(x_reply+1)

其中，Q_bbs为所述主题帖热度值，x_click为所述主题帖点击数或者浏览数，x_reply为所述主题帖回复数，W_i为权重。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述智能分析及应用装置包括热点发现模块；

所述预设的数据分析模型包括热点发现模型，所述处理数据包括具有行业和地域分类标签的数据；

所述热点发现模块，用于调用所述存储装置中的所述具有行业和地域分类标签的数据，对所述具有行业和地域分类标签的数据进行聚类处理，得到聚类结果；若所述聚类结果中存在目标话题的相关文章数量达到预设阈值，则将所述目标话题作为热点话题，并生成聚类结果文件；解析所述聚类结果文件，确定所述热点话题的所属地域和所属行业；基于预设的所述热点发现模型以及所述热点话题的传播指标计算热点话题热度值；根据所述热点话题热度值确定每个地域、每个行业的所述热点话题信息；其中，所述热点话题的传播指标包括省级媒体文章数、地市级媒体文章数、地方媒体文章数、平均阅读数、平均点赞数、平均评论数、标题是否包含地域，以及，话题文章数；

所述热点发现模型的计算过程，包括：

基于如下公式确定话题权重值topicValue；

topicValue=W₁×g+W₂×c+W₃×d+W₄×r+W₅×t+W₆×co+W₇×l+W₈×h

g为所述省级媒体文章数，c为所述地市级媒体文章数，d为所述地方媒体文章数，r为所述平均阅读数，t为所述平均点赞数，co为所述平均评论数，l表示所述标题是否包含地域，h为所述话题文章数；W_i为权重；

基于Sigmoid函数确定目标参数param值；

其中，所述Sigmoid函数的表达式包括：

S(x)=1/(1+e^-x）

将数据从[min,max],压缩到[-5,5]之间；其中，Max为基于历史统计最大话题文章数，Min为基于历史统计最小话题文章数；

mean=(Max+Min)/2；

param=[topicValue -mean]/[(min-mean)/(-5)]；

将sigmod函数值(0,1)之间转化到(60，100)之间，得到所述热点发现模型hottopicRate为：

hottopicRate=[1/(1+e^-param)×0.4+0.6]×100。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述智能分析及应用装置还包括竞媒比对模块；

所述预设的数据分析模型包括竞媒比对模型，所述处理数据包括根据所述基本配置信息在所述存储装置中提取的租户的新闻信息和竞媒的新闻信息；

所述竞媒比对模块，用于基于所述竞媒比对模型，比对所述租户的新闻信息和所述竞媒的新闻信息，以进行独家稿件分析、同题稿件分析和漏登稿件分析，将分析结果作为所述竞媒信息。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述智能分析及应用装置还包括传播分析模块；

所述预设的数据分析模型包括第一传播分析模型、第二传播分析模型和第三传播分析模型，所述传播信息包括第一传播指数、第二传播指数和第三传播指数；

所述传播分析模块，用于调用所述存储装置中的所述处理数据，基于所述处理数据、所述第一传播分析模型和所述基本配置信息，提取所述第一传播指数；其中，所述处理数据包括单篇内容的阅读数、单篇内容的转发数、单篇内容的评论数、单篇内容的点赞数、单篇内容发布后的传播时长；

所述第一传播分析模型包括：

CBI_x=l₁×ln(x_read/n+1)+l₂×ln(x_forward/n+1)+l₃×ln(x_comment/n+1)+l₄×ln(x_likes/n+1)

其中，CBI_x为所述第一传播指数，x_read为所述单篇内容的阅读数，x_forward为所述单篇内容的转发数，x_comment为所述单篇内容的评论数，x_likes为所述单篇内容的点赞数，n为所述单篇内容发布后的传播时长，l_i为权重；

所述第一传播指数包括单篇新闻网站稿件的传播指数、单篇移动新闻客户端稿件的传播指数、单篇博文的传播指数、单篇媒体号稿件的传播指数和单篇短视频的传播指数；

若所述第一传播指数为所述单篇新闻网站稿件的传播指数，所述单篇内容的阅读数为单篇新闻网站稿件的阅读数，所述单篇内容的转发数为单篇新闻网站稿件的转发数，所述单篇内容的评论数为单篇新闻网站稿件的评论数，所述单篇内容的点赞数为单篇新闻网站稿件的点赞数，所述单篇内容发布后的传播时长为单篇新闻网站稿件的传播时长；

若所述第一传播指数为所述单篇移动新闻客户端稿件的传播指数，所述单篇内容的阅读数为单篇移动新闻客户端稿件的阅读数，所述单篇内容的转发数为单篇移动新闻客户端稿件的转发数，所述单篇内容的评论数为单篇移动新闻客户端稿件的评论数，所述单篇内容的点赞数为单篇移动新闻客户端稿件的点赞数，所述单篇内容发布后的传播时长为单篇移动新闻客户端稿件的传播时长；

若所述第一传播指数为所述单篇博文的传播指数，所述单篇内容的阅读数为单篇博文的阅读数，所述单篇内容的转发数为单篇博文的转发数，所述单篇内容的评论数为单篇博文的评论数，所述单篇内容的点赞数为单篇博文的点赞数，所述单篇内容发布后的传播时长为单篇博文发布后的传播时长；

若所述第一传播指数为所述单篇媒体号稿件的传播指数，所述单篇内容的阅读数为单篇媒体号稿件的阅读数，所述单篇内容的转发数为单篇媒体号稿件的转发数，所述单篇内容的评论数为单篇媒体号稿件的评论数，所述单篇内容的点赞数为单篇媒体号稿件的点赞数，所述单篇内容发布后的传播时长为单篇媒体号稿件发布后的传播时长；

若所述第一传播指数为所述单篇短视频的传播指数，所述单篇内容的阅读数为单篇短视频的阅读数，所述单篇内容的转发数为单篇短视频的转发数，所述单篇内容的评论数为单篇短视频的评论数，所述单篇内容的点赞数为单篇短视频的点赞数，所述单篇内容发布后的传播时长为单篇短视频发布后的传播时长；

所述传播分析模块，还用于调用所述存储装置中的所述处理数据，基于所述处理数据、所述第二传播分析模型和所述基本配置信息，提取所述第二传播指数；其中，所述处理数据包括单篇微信稿件的阅读数、单篇微信稿件的转发数、单篇微信稿件的评论数、单篇微信稿件的点赞数、单篇微信稿件的在看数和单篇微信稿件发布后的传播时长；

所述第二传播分析模型包括：

CBI_wechat=l₁×ln(x_read/n+1)+l₂×ln(x_forward/n+1)+l₃×ln(x_comment/n+1)+l₄×ln(x_likes/n+1)+l₅×ln(x_looking/n+1)

其中，CBI_wechat为单篇微信稿件的传播指数，将单篇微信稿件的传播指数作为所述第二传播指数，x_read为所述单篇微信稿件的阅读数，x_forward为所述单篇微信稿件的转发数，x_comment为所述单篇微信稿件的评论数，x_likes为所述单篇微信稿件的点赞数，x_looking为所述单篇微信稿件的在看数，n为所述单篇微信稿件发布后的传播时长，l_i为权重；

所述传播分析模块，还用于调用所述存储装置中的所述处理数据，基于所述处理数据、所述第三传播分析模型和所述基本配置信息，提取所述第三传播指数；其中，所述处理数据包括单篇电子报稿件的阅读数、单篇电子报稿件转发数和单篇电子报稿件发布后的传播时长；

所述第三传播分析模型包括：

CBI_e-newspaper=l₁×ln(x_read/n+1)+l₂×ln(x_forward/n+1)

其中，CBI_e-newspaper为单篇电子报稿件的传播指数，将所述单篇电子报稿件的传播指数作为所述第三传播指数，x_read为所述处理数据包括单篇电子报稿件的阅读数，x_forward为单篇电子报稿件转发数，n为所述单篇微信稿件发布后的传播时长，l_i为权重。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述智能分析及应用装置还包括版权追踪模块；

所述数据分析模型包括第一版权追踪模型和第二版权追踪模型；所述处理数据包括根据所述基本配置信息在所述存储装置中提取的租户的稿件和未授权转载媒体的稿件；

所述版权追踪模块，用于抽取所述租户的稿件和所述未授权转载媒体的稿件正文文字的读音特征，确定所述租户的稿件的正文文字的读音与所述未授权转载媒体的稿件正文文字的读音的长度比；若所述长度比小于或等于第一预设阈值，则将所述租户的稿件和所述未授权转载媒体的稿件正文文字的读音特征输入至所述第一版权追踪模型中，若所述长度比大于第一预设阈值，则将所述租户的稿件和所述未授权转载媒体的稿件正文文字的读音特征输入至所述第二版权追踪模型中，得到输出的相似度作为所述版权追踪信息；

所述第一版权追踪模型为：

J=|A∩B|/|A∪B|；

所述第二版权追踪模型为：

J=|A∩B|/|min(A,B)|；

其中，A为所述租户的稿件的稿件正文文字的读音特征，B为所述未授权转载媒体的稿件正文文字的读音特征。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述数据采集装置包括定向采集器、元搜索采集器、自适应采集器和网络漫爬采集器；所述公开数据包括第一公开数据、第二公开数据、第三公开数据和第四公开数据；

所述定向采集器，用于通过预设的采集模板在所述互联网中采集所述第一公开数据；

所述元搜索采集器，用于通过预设的关键词或者预设的关键词组合在所述互联网中采集所述第二公开数据；

所述自适应采集器，用于在所述互联网中进行自动适应采集，获取所述第三公开数据；

所述网络漫爬采集器，用于在所述互联网中进行全面的爬虫采集，获取所述第四公开数据。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述数据采集装置还包括任务采集服务器和任务调度服务检测器；

所述任务采集服务器，用于根据所述采集需求配置信息，生成采集任务；

所述任务调度服务检测器，用于检测所述定向采集器、所述元搜索采集器、所述自适应采集器和所述网络漫爬采集器的资源使用情况，以便于在所述元搜索采集器、所述自适应采集器和所述网络漫爬采集器中确定压力最小的目标采集器，将当前的采集任务分配给所述目标采集器。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述预处理装置，具体用于过滤所述公开数据中的垃圾信息，对所述过滤后的公开数据进行初始分析处理，得到处理数据，并将所述处理数据上传给所述存储装置；

其中，所述初始分析处理包括文本分类、智能摘要、实体抽取、敏感度分析、智能关键词提取、情感分析、所属行业标签分析和原创作品智能标引中的至少一种。

进一步的，以上所述多租户的媒体大数据应用云服务平台，所述存储装置包括元数据库、分布式文件系统和全文检索单元；

所述元数据库，用于存储所述处理数据中的元数据；

所述分布式文件系统，用于存储所述处理数据中的新闻文件数据；

所述全文检索单元，用于建立所述元数据与所述新闻文件数据的索引关系。

本发明的多租户的媒体大数据应用云服务平台，包括租户管理装置，用于对各个租户信息进行配置；其中，租户信息包括采集需求配置信息、基本配置信息和发送配置信息；数据采集装置，用于基于采集需求配置信息在互联网中采集公开数据；预处理装置，用于对公开数据进行预处理，得到处理数据；存储装置，用于存储处理数据；智能分析及应用装置，用于调用存储装置中的处理数据，基于处理数据、预设的数据分析模型和基本配置信息，提取互联网线索信息、热点话题信息、竞媒信息、传播信息和/或版权追踪信息；租户管理装置，还用于按照发送配置信息，将互联网线索信息、热点话题信息、竞媒信息、传播信息和/或版权追踪信息发送给对应的租户。本申请的技术方案，搭建统一的云服务平台来实现媒体大数据应用，充分利用云计算的特性，将软件系统与数据进行统一管理，节省资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明多租户的媒体大数据应用云服务平台一种实施例提供的结构示意图；

图2是本发明多租户的媒体大数据应用云服务平台一种实施例提供的热点发现模块的执行流程图；

图3是本发明多租户的媒体大数据应用云服务平台一种实施例提供的Sigmoid函数的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明多租户的媒体大数据应用云服务平台一种实施例提供的结构示意图。

请参阅图1，本实施例的多租户的媒体大数据应用云服务平台，可以包括：

租户管理装置1，用于对各个租户信息进行配置；其中，租户信息包括采集需求配置信息、基本配置信息和发送配置信息。

在一些可选的实施例中，租户管理装置1包括创建模块11、授权模块12和配置模块13。

创建模块11为不同的租户建立账号信息，根据租户ID建立不同的存储租户媒体大数据业务规则及分析结果数据表。分析结果数据表的类型可以根据用户购买的服务内容确定，例如，租户媒体大数据业务应用数据表可以包括用户基本信息表、旗下媒体信息表、关注媒体表、竞媒信息表、原创标识表、传播分析任务表、信息监测规则表、本地词及特征词库表、重点信源监看表、传播分析结果数据表和/或版权追踪分析结果数据表。其中，每个租户拥有独立的数据表，数据隔离，互不干扰。

授权模块12根据用户购买的服务内容为不同的租户进行授权，包括服务周期授权、服务内容授权、信源范围授权、地域授权和行业授权。

平台运营人员及租户通过配置模块13实现租户信息、信息监测业务规则、本地词及特征词库信息的配置及维护。

本实施例的多租户的媒体大数据应用云服务平台，还可以包括：

数据采集装置2，用于基于采集需求配置信息在互联网中采集公开数据。

在一些可选的实施例中，数据采集装置2包括定向采集器21、元搜索采集器22、自适应采集器23和网络漫爬采集器24。

定向采集器21，用于通过预设的采集模板在互联网中采集第一公开数据；

元搜索采集器22，用于通过预设的关键词或者预设的关键词组合在互联网中采集第二公开数据；

自适应采集器23，用于在互联网中进行自动适应采集，获取第三公开数据；

网络漫爬采集器24，用于在互联网中进行全面的爬虫采集，获取第四公开数据。

具体的，数据采集装置2可以从新闻网站、论坛贴吧、微博、微信、移动新闻客户端、数字报、自媒体平台、短视频平台、境外网站和境外社交媒体互联网公开数据。其中，定向采集器21通过采集模板配置方式实现数据的精准采集；需要说明的是，采集模板可以根据租户的需求进行设置，本实施例不做赘述。元搜索采集器22根据关键词或者关键词组合实现互联网主流搜索引擎搜索结果的采集，关键词或者关键词组合也可以根据租户的需求进行设置，本实施例不做赘述。自适应采集器23实现网页数据的自动适应采集，无需人工配置采集模板，大大提升采集的时效性。网络漫爬采集器24实现整个互联网信息的全面爬虫采集。

在一些可选的实施例中，数据采集装置2还包括任务采集服务器25和任务调度服务检测器26。

任务采集服务器25，用于根据采集需求配置信息，生成采集任务；

任务调度服务检测器26，用于检测定向采集器21、元搜索采集器22、自适应采集器23和网络漫爬采集器24的资源使用情况，以便于在元搜索采集器22、自适应采集器23和网络漫爬采集器24中确定压力最小的目标采集器，将当前的采集任务分配给目标采集器。

具体的，任务采集服务器25负责根据各个租户的采集需求配置信息生成采集任务，采集的内容包括每条新闻的标题、正文、作者、记者、编辑、发布时间、发布位置、原创标记、转载来源、图片、视频和附件信息等。任务调度服务检测器26检测定向采集器21、元搜索采集器22、自适应采集器23和网络漫爬采集器24的资源使用情况，分析各采集服务器的压力，将当前产生的采集任务分发给压力最小的采集服务器。

本实施例的多租户的媒体大数据应用云服务平台，还可以包括：预处理装置3和存储装置4。

预处理装置3，用于对公开数据进行预处理，得到处理数据。

在一些可选的实施例中，预处理装置3，具体用于过滤公开数据中的垃圾信息，对过滤后的公开数据进行初始分析处理，得到处理数据，并将处理数据上传给存储装置4；其中，初始分析处理包括文本分类、智能摘要、实体抽取、智能关键词提取、敏感度分析、情感分析、所属行业标签分析和原创作品智能标引中的至少一种。

在一些可选的实施例中，预处理装置3包括加工清洗模块31、智能标引模块32和数据分发模块33。

加工清洗模块31，用于对公开数据进行清洗和加工，对垃圾信息进行过滤，实现文本分类、智能摘要、实体抽取、智能关键词提取、敏感度分析、情感分析和所属行业标签分析；

智能标引模块32，用于对原创作品进行智能标引；

数据分发模块33用于根据业务需求实现数据上载分发处理。

本实施例的多租户的媒体大数据应用云服务平台中，存储装置4，用于存储处理数据。

在一些可选的实施例中，存储装置4包括元数据库、分布式文件系统和全文检索单元。

元数据库，用于存储处理数据中的元数据；

分布式文件系统，用于存储处理数据中的新闻文件数据；

全文检索单元，用于建立元数据与新闻文件数据的索引关系。

具体的，存储装置将采集的元数据存储在元数据库中，将采集的新闻以文件形式存储在分布式文件系统中形成文本文件，并通过全文检索单元建立全文检索索引库进行关联。

在一些可选的实施例中，元数据库、分布式文件系统和全文检索单元基于图1中的HDFS分布式文件系统41、Neo4j图数据库42、分布式全文检索单元43和关系型数据库44实现。

在一些可选的实施例中，如图1所示，存储装置4的实现基于Zookeeper分布式协作和Yarm资源调度实现。其中，Zookeeper分布式协作包括Kafka消息队列、Hbase分布式数据库和Hive分布式数据仓库。Yarm资源调度包括Spark Streaming流式处理、Spark mlib机器学习、智能文本挖掘分析引擎和Spark离线处理。

本实施例的多租户的媒体大数据应用云服务平台中，还包括：

智能分析及应用装置5，用于调用存储装置中的处理数据，基于处理数据、预设的数据分析模型和基本配置信息，提取互联网线索信息、热点话题信息、竞媒信息、传播信息和/或版权追踪信息。

在一些可选的实施例中，智能分析及应用装置5包括线索发现模块51。线索发现模块51根据每个租户的基本配置信息、本地词及特征词库、关注媒体、重点监看信源信息实现互联网线索信息的实时智能推送，包括微博、论坛自媒体阵地上的最热爆料信息，与“我”相关爆料信息。本实施例中，预设的数据分析模型包括微博线索发现模型和主题帖线索发现模型，互联网线索信息包括微博热度值和主题帖热度值。

微博线索发现模块51，用于调用存储装置中的处理数据，基于处理数据、微博线索发现模型和基本配置信息，提取微博热度值；其中，处理数据包括微博的阅读数、微博的转发数、微博的评论数和微博的点赞数。

微博线索发现模型包括：

Q_weibo为微博热度值，x_read为微博的阅读数，x_forward为微博的转发数，x_comment为微博的评论数，x_likes为微博的点赞数，W_i为权重，W₁+W₂+W₃+W₄=1；

线索发现模块51，还用于调用存储装置中的处理数据，基于处理数据、主题帖线索发现模型和基本配置信息，提取主题帖热度值；其中，处理数据包括主题帖热度值、主题帖点击数或者浏览数，以及，主题帖回复数；

主题帖线索发现模型包括：

Q_bbs=W₁×ln(x_click+1)+W₂×ln(x_reply+1)

其中，Q_bbs为主题帖热度值，x_click为主题帖点击数或者浏览数，x_reply为主题帖回复数，W_i为权重。

需要说明的是，可以基于主题帖线索发现模型采集来自论坛或者贴吧等发帖形式的网站的公开信息。

在一些可选的实施例中，智能分析及应用装置5还包括热点发现模块52。热点发现模块52实现行业热点话题、地域热点话题的周期性分析，根据每个租户授权权限，即基本配置信息进行热点话题的智能推荐。

热点发现模块52，用于调用存储装置中的具有行业和地域分类标签的数据，对具有行业和地域分类标签的数据进行聚类处理，得到聚类结果；若聚类结果中存在目标话题的相关文章数量达到预设阈值，则将目标话题作为热点话题，并生成聚类结果文件；解析聚类结果文件，确定热点话题的所属地域和所属行业；基于预设的热点发现模型以及热点话题的传播指标计算热点话题热度值；根据热点话题热度值确定每个地域、每个行业的热点话题信息；其中，热点话题的传播指标包括省级媒体文章数、地市级媒体文章数、地方媒体文章数、平均阅读数、平均点赞数、平均评论数、标题是否包含地域，以及，话题文章数。

具体的，热点发现模块52可以执行如下几个步骤，如图2所示：

S1：根据热点话题计算周期设定定时任务，调用经过预处理的具有行业和地域分类标签的数据；

S2：调用媒体大数据云服务平台智能文本挖掘分析引擎进行文本聚类分析，并将任务资产id、行业id、地域id、任务类型、开始结束时间入数据库；

S3：判断是否生成聚类结果文件，若聚类结果中出现话题中相关文章数量达到预设阈值，将该话题作为热点话题，并生成聚类结果文件；

S4：解析聚类结果文件，调用接口查询热点话题的地域id、行业id统计信息，判断热点话题所属地域和所属行业；

S5：基于预设的热点发现模型以及每个话题中相关文章数量、文章的阅读量、评论数、点赞量等传播指标以及报道媒体权重因子综合计算话题热度值hottopicRate。

热点发现模型的计算过程，包括：

基于如下公式确定话题权重值topicValue；

topicValue=W₁×g+W₂×c+W₃×d+W₄×r+W₅×t+W₆×co+W₇×l+W₈×h

g为省级媒体文章数，c为地市级媒体文章数，d为地方媒体文章数，r为平均阅读数，t为平均点赞数，co为平均评论数，l表示标题是否包含地域，h为话题文章数；W_i为权重。

基于Sigmoid函数确定目标参数param值，Sigmoid函数的图形如图3所示。

其中，Sigmoid函数的表达式包括：

S(x)=1/(1+e^-x）

mean=(Max+Min)/2；

param=[topicValue -mean]/[(min-mean)/(-5)]；

将sigmod函数值(0,1)之间转化到(60，100)之间，得到热点发现模型hottopicRate为：

hottopicRate=[1/(1+e^-param)×0.4+0.6]×100。

步骤六：根据hottopicRate值统计查询每个地域、行业的热点话题TopN作为热点话题信息，以便于后期根据各个租户授权权限进行智能推送。

在一些可选的实施例中，智能分析及应用装置5还包括竞媒比对模块53。

预设的数据分析模型包括竞媒比对模型，处理数据包括根据基本配置信息在存储装置中提取的租户的新闻信息和竞媒的新闻信息。

竞媒比对模块53，用于基于竞媒比对模型，比对租户的新闻信息和竞媒的新闻信息，以进行独家稿件分析、同题稿件分析和漏登稿件分析，将分析结果作为竞媒信息。

具体的，本实施例中竞媒比对模型根据每个租户配置的竞媒信息，实现租户旗下数字报与竞媒数字报版面比对分析、全媒体发稿比对分析。数字报版面比对包括版面样式比对、发稿内容比对。需要说明的是，竞媒数字报具体比对的内容租户可以根据实际需求配置，本实施例不做限定。

竞媒信息包括独家稿件分析、同题稿件分析和漏登稿件分析。其中，不同媒体围绕同一新闻事件进行报道发布的稿件称为同题稿件；授权租户媒体站点刊发而竞媒未刊发的稿件称为独家稿件，授权租户媒体刊发除同题稿件外的稿件都视为独家稿件；竞媒刊发而授权租户媒体未刊发的稿件称为漏登稿件，竞媒刊发除同题稿件外的稿件都视为漏登稿件。

在一些可选的实施例中，智能分析及应用装置5还包括传播分析模块54。本实施例中传播分析模块54实现各个授权租户旗下媒体发布的原创作品在互联网上传播效果的分析，以便将分析结果分配给各个租户。包括整体传播指数分析、传播趋势分析、传播地域分布、转载媒体分析、传播路径分析、原创稿件传播分析排行。其中，传播指数分析实现授权租户整体、单个媒体和单篇原创作品的传播KPI分析，包括发稿量、原创量、原创比例、转载媒体数、转载次数、重点频道传播次数、重点频道传播时长、阅读数、评论数、点赞数、在看数、粉丝增长量。传播趋势分析实现各级传播KPI指数随时间变化的趋势分析。

需要说明的是，重点频道指特定网页的某个列表区域，稿件在该区域发布视为重点频道转载，重点频道由平台运营人员定义。本实施例的传播分析模块54设置有重点频道转载探测机制：后台探测服务定时访问重点频道所在页面，查看监控稿件是否在重点频道仍然存在。后台增加重点频道扫描频率配置页面，平台管理员可通过后台进行修改，设定最低、最高扫描频率。传播分析模块54还设置有转载时长计算规则：在指定时间范围内，稿件被其他媒体站点的重点频道转载发布的文章在其所属频道的停留时长总和为转载时长，即从第一次抓取该文章时的时间到探测到该文章不再出现在该频道的时间。

具体的，预设的数据分析模型包括第一传播分析模型、第二传播分析模型和第三传播分析模型，传播信息包括第一传播指数、第二传播指数和第三传播指数。

传播分析模块54，用于调用存储装置中的处理数据，基于处理数据、第一传播分析模型和基本配置信息，提取第一传播指数；其中，处理数据包括单篇内容的阅读数、单篇内容的转发数、单篇内容的评论数、单篇内容的点赞数和单篇内容发布后的传播时长；

第一传播分析模型包括：

其中，CBI_x为第一传播指数，x_read为单篇内容的阅读数，x_forward为单篇内容的转发数，x_comment为单篇内容的评论数，x_likes为单篇内容的点赞数，n为单篇内容发布后的传播时长，l_i为权重；

第一传播指数包括单篇新闻网站稿件的传播指数、单篇移动新闻客户端稿件的传播指数、单篇博文的传播指数、单篇媒体号稿件的传播指数和单篇短视频的传播指数；

若第一传播指数为单篇新闻网站稿件的传播指数，单篇内容的阅读数为单篇新闻网站稿件的阅读数，单篇内容的转发数为单篇新闻网站稿件的转发数，单篇内容的评论数为单篇新闻网站稿件的评论数，单篇内容的点赞数为单篇新闻网站稿件的点赞数，单篇内容发布后的传播时长为单篇新闻网站稿件的传播时长；

若第一传播指数为单篇移动新闻客户端稿件的传播指数，单篇内容的阅读数为单篇移动新闻客户端稿件的阅读数，单篇内容的转发数为单篇移动新闻客户端稿件的转发数，单篇内容的评论数为单篇移动新闻客户端稿件的评论数，单篇内容的点赞数为单篇移动新闻客户端稿件的点赞数，单篇内容发布后的传播时长为单篇移动新闻客户端稿件的传播时长；

若第一传播指数为单篇博文的传播指数，单篇内容的阅读数为单篇博文的阅读数，单篇内容的转发数为单篇博文的转发数，单篇内容的评论数为单篇博文的评论数，单篇内容的点赞数为单篇博文的点赞数，单篇内容发布后的传播时长为单篇博文发布后的传播时长；

若第一传播指数为单篇媒体号稿件的传播指数，单篇内容的阅读数为单篇媒体号稿件的阅读数，单篇内容的转发数为单篇媒体号稿件的转发数，单篇内容的评论数为单篇媒体号稿件的评论数，单篇内容的点赞数为单篇媒体号稿件的点赞数，单篇内容发布后的传播时长为单篇媒体号稿件发布后的传播时长；

若第一传播指数为单篇短视频的传播指数，单篇内容的阅读数为单篇短视频的阅读数，单篇内容的转发数为单篇短视频的转发数，单篇内容的评论数为单篇短视频的评论数，单篇内容的点赞数为单篇短视频的点赞数，单篇内容发布后的传播时长为单篇短视频发布后的传播时长；

传播分析模块54，还用于调用存储装置中的处理数据，基于处理数据、第二传播分析模型和基本配置信息，提取第二传播指数；其中，处理数据包括单篇微信稿件的阅读数、单篇微信稿件的转发数、单篇微信稿件的评论数、单篇微信稿件的点赞数、单篇微信稿件的在看数和单篇微信稿件发布后的传播时长；

第二传播分析模型包括：

其中，CBI_wechat为单篇微信稿件的传播指数，将单篇微信稿件的传播指数作为第二传播指数，x_read为单篇微信稿件的阅读数，x_forward为单篇微信稿件的转发数，x_comment为单篇微信稿件的评论数，x_likes为单篇微信稿件的点赞数，x_looking为单篇微信稿件的在看数，n为单篇微信稿件发布后的传播时长，l_i为权重；

传播分析模块，还用于调用存储装置中的处理数据，基于处理数据、第三传播分析模型和基本配置信息，提取第三传播指数；其中，处理数据包括单篇电子报稿件的阅读数、单篇电子报稿件转发数和单篇电子报稿件发布后的传播时长；

第三传播分析模型包括：

CBI_e-newspaper=l₁×ln(x_read/n+1)+l₂×ln(x_forward/n+1)

其中，CBI_e-newspaper为单篇电子报稿件的传播指数，将单篇电子报稿件的传播指数作为第三传播指数，x_read为处理数据包括单篇电子报稿件的阅读数，x_forward为单篇电子报稿件转发数，n为单篇微信稿件发布后的传播时长，l_i为权重。

而判断稿件转载的依据是两篇稿件的相似度，稿件相似度大于指定数值时即认为稿件存在转载关系。计算稿件相似度，与智能分析及应用装置5中版权追踪模块55进行版权追踪时的步骤相同，本实施例以版权追踪模块55进行版权追踪为例进行说明。

具体的，处理数据包括根据基本配置信息在存储装置中提取的租户的稿件和未授权转载媒体的稿件；

版权追踪模块，用于抽取租户的稿件和未授权转载媒体的稿件正文文字的读音特征（带声调的汉语拼音值），确定租户的稿件的正文文字的读音与未授权转载媒体的稿件正文文字的读音的长度比；若长度比小于或等于第一预设阈值，则将租户的稿件和未授权转载媒体的稿件正文文字的读音特征输入至第一版权追踪模型中，若长度比大于第一预设阈值，则将租户的稿件和未授权转载媒体的稿件正文文字的读音特征输入至第二版权追踪模型中，得到输出的相似度作为版权追踪信息；

第一版权追踪模型为：

J=|A∩B|/|A∪B|；

第二版权追踪模型为：

J=|A∩B|/|min(A,B)|；

其中，A为租户的稿件的稿件正文文字的读音特征，B为未授权转载媒体的稿件正文文字的读音特征。

在一些可选的实施例中，第一预设阈值为1.5。

在一些可选的实施例中，智能分析及应用装置5还包括信息监测模块56，信息监测模块56用于获取媒体单位新闻生产过程中的选题策划需要掌握的互联网信息以及本地信息的精准推送。

综上，线索发现模块51用于媒体单位新闻生产过程中的选题策划所需线索素材的智能推荐，热点发现模块52用于媒体新闻生产过程中的选题策划所需互联网最新热点话题、本地热点话题的智能推荐；信息监测模块56用于媒体单位新闻生产过程中的选题策划需要掌握的互联网信息以及本地信息的精准推送；传播分析模块54用于媒体单位优质原创作品在互联网传播效果的实时分析与推送；竞媒比对模块53用于媒体单位关注的媒体内容发布、传播效果的对比分析结果的智能推送；版权追踪单元406用于媒体单位原创作品是否被其他媒体机构非法转载以及自有原创作品是否侵权进行智能分析。

本实施例中，通过搭建统一的多租户的媒体大数据应用云服务平台，实现互联网数据的采集、存储、智能挖掘分析和智能应用云服务，各个租户再根据自己的业务需求选择媒体大数据应用智能服务并配置相应的规则，平台会实时对各租户的智能服务和规则进行处理，并将对海量的互联网数据的智能分析结果存储到各个租户对应的业务库中，各个租户通过浏览器登录访问平台即可享受媒体大数据应用服务，并可将分析结果推送到其他业务系统。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多租户的媒体大数据应用云服务平台，其特征在于，包括：

存储装置，用于存储所述处理数据；

所述租户管理装置，还用于按照所述发送配置信息，将所述互联网线索信息、所述热点话题信息、所述竞媒信息、所述传播信息和/或所述版权追踪信息发送给对应的租户；

所述智能分析及应用装置包括热点发现模块；

所述热点发现模型的计算过程，包括：

基于如下公式确定话题权重值topicValue；

topicValue=W₁×g+W₂×c+W₃×d+W₄×r+W₅×t+W₆×co+W₇×l+W₈×h

基于Sigmoid函数确定目标参数param值；

其中，所述Sigmoid函数的表达式包括：

S(x)=1/(1+e^-x）

mean=(Max+Min)/2；

param=[topicValue -mean]/[(min-mean)/(-5)]；

hottopicRate=[1/(1+e^-param)×0.4+0.6]×100。

2.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述智能分析及应用装置包括线索发现模块；

所述微博线索发现模型包括：

所述主题帖线索发现模型包括：

Q_bbs=W₁×ln(x_click+1)+W₂×ln(x_reply+1)

3.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述智能分析及应用装置还包括竞媒比对模块；

4.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述智能分析及应用装置还包括传播分析模块；

所述第一传播分析模型包括：

所述第二传播分析模型包括：

其中CBI_wechat为单篇微信稿件的传播指数，将单篇微信稿件的传播指数作为所述第二传播指数，x_read为所述单篇微信稿件的阅读数，x_forward为所述单篇微信稿件的转发数，x_comment为所述单篇微信稿件的评论数，x_likes为所述单篇微信稿件的点赞数，x_looking为所述单篇微信稿件的在看数，n为所述单篇微信稿件发布后的传播时长，l_i为权重；

所述第三传播分析模型包括：

CBI_e-newspaper=l₁×ln(x_read/n+1)+l₂×ln(x_forward/n+1)

其中CBI_e-newspaper为单篇电子报稿件的传播指数，将所述单篇电子报稿件的传播指数作为所述第三传播指数，x_read为所述处理数据包括单篇电子报稿件的阅读数，x_forward为单篇电子报稿件转发数，n为所述单篇微信稿件发布后的传播时长，l_i为权重。

5.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述智能分析及应用装置还包括版权追踪模块；

所述第一版权追踪模型为：

J=|A∩B|/|A∪B|；

所述第二版权追踪模型为：

J=|A∩B|/|min(A,B)|；

6.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述数据采集装置包括定向采集器、元搜索采集器、自适应采集器和网络漫爬采集器；所述公开数据包括第一公开数据、第二公开数据、第三公开数据和第四公开数据；

7.根据权利要求6所述多租户的媒体大数据应用云服务平台，其特征在于，所述数据采集装置还包括任务采集服务器和任务调度服务检测器；

8.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述预处理装置，具体用于过滤所述公开数据中的垃圾信息，对所述过滤后的公开数据进行初始分析处理，得到处理数据，并将所述处理数据上传给所述存储装置；

9.根据权利要求1所述多租户的媒体大数据应用云服务平台，其特征在于，所述存储装置包括元数据库、分布式文件系统和全文检索单元；

所述元数据库，用于存储所述处理数据中的元数据；