CN113010779B - 媒体信息的热度计算方法、装置、电子设备及存储介质 - Google Patents

媒体信息的热度计算方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113010779B
CN113010779B CN202110262124.7A CN202110262124A CN113010779B CN 113010779 B CN113010779 B CN 113010779B CN 202110262124 A CN202110262124 A CN 202110262124A CN 113010779 B CN113010779 B CN 113010779B
Authority
CN
China
Prior art keywords
media information
exposure
heat
time sequence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110262124.7A
Other languages
English (en)
Other versions
CN113010779A (zh
Inventor
李晨曦
荆宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110262124.7A priority Critical patent/CN113010779B/zh
Publication of CN113010779A publication Critical patent/CN113010779A/zh
Application granted granted Critical
Publication of CN113010779B publication Critical patent/CN113010779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种媒体信息的热度计算方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量;将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度;根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度;根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度。本申请实施例涉及人工智能技术,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。

Description

媒体信息的热度计算方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种媒体信息的热度计算方法、装置、电子设备及存储介质。
背景技术
随着互联网信息技术的快速发展,越来越多的用户热衷于借助各种网络平台来阅读各种媒体信息,各个网络平台通常会通过热度排行榜向用户推荐当前热门的媒体信息。
一般地,媒体信息可以分为话题类媒体信息和非话题类媒体信息,话题类媒体信息需要受众进行赞成(例如触发微博上的点赞控件)或者反对(例如触发微博上的点踩控件)的操作,相应的,针对话题类媒体信息的热度计算模型,一般利用话题的赞成数、反对数以及发表时间,通过计算话题的相对赞成数以及计算时间衰减来表示话题热度;
非话题类媒体信息不需要受众明确地进行赞成或者反对操作,常见的非话题类媒体信息包括电影、报刊、书籍、新闻等等,针对非话题类媒体信息的热度计算模型一般通过统计非话题类媒体信息被搜索的次数来表示实体当前的热度,但这种只是简单的统计实体被搜索的次数的方式准确性较低。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的媒体信息的热度计算方法、装置、电子设备及存储介质。
第一方面,提供了一种媒体信息的热度计算方法,该方法包括:
获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量;
将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,短期热度用于表征对应的媒体信息在时间序列的平均热度;
根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度,突发热度用于表征对应的媒体信息在时间序列的最后一个时段的热度;
根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度。
在一个可能的实现方式中,媒体信息的曝光量包括以下至少一项:
媒体信息的实际曝光量;
根据预设的衰减因子对实际曝光量进行衰减后获得的衰减后曝光量。
在一个可能的实现方式中,获取至少一个媒体信息的时间序列,包括:
对于时间序列中每个时段,确定包含媒体信息的每条媒体内容的实际曝光量,统计所有条的媒体内容的实际曝光量之和,作为媒体信息的实际曝光量;
确定衰减因子与媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量。
在一个可能的实现方式中,短期热度模型包括编码器、均值处理层和全连接层;
将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,包括:
将时间序列输入至预先训练的编码器,获得编码器输出的媒体信息在时间序列中每一时段对应的下一时段的曝光量预测值;
将时间序列中各个时段的曝光量预测值输入至均值处理层,获得均值处理层输出的曝光量预测值的平均值;
将曝光量预测值的平均值输入至全连接层,获得全连接层输出的对应的媒体信息的短期热度;
其中,编码器以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段对应的下一时段的曝光量为样本标签训练而成;全连接层以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段的曝光量的归一化结果为样本标签训练而成。
在一个可能的实现方式中,根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度,包括:
对于时间序列中的每对相邻时段,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值,突发趋势值用于表征前一时段的衰减后曝光量占相邻时段的衰减后曝光量的比重;
确定时间序列的衰减后曝光量的平均值以及突发趋势值的平均值;
根据衰减后曝光量的平均值、突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得对应的媒体信息的突发热度。
在一个可能的实现方式中,媒体内容包括至少一种曝光途径;
统计所有条的媒体内容的实际曝光量之和,包括:
确定每一条媒体内容的曝光途径,对于每一种曝光途径,统计曝光途径的所有条的媒体内容的实际曝光量,获得媒体信息在曝光途径的实际曝光量;
确定衰减因子与媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量,包括:
对于每一种曝光途径,统计曝光途径的媒体内容的目标条数,确定衰减因子与目标条数的乘积,获得目标乘积结果,将目标乘积结果与预设阈值中的较小值与媒体信息在曝光途径的实际曝光量,获得媒体信息在曝光途径的衰减后曝光量。
在一个可能的实现方式中,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值,包括:
对于时间序列中的每一时段,对时段的媒体信息在各曝光途径的衰减后曝光量进行加权求和,获得每一时段的综合衰减曝光量;
根据每对相邻时段中前一个时段的综合衰减曝光量与每对相邻时段中的两个时段的综合衰减曝光量之和,获得每个相邻时段中的前一时段的突发趋势值。
在一个可能的实现方式中,根据衰减后曝光量的平均值、突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得对应的媒体信息的突发热度,包括:
确定衰减后曝光量的平均值与突发趋势值的平均值的乘积,根据乘积结果与最后一个时段的衰减后曝光量求和,获得第一参数;
根据衰减后曝光量的平均值以及在最后两个时段的衰减后曝光量求和,获得第二参数;
根据第一参数和第二参数的商,获得对应的媒体信息的突发热度。
在一个可能的实现方式中,编码器为双向长短期记忆网络。
在一个可能的实现方式中,获得对应的媒体信息的热度,之后还包括:
对至少一个媒体信息的热度进行归一化处理,获得至少一个媒体信息的归一化后的热度;
根据至少一个媒体信息的归一化后的热度,对至少一个媒体信息进行排序。
第二方面,提供了一种媒体信息的热度计算装置,包括:
时间序列获取模块,用于获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量;
短期热度获取模块,用于将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,短期热度用于表征对应的媒体信息在时间序列的平均热度;
突发热度获取模块,用于根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度,突发热度用于表征对应的媒体信息在时间序列的最后一个时段的热度;
热度融合模块,用于根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度。
在一个可能的实现方式中,媒体信息的曝光量包括以下至少一项:
媒体信息的实际曝光量;
根据预设的衰减因子对实际曝光量进行衰减后获得的衰减后曝光量。
在一个可能的实现方式中,时间序列获取模块包括:
实际曝光统计子模块,用于对于时间序列中每个时段,确定包含媒体信息的每条媒体内容的实际曝光量,统计所有条的媒体内容的实际曝光量之和,作为媒体信息的实际曝光量;
衰减曝光统计子模块,用于确定衰减因子与媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量。
在一个可能的实现方式中,短期热度模型包括编码器、均值处理层和全连接层;
短期热度获取模块包括:
预测子模块,用于将时间序列输入至预先训练的编码器,获得编码器输出的媒体信息在时间序列中每一时段对应的下一时段的曝光量预测值;
均值获取子模块,用于将时间序列中各个时段的曝光量预测值输入至均值处理层,获得均值处理层输出的曝光量预测值的平均值;
短期热度获取子模块,用于将曝光量预测值的平均值输入至全连接层,获得全连接层输出的对应的媒体信息的短期热度;
其中,编码器以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段对应的下一时段的曝光量为样本标签训练而成;全连接层以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段的曝光量的归一化结果为样本标签训练而成。
在一个可能的实现方式中,突发热度获取模块包括:
趋势获取子模块,用于对于时间序列中的每对相邻时段,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值,突发趋势值用于表征前一时段的衰减后曝光量占相邻时段的衰减后曝光量的比重;
均值确定子模块,用于确定时间序列的衰减后曝光量的平均值以及突发趋势值的平均值;
突发热度获取子模块,用于根据衰减后曝光量的平均值、突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得对应的媒体信息的突发热度。
在一个可能的实现方式中,媒体内容包括至少一种曝光途径;
实际曝光统计子模块统计所有条的媒体内容的实际曝光量之和,包括:
确定每一条媒体内容的曝光途径,对于每一种曝光途径,统计曝光途径的所有条的媒体内容的实际曝光量,获得媒体信息在曝光途径的实际曝光量;
衰减曝光统计子模块具体用于:对于每一种曝光途径,统计曝光途径的媒体内容的目标条数,确定衰减因子与目标条数的乘积,获得目标乘积结果,将目标乘积结果与预设阈值中的较小值与媒体信息在曝光途径的实际曝光量,获得媒体信息在曝光途径的衰减后曝光量。
在一个可能的实现方式中,趋势获取子模块包括:
综合衰减计算单元,用于对于时间序列中的每一时段,对时段的媒体信息在各曝光途径的衰减后曝光量进行加权求和,获得每一时段的综合衰减曝光量;
比重单元,用于根据每对相邻时段中前一个时段的综合衰减曝光量与每对相邻时段中的两个时段的综合衰减曝光量之和,获得每个相邻时段中的前一时段的突发趋势值。
在一个可能的实现方式中,突发热度获取子模块包括:
第一参数获取单元,用于确定衰减后曝光量的平均值与突发趋势值的平均值的乘积,根据乘积结果与最后一个时段的衰减后曝光量求和,获得第一参数;
第二参数获取单元,用于根据衰减后曝光量的平均值以及在最后两个时段的衰减后曝光量求和,获得第二参数;
商值计算单元,用于根据第一参数和第二参数的商,获得对应的媒体信息的突发热度。
在一个可能的实现方式中,编码器为双向长短期记忆网络。
在一个可能的实现方式中,媒体信息的热度计算装置还包括:
归一化模块,用于对至少一个媒体信息的热度进行归一化处理,获得至少一个媒体信息的归一化后的热度;
排序模块,用于根据至少一个媒体信息的归一化后的热度,对至少一个媒体信息进行排序。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
第五方面,本发明实施例提供一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,当计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现如第一方面所提供的方法的步骤。
本发明实施例提供的媒体信息的热度计算方法、装置、电子设备及存储介质,通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例所涉及的实施环境的示意图;
图2为本申请实施例的媒体信息的热度计算方法的流程示意图;
图3为本申请另一个实施例的媒体信息的热度计算方法的流程示意图;
图4为本申请实施例的短期热度模型的结构示意图;
图5为本申请实施例的BiLSTM的结构示意图;
图6为本申请实施例获得媒体信息的突发热度的流程示意图;
图7为本申请实施例的ucg系统的示意图;
图8为本申请实施例生成热度排行榜的应用场景图;
图9为本申请实施例提供的一种媒体信息的热度计算装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的媒体信息的热度计算方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例记载的媒体信息可以是话题类媒体信息也可以非话题类媒体信息,本申请实施例所指的媒体信息具体可以是关键词或者关键短语,例如某个电影的名称——xxx探案、某个事件的简述——某地发生地震、某个人物——xx大学李某某教授等等。
影响媒体信息热度的载体,也即媒体内容,一般包括新闻和博文,其中,新闻可以理解为各新闻媒体通过网络对外发布的与媒体信息相关的内容,博文可以理解为各社交平台中发布的与媒体信息有关的内容,社交平台包括但不限于:微博、微信、facebook、博客日志、论坛帖子、视频段子、动漫图片、网络专题、数字杂志、电子邮件、电子报等,这里不做具体限定。
媒体信息的热度是多媒体平台所关注的重要指数,热度越高,往往表示关注媒体信息的用户越多。
请参见图1,其示例性地时长了本申请实施例所涉及的实施环境的示意图,如图1所示,该实施环境100可以包括终端设备110、120、130中的一种或多种,网络140和服务器150。网络140用以在终端设备110、120、130和服务器150之间提供通信链路的介质。网络140可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器150可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
本申请实施例的服务器的执行方法可以以云计算(cloud computing)的形式完成,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
用户可以使用终端设备110、120、130通过网络140与服务器150交互,以获取包含媒体信息的媒体内容等。终端设备110、120、130可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居、车载计算机等等,另外,终端设备也可以不具有显示屏,但具有扬声器的电子设备,例如智能音箱等等。
终端上安装有服务器150提供服务的目标应用程序,目标应用程序可以为应用程序或者操作系统,目标应用程序为曝光媒体信息提供环境。例如,目标应用程序可以是聊天类应用程序、浏览器、多媒体播放器、导航类应用程序等等。再如,目标应用程序可以为安卓(Android)操作系统,媒体信息的曝光可以具有目标应用程序的快应用实现,目标应用程序为用于提供媒体信息的曝光的快应用提供运行环境。
终端还可以通过目标应用程序向服务器主动请求曝光特定的媒体信息,例如,终端可以通过在目标应用程序上搜索某一个媒体信息:XX探案,从而服务器向终端提供包含该媒体信息的媒体内容,并且服务器在获取终端的搜索请求后,可以根据搜索请求更新媒体信息的热度。
服务器150可以是提供各种服务的服务器,特别是提供媒体信息曝光服务的服务器。其中,服务器也可以是区块链的节点。
服务器获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量,将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,短期热度用于表征对应的媒体信息在时间序列的平均热度,根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度,突发热度用于表征对应的媒体信息在时间序列的最后一个时段的热度,根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度,通过确定媒体信息的热度,以向终端曝光热度更高的媒体信息,从而提高用户的使用满意度。
可选的,本申请实施例的媒体信息的热度计算方法的应用场景包括但不限于以下几种中的至少一种:
1、广告宣发,例如,在电影或者电视公映之前,通过确定电影或者电视的媒体信息,计算媒体信息的热度,进一步根据媒体信息的热度预测电影的票房或者电视的收视率,可以帮助电影电视宣发方采取一定的宣传策略,以进一步提升票房或者收视率。
2、新闻推送,通过爬取互联网中一段时间内的各新闻中包含的媒体信息,从而确定具有高热度的新闻,将具有高热度的新闻及时推送至用户,供用户知晓当下流行的热点新闻、政策等等。
3、生活服务推荐,通过爬取互联网中各区域中与生活服务相关的媒体信息,当用户位于某一区域时,用户通过终端向服务器发送生活服务推荐请求,服务器根据生活服务相关的媒体信息的热度,向用户推荐热度更高的生活服务,从而提高生活服务的推荐水平以及用户的体验。本申请实施例的生活服务包括但不限于对饭店、旅店、影院、景点、医院、学校等的推荐。
需要说明的是,本公开实施例所提供的媒体信息的热度计算方法一般由服务器150执行,相应地,媒体信息的热度计算装置一般设置于服务器150中。
请参阅图2,其示例性地示出了本申请实施例的媒体信息的热度计算方法的流程示意图,如图2所示,包括:
S101、获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量。
本申请实施例的媒体信息的热度计算方法适用于对话题类或者非话题类的媒体信息进行热度计算,并且特别适用于非话题类的媒体信息的计算,媒体信息可以是关键字、关键词或者短语,比如xxx探案、某地发生7级地震、xx大学李xx教授等等。
本申请实施例发现当利用媒体信息在一定时间内的热度变化趋势确定热度时,确定的热度更加准确。为了挖掘出媒体信息在一定时间内的热度变化趋势,本申请实施例获取媒体信息在至少两个时段的曝光量。本申请实施例中每一时段的时长可以以分钟为单位计数,也可以以小时、自然日、周、月或者年为单位,在此不做具体的限定。本申请实施例获取的至少两个时段的曝光量可以是连续的两个时段的曝光量,也可以是非连续的两个时段的曝光量,例如,在以天为单位计数时,获取媒体信息在1月1日至1月31日每天的曝光量,还例如,获取媒体信息在1月1日至1月31日每个工作日的曝光量。
曝光量即曝光给终端的数量,可以理解的是,当服务器(不限于上述实施例中的服务器150,还可以是专门用于推送媒体信息的其他服务器)向终端推送媒体信息时,当终端展示该媒体信息时,终端会向服务器反馈进行了一次曝光,从而服务器根据接收到反馈的时间,可以统计出媒体信息曝光的时间,进而确定媒体信息在各时段的曝光量,从而获得该媒体信息的时间序列。
S102、将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,短期热度用于表征对应的媒体信息在时间序列的平均热度。
本申请实施例将热度分为短期热度和突发热度两个维度,其中短期热度是指媒体信息在时间序列的平均热度,能够反应出媒体信息的热度趋势。
具体的,本申请实施例通过机器学习(Machine Learning,ML)来预测媒体信息的短期热度。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例通过预先训练的短期热度模型,以时间序列为输入,获得媒体信息的短期热度。应当理解的是,在执行步骤S102之前,还可以预先训练得到短期热度模型,具体可通过如下方式训练得到短期热度模型:首先,收集一定数量的样本媒体信息的时间序列,样本媒体信息的时间序列包括样本媒体信息在至少两个时段的曝光量,随即,基于样本媒体信息在时间序列对初始模型进行训练,其中,以样本媒体信息在时间序列中每一时段的曝光量作为训练样本,以样本媒体信息在时间序列中所有时段的曝光量归一化结果的平均值结果作为样本标签,也就是说,本申请实施例将所有时段的曝光量的归一化结果的均值作为短期热度,从而得到短期热度模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
S103、根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度。
本申请实施例的突发热度用于表征对应的媒体信息在时间序列的最后一个时段的热度,本申请实施例通过获取时间序列中每对相邻时段的曝光量间的差异,确定媒体信息的曝光量在时间序列的波动情况,根据波动情况进一步确定媒体信息在最后一个时段的热度。
S104、根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度。
本申请实施例在获取媒体信息的短期热度和突发热度后,可以通过加权求和的方式获得媒体信息的热度,使得媒体信息的热度综合考虑了曝光量在一定时间内的变化趋势和离散程度,从而更符合实际情形,具有更高的置信度。
本发明实施例的媒体信息的热度计算方法,通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
本申请实施例通过实验发现,当媒体信息的曝光量较低时,媒体信息的热度会逐渐衰减,如果只统计媒体信息在每个时段的实际曝光量,可能会出现计算出的热度比用户实际感受到的热度偏高的问题。因此,本申请获取的媒体信息的曝光量包括一下至少一项:
媒体信息的实际曝光量;
根据预设的衰减因子对实际曝光量进行衰减后获得的衰减后曝光量。
应当理解的是,实际曝光量即媒体信息在网络上实际统计出的曝光量,例如,通过数据爬取技术爬取到某一媒体信息在某一浏览器平台上的曝光量为1000万,在某一音乐平台上的曝光量为800万,除此以外未在其他平台上爬取到曝光量,则该媒体信息的实际曝光量为1800万。
衰减后曝光量即通过预设的衰减因子与实际曝光量相乘的结果,需要注意的是,衰减因子可以为小于1的值,也可以等于1,在小于1时,衰减后曝光量小于实际曝光量,在等于1时,衰减后曝光量等于实际曝光量。
在上述各实施例的基础上,作为一种可选实施例,步骤S101中的获取至少一个媒体信息的时间序列,包括:
S1011、对于时间序列中每个时段,确定包含媒体信息的每条媒体内容的实际曝光量,统计所有条的媒体内容的实际曝光量之和,作为媒体信息的实际曝光量。
应当理解的是,媒体信息是精炼、简要的信息,真正传播的是包含媒体信息的媒体内容,以媒体信息:XX街探案为例,媒体内容可以是包含XX街探案的微博、博客、广告、视频、小说、搜索文本等等。在本申请实施例中,两个包含媒体信息的不同的媒体内容称之为两条媒体内容,例如,“XX街探案的主演是谁”和“XX街探案的票房破10亿”两个媒体内容中都包含媒体信息“XX街探案”,但属于不同的媒体内容,是两条媒体内容。通过统计每一条媒体内容的曝光量并进行汇总统计,即可获得媒体信息的实际曝光量。应当理解的是,媒体信息的实际曝光量是指一个时段的实际曝光量。
S1012、确定衰减因子与媒体内容的条数的乘积,将乘积与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量。
本申请实施例通过实验发现,越热门的媒体信息,包含该媒体信息的媒体内容就越丰富,因此,本申请实施例将衰减因子与包含该媒体信息的媒体内容的条数相乘,并将乘积与预设阈值的大小进行比对,若乘积大于预设阈值,则说明包含媒体信息的媒体内容比较丰富,反之,则说明包含媒体信息的媒体内容比较少,通过将乘积和预设阈值间的较小值与实际曝光量相乘,即可获得衰减后曝光量。作为一种可选实施例,预设阈值的大小可以为1,也就是说,当衰减因子与包含该媒体信息的媒体内容的条数相乘后的结果大于1时,则衰减后曝光量与实际曝光量相同。
本申请实施例通过将实际曝光量和衰减后曝光量共同作为曝光量,为后续确定更为准确的热度奠定基础。
请参阅图3,其示例性示出了本申请另一个实施例的媒体信息的热度计算方法的流程示意图,如图所示,该流程可分为数据预处理、热度计算和热度融合三个子流程,具体的:
在数据预处理子流程中,将媒体内容分为搜索文本和文章标题两种曝光途径,其中搜索文本即在搜索软件、网页上搜索信息时输入的文本,文章标题是指在包含媒体信息的文章标题和/或内容里包括媒体信息的文章的标题,需要注意的,本申请实施例所称的文章包括但不限于博客、新闻、小说以及对视频进行语音识别后生成的文章。
以预设时间单位获取包含媒体信息的搜索文本和文章标题的实际曝光量,之后根据预设的衰减因子对实际曝光量进行衰减后获得的衰减后曝光量,将每一天的实际曝光量和衰减后曝光量共同作为时间序列中对应时段的元素,从而获得时间序列,数据预处理子流程完成。
对于热度计算子流程,本申请实施例采用根据时间序列分别获得短期热度和突发热度的方式:
对于获取短期热度的过程,首先训练短期热度模型,然后将时间序列输入至训练完成的短期热度模型,获得媒体信息的短期热度;
对于获取突发热度的过程,首先根据时间序列中的每对相邻时段,获得每个相邻时段中的前一时段的突发趋势值,突发趋势值能够表征前一时段的衰减后曝光量占相邻时段的衰减后曝光量的比重,之后根据每一时段的突发趋势值确定媒体信息的突发热度。
对于热度融合的子流程,本申请实施例可以在获得短期热度和突发热度后,可以通过加权求和的方式获得媒体信息的热度。
应当理解的是,媒体信息可以通过多种曝光途径进行曝光,场景的曝光途径包括搜索途径和推送途径,搜索途径即用户需要主动去搜索才能获得媒体信息,而推送途径则是用户被动地接收多媒体服务商推送的多媒体内容,并通过访问多媒体内容获取到媒体信息。
作为一种可选实施例,统计所有条的媒体内容的实际曝光量之和,包括:
确定每一条媒体内容的曝光途径,对于每一种曝光途径,统计曝光途径的所有条的媒体内容的实际曝光量,获得媒体信息在曝光途径的实际曝光量。
本申请实施例在以预设时长(例如为自然日)为单位获取时间序列时,对于每天的包含媒体信息e的搜索文本(即通过搜索途径曝光的媒体内容),可形式化标识为集合其中,k表示第k天,q表示搜索文本,qv表示搜索文本被搜索的次数,i表示第i条数据,即表示第i条搜索文本在第k天被搜索的次数,表示搜索文本在第k天的总条数。整合每天的搜索文本集合,表示为其中,表示当日媒体信息e被搜索的总次数。
同理,对于每天的包含媒体信息e的文章标题(即通过推送途径曝光的媒体内容),可形式化表示为集合其中,t表示文章标题,tv表示对应文章被访问的次数,i表示第i条文章标题,表示包含媒体信息e的文章标题在第k条的总条数,整合每天的文章标题集合,表示为其中,表示当日包含媒体信息e的文章标题被访问的总次数,表示第i条文章标题在第k天被访问的次数。可以理解的是,qvk和tvk共同构成了媒体信息e的实际曝光量,也即曝光量包括搜索量和访问量两部分。
进一步地,本申请实施例可以采用对不同曝光途径的曝光量分别进行衰减的方式,获得衰减后曝光量。具体的,确定衰减因子与媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量,包括:
对于每一种曝光途径,统计曝光途径的媒体内容的目标条数,确定衰减因子与目标条数的乘积,获得目标乘积结果,将目标乘积结果与预设阈值中的较小值与媒体信息在曝光途径的实际曝光量,获得媒体信息在曝光途径的衰减后曝光量。
以上述搜索曝光途径和推送曝光途径为例,具体的衰减公式可以表示为:
其中,tv′k表示衰减后访问量,qv′k表示衰减后搜索量,表示与搜索量相关的衰减因子,表示与访问量相关的衰减因子,本申请实施例对于的具体数值不作进一步的限定,例如,可以取0.05,可以取0.01。
显然,对于每一天的媒体信息,都可以标识为四元组获取过去K日内的数据,融合为时间序列,形式化的表示为X=x1,x2,…,xK
请参见图4,其示例性地示出了本申请实施例的短期热度模型的结构示意图,如图所示,短期热度模型包括编码器101、均值处理层102和全连接层103,
通过将时间序列X输入预先训练的编码器,获得编码器输出的预测序列X’,X′=x1′,x2′,…,xK′。其中,X’中的第n个元素为编码器根据X中第n-1个元素预测出的第n时段的曝光量预测值,n为大于0的整数,xK′为预设的第K时段的曝光量预测值。可以理解的是,编码层输出的曝光量预测值同样也是四元组。
在将时间序列输入至编码器之前,本申请实施例还可以预先训练得到编码器,具体可通过如下方式训练得到编码器:
首先,收集一定数量的样本媒体信息的时间序列,每个样本媒体信息的时间序列包括该样本媒体信息在至少两个时段的曝光量,随即,基于样本媒体信息的时间序列对初始模型进行训练,其中,以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段对应的下一时段的曝光量为样本标签,从而得到编码器。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
将预测序列X′输入至均值处理层102进行求均值处理,获得均值处理层102输出的曝光量预测值的平均值可形式化表示为:
将曝光量预测值的平均值输入值全连接层103,获得全连接成输出的短期热度。本申请实施例的全连接层可以表示为:
其中,W表示参数矩阵,b表示偏置参数,ys表示短期热度。
在将曝光量预测值的平均值输入至全连接层之前,本申请实施例还可以预先训练得到全连接层,具体可通过如下方式训练得到全连接层:
首先,收集一定数量的样本媒体信息的时间序列,每个样本媒体信息的时间序列包括该样本媒体信息在至少两个时段的曝光量,并对每个时段的曝光量进行归一化处理,随即,基于样本媒体信息的时间序列和各时段的曝光量的归一化结果对初始模型进行训练,其中,以样本媒体信息在时间序列中每一时段的曝光量为样本,以每一时段的曝光量的归一化结果为样本标签,对全连接层中的参数矩阵和偏置参数进行训练,以获得全连接层。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
在上述各实施例的基础上,作为一种可选实施例,编码器为双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM),采用双向LSTM对时间序列进行处理,是指LSTM处理语句时有两个方向不同的LSTM对数据进行处理,分别从前后两个不同的方向进行传播,避免了在处理序列数据时只收到前一时段数据的影响,能够充分利用时间序列的信息——包括不同时段的媒体信息的曝光量间的相互关系信息,并将该信息用于对每个时段的曝光量的预测处理中。
两个方向不同的LSTM包括一个前向LSTM与一个后向LSTM,如图5所示,本发明实施例采用了双向的LSTM对比单向的LSTM有所区别,本实施例通过前向LSTM与后向LSTM分别得到隐层的状态,最后拼接成为了一个长度为2倍的隐含层节点数的向量,作为Bi-LSTM的输出。其中,图5中的a代表输入层,b代表隐含层,c代表输出层。
形式化的表示为:
其中,表示前向LSTM的隐藏状态,表示后向LSTM的隐藏状态。拼接两个隐藏状态作为BiLSTM的输出
请参见图6,其示例性地示出了本申请实施例获得媒体信息的突发热度的流程示意图,如图所示,该步骤包括:
S1031、对于时间序列中的每对相邻时段,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值。
本申请实施例的突发趋势值用于表征前一时段的衰减后曝光量占相邻时段的衰减后曝光量的比重。例如,相邻两时段中前一时段的衰减后曝光量为a,后一时段的衰减后曝光量为b,则迁移时段的突发趋势值为a/(a+b)。通过步骤S1031可以确定时间序列中每一时段的突发趋势值,通过分析可知,若两个时段的曝光量相同,则前一时段的突发区是指为0.5,两个时段的曝光量差异越大,则越远离0.5,本申请通过获取突发趋势值,能够确定衰减后曝光量的波动情况。
S1032、确定时间序列的衰减后曝光量的平均值以及突发趋势值的平均值。
具体的,通过将时间序列的衰减后曝光量求和,再将求和结果与时间序列的时段数相除,即可获得衰减后曝光量的平均值。同理,将所有时段的突发趋势值求和,再将求和结果与时段数相除,即可获得突发趋势值的平均值。
S1033、根据衰减后曝光量的平均值、突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得对应的媒体信息的突发热度。
本申请实施例获取突发热度的流程,首先通过确定每一时段的突发趋势值,以突发趋势值来定义每一时段与相邻的后一时段的衰减后曝光量间衰减的趋势,进一步通过计算所有时段的突发趋势值的平均值来确定曝光量在时间序列的衰减的趋势,从而可以更准确地获得媒体信息在最后时段的热度。
在上述各实施例的基础上,作为一种可选实施例,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值,包括:
对于时间序列中的每一时段,对时段的媒体信息在各曝光途径的衰减后曝光量进行加权求和,获得每一时段的综合衰减曝光量;
根据每对相邻时段中前一个时段的综合衰减曝光量与每对相邻时段中的两个时段的综合衰减曝光量之和,获得每个相邻时段中的前一时段的突发趋势值。
以上述实施例中搜索和推送两种曝光途径为例,综合衰减曝光量的计算公式可以表达为:
hk=β*qv′k+(1-β*tv′k)
其中,hk表示k时段的突发趋势值,β表示预设的权重值,0≤β≤1。可以理解的是,当曝光途径大于2时,所有曝光途径对应的权重值之和仍然为1。
突发趋势值的计算公式可以表达为:
其中,scorek表示k时段的突发趋势值。
在上述各实施例的基础上,步骤S1033进一步包括:
确定衰减后曝光量的平均值与突发趋势值的平均值的乘积,根据乘积结果与最后一个时段的衰减后曝光量求和,获得第一参数;
根据衰减后曝光量的平均值以及在最后两个时段的衰减后曝光量求和,获得第二参数;
根据第一参数和第二参数的商,获得对应的媒体信息的突发热度。
本申请实施例在确定突发热度时,衰减后曝光量可以用综合衰减曝光量进行表示,相应的,衰减后曝光量的平均值也即时间序列中所有时段的综合衰减曝光量的平均值,从而步骤S1033还可以通过以下公式进行表示:
其中,hK表示时间序列的最后一个时段的综合衰减曝光量,hK-1表示时间序列的倒数第二个时段的综合衰减曝光量,表示所有时段的综合衰减曝光量的平均值,表示所有时段的突发趋势值的均值。
在上述各实施例的基础上,作为一种可选实施例,获得对应的媒体信息的热度,之后还包括:
S105、对至少一个媒体信息的热度进行归一化处理,获得至少一个媒体信息的归一化后的热度;
S106、根据至少一个媒体信息的归一化后的热度,对至少一个媒体信息进行排序。
通过对各媒体信息的热度进行归一化处理,能够归纳统一各媒体信息的统计分布性,利用归一化后的热度对媒体信息进行排序,即可获得各媒体信息的热度排行榜。进一步向用户推送热度排行榜,供用户了解到互联网的热点媒体信息,提高用户的满意度。
下面对本申请实施例进行举例说明,请参见图7,其示例性地示出了了一种由用户产生内容(usergenerate content,ugc)系统的示意图,ugc系统包括但不限于论坛、社区等;其中,cgi为一种通用网关接口;作品搜索引擎用于存储全部用户发布的全部作品;作品操作存储用于存储用户对作品的点赞、评论、阅读等操作;热度排行榜是一个根据媒体信息的热度值对媒体信息进行排序的列表。
例如:当作者在客户端发布包括媒体信息的媒体内容时,会通过发布器cgi将媒体内容保存至存储层中的作品搜索引擎中,普通用户在对作者发布的媒体内容等进行普通操作时,例如:用户利用作品详情cgi对媒体内容进行访问;用户利用作品操作cgi搜索媒体内容,都可以使媒体内容得到曝光;作品操作存储会对每一次曝光进行存储,且将曝光的相关信息,例如曝光的时间、曝光的媒体内容中包含的媒体信息、媒体内容的曝光途径等等上报至媒体信息的热度计算装置中,每隔一段预设的时间,媒体信息的热度计算装置对热度排行榜进行更新。用户可以随时通过请求最热榜单cgi,来拉取热度排行榜。
普通用户每一次对已经发布的媒体内容进行搜索或者访问之后,ugc系统都会在媒体信息的热度计算装置写入一个消息,用于指示已经发布的媒体内容被曝光,从而为后续热度计算装置对热度排行榜进行更新奠定基础。
本申请实施例生成热度排行榜的应用场景图,如图8所示,当用户在ugc系统上搜索或者根据推送访问媒体内容时,ugc系统会对媒体内容的本次曝光进行存储,将其存储至作者操作存储中,当达到热度排行榜的更新时间时,热度计算装置从作者操作存储中获取媒体信息的曝光量数据,并按照步骤S101至S106的步骤对媒体信息的热度排行榜进行更新。
本申请实施例提供了一种媒体信息的热度计算装置,如图9所示,该装置可以包括:时间序列获取模块201、短期热度获取模块202、突发热度获取模块203和热度融合模块204,具体地:
时间序列获取模块201,用于获取至少一个媒体信息的时间序列,时间序列包括对应的媒体信息在至少两个时段的曝光量;
短期热度获取模块202,用于将时间序列输入至预先训练的短期热度模型,获得短期热度模型输出的对应的媒体信息的短期热度,短期热度用于表征对应的媒体信息在时间序列的平均热度;
突发热度获取模块203,用于根据时间序列中每对相邻时段的曝光量,获得对应的媒体信息的突发热度,突发热度用于表征对应的媒体信息在时间序列的最后一个时段的热度;
热度融合模块204,用于根据对应的媒体信息的短期热度和突发热度,获得对应的媒体信息的热度。
本发明实施例提供的媒体信息的热度计算装置,具体执行上述方法实施例流程,具体请详见上述媒体信息的热度计算方法实施例的内容,在此不再赘述。本发明实施例提供的媒体信息的热度计算装置,通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
在上述各实施例的基础上,作为一种可选实施例,媒体信息的曝光量包括以下至少一项:
媒体信息的实际曝光量;
根据预设的衰减因子对实际曝光量进行衰减后获得的衰减后曝光量。
在上述各实施例的基础上,作为一种可选实施例,时间序列获取模块包括:
实际曝光统计子模块,用于对于时间序列中每个时段,确定包含媒体信息的每条媒体内容的实际曝光量,统计所有条的媒体内容的实际曝光量之和,作为媒体信息的实际曝光量;
衰减曝光统计子模块,用于确定衰减因子与媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与媒体信息的实际曝光量相乘,获得衰减后曝光量。
在上述各实施例的基础上,作为一种可选实施例,短期热度模型包括编码器、均值处理层和全连接层;
短期热度获取模块包括:
预测子模块,用于将时间序列输入至预先训练的编码器,获得编码器输出的媒体信息在时间序列中每一时段对应的下一时段的曝光量预测值;
均值获取子模块,用于将时间序列中各个时段的曝光量预测值输入至均值处理层,获得均值处理层输出的曝光量预测值的平均值;
短期热度获取子模块,用于将曝光量预测值的平均值输入至全连接层,获得全连接层输出的对应的媒体信息的短期热度;
其中,编码器以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段对应的下一时段的曝光量为样本标签训练而成;全连接层以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段的曝光量的归一化结果为样本标签训练而成。
在上述各实施例的基础上,作为一种可选实施例,突发热度获取模块包括:
趋势获取子模块,用于对于时间序列中的每对相邻时段,根据每对相邻时段的衰减后曝光量,获得每个相邻时段中的前一时段的突发趋势值,突发趋势值用于表征前一时段的衰减后曝光量占相邻时段的衰减后曝光量的比重;
均值确定子模块,用于确定时间序列的衰减后曝光量的平均值以及突发趋势值的平均值;
突发热度获取子模块,用于根据衰减后曝光量的平均值、突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得对应的媒体信息的突发热度。
在上述各实施例的基础上,作为一种可选实施例,媒体内容包括至少一种曝光途径;
实际曝光统计子模块统计所有条的媒体内容的实际曝光量之和,包括:
确定每一条媒体内容的曝光途径,对于每一种曝光途径,统计曝光途径的所有条的媒体内容的实际曝光量,获得媒体信息在曝光途径的实际曝光量;
衰减曝光统计子模块具体用于:对于每一种曝光途径,统计曝光途径的媒体内容的目标条数,确定衰减因子与目标条数的乘积,获得目标乘积结果,将目标乘积结果与预设阈值中的较小值与媒体信息在曝光途径的实际曝光量,获得媒体信息在曝光途径的衰减后曝光量。
在上述各实施例的基础上,作为一种可选实施例,趋势获取子模块包括:
综合衰减计算单元,用于对于时间序列中的每一时段,对时段的媒体信息在各曝光途径的衰减后曝光量进行加权求和,获得每一时段的综合衰减曝光量;
比重单元,用于根据每对相邻时段中前一个时段的综合衰减曝光量与每对相邻时段中的两个时段的综合衰减曝光量之和,获得每个相邻时段中的前一时段的突发趋势值。
在上述各实施例的基础上,作为一种可选实施例,突发热度获取子模块包括:
第一参数获取单元,用于确定衰减后曝光量的平均值与突发趋势值的平均值的乘积,根据乘积结果与最后一个时段的衰减后曝光量求和,获得第一参数;
第二参数获取单元,用于根据衰减后曝光量的平均值以及在最后两个时段的衰减后曝光量求和,获得第二参数;
商值计算单元,用于根据第一参数和第二参数的商,获得对应的媒体信息的突发热度。
在上述各实施例的基础上,作为一种可选实施例,编码器为双向长短期记忆网络。
在上述各实施例的基础上,作为一种可选实施例,媒体信息的热度计算装置还包括:
归一化模块,用于对至少一个媒体信息的热度进行归一化处理,获得至少一个媒体信息的归一化后的热度;
排序模块,用于根据至少一个媒体信息的归一化后的热度,对至少一个媒体信息进行排序。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
本申请实施例提供了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,当计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如前述方法实施例所示的内容。与现有技术相比,通过获取媒体信息的时间序列,时间序列中包括至少两个时段的曝光量,为确定媒体信息在一定时长内的热度的变化趋势和离散程度奠定基础,进一步将时间序列输入到预先训练的短期热度模型,从而获得保证媒体信息在时间序列的平均热度的短期热度,并根据每对相邻时段的曝光量,获得表征媒体信息在时间序列的最后一个时段的热度,将短期热度和突发热度进行融合,获得对应的媒体信息的热度,使得媒体信息的热度兼顾了热度在一定时间内的变化趋势和离散程度,更符合实际情形,具有更高的置信度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种媒体信息的热度计算方法,其特征在于,包括:
获取至少一个媒体信息的时间序列,所述时间序列包括对应的媒体信息在至少两个时段的曝光量;
将所述时间序列输入至预先训练的短期热度模型,获得所述短期热度模型输出的对应的媒体信息的短期热度,所述短期热度用于表征所述对应的媒体信息在所述时间序列的平均热度;
根据所述时间序列中每对相邻时段的曝光量,获得所述对应的媒体信息的突发热度,所述突发热度用于表征所述对应的媒体信息在所述时间序列的最后一个时段的热度;
根据所述对应的媒体信息的短期热度和突发热度,获得所述对应的媒体信息的热度。
2.根据权利要求1所述的媒体信息的热度计算方法,其特征在于,所述媒体信息的曝光量包括以下至少一项:
所述媒体信息的实际曝光量;
根据预设的衰减因子对所述实际曝光量进行衰减后获得的衰减后曝光量。
3.根据权利要求2所述的媒体信息的热度计算方法,其特征在于,所述获取至少一个媒体信息的时间序列,包括:
对于所述时间序列中每个时段,确定包含所述媒体信息的每条媒体内容的实际曝光量,统计所有条的媒体内容的实际曝光量之和,作为所述媒体信息的实际曝光量;
确定所述衰减因子与所述媒体内容的条数的乘积,将乘积结果与预设阈值中的较小值与所述媒体信息的实际曝光量相乘,获得所述衰减后曝光量。
4.根据权利要求1-3任意一项所述的媒体信息的热度计算方法,其特征在于,所述短期热度模型包括编码器、均值处理层和全连接层;
所述将所述时间序列输入至预先训练的短期热度模型,获得所述短期热度模型输出的对应的媒体信息的短期热度,包括:
将所述时间序列输入至预先训练的所述编码器,获得所述编码器输出的媒体信息在所述时间序列中每一时段对应的下一时段的曝光量预测值;
将所述时间序列中各个时段的曝光量预测值输入至所述均值处理层,获得所述均值处理层输出的所述曝光量预测值的平均值;
将所述曝光量预测值的平均值输入至所述全连接层,获得所述全连接层输出的所述对应的媒体信息的短期热度;
其中,所述编码器以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中每一时段对应的下一时段的曝光量为样本标签训练而成;所述全连接层以样本媒体信息在时间序列中每一时段的曝光量为样本,以样本媒体信息在时间序列中所有时段的曝光量的归一化结果为样本标签训练而成。
5.根据权利要求3所述的媒体信息的热度计算方法,其特征在于,所述根据时间序列中每对相邻时段的曝光量,获得所述对应的媒体信息的突发热度,包括:
对于所述时间序列中的每对相邻时段,根据所述每对相邻时段的衰减后曝光量,获得所述每对相邻时段中的前一时段的突发趋势值,所述突发趋势值用于表征所述前一时段的衰减后曝光量占所述相邻时段的衰减后曝光量的比重;
确定所述时间序列的衰减后曝光量的平均值以及所述突发趋势值的平均值;
根据所述衰减后曝光量的平均值、所述突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得所述对应的媒体信息的突发热度。
6.根据权利要求5所述的媒体信息的热度计算方法,其特征在于,所述媒体内容包括至少一种曝光途径;
所述统计所有条的媒体内容的实际曝光量之和,包括:
确定每一条媒体内容的曝光途径,对于每一种曝光途径,统计所述曝光途径的所有条的媒体内容的实际曝光量,获得所述媒体信息在所述曝光途径的实际曝光量;
所述确定所述衰减因子与所述媒体内容的条数的乘积,将乘积结果与所述预设阈值中的较小值与所述媒体信息的实际曝光量相乘,获得所述衰减后曝光量,包括:
对于每一种曝光途径,统计所述曝光途径的媒体内容的目标条数,确定所述衰减因子与所述目标条数的乘积,获得目标乘积结果,将所述目标乘积结果与所述预设阈值中的较小值与所述媒体信息在所述曝光途径的实际曝光量相乘,获得所述媒体信息在所述曝光途径的衰减后曝光量。
7.根据权利要求6所述的媒体信息的热度计算方法,其特征在于,所述根据所述每对相邻时段的衰减后曝光量,获得所述每个相邻时段中的前一时段的突发趋势值,包括:
对于所述时间序列中的每一时段,对所述时段的所述媒体信息在各曝光途径的衰减后曝光量进行加权求和,获得所述每一时段的综合衰减曝光量;
根据所述每对相邻时段中前一个时段的综合衰减曝光量与所述每对相邻时段中的两个时段的综合衰减曝光量之和,获得所述每个相邻时段中的前一时段的突发趋势值。
8.根据权利要求5-7任意一项所述的媒体信息的热度计算方法,其特征在于,所述根据所述衰减后曝光量的平均值、所述突发趋势值的平均值以及时间序列中的最后两个时段的衰减后曝光量,获得所述对应的媒体信息的突发热度,包括:
确定所述衰减后曝光量的平均值与所述突发趋势值的平均值的乘积,根据乘积结果与所述最后一个时段的衰减后曝光量求和,获得第一参数;
根据所述衰减后曝光量的平均值以及在最后两个时段的衰减后曝光量求和,获得第二参数;
根据所述第一参数和第二参数的商,获得所述对应的媒体信息的突发热度。
9.根据权利要求4所述的媒体信息的热度计算方法,其特征在于,所述编码器为双向长短期记忆网络。
10.根据权利要求1所述的媒体信息的热度计算方法,其特征在于,所述获得所述对应的媒体信息的热度,之后还包括:
对所述至少一个媒体信息的热度进行归一化处理,获得所述至少一个媒体信息的归一化后的热度;
根据所述至少一个媒体信息的归一化后的热度,对所述至少一个媒体信息进行排序。
11.一种媒体信息的热度计算装置,其特征在于,包括:
时间序列获取模块,用于获取至少一个媒体信息的时间序列,所述时间序列包括对应的媒体信息在至少两个时段的曝光量;
短期热度获取模块,用于将所述时间序列输入至预先训练的短期热度模型,获得所述短期热度模型输出的对应的媒体信息的短期热度,所述短期热度用于表征所述对应的媒体信息在所述时间序列的平均热度;
突发热度获取模块,用于根据所述时间序列中每对相邻时段的曝光量,获得所述对应的媒体信息的突发热度,所述突发热度用于表征所述对应的媒体信息在所述时间序列的最后一个时段的热度;
热度融合模块,用于根据所述对应的媒体信息的短期热度和突发热度,获得所述对应的媒体信息的热度。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至10任一项所述媒体信息的热度计算方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至10中任意一项所述媒体信息的热度计算方法的步骤。
CN202110262124.7A 2021-03-10 2021-03-10 媒体信息的热度计算方法、装置、电子设备及存储介质 Active CN113010779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262124.7A CN113010779B (zh) 2021-03-10 2021-03-10 媒体信息的热度计算方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262124.7A CN113010779B (zh) 2021-03-10 2021-03-10 媒体信息的热度计算方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113010779A CN113010779A (zh) 2021-06-22
CN113010779B true CN113010779B (zh) 2023-07-25

Family

ID=76404556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262124.7A Active CN113010779B (zh) 2021-03-10 2021-03-10 媒体信息的热度计算方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113010779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115526173A (zh) * 2022-10-12 2022-12-27 湖北大学 一种基于计算机信息技术的特征词提取方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN104915734A (zh) * 2015-06-25 2015-09-16 深圳市腾讯计算机系统有限公司 基于时间序列的商品热度预测方法和系统
CN104933129A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和系统
CN107979768A (zh) * 2016-10-19 2018-05-01 国家新闻出版广电总局广播科学研究院 电视节目热度的预测方法和装置
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN112149011A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 热度排行榜的更新方法、装置、服务器及计算机存储介质
CN112182187A (zh) * 2020-09-30 2021-01-05 天津大学 提取社交媒体短文本中重要时间片段的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120131013A1 (en) * 2010-11-19 2012-05-24 Cbs Interactive Inc. Techniques for ranking content based on social media metrics
CN105335537B (zh) * 2014-07-24 2019-08-02 腾讯科技(北京)有限公司 视频专辑中网络媒介信息的曝光量的预估方法和系统
WO2019226795A1 (en) * 2018-05-22 2019-11-28 Wp Company Llc Techniques for prediction of long-term popularity of digital media

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN104933129A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和系统
CN104915734A (zh) * 2015-06-25 2015-09-16 深圳市腾讯计算机系统有限公司 基于时间序列的商品热度预测方法和系统
CN107979768A (zh) * 2016-10-19 2018-05-01 国家新闻出版广电总局广播科学研究院 电视节目热度的预测方法和装置
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN112182187A (zh) * 2020-09-30 2021-01-05 天津大学 提取社交媒体短文本中重要时间片段的方法
CN112149011A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 热度排行榜的更新方法、装置、服务器及计算机存储介质

Also Published As

Publication number Publication date
CN113010779A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN107908740B (zh) 信息输出方法和装置
TWI424369B (zh) 用於決定內容相關性的活動型使用者興趣模型化
US10747771B2 (en) Method and apparatus for determining hot event
AU2014201827B2 (en) Scoring concept terms using a deep network
US8447640B2 (en) Device, system and method of handling user requests
TWI510937B (zh) 媒體資產之發佈排序的方法及系統
Cleger-Tamayo et al. Top-N news recommendations in digital newspapers
US20140089322A1 (en) System And Method for Ranking Creator Endorsements
CN107526718B (zh) 用于生成文本的方法和装置
US20160092771A1 (en) Analysis of social media messages
Omidvar et al. Context based user ranking in forums for expert finding using WordNet dictionary and social network analysis
Strobbe et al. Interest based selection of user generated content for rich communication services
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN103577504A (zh) 一种投放个性化内容的方法和装置
CA2722287A1 (en) Automatic content composition generation
CN113010779B (zh) 媒体信息的热度计算方法、装置、电子设备及存储介质
US20180137587A1 (en) Contextual personalized list of recommended courses
US20180089284A1 (en) Ranking courses for a presentation
CN109408725B (zh) 用于确定用户兴趣的方法和装置
US20180137588A1 (en) Contextual personalized list of recommended courses
Dong et al. A hierarchical network with user memory matrix for long sequence recommendation
US20180089285A1 (en) Recommending courses for an electronic presentation
US11893032B2 (en) Measuring relevance of datasets to a data science model
Dong et al. Modeling user interactions by feature-augmented graph neural networks for recommendation
Wang et al. Degree of user attention to a webpage based on Baidu Index: an alternative to page view

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045993

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant