CN114491149A - 信息处理方法及装置、电子设备、存储介质、程序产品 - Google Patents

信息处理方法及装置、电子设备、存储介质、程序产品 Download PDF

Info

Publication number
CN114491149A
CN114491149A CN202210040341.6A CN202210040341A CN114491149A CN 114491149 A CN114491149 A CN 114491149A CN 202210040341 A CN202210040341 A CN 202210040341A CN 114491149 A CN114491149 A CN 114491149A
Authority
CN
China
Prior art keywords
video
event
candidate
videos
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210040341.6A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210040341.6A priority Critical patent/CN114491149A/zh
Publication of CN114491149A publication Critical patent/CN114491149A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例揭示了一种信息处理方法及装置、电子设备、存储介质、程序产品,该方法包括:获取与视频关联的信息,并基于获取到的信息生成事件主题;生成事件主题对应的第一视频事件,并获取与第一视频事件关联的第二视频事件;对第一视频事件和第二视频事件进行分析得到事件关联关系;根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件。本申请实施例的技术方案能够丰富视频事件的内容、提高视频事件生成效率。

Description

信息处理方法及装置、电子设备、存储介质、程序产品
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种信息处理方法及装置、电子设备、存储介质、程序产品。
背景技术
随着通信技术的发展,用户接收信息的需求正在从文字逐渐向视频转换,视频将逐渐成为互联网主导内容形态之一,在一定程度上替代内容消费,并在新闻、社交平台等媒体中逐渐取得主导地位。在一些场景中,需要生成一些视频事件,用户通过该视频事件可以查看到具体的视频事件描述、相关人物等信息。目前,视频事件的内容比较单一,且视频事件的内容通常是由运营人员凭借自己的经验来挑选,效率低且无法及时跟上事件变化节奏。
发明内容
为解决上述技术问题,本申请的实施例提供了一种信息处理方法及装置、电子设备、存储介质、程序产品。
根据本申请实施例的一个方面,提供了一种信息处理方法,所述方法包括:
获取与视频关联的信息,并基于获取到的信息生成事件主题;
生成所述事件主题对应的第一视频事件,并获取与所述第一视频事件关联的第二视频事件;
对所述第一视频事件和所述第二视频事件进行分析得到事件关联关系;
根据所述事件关联关系将所述第一视频事件和所述第二视频事件进行聚合,得到包含所述事件关联关系的视频事件。
根据本申请实施例的一个方面,提供了一种信息处理装置,所述装置包括:
生成模块,配置为获取与视频关联的信息,并基于获取到的信息生成事件主题;
获取模块,配置为生成所述事件主题对应的第一视频事件,并获取与所述第一视频事件关联的第二视频事件;
分析模块,配置为对所述第一视频事件和所述第二视频事件进行分析得到事件关联关系;
聚合模块,配置为根据所述事件关联关系将所述第一视频事件和所述第二视频事件进行聚合,得到包含所述事件关联关系的视频事件。
根据本申请实施例的一个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如前所述的信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被电子设备的处理器执行时,使电子设备执行如前所述的信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机指令被处理器执行时实现如前所述的信息处理方法。
在本申请的实施例所提供的技术方案中,一方面,生成的视频事件包含事件关联关系,丰富了视频事件的内容,使用户可以更好的理解事件内容;另一方面,自动生成事件主题、分析得到事件关联关系、并生成视频事件,不仅提高了视频事件生成效率,还可以及时发现某一事件的最新状态,并与该事件的其他状态进行聚合,得到视频事件,从而使用户及时获取事件最新发展状态。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请的一示例性实施例示出的信息处理方法的流程图;
图3是图2所示实施例中的步骤S110在一示例性实施例中的流程图;
图4是本申请的一示例性实施例示出的确定事件主题过程示意图;
图5是图2所示实施例中的步骤S110在一示例性实施例中的流程图;
图6是本申请的一示例性实施例示出的得到视频内容向量的流程图;
图7是图2所示实施例中的步骤S120在一示例性实施例中的流程图;
图8是本申请的一示例性实施例示出的基于事件主题生成视频事件的流程图;
图9是图7所示实施例中的步骤S440在一示例性实施例中的流程图;
图10是图2所示实施例中的步骤S120在一示例性实施例中的流程图;
图11是本申请的一示例性实施例示出的一种信息处理方法的流程图;
图12是本申请涉及的另一种实施环境的示意图;
图13是本申请的一示例性实施例示出的信息处理装置的结构示意图;
图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在介绍本申请实施例的技术方案之前,先对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
社交网络源自网络社交,网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网,早期的E-mail解决了远程的邮件传输的问题,至今E-mail也是互联网上最普及的应用。BBS(Bulletin Board System,网络论坛)是早期的互联网内容自发产生的平台,其把“群发”和“转发”常态化,理论上实现了向所有人发布信息并讨论话题的功能。随着通信技术的发展,例如,智能手机的全面普及、wi-fi(无线网络通信技术)设施的无处不在、4G资费的普遍降低、5G时代的到来等,用户接受信息的需求正在从文字逐渐向视频转换,视频(特别是短视频)将逐渐成为移动互联网的主导内容形态之一,在一定程度上替代内容消费,并在新闻、社交平台等媒体中逐渐取得主导地位。目前,视频事件的内容比较单一,且视频事件的内容通常是由运营人员凭借自己的经验来挑选,效率低且无法及时跟上事件变化节奏。基于此,本申请的实施例提供了一种信息处理方法及装置、电子设备、存储介质、程序产品,丰富了视频事件的内容,提高了视频事件生成效率。
请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括信息处理装置100、平台200以及终端300,平台200包括视频内容库,视频内容库用于存储视频以及视频的元数据等信息。信息处理装置100、平台200以及终端300之间通过有线或者无线网络进行通信。
应该理解,图1中的信息处理装置100、平台200以及终端300的数目仅仅是示意性的。根据实际需要,可以具有任意数目的信息处理装置100、平台200以及终端300。
信息处理装置100可以是服务器或其他设备。服务器可以是提供各种服务的服务器,其可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。
平台200用于存储并展示视频,其可以是互联网平台,平台200可以部署在服务器或其他设备,视频内容库部署在平台200对应的存储系统中,其中,存储系统可以是基于云存储技术搭建的存储系统,当然,也可以是其他类型的存储系统。其中,云存储(cloudstorage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。存储系统也可以是区块链系统,即视频内容库可以存储在区块链系统中。
终端可以是智能手机、平板、笔记本电脑、计算机、车载终端等电子设备。
用户可以通过终端向平台200上传视频,平台200在接收到视频后,可以将视频以及视频的元信息等数据存储至视频内容库中;信息处理装置100可以从视频内容库中获取与视频关联的信息,并基于获取到的信息生成事件主题,再生成事件主题对应的第一视频事件,并获取与第一视频事件关联的第二视频事件,然后,对第一视频事件和第二视频事件进行分析得到事件关联关系,最后,根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件,一方面,生成的视频事件包含事件关联关系,丰富了视频事件的内容,使用户可以更好的理解事件内容;另一方面,自动生成事件主题、分析得到事件关联关系、并生成视频事件,不仅提高了视频事件生成效率,还可以及时发现某一事件的最新状态,并与该事件的其他状态进行聚合,得到视频事件,从而使用户及时获取事件最新发展状态。
在一些实施方式中,用户通过终端可以向平台200上传视频的过程可以包括:用户可以通过终端上的拍摄工具(例如具有视频拍摄功能的即时通信软件、短视频社交软件等)拍摄视频,然后,通过终端向平台上传视频,在视频上传的过程中,视频会经过重转码,并将视频文件进行规范化,保存视频的元信息,提升视频在各个平台播放兼容性。然后会对视频进行人工审核,人工审核的同时也会通过机器算法对视频进行一些辅助特征的获取,例如获取类别,标签等等;然后在机器算法处理的基础上进行人工标准化标注,对视频填充相关的信息,例如填充视频的标签,类别,或者一段文字说明,这个过程为视频内容的标准化。视频标准化通过后,会进入到平台的视频内容库。然后,视频可以分发到外网或者推荐引擎,推荐引擎基于用户的画像特征,通过推荐算法进行推荐,推荐算法包括但不限于协同推荐、矩阵分解、基于深度学习的模型等。或者,用户还可以主动在平台进行搜索以得到视频内容库中的视频,用户也可以通过社交平台(例如,公众号等)获取视频。
参见图2,图2是本申请的一示例性实施例示出的一种信息处理方法的流程图。该方法可以应用于图1所示的实施环境,其可以由图1所示的实施环境中的信息处理装置100执行。
如图2所示,在一示例性实施例中,该信息处理方法可以包括步骤S110至步骤S140,详细介绍如下:
步骤S110,获取与视频关联的信息,并基于获取到的信息生成事件主题。
需要说明的是,视频为动态影像,其类型包括但不限于短视频、微电影等。
其中,短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,时长由几秒到几分钟不等,内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于内容较短,可以单独成片,也可以成为系列栏目。不同于微电影和直播,短视频制作无需像微电影一样具有特定的表达形式和团队配置要求,具有生产流程简单、制作门槛低、参与性强等特点,比直播更具有传播价值,超短的制作周期和趣味化的内容对短视频制作团队的文案以及策划功底有着一定的挑战,优秀的短视频制作团队通常依托于成熟运营的自媒体或IP(Intellectual Property,知识产权)。短视频的出现丰富了新媒体原生广告的形式。短视频的生产者从一开始的UGC(User Generated Content,用户生成内容)、PGC(Professionally-produced Content,专业生产内容)、用户上传,到专门制造短视频的机构,到MCN(Muti-Channel Network,多频道网络),再到专业的短视频App(应用程序)等,短视频已经成为内容创业和社交媒体平台的重要传播方式之一。各种各样的短视频越来越多,也越来越丰富。无论是短视频内容的生产者还是消费者都成为一个巨大的群体。
视频可以基于feed的方式提供给用户。其中,feed,为消息来源,是一种呈现内容给用户并持续更新的方式,通过feed将最新资讯传播给用户。
与视频关联的信息为视频的相关信息,包括但不限于视频的元信息、视频的关键词等中的至少一种;其中,视频的元信息包括但不限于视频标题、视频的发布者、视频的摘要、封面图、发布时间、视频文件的大小、视频文件的格式、是否为原创、是否为首发、分类信息、对视频进行文字识别得到的文本信息、对视频中的音频进行语音识别得到的文本信息等;其中,分类信息可以是人工审核过程中为视频标注的信息,分类信息可以包括类别以及标签,类别可以按照多级层次进行分类,例如,对于一篇讲解A公司手机的视频,一级类别可以是科技,二级类别可以是智能手机,三级类别可以是国内手机,标签可以是A公司、手机型号等;对视频进行文字识别的方式可以是基于OCR(Optical Character Recognition,光学字符识别)技术进行识别。
事件主题是待生成的视频事件的主题。为了保证话题性,事件主题可以是描述了事件主要信息、且相对较短的文本,例如,“祝融号火星车登陆火星”。
为了生成事件主题,本实施例中,可以获取与视频关联的信息,并基于获取到的信息生成事件主题。
S120,生成事件主题对应的第一视频事件,并获取与第一视频事件关联的第二视频事件。
需要说明的是,第一视频事件为基于事件主题生成的事件,其包括对应的视频、事件描述信息等。
第二视频事件为与第一视频事件关联的视频事件,其可以是与第一视频事件属于同一主题的事件,第二视频事件可以是历史视频事件,即在生成第一视频事件之前,已经生成的视频事件。
在得到事件主题后,即可根据事件主题生成第一视频事件。其中,第一视频事件的标题可以为该事件主题,第一视频事件可以包括对应的视频、事件描述信息等内容。
应当理解的是,同一主题的事件,包括不同的发展阶段,例如,明星的婚恋事件包括结婚、婚变、离婚等阶段;“火星车登陆火星”包括火箭发射、火箭中途飞行、变轨、火星车登录火星、火星车巡视火星表面等阶段。因此,在生成第一视频事件后,为了找到与第一视频事件属于同一主题的视频事件,还可以获取与第一视频事件关联的视频事件,并将获取到的视频事件作为第二视频事件。
步骤S130,对第一视频事件和第二视频事件进行分析得到事件关联关系。
需要说明的是,事件关联关系是指多个事件之间的关系,包括但不限于事件发展脉络(例如,时间发展脉络,即时间线)、事件发生的因果关系、多个事件中主要人物之间的关系等。
在获取与第一视频事件关联的第二视频事件之后,对第一视频事件和第二视频事件进行分析,从而可以得到事件关联关系。
其中,具体分析方式可以根据实际需要灵活设置。在一个示例中,为了让用户了解事件发展顺序,可以梳理第一视频事件和第二视频事件的时间先后顺序,从而得到时间线,其中,可以根据第一视频事件和第二视频事件的生成时间,确定第一视频事件和第二视频事件之间的时间先后顺序;或者,可以根据第一视频事件和第二视频事件的发生时间,确定第一视频事件和第二视频事件之间的时间先后顺序。在另一示例中,可以对第一视频事件和第二视频事件的主题进行分析,从而根据自然规律以及得到的主题确定第一视频事件和第二视频事件发生的因果关系或确定第一视频事件和第二视频事件的先后顺序,其中,可以通过机器学习模型对第一视频事件和第二视频事件的主题进行分析得到事件发生的因果关系或事件的先后顺序;例如,若第一视频事件为“A与B结婚”,第二视频事件为“A与B离婚”,通过对第一视频事件和第二视频事件的主题进行分析,可以确定第一视频事件先发生,第二视频事件后发生;在又一示例中,可以获取多个事件各自的主要人物,然后,获取主要人物之间的关系,将主要人物之间的关系作为事件关联关系。
步骤S140,根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件。
在得到事件关联关系之后,可以根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件。
本实施例中,获取与视频关联的信息,并基于获取到的信息生成事件主题;生成事件主题对应的第一视频事件,并获取与第一视频事件关联的第二视频事件;对第一视频事件和第二视频事件进行分析得到事件关联关系;根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件,一方面,生成的视频事件包含事件关联关系,丰富了视频事件的内容,使用户可以更好的理解事件内容;另一方面,自动生成事件主题、分析得到事件关联关系、并生成视频事件,不仅提高了视频事件生成效率,还可以及时发现某一事件的最新状态,并与该事件的其他状态进行聚合,得到视频事件,从而使用户及时获取事件最新发展状态;并且,还可以有效减少人工编辑视频事件的过程,降低人力成本,提高业务响应和改善用户体验。
在一示例性实施例中,为了保证生成的视频事件具有热度,能够引起用户广泛讨论,提升视频事件的生成效率,图2所示实施例中的步骤S110,即,获取与视频关联的信息,并基于获取到的信息生成事件主题的过程可以包括:从不同平台上爬取信息热度满足预设热度条件的短文本,并将爬取到的短文本作为事件主题。
需要说明的是,平台可以是各种互联网服务平台,包括但不限于搜索引擎信息平台、社交平台等,其中,社交平台包括但不限于短视频社交平台、其他具有视频播放功能的社交平台等。
信息热度为能够反映信息在用户之间的热度的参数,其可以由点击量、搜索量、阅读量、转发量、评论量、点赞量、讨论参与人数等能够反映信息在用户之间的热度的参数来表示。
短文本通常是由几个词组成的文本,其长度较短,便于用户记忆。
预设热度条件为预先设置的、用于确定短文本是否能够作为事件主题的判断条件。
本实施例中,为了保证事件的全面性以及事件的热度,从不同平台上爬取信息热度满足预设条件的端文本,并将其作为事件主题;具体的实现方式可以根据实际需要灵活设置。
在一种实施方式中,为了便于用户了解热门事件,平台上通常会设置热门榜单,例如,搜索引擎信息平台上会根据搜索量、基于搜索文本召回的视频数是否突然增加等参数设置热搜榜,社交平台会根据点击率、阅读量、转发量、话题引用数等设置热门榜单;因此,为了提升爬取效率和准确度,从不同平台上爬取信息热度满足预设热度条件的短文本,并将爬取到的短文本作为事件主题的过程可以包括:从不同平台上爬取热门榜单,并将热门榜单中的短文本作为事件主题。
在另一种实施方式中,从不同平台上爬取信息热度满足预设热度条件的短文本,并将爬取到的短文本作为事件主题的过程可以包括:从不同平台上爬取信息热度超过预设热度阈值的短文本,并将爬取到的短文本作为事件的主题。其中,预设热度阈值可以根据实际需要灵活设置,例如,可以是转发量超过100万、评论数超过200万等。
从不同平台上爬取信息热度满足预设热度条件的短文本,并将爬取到的短文本作为事件主题,从而及时发现视频事件,保证生成的事件的话题性以及热度,有效减少人工发现视频事件的过程,降低人力成本,进一步提升了视频事件生成效率,并且,从不同平台上爬取信息,可以保证生成的事件的全面性。
在另一示例性实施例中,参见图3所示,图3为图2所示实施例中的步骤S110在一示例性实施例中的流程图。如图3所示,在与视频关联的信息包括视频标题的情况下,基于获取到的信息生成事件主题的过程可以包括步骤S210-步骤S240,详细介绍如下:
步骤S210,对视频标题进行分割,得到第一候选主题。
本实施例中,在获取到视频标题后,可以对视频标题进行分割,得到第一候选主题。
其中,获取视频标题的方式可以根据实际需要灵活设置,例如,该视频标题可以是运营人员输入的,也可以是从网络中爬取的。为了提升标题质量,可以从主流媒体、官方账号、权威网站等发布的内容中,爬取视频标题。
对视频标题进行分割的方式可以根据实际需要灵活设置,例如,可以是以标点符号作为分割点,对视频标题进行分割,在一个示例中,假设视频标题为“某动物过度繁衍,已遍布16个省,为什么没人敢吃”,则可以分割为“某动物过度繁衍”、“已遍布16个省”、“为什么没人敢吃”三个短文本,并将这三个短文本作为第一候选主题。
步骤S220,对视频标题进行聚类得到视频标题簇,并生成视频标题簇对应的第二候选主题。
本实施例中,在获取到视频标题后,还可以对视频标题进行聚类,得到若干个视频标题集合,每一个视频标题集合作为一个视频标题簇,然后,生成视频标题簇对应的候选主题,即第二候选主题。其中,针对一个视频标题簇,可以生成一个候选主题。
在进行聚类时,可以通过聚类算法对视频标题进行聚类得到视频标题簇。
需要说明的是,本实施例中,不对步骤S210和步骤S220的先后顺序进行限制,其中,可以先执行步骤S210,再执行步骤S220;或者,可以先执行步骤S220,再执行步骤S210;或者,步骤S210和步骤S220可以同时执行。
步骤S230,对第一候选主题以及第二候选主题进行聚类,得到候选主题簇。
在得到第一候选主题和第二候选主题后,可以对第一候选主题和第二候选主题进行聚类,得到若干个候选主题集合,每一个候选主题集合作为一个候选主题簇。
在一些实施方式中,为了提升候选主题的质量,在得到第一候选主题以及第二候选主题后,还可以按照预设过滤规则对第一候选主题以及第二候选主题进行过滤,对过滤后的第一候选主题以及第二候选主题进行聚类,得到候选主题簇。
其中,过滤规则可以根据实际需要灵活设置。例如,过滤规则包括但不限于以下方式中的至少一种:
第一种:若某个候选主题中包括违规词,则将该候选主题删除。其中,可以预先设置违规词集合,第一候选主题以及第二候选主题中,某个候选主题包括违规词集合中的词,则删除该候选主题。
第二种:若某个候选主题的长度超过预设长度值,则将该候选主题删除,其中,预设长度值可以根据实际需要灵活设置,例如,可以设置为15、10等。若事件主题太长,其话题性和传播度较低,将长度超过预设长度值的候选主题删除,可以提升候选主题的话题性和传播度。
第三种:若候选主题中不包括命名实体,则将该候选主题删除,从而过滤掉没有事件内容的候选主题。其中,命名实体包括人名、机构名、地名以及其他所有以名称为标识的实体,例如,对“某动物过度繁衍,已遍布16个省,为什么没人敢吃”进行分割得到的三个短文本“某动物过度繁衍”、“已遍布16个省”、“为什么没人敢吃”中,“为什么没人敢吃”不包括命名实体,根据该短文本也无法知悉事件的内容,因此,可以删除。
步骤S240,根据候选主题簇的聚类中心确定事件主题。
在得到候选主题簇后,根据候选主题簇的聚类中心确定事件主题,其中,可以将候选主题簇的聚类中心直接作为事件主题,或者,根据候选主题簇的聚类中心生成事件主题。
为了提升事件主题的质量,在得到候选主题簇之后,根据候选主题簇的聚类中心确定事件主题之前,还可以根据预设事件检测规则确定候选主题簇是否为描述事件的文本,若是,才根据候选主题簇的聚类中心确定事件主题。
其中,根据预设事件检测规则确定候选主题簇是否为描述事件的文本的具体方式可以根据实际需要灵活设置。在一种实施方式中,可以根据候选主题簇中各候选主题对应视频的来源、候选主题是否包含命名实体、候选主题中是否包含特定词性的词语等参数中的至少一种来确定,其中,特定词性可以包括名词、动词等;例如,可以在候选主题簇中对应视频来源为权威网站的候选主题的比例达到一定值时,确定该候选主题簇为描述事件的文本;又例如,可以在候选主题簇中包含特定词性词语的候选主题的比例达到一定值时,确定该候选主题簇为描述事件的文本。
为了更好的理解本实施例的方案,参见图4,图4为一个示例中,根据视频标题确定事件主题的过程图,如图4所示,可以从权威网站等获取视频标题,并对视频标题进行分割得到第一候选主题;并且,对视频标题进行聚类得到视频标题簇,并针对每个视频标题簇生成第二候选主题,基于过滤规则对第一候选主题和第二候选主题进行过滤,在过滤后,对第一候选主题和第二候选主题进行聚类得到候选主题簇,基于事件检测规则对候选主题簇进行事件检测,根据检测通过的候选主题簇的聚类中心确定事件主题。
本实施例中,通过对视频标题进行分割,得到第一候选主题,对视频标题进行聚类得到视频标题簇,并生成视频标题簇对应的第二候选主题,对第一候选主题以及第二候选主题进行聚类,得到候选主题簇,根据候选主题簇的聚类中心确定事件主题,从而自动生成事件主题,提升事件主题的生成速度。
在另一示例性实施例中,参见图5所示,图5为图2所示实施例中的步骤S110在一示例性实施例中的流程图。如图5所示,在与视频关联的信息包括预设时间段内上传的视频的情况下,基于获取到的信息生成事件主题的过程可以包括步骤S310-步骤S330,详细介绍如下:
步骤S310,对预设时间段内上传的视频进行聚类,得到多个视频簇。
预设时间段可以根据实际需要灵活设置,例如,可以设置为10分钟,20分钟等。
用户在制作完成视频后,可以将视频上传至平台,平台的视频内容库会存储用户上传的视频。本实施例中,可以从视频内容库中获取预设时间段内上传的视频。
在获取到预设时间段内上传的视频后,可以对获取到的视频进行聚类,得到多个视频集合,每一个视频集合作为一个视频簇;从而可以确定相似视频的集中程度,进而确定近期是否存在不同媒体账号对同一事件进行了集中报道,发现热门事件。
其中,具体的聚类方式可以根据实际需要灵活设置。
在一种实施方式中,可以基于视频的标题、关键词、视频的摘要、对视频进行文字识别得到的文本信息、对视频中的音频进行语音识别得到的文本信息等与视频关联的文本信息对视频进行聚类。
在另一种实施方式中,可以通过视频分类模型对预设时间段内上传的视频的内容进行分析,得到各视频的视频内容向量,再基于视频内容向量进行聚类。其中,视频分类模型为基于机器学习建立的、可以对视频进行特征提取得到视频内容向量的模型,视频分类模型的具体结构等可以根据实际需要灵活设置;视频内容向量可以理解为基于视频内容的“隐式”特征,包含2层含义:第1层含义:representation learning,低维的稠密特征,一维数组(例如,视频内容向量是128个float);第2层含义:metric learning,相似性度量的向量,两个向量的“距离”代表两个物体的“相似性”。在一个示例中,参见图6所示,通过机器学习模型对视频的内容进行分析得到视频的视频内容向量的过程可以包括:将视频输入机器学习模型,机器学习模型中包含的TSN(Temporal Segment Networks,时间分段网络)对视频的视频帧序列进行抽取得到若干视频帧,机器学习模型中包含的Xception模块从TSN抽取的若干视频帧中提取图像特征,然后,通过机器学习模型中包含的NeXtVLad得到图像特征向量,最后,对图像特征向量进行加权平均得到视频内容向量。其中,Xception是Google公司继Inception后提出的对Inception-v3的另一种改进;NeXtVLad是一种图像特征提取算法,用于将视频片段的帧级别的特征聚合为一个特征向量。
在对预设时间段内上传的视频进行聚类,得到多个视频簇时,可以基于分层聚类法对视频进行聚类。其中,分层聚类法用于对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略,分层聚类法又可以分为凝聚的(agglomerative,即自上而下)和分裂的(divisive,即自下而上)分层聚类。分裂法的聚类过程可以如下:
输入:需要聚类的视频集合D,结束条件。
输出:聚类结果。
过程:1、将视频集合D当中的所有的样本归为一个类簇;
2、在同一个类簇(计为c)中计算两两样本之间的距离,找出距离最远的两个样本a、b;
3、将样本a、b分配到不同的类簇c1和c2中;
4、计算原类簇(c)中剩余的其他样本点与a、b的距离,若是与a的距离dis(a)<与b的距离dis(b),则将样本点归到c1中,否则归到c2中;
结束:重复2-4步骤,直到达到输入的“结束条件”。
其中,结束条件可以根据实际需要灵活设置。在一种实施方式中,结束条件可以包括聚类的数目,聚类的数目为最终得到的簇的数量,在重复2-4步骤的过程中,若得到的簇的数量达到聚类的数目,则结束重复过程,并输出结果,在一个示例中,若聚类的数据为5,则将视频集合D分为5个簇。在另一种实施方式中,结束条件可以包括:不同簇之间的距离小于预设阈值,该预设阈值可以根据实际需要灵活设置,不同簇之间的距离可以是不同簇的聚类中心之间的距离,也可以是不同簇中任意两个样本之间的最小距离等。
步骤S320,从多个视频簇中筛选出视频条数大于预设值的目标视频簇。
预设值可以根据实际需要灵活设置,例如,可以设置为100,1000等。
在得到多个视频簇后,若某个视频簇内包含的视频条数大于预设值,则表明不同媒体账号对同一事件进行了集中报道,因此,可以将包含的视频条数大于预设值的视频簇作为目标视频簇,从而在热门事件发酵前,发现热门事件。
步骤S330,根据目标视频簇的聚类中心确定事件主题。
在筛选出目标视频簇后,可以根据目标视频簇的聚类中心确定事件主题。具体确定方式可以根据实际需要灵活设置。
应当理解的是,目标视频簇的聚类中心为一个视频,在一种实施方式中,可以将该视频的标题作为事件主题,在另一种实施方式中,可以基于该视频的关键词生成事件主题,例如,可以将该视频的关键词进行组合得到一个短文本,将该短文本作为事件主题。在又一种实施方式中,在获取到该视频的视频标题后,可以转S210,从而得到事件主题。
本实施例中,对预设时间段内上传的视频进行聚类,得到多个视频簇,从多个视频簇中筛选出视频条数大于预设值的目标视频簇,根据目标视频簇的聚类中心确定事件主题,从而基于视频内容库中是否出现大量相似视频来确定不同媒体账号是否对同一事件进行集中报道,若是,则根据相似视频的聚类中心确定事件主题,从而在热门事件发酵前,发现热门事件。
在另一示例性实施例中,图2所示实施例中步骤S110(即,获取与视频关联的信息,并基于获取到的信息生成事件主题的过程)可以包括:获取与视频关联的候选词组,并根据候选词组中各词语的信息熵确定事件主题。
其中,候选词组中的词语包括但不限于视频的关键词、视频的标签、视频标题中的词语、视频描述中的词语、从互联网中爬取的查询词等中的至少一种。
信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,表示其可能的出现的状态越多,越不确定,也即信息量越大。
其中,根据候选词组中各词语的信息熵确定事件主题的方式可以根据实际需要灵活设置。例如,在一个示例中,可以从候选词组中筛选出信息熵大于预设值的目标词语,根据目标词语生成事件主题;或者,可以从候选词组中筛选出信息熵小于预设值的目标词语,根据目标词语生成事件主题。
或者,在另一示例中,可以计算候选词组中各词语之间的互信息、候选词组中词语组的左右信息熵,并根据计算得到的互信息和左右信息熵确定事件主题。
需要说明的是,互信息是一个随机变量中包含的关于另一个随机变量的信息量,或者,互信息可以看做一个随机变量由于已知另一个随机变量而减少的不肯定性,其能够表示词语之间关联程度的强弱。词语组为包括多个词语的组合,左右信息熵包括左信息熵和右信息熵,可以表示词语组能够成为语义相对独立的主题的可能性,若某个词语组的左右信息熵值越大,则其结合作为事件主题的概率越高。因此,可以根据计算得到的互信息和左右信息熵确定事件主题,其中,可以将互信息较高、且左右信息熵较高的词语组作为事件主题。
本实施例中,获取与视频关联的候选词组,根据候选词组中各词语的信息熵确定事件主题,从而自动生成事件主题,并提升事件主题的准确度。
在一示例性实施例中,参见图7所示,图7为图2所示实施例中的步骤S120在一示例性实施例中的流程图。如图7所示,生成事件主题对应的第一视频事件的过程可以包括步骤S410-步骤S440,详细介绍如下:
步骤S410,获取事件主题对应的查询词条。
在生成事件主题之后,需要生成事件主题对应的视频事件,视频事件中包括对应的视频,为了得到与视频事件匹配的视频,本实施例中,可以先获取事件主题对应的查询词条,从而便于基于查询词条搜索相关的视频。
其中,事件主题对应的查询词条包括但不限于事件主题的关键词、事件主题本身、事件主题所属候选主题簇中的候选主题等中的至少一种。
步骤S420,从视频内容库中召回与查询词条匹配的候选视频。
视频内容库用于存储视频以及与视频关联的信息等。可以采用倒排索引的方式建立索引表,从而提升基于查询词条搜索候选视频的速度。
在获取到事件主题对应的查询词条后,即可从视频内容库中搜索与查询词条匹配的视频,并将搜索到的作为候选视频。
其中,可以搜索视频标题、视频元信息(比如对视频进行OCR识别得到的文本,对视频包含的音频进行识别得到的文本)、视频的关键词等与查询词条匹配的视频,并将命中的视频作为候选视频。
在一些实施方式中,为了提升搜索速度,可以基于Faiss从视频内容库中召回与查询词条匹配的候选视频。其中,Faiss是开源的、针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索。
在一些实施方式中,在召回候选视频后,为了避免召回的视频重复,还可以根据视频标题、视频的url(uniform resource locator,统一资源定位系统)、视频的封面图、视频内容向量等参数中的至少一种对候选视频进行去重,从而避免相同的视频出现在同一视频事件,保证事件内容丰富性;在去重后,再执行步骤S430。其中,视频内容向量的介绍请参见前述记载,此处不再赘述。
在一个示例中,根据视频标题、视频的url(uniform resource locator,统一资源定位系统)、视频的封面图、视频内容向量等参数中的至少一种对候选视频进行去重,可以包括:若存在若干个候选视频,其视频标题、url、封面图、视频内容向量等参数中的至少一种相同,则保留这若干个候选视频中的其中一个,例如,假设视频1、视频2以及视频3的url均相同,则可以只保留视频3。
步骤S430,计算候选视频与查询词条的相关性,并从候选视频中筛选出相关性超过第一阈值的候选视频,得到目标视频。
在召回候选视频后,为了避免视频与事件不相关的情况,本实施例中,还可以计算候选视频与查询词条的相关性,并从候选视频中筛选出相关性超过第一阈值的候选视频,将筛选出的视频作为目标视频。其中,第一阈值可以根据实际需要灵活设置,例如,设置为90%、95%等。
在一些实施方式中,步骤S430包括:计算候选视频的命名实体、关键词、视频标题分别与查询词条的相似度,从得到的相似度中选择最大值作为该候选视频与查询词条的相关性,从候选视频中筛选出相关性超过第一阈值的候选视频作为目标视频。例如,假设第一阈值为90%,视频4的命名实体与查询词条的相似度为70%,视频4的关键词与查询词条的相似度为94%,视频4的视频标题与查询词条的相似度为98%,则视频4与查询词条的相似度为98%,由于98%大于90%,因此,将视频4作为目标视频。
为了提升准确性,在计算候选视频与查询词条的相关性之前,还可以对查询词条进行过滤,在过滤后,再计算候选视频与查询词条的相关性。其中,对查询词条进行过滤的方式可以根据实际需要灵活设置,例如,可以设置为删除仅包括虚词或者数字的查询词条。
需要说明的是,本实施例中,根据候选视频与查询词条的相关性从候选视频中筛选出目标视频,在另一实施例中,还可以根据候选视频与事件主题的相关性从候选视频中筛选出目标视频,其中,计算候选视频与事件主题的相关性的方式可以包括:计算候选视频的命名实体、关键词、视频标题分别与事件主题的相似度,从得到的相似度中选择最大值作为该候选视频与事件主题的相关性,当然,还可以通过其他方式计算候选视频与事件主题的相关性;根据候选视频与事件主题的相关性从候选视频中筛选出目标视频的方式可以包括:从候选视频中筛选出与事件主题相关性超过阈值的候选视频,得到目标视频,该阈值的具体取值可以根据实际需要灵活设置。
步骤S440,根据事件主题和目标视频生成第一视频事件。
在得到目标视频后,可以根据事件主题和目标视频生成第一视频事件,其中,第一视频事件的标题可以为该事件主题。
在一些实施方式中,为了避免视频数量太少,无法成为一个事件,本实施例中,在得到目标视频之后,还可以先判断目标视频的数量是否达到预设数量,如果是,再根据事件主题和目标视频生成第一视频事件。其中,预设数量的具体取值可以根据实际需要灵活设置。
在一些实施方式中,为了避免重复生成相同的视频事件,在生成第一视频事件后,可以对此次生成的第一视频事件以及历史生成的视频事件进行聚类,并根据聚类结果确定是否存在与第一视频事件相同的视频事件,若是,则删除第一视频事件,其中,判断两个视频事件是否相同可以是判断两个视频事件包含的视频是否相同,当然,还可以通过其他方式判断。在一个示例中,参见图8所示,可以先获取事件主题对应的查询词条,然后,从视频内容库中召回候选视频,并基于候选视频与查询词条的相关性,对候选视频进行过滤得到目标视频,根据目标视频生成第一视频事件,并对第一视频事件和历史生成的视频事件进行聚类得到多个事件簇,根据聚类结果过滤掉相同的视频事件,并将过滤后的视频事件进行存储。
在一些实施方式中,为了确保视频事件中的视频彼此相关,在根据事件主题和目标视频生成第一视频事件之前,还可以对目标视频进行聚类,从而排除掉不相关的目标视频。其中,对于来自热门榜单的事件主题,可以不进行聚类。
本实施例中,获取事件主题对应的查询词条,从视频内容库中召回与查询词条匹配的候选视频,计算候选视频与查询词条的相关性,并从候选视频中筛选出相关性超过第一阈值的候选视频,得到目标视频,根据事件主题和目标视频生成第一视频事件,从而确保第一视频事件中包含的视频与事件的相关性。
在一示例性实施例中,参见图9所示,图9为图7所示实施例中的步骤S440在一示例性实施例中的流程图。如图9所示,在目标视频的数量为多个的条件下,根据事件主题和目标视频生成第一视频事件的过程可以包括步骤S441-步骤S444,详细介绍如下:
步骤S441,对多个目标视频进行聚类得到多个目标视频簇,并对多个目标视频以及多个目标视频簇分别进行质量评估,得到多个目标视频各自对应的第一质量值以及多个目标视频簇各自对应的第二质量值。
首先需要说明的是,对多个目标视频进行聚类得到多个目标视频簇进行聚类的方式可以根据实际需要灵活设置,例如,可以根据视频内容向量和/或视频的转载情况对多个目标视频进行聚类,得到多个视频集合,每一个视频集合作为一个目标视频簇。其中,视频的转载情况包括视频的转发数量、评论数量、点赞数量等中的至少一种。
其次,本实施例中,需要对多个目标视频进行质量评估,得到每个目标视频对应的质量值,将目标视频的质量值记为第一质量值。其中,对目标视频进行质量评估的方式可以根据实际需要灵活设置。
在一种实施方式中,可以对视频来源的质量、视频与事件主题的相关性、以及视频内容的质量这三种参数进行加权求和,得到目标视频的第一质量值。其中,视频来源的质量越高、视频与事件主题的相关性越高、视频内容的质量越高,则第一质量值越高。
对于视频来源的质量,其表征视频来源的权威性,可以预先设置视频来源质量库,用于存储不同视频来源的质量值,然后,基于目标视频的来源从视频来源质量库中查找出对应的质量值。
对于视频与事件主题的相关性,其可以根据整个视频标题与事件主题的相似度、对视频标题进行分割得到的若干个短文本各自与事件主题的相似度、视频标题中是否存在事件主题的命名实体、视频标题中是否包括事件主题的关键词等中的至少一种来确定,其中,整个视频标题与事件主题的相似度越高,视频与事件主题的相关性越高;对视频标题进行分割得到的若干个短文本各自与事件主题的相似度越高,视频与事件主题的相关性越高;视频标题中若存在事件主题的命名实体,则视频与事件主题的相关性越高;视频标题中若存在事件主题的关键词,则视频与事件主题的相关性越高。
对于视频内容的质量,其可以根据视频的分辨率、清晰度、视频封面图的美观度、视频的专业度等中的至少一种来确定,视频的分辨率越高、清晰度越高、视频封面图越美观、视频越专业,则其视频内容的质量越高。其中,视频封面图的美观度可以根据视频封面图是否有专业的排版等来确定,视频的专业度可以根据视频的拍摄模板、滤镜、转场、配乐等来确定。
本实施例中,还需对每个目标视频簇进行质量评估,得到每个目标视频簇的质量值,将目标视频簇的质量值记为第二质量值。其中,对目标视频簇进行质量评估的方式可以根据实际需要灵活设置。
在一种实施方式中,可以根据目标视频簇所包含的目标视频的条数,来确定目标视频簇的第二质量值,其中,所包含的目标视频的条数越高,对应目标视频簇的第二质量值越高。
在另一种实施方式中,可以根据目标视频簇所包含的目标视频的转载情况,来确定目标视频簇的第二质量值,其中,评论、转发、点赞等数量越高,目标视频簇的第二质量值越高。
步骤S442,将每个目标视频簇中第一质量值最高的目标视频作为代表视频,得到多个代表视频。
本实施例中,对于每个目标视频簇,还需要从中选择一个视频作为其代表视频,其中,代表视频为其所属目标视频簇中第一质量值最高的目标视频。
步骤S443,根据代表视频的第一质量值和代表视频所属目标视频簇的第二质量值确定多个代表视频各自对应的第三质量值,并按照第三质量值由大到小的顺序对多个代表视频进行排序。
在确定各目标视频的第一质量值、各目标视频簇的第二质量值、并从各目标视频簇中选择出代表视频后,针对每个代表视频,可以根据该代表视频的第一质量值以及该代表视频所属目标视频簇的第二质量值,确定该代表视频的第三质量值,具体确定方式可以根据实际需要灵活设置,例如,可以是对第一质量值和第二质量值进行加权求和得到第三质量值。
在得到多个代表视频各自的第三质量值之后,可以按照第三质量值由大到小的顺序对这多个代表视频进行排序。
步骤S444,生成事件主题对应的、且包含指定排名的代表视频的第一视频事件。
其中,指定排名可以根据实际需要灵活设置,例如,可以是前10名、前20名等。
在对多个代表视频进行排序后,可以从多个代表视频中选择指定排名的代表视频,并生成事件主题对应的、且包含指定排名的代表视频的第一视频事件。第一视频事件中,代表视频也可以按照第三质量值由大到小的顺序进行显示。在一些实施方式中,第一视频事件的标题可以为事件主题。
本实施例中,对多个目标视频进行聚类得到多个目标视频簇,并对多个目标视频以及多个目标视频簇分别进行质量评估,得到多个目标视频各自对应的第一质量值以及多个目标视频簇各自对应的第二质量值;将每个目标视频簇中第一质量值最高的目标视频作为代表视频,得到多个代表视频;根据代表视频的第一质量值和代表视频所属目标视频簇的第二质量值确定多个代表视频各自对应的第三质量值,并按照第三质量值由大到小的顺序对多个代表视频进行排序;生成事件主题对应的、且包含指定排名的代表视频的第一视频事件,从而保证第一视频事件中视频的质量以及全面性。
在一示例性实施例中,参见图10,图10为图2所示实施例中的步骤S120在一示例性实施例中的流程图,如图10所示,获取与第一视频事件关联的第二视频事件的过程,可以包括步骤S510-步骤S530,详细介绍如下:
步骤S510,获取与第一视频事件的关键词相匹配的候选视频事件。
在生成第一视频事件之后,可以根据第一视频事件的关键词召回对应的视频事件,并将对应的视频事件作为候选视频事件。
步骤S520,计算第一视频事件与候选视频事件的相似度。
在获取到候选视频事件之后,可以计算第一视频事件与候选视频事件的相似度。其中,可以通过基于机器学习建立的分类模型来计算第一视频事件与候选视频事件的相似度,例如,可以通过XGBoost分类模型计算第一视频事件与候选视频事件的相似度。其中,XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。
其中,计算第一视频事件与候选视频事件的相似度的具体方式,可以根据实际需要灵活设置,在一种实施方式中,可以根据第一视频事件的特征参数与第二视频事件的特征参数来计算第一视频事件与候选视频事件的相似度,例如,可以根据以下参数中的至少一种来计算第一视频事件与候选视频事件的相似度:
第一视频事件与候选视频事件对应的查询词条的相似度;
第一视频事件的标题与候选视频事件的标题中命名实体的相似度;
第一视频事件的标题与候选视频事件的标题中关键词的相似度;
第一视频事件所包含的主要视频与候选视频事件所包含的主要视频中视频标题、视频关键词、以及视频内容向量的相似度;其中,主要视频可以是视频事件中的任意视频,也可以是视频事件中排名第一的视频等;
第一视频事件所包含的视频的主题与候选视频事件所包含的视频的主题的相似度;
第一视频事件所包含的最大视频与候选视频事件所包含的最大事件的发表时间间隔;
第一视频事件的平均发表时间间隔与候选视频事件的平均发表时间间隔之间的差异性,其中,平均发表时间间隔为视频事件所包含的视频的平均发表时间间隔。
需要说明的是,计算第一视频事件与候选视频事件的相似度所用到的参数包括但不限于上述参数。
步骤S530,从候选视频事件中筛选出相似度超过第二阈值的候选视频事件,并将筛选出的候选视频事件作为第二视频事件。
第二阈值的具体取值可以根据实际需要灵活设置。
在计算第一视频事件与每个候选视频事件的相似度后,从多个候选视频事件中,选择相似度大于第二阈值的候选视频事件作为第二视频事件。
需要说明的是,本实施例中,若获取到第一视频事件对应的第二视频事件,则表明第一视频事件为第二视频事件的关联事件,例如,假设第二视频事件为火星车登录火星,第一视频事件为火星车巡视火星表面,则火星车巡视火星表面是火星车登录火星的进一步发展;若未获取到第一视频事件对应的第二视频事件,则表明第一视频事件为新事件。
在一些实施方式中,考虑到之前生成的关联事件已聚合为一个事件,因此,可以从候选视频事件中筛选出相似度最高的、且相似度超过第二阈值的候选视频事件,并将筛选出的候选视频事件作为第二视频事件。
本实施例中,获取与第一视频事件的关键词相匹配的候选视频事件;计算第一视频事件与候选视频事件的相似度;从候选视频事件中筛选出相似度超过第二阈值的候选视频事件,并将筛选出的候选视频事件作为第二视频事件,这样,在生成新的视频事件之后,可以搜索出该视频事件相关联的历史视频事件,后续可以将新的视频事件与关联的历史视频事件聚合,从而使用户知悉事件最新发展动态,无需用户自己跟进和发现事件的进展,提升用户体验。
在一示例性实施例中,参见图11,图11为本申请的一示例性实施例示出的一种信息处理方法的流程图。如图11所示,在图1所示实施例中的步骤S140之后,消息处理方法还可以包括步骤S150-步骤S170,详细介绍如下:
步骤S150,将包含事件关联关系的视频事件添加至待推送事件集合,并获取待推送事件集合包含的多个视频事件中每个视频事件在不同平台上的信息热度值。
需要说明的是,待推送事件集合中包含的视频事件为待推送给用户的视频事件。
信息热度值为能够反映信息在用户之间的热度的值,其可以由点击量、搜索量、阅读量、转发量、评论量、点赞量、讨论参与人数等能够反映信息在用户之间的热度的参数来表示。
在生成包含事件关联关系的视频事件之后,为了让用户知晓该视频事件,需要将视频事件推送给用户,其中,可以先将包含事件关联关系的视频事件添加至待推送事件集合。
在将包含事件关联关系的视频事件添加至待推送事件集合之后,针对待推送事件集合中的每个视频事件,获取该视频事件在不同平台上的信息热度值。
在一种实施方式中,获取每个视频事件在不同平台上的信息热度值的方式包括但不限于以下两种方式中的至少一种:
第一种:从平台上爬取每个视频事件的信息热度值。
通常,平台会对视频事件的信息热度值进行统计并显示,因此,可以直接从平台上爬取视频事件的信息热度值。例如,对于信息处理装置所属平台外的平台,可以采用这种方式获取每个视频事件在该平台上的信息热度值。
第二种:根据每个视频事件对应查询词条在不同平台上的点击量,确定每个视频事件在不同该平台上的信息热度值。
不同视频事件,对应查询词条不同,可以根据每个视频事件对应的查询词条在不同平台上的点击量,确定每个视频事件在不同该平台上的信息热度值。例如,对于信息处理装置所属平台,可以采用这种方式获取每个视频事件在该平台上的信息热度值。
其中,根据每个视频事件对应查询词条在不同平台上的点击量,确定每个视频事件在不同该平台上的信息热度值具体确定方式可以根据实际需要灵活设置。例如,在一个示例中,根据每个视频事件对应查询词条在不同平台上的点击量,确定每个视频事件在不同该平台上的信息热度值的公式可以如下:
Figure BDA0003469114670000231
其中,Scoreb(e)为视频事件e在平台b上的信息热度值,pb(qe)为视频事件e的查询词条q在平台b上的点击量,Q(e)为视频事件e对应的查询词条集合。
在一些实施方式中,可以每隔预设时间间隔周期性获取每个视频事件在不同平台上的信息热度值,其中,预设时间间隔可以根据实际需要灵活设置,例如,可以设置为1小时。若视频事件在某个平台上的信息热度值不再更新,为了提升信息热度的准确性,可以根据时间对信息热度值进行衰减,具体衰减方式可以根据实际需要灵活设置,在一个示例中,衰减方式如下:
Score′b(e)=Scoreb(e)*exp(-a*(h-h′))
其中,Score′b(e)为对视频事件e在平台b上的信息热度值进行衰减后得到的信息热度值,Scoreb(e)为视频事件e在平台b上最新获取到的信息热度值,h为当前时间点,h′为信息热度值停止更新的时间点,a为时间衰减系数,其具体取值可以根据实际需要灵活设置,例如,可以设置为0.1。在一个示例中,假设预设时间间隔为1小时,即每隔1小时获取一次每个视频事件在不同平台上的信息热度值,在12点,获取到某视频事件在某个平台上的信息热度值为1000,在13点,获取到该视频事件在该平台上的信息热度值为2000,在14点,获取到该视频事件在该平台上的信息热度值为2000,在15点,获取到该视频事件在该平台上的信息热度值为2000,当前时间点为15点35分,则发现该视频事件在该平台上的信息热度值在13点停止更新,则Scoreb(e)为2000,h′为15点。
步骤S160,对每个视频事件在不同平台上的信息热度值进行加权求和,得到每个视频事件的总热度值。
本实施例中,针对不同的平台,设置有不同的权重,针对待推送视频事件中的每个视频事件,获取该视频事件在不同平台上的热度值之后,可以根据不同平台的权重,对该视频事件在不同平台上的热度值进行加权求和,得到该视频事件的总热度值。
在一些实施方式中,为了提升热度值的准确性,在对每个视频事件在不同平台上的信息热度值进行加权求和之前,还可以对每个视频事件在不同平台上的信息热度值进行归一化,然后,基于归一化后的信息热度值进行加权求和。其中,归一化的具体方式可以根据实际需要灵活设置。例如,在一个示例中,归一化的方式如下:
Figure BDA0003469114670000241
其中,Score″b(e)为对Score′b(e)进行归一化后得到的值,
Figure BDA0003469114670000242
为某一预设平台(该预设平台可以是信息处理装置所属的平台,或,其他平台)上的事件的平均热度值,
Figure BDA0003469114670000251
为平台b上的事件的平均热度值。
为了避免某个平台上视频事件的信息热度值不存在,导致计算不合理的情况,本实施例中,可以为平台设置一个边界值,在无法获取到视频事件在该平台的信息热度值时,从边界值和最小热度值之间,随机选择一个值作为视频事件在该平台的信息热度值,其中,最小热度值可以是预设的,也可以是该平台上多个热门事件中热度最小的事件的热度值,边界值可以为最小热度值的一半。
步骤S170,根据得到的总热度值对多个视频事件进行排序,并根据排序位置对多个视频事件进行推送。
在获取到待推送事件集合中多个视频事件各自的总热度值后,根据总热度值对待推送事件集合中的多个视频事件进行排序,并根据排序位置对多个待显示视频事件进行推送。
其中,根据排序位置对多个视频事件进行推送的具体过程可以根据实际需要灵活设置,例如,可以是:按照排序位置将多个视频事件显示在热门榜单上;或者,按照排序位置确定多个视频事件中每个视频事件对应的用户数量,并将视频事件推送至对应用户数量的用户,其中,排序位置越靠前,对应用户数量可以越多,例如,假设某一视频事件对应的用户数量为500,则将其推送给500个用户。
本实施例中,将包含事件关联关系的视频事件添加至待推送事件集合,并获取待推送事件集合包含的多个视频事件中每个视频事件在不同平台上的信息热度值;对每个视频事件在不同平台上的信息热度值进行加权求和,得到每个视频事件的总热度值;根据得到的总热度值对多个视频事件进行排序,并根据排序位置对多个视频事件进行推送,这样,在生成包含事件关联关系的视频事件后,可以根据该视频事件的信息热度值对该视频事件进行推送,从而使用户知晓事件关联关系,无需用户自行持续跟进和发现事件最新进展,提升用户体验。
以下对本申请实施例的一个具体应用场景进行详细说明。请参见图12,图12为是本申请涉及的一种实施环境的示意图,如图12所示,该实施环境包括:内容消费端、内容生产端、内容分发出口服务、推荐分发系统、内容数据库、人工审核系统、调度中心服务、上下行内容接口服务器、统计服务器、排重服务、视频事件发现服务、视频事件生成服务、视频事件聚合服务、视频事件专题数据库、视频事件专题接口服务。其中,各个模块的功能如下:
内容生产端:视频等内容的来源,用于通过移动端或者后端接口(例如,API系统,其中,API为Application Programming Interface,应用程序接口)与上下行内容服务器连接,并通过上下行内容服务器上传并发布视频等内容;内容生产端包括但不限于PGC、UGC、MCN内容生产者等。
内容消费端:(1)作为消费者,与上下行内容接口服务器连接,通过上下行内容接口服务器从内容数据库获取索引信息和内容,获取的内容包括推荐分发系统推荐的内容、订阅的专题的内容、以及主动搜索得到的内容。(2)内容消费端还可以将经过用户许可的操作数据上报给统计服务器,例如,将用户输入的查询词、对搜索结果的点击数据、内容分享数据、收藏操作、转发操作、点赞操作、上传视频的操作等数据上报给统计服务器。内容消费端可以通过Feeds流的方式浏览数据,也可以进入各个内容频道浏览内容和订阅相应的专题内容,通过视频事件专题的入口查看整个视频事件的脉络线等。另外,内容消费端还可以作为内容生产端上传视频等内容。
上下行内容接口服务器,与内容生产端连接,从内容生产端接收视频等内容和内容的元信息,并将内容和内容的元信息存入内容数据库,并将内容提交给调度执行服务器。其中,内容的元信息包括但不限于视频文件的大小,封面图链接,标题,发布时间,作者等信息。需要说明的是,在本申请中,涉及到的视频、视频的元信息、操作数据等与用户相关的数据,在本申请以上实施例运用到具体产品或技术中时,其均为获得用户许可或者同意,且相关的数据的提取、使用和处理均遵守当地安全标准和当地法律法规的规定。
内容数据库:内容的核心数据库,内容生产者发布的内容的元信息都保存在内容数据库,例如,视频文件的大小,封面图链接,码率,文件格式,标题,发布时间,作者,是否原创、是否首发等内容的元信息,内容数据库中还存储有人工审核过程中对内容的分类,包括类别和标签。(1)内容数据库与人工审核系统连接,人工审核系统会读取内容数据库当中的原始内容,同时,人工审核系统会将对原始内容的人工审核结果和状态回传至内容数据库。(2)内容数据库与调度中心服务连接,调度中心服务对内容处理主要包括机器处理和人工审核处理,这里机器处理核心就是调用排重服务,排重的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理。(3)内容数据库与视频事件发现服务连接,视频事件发现服务从内容数据库获取数据。
调度中心服务:负责内容流转的整个调度过程,控制调度的顺序和优先级,其中,调度中心服务可以通过上下行内容接口服务器接收入库的内容,然后从内容数据库中获取内容的元信息;调度排重服务对内容进行排重,过滤掉重复的内容,对应没有达到重复过滤的内容,可以输出内容相似度和相似度关系链,供推荐分发系统打散使用;调度人工审核系统对过滤后的内容进行人工审核,通过人工审核系统的内容可以通过推荐分发系统以及内容分发出口服务提供给内容消费端,例如,通过推荐引擎、搜索引擎或者展示页面提供给内容消费端;调度中心服务还可以与视频事件专题接口服务通信,获取生成的包含事件关联关系的视频事件;调度中心服务还可以根据配置信息确定内容是否需要人工审核还是直接通过内容分发出口分发到内容消费端。
人工审核系统:需要获取内容数据库中原始内容,人工审核系统可以是一个基于web数据库开发的系统,通过人工来对内容是否符合规定进行初步过滤,过滤过程当中机器算法可以辅助以低质量和问题提示,让人工效率更好。
视频事件发现服务:从互联网中获取热门榜单、热门话题等信息,生成事件主题,其中,可以从统计服务器中获取经过用户许可的操作数据,基于操作数据获取热门榜单等信息。
视频事件生成服务:基于视频事件发现服务输入的事件主题生成第一视频事件。
视频事件聚合服务:对第一视频事件和第二视频事件进行分析,得到事件关联关系。
视频事件专题数据库:保存视频事件聚合服务生成的事件关联关系,根据事件关联关系对第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件;为视频事件接口服务提供数据源。
视频事件服务接口服务:(1)读取视频事件专题数据当中的内容,同时对视频事件进行热度计算,视频事件排序的任务;(2)和调度中心服务通讯。
排重服务:主要用于海量去重,避免重复的内容。
统计服务器:接受内容消费端上传的经过用户许可的操作数据,为后续的视频事件发现和统计分析提供数据源支持和服务。
推荐分发系统:与内容分发出口服务连接,从内容数据库中获取内容,并通过内容分发出口服务发送给内容消费端,以向用户推送内容。
内容分发出口服务:与推荐分发系统连接,将内容分发给内容消费端。
参见图13,图13是本申请的一示例性实施例示出的信息处理装置的框图。如图13所示,该装置包括:
生成模块1301,配置为获取与视频关联的信息,并基于获取到的信息生成事件主题;
获取模块1302,配置为生成事件主题对应的第一视频事件,并获取与第一视频事件关联的第二视频事件;
分析模块1303,配置为对第一视频事件和第二视频事件进行分析得到事件关联关系;
聚合模块1304,配置为根据事件关联关系将第一视频事件和第二视频事件进行聚合,得到包含事件关联关系的视频事件。
在另一示例性实施例中,在与视频关联的信息包括视频标题的条件下,生成模块1301包括:
分割模块,配置为对视频标题进行分割,得到第一候选主题。
候选主题生成模块,配置为对视频标题进行聚类得到视频标题簇,并生成视频标题簇对应的第二候选主题。
第一聚类模块,配置为对第一候选主题以及第二候选主题进行聚类,得到候选主题簇。
第一主题生成模块,配置为根据候选主题簇的聚类中心确定事件主题。
在另一示例性实施例中,在与视频关联的信息包括预设时间段内上传的视频的条件下,生成模块1301包括:
第二聚类模块,配置为对预设时间段内上传的视频进行聚类,得到多个视频簇。
第一筛选模块,配置为从多个视频簇中筛选出视频条数大于预设值的目标视频簇。
第二主题生成模块,配置为根据目标视频簇的聚类中心确定事件主题。
在另一示例性实施例中,获取模块1302包括:
词条获取模块,配置为获取事件主题对应的查询词条。
召回模块,配置为从视频内容库中召回与查询词条匹配的候选视频。
第二筛选模块,配置为计算候选视频与查询词条的相关性,并从候选视频中筛选出相关性超过第一阈值的候选视频,得到目标视频。
事件生成模块,配置为根据事件主题和目标视频生成第一视频事件。
在另一示例性实施例中,在目标视频的数量为多个的条件下,事件生成模块包括:
质量评估模块,配置为对多个目标视频进行聚类得到多个目标视频簇,并对多个目标视频以及多个目标视频簇分别进行质量评估,得到多个目标视频各自对应的第一质量值以及多个目标视频簇各自对应的第二质量值。
代表视频确定模块,配置为将每个目标视频簇中第一质量值最高的目标视频作为代表视频,得到多个代表视频。
排序模块,配置为根据代表视频的第一质量值和代表视频所属目标视频簇的第二质量值确定多个代表视频各自对应的第三质量值,并按照第三质量值由大到小的顺序对多个代表视频进行排序。
视频事件生成模块,配置为生成事件主题对应的、且包含指定排名的代表视频的第一视频事件。
在另一示例性实施例中,获取模块1302包括:
搜索模块,配置为获取与第一视频事件的关键词相匹配的候选视频事件。
计算模块,配置为计算第一视频事件与候选视频事件的相似度。
第三筛选模块,配置为从候选视频事件中筛选出相似度超过第二阈值的候选视频事件,并将筛选出的候选视频事件作为第二视频事件。
在另一示例性实施例中,该装置还包括:
热度值获取模块,配置为将包含事件关联关系的视频事件添加至待推送事件集合,并获取待推送事件集合包含的多个视频事件中每个视频事件在不同平台上的信息热度值。
求和模块,配置为对每个视频事件在不同平台上的信息热度值进行加权求和,得到每个视频事件的总热度值。
推送模块,配置为根据得到的总热度值对多个视频事件进行排序,并根据排序位置对多个视频事件进行推送。
需要说明的是,上述实施例所提供的信息处理装置与上述实施例所提供的信息处理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现上述各个实施例中提供的信息处理方法。
图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图14示出的电子设备的计算机系统1400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算机系统1400包括中央处理单元(Central Processing Unit,CPU)1401,其可以根据存储在只读存储器(Read-Only Memory,ROM)1402中的程序或者从储存部分1408加载到随机访问存储器(Random Access Memory,RAM)1403中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1403中,还存储有系统操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input/Output,I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的储存部分1408;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入储存部分1408。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被电子设备的处理器执行时,使电子设备实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,计算机指令被处理器执行时实现上述各个实施例中提供的方法。其中,该计算机指令可以存储在计算机可读存储介质中;电子设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各个实施例中提供的方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (11)

1.一种信息处理方法,其特征在于,所述方法包括:
获取与视频关联的信息,并基于获取到的信息生成事件主题;
生成所述事件主题对应的第一视频事件,并获取与所述第一视频事件关联的第二视频事件;
对所述第一视频事件和所述第二视频事件进行分析得到事件关联关系;
根据所述事件关联关系将所述第一视频事件和所述第二视频事件进行聚合,得到包含所述事件关联关系的视频事件。
2.如权利要求1所述的方法,其特征在于,所述与视频关联的信息包括视频标题;所述基于获取到的信息生成事件主题,包括:
对所述视频标题进行分割,得到第一候选主题;
对所述视频标题进行聚类得到视频标题簇,并生成所述视频标题簇对应的第二候选主题;
对所述第一候选主题以及所述第二候选主题进行聚类,得到候选主题簇;
根据所述候选主题簇的聚类中心确定所述事件主题。
3.如权利要求1所述的方法,其特征在于,所述与视频关联的信息包括预设时间段内上传的视频;所述基于获取到的信息生成事件主题,包括:
对所述预设时间段内上传的视频进行聚类,得到多个视频簇;
从所述多个视频簇中筛选出视频条数大于预设值的目标视频簇;
根据所述目标视频簇的聚类中心确定事件主题。
4.如权利要求1所述的方法,其特征在于,所述生成所述事件主题对应的第一视频事件,包括:
获取所述事件主题对应的查询词条;
从视频内容库中召回与所述查询词条匹配的候选视频;
计算所述候选视频与所述查询词条的相关性,并从所述候选视频中筛选出相关性超过第一阈值的候选视频,得到目标视频;
根据所述事件主题和所述目标视频生成所述第一视频事件。
5.如权利要求4所述的方法,其特征在于,所述目标视频的数量为多个;所述根据所述事件主题和所述目标视频生成所述第一视频事件,包括:
对多个目标视频进行聚类得到多个目标视频簇,并对所述多个目标视频以及所述多个目标视频簇分别进行质量评估,得到所述多个目标视频各自对应的第一质量值以及所述多个目标视频簇各自对应的第二质量值;
将每个目标视频簇中第一质量值最高的目标视频作为代表视频,得到多个代表视频;
根据代表视频的第一质量值和代表视频所属目标视频簇的第二质量值确定所述多个代表视频各自对应的第三质量值,并按照所述第三质量值由大到小的顺序对所述多个代表视频进行排序;
生成所述事件主题对应的、且包含指定排名的代表视频的第一视频事件。
6.如权利要求1所述的方法,其特征在于,所述获取与所述第一视频事件关联的第二视频事件,包括:
获取与所述第一视频事件的关键词相匹配的候选视频事件;
计算所述第一视频事件与所述候选视频事件的相似度;
从所述候选视频事件中筛选出相似度超过第二阈值的候选视频事件,并将筛选出的候选视频事件作为所述第二视频事件。
7.如权利要求1所述的方法,其特征在于,在所述根据所述事件关联关系将所述第一视频事件和所述第二视频事件进行聚合,得到包含所述事件关联关系的视频事件之后,所述方法还包括:
将包含所述事件关联关系的视频事件添加至待推送事件集合,并获取所述待推送事件集合包含的多个视频事件中每个视频事件在不同平台上的信息热度值;
对所述每个视频事件在不同平台上的信息热度值进行加权求和,得到所述每个视频事件的总热度值;
根据得到的总热度值对所述多个视频事件进行排序,并根据排序位置对所述多个视频事件进行推送。
8.一种信息处理装置,其特征在于,所述装置包括:
生成模块,配置为获取与视频关联的信息,并基于获取到的信息生成事件主题;
获取模块,配置为生成所述事件主题对应的第一视频事件,并获取与所述第一视频事件关联的第二视频事件;
分析模块,配置为对所述第一视频事件和所述第二视频事件进行分析得到事件关联关系;
聚合模块,配置为根据所述事件关联关系将所述第一视频事件和所述第二视频事件进行聚合,得到包含所述事件关联关系的视频事件。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-7中的任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一项所述的方法。
11.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-7中的任一项所述的方法。
CN202210040341.6A 2022-01-13 2022-01-13 信息处理方法及装置、电子设备、存储介质、程序产品 Pending CN114491149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040341.6A CN114491149A (zh) 2022-01-13 2022-01-13 信息处理方法及装置、电子设备、存储介质、程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040341.6A CN114491149A (zh) 2022-01-13 2022-01-13 信息处理方法及装置、电子设备、存储介质、程序产品

Publications (1)

Publication Number Publication Date
CN114491149A true CN114491149A (zh) 2022-05-13

Family

ID=81511830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040341.6A Pending CN114491149A (zh) 2022-01-13 2022-01-13 信息处理方法及装置、电子设备、存储介质、程序产品

Country Status (1)

Country Link
CN (1) CN114491149A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760509A (zh) * 2022-06-14 2022-07-15 飞狐信息技术(天津)有限公司 视频发布方法、系统、存储介质及电子设备
CN114880498A (zh) * 2022-07-11 2022-08-09 北京百度网讯科技有限公司 事件信息展示方法及装置、设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760509A (zh) * 2022-06-14 2022-07-15 飞狐信息技术(天津)有限公司 视频发布方法、系统、存储介质及电子设备
CN114760509B (zh) * 2022-06-14 2022-09-20 飞狐信息技术(天津)有限公司 视频发布方法、系统、存储介质及电子设备
CN114880498A (zh) * 2022-07-11 2022-08-09 北京百度网讯科技有限公司 事件信息展示方法及装置、设备和介质

Similar Documents

Publication Publication Date Title
CN111507097B (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112131472B (zh) 信息推荐方法、装置、电子设备和存储介质
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN106105096A (zh) 用于连续社交通信的系统和方法
CN106326391A (zh) 多媒体资源推荐方法及装置
CN103377258A (zh) 用于对微博信息进行分类显示的方法和设备
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN111885399A (zh) 内容分发方法、装置、电子设备以及存储介质
CN113392331A (zh) 文本处理方法及设备
CN111861550B (zh) 一种基于ott设备的家庭画像构建方法及系统
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN106202155A (zh) 一种信息处理方法及装置
CN111177559A (zh) 文旅服务推荐方法、装置、电子设备及存储介质
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113392315A (zh) 一种主题类型挖掘方法、装置、设备及存储介质
CN113626624B (zh) 一种资源识别方法和相关装置
CN112989167A (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN116628232A (zh) 标签确定方法、装置、设备、存储介质及产品
CN117216362A (zh) 内容推荐方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination