CN110418193A

CN110418193A - 基于视频内容的信息推送方法、装置及设备

Info

Publication number: CN110418193A
Application number: CN201910610985.2A
Authority: CN
Inventors: 王园; 马春洋; 赵�卓; 镇方权; 王欣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-05

Abstract

本发明提出了一种基于视频内容的信息推送方法、装置及设备，其中，方法包括：获取待识别的视频；将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息；根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息，在播放视频时，展示关联信息。由此，在播放视频时展示视频中内容的关联信息，使用户能够根据关联信息方便的获取相应内容，满足用户根据视频内容延伸的信息获取需求。

Description

基于视频内容的信息推送方法、装置及设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于视频内容的信息推送方法、装置及设备。

背景技术

近些年，由于互联网内容的视频化趋势，用户观看视频的时间越来越多，用户的信息搜索需求也逐渐向视频播放器平台收敛。当用户观看视频时，会存在根据视频内容所延伸的“这是谁/这在哪/这是什么商品/这多少钱”等信息获取需求。

目前，用户通常通过询问其他用户，或者额外进行搜索以获取视频中内容的相关信息，操作较为繁琐，需要一种更便捷的方式满足用户根据视频内容延伸的信息获取需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于视频内容的信息推送方法，通过在播放视频时展示视频中内容的关联信息，使用户能够根据关联信息方便的获取相应内容，满足用户根据视频内容延伸的信息获取需求。

本发明的第二个目的在于提出一种基于视频内容的信息推送装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种基于视频内容的信息推送方法，包括：

获取待识别的视频；

将所述视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息；

根据所述搜索信息查询与所述实体类型对应的搜索源，获取与所述视觉实体对应的关联信息，在播放所述视频时，展示所述关联信息。

本发明实施例的基于视频内容的信息推送方法，通过获取待识别的视频。进而将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。进一步根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信，在播放视频时，展示关联信息。由此，基于对视频内容理解，识别出视频中的目标实体并获取对应的关联信息进行展示，使用户在观看视频时能够根据关联信息方便的获取相应内容，避免了询问其他用户或者额外搜索的繁琐操作，主动满足用户对知识的搜索需求。并且，能够为搜索开辟新的流量入口，有利于提高搜索流量。

另外，根据本发明上述实施例的基于视频内容的信息推送方法还可以具有如下附加技术特征：

可选地，所述获取待识别的视频包括：根据视频播放日志获取播放量大于预设阈值的视频的集合；根据所述集合中各视频的统一资源定位符对所述集合中的视频进行去重，和/或，根据所述集合中各视频的统一资源定位符和md5值与预设数据库中存储的统一资源定位符和md5值进行匹配，根据匹配结果对所述集合中的视频进行去重，将去重后的视频作为所述待识别的视频。

可选地，在获取待识别的视频之后，还包括：获取所述视频中的音频内容，提取所述音频内容的音频特征；将所述音频内容的音频特征与预设音乐的音频特征进行匹配，根据匹配结果确定所述音频内容中的音乐实体以及所述音乐实体的搜索信息。

可选地，在获取待识别的视频之后，还包括：获取所述视频的字幕信息；将所述字幕信息与预设的索引进行匹配，根据匹配结果确定所述字幕信息中的对白实体以及所述对白实体的搜索信息。

可选地，在获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息之后，还包括：获取未识别到视觉实体的目标视频帧；判断所述与目标视频帧对应的预设视频帧是否对应同一识别结果；若是，则根据所述同一识别结果填补所述目标视频帧的识别结果。

可选地，在获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息之后，还包括：

获取预设数量的连续视频帧的识别结果，判断所述识别结果是否相同；

若识别结果不同，则判断出现最多的目标识别结果在所述连续视频帧的识别结果中所占的比例是否大于预设阈值，若是，则将连续视频帧的识别结果替换为所述目标识别结果。

可选地，所述在播放所述视频时，展示所述关联信息包括：根据识别的置信度、垂类优先级、所述关联信息的历史点击率、所述目标实体的大小、预设展示数量中的至少一个因素确定所述关联信息的展示顺序，根据所述展示顺序展示所述关联信息。

可选地，所述展示所述关联信息包括：展示与所述关联信息对应的弹幕，和/或，在所述视觉实体附近展示与所述关联信息对应的图标。

本发明第二方面实施例提出了一种基于视频内容的信息推送装置，包括：

获取模块，用于获取待识别的视频；

识别模块，用于将所述视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息；

确定模块，用于根据所述搜索信息查询与所述实体类型对应的搜索源，获取与所述视觉实体对应的关联信息；

展示模块，用于在播放所述视频时，展示所述关联信息。

本发明实施例的基于视频内容的信息推送装置，通过获取待识别的视频。进而将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。进一步根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息，在播放视频时，展示关联信息。由此，基于对视频内容理解，识别出视频中的目标实体并获取对应的关联信息进行展示，使用户在观看视频时能够根据关联信息方便的获取相应内容，避免了询问其他用户或者额外搜索的繁琐操作，主动满足用户对知识的搜索需求。并且，能够为搜索开辟新的流量入口，有利于提高搜索流量。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的基于视频内容的信息推送方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的基于视频内容的信息推送方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种基于视频内容的信息推送方法的流程示意图；

图2为本发明实施例所提供的另一种基于视频内容的信息推送方法的流程示意图；

图3为本发明实施例所提供的一种基于视频内容的信息推送装置的结构示意图；

图4为本发明实施例所提供的另一种基于视频内容的信息推送装置的结构示意图；

图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于视频内容的信息推送方法、装置及设备。

图1为本发明实施例所提供的一种基于视频内容的信息推送方法的流程示意图，如图1所示，该方法包括：

步骤101，获取待识别的视频。

本实施例中，在基于视频内容进行信息推送时，需要先获取待识别的视频，例如可以实时从互联网获取待识别的视频，以对视频的内容进行识别。

作为一种示例，可以每隔预设时间从视频播放页面的日志中统计各视频的播放量，进而根据播放量由高到低的顺序对视频排序，选取其中排名靠前的N个视频作为待识别的视频。或者，可以选取其中播放量大于预设阈值的视频作为待识别的视频。其中，预设时间可以根据需要进行设置，例如可以每隔预设天数获取待识别的视频，也可以每隔预设小时获取待识别的视频，此处不作限制。

在本发明的一个实施例中，由于收集的视频可能存在重复，对于重复的视频没有必要重复处理，因此，为了更加有效的利用机器资源，还可以对收集到的视频进行去重处理。

作为一种可能的实现方式，在根据视频播放日志获取播放量大于预设阈值的视频的集合之后，根据集合中各视频的统一资源定位符(url)对集合中的视频进行去重，将统一资源定位符相同的视频进行去重，进而将去重后的视频作为待识别的视频。

作为另一种可能的实现方式，还可以对本次获取的待识别视频与历史获取的待识别视频进行去重，因此，在每次获取待识别的视频之后，可以将待识别视频的统一资源定位符以及对应视频文件的md5值(消息摘要算法第五版)存储在数据库中，进而通过查询数据库分别对视频的统一资源定位符以及视频文件的md5值进行匹配，若匹配结果为统一资源定位符与md5值均一致，则确定视频重复并进行去重处理。

步骤102，将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。

本实施例中，可以对视频的内容进行识别，以识别出视频中是否包括预设的视觉实体，以及识别出视觉实体的实体类型和与视觉实体对应的搜索信息。其中，视觉实体包括但不限于名人、汽车等，与视觉实体对应的搜索信息可以为名人的姓名、汽车的品牌等。可选地，根据待识别的视频提取视频帧，并将将视频帧输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。其中，识别模型的输入为图像，输出包括图像中是否包含视觉实体，以及视觉实体的实体类型和与视觉实体对应的搜索信息。作为一种示例，将包含明星A的视频帧输入到识别模型中进行处理，获取视频帧中包含视觉实体，并确定实体类型为人物，对应的搜索信息为明星A的姓名。

步骤103，根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息，在播放视频时，展示关联信息。

本实施例中，可以根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息。例如，视觉实体为品牌A的包，实体类型为商品，则将购物网站作为搜索源查询该品牌A的包，获取对应的商铺链接作为关联信息。再例如，视觉实体为明星B，实体类型为人物，将百科作为搜索源查询该明星B，获取对应的百科链接作为关联信息。

本实施例中，通过识别视频中的视觉实体，进而获取与视觉实体对应的关联信息，在播放视频时展示关联信息，以根据关联信息进行推送。其中，关联信息为与实体相关联的可激发搜索的内容，例如可以是明星的百科页面链接、商品的电商购买网页链接、旅游景点的网站主页链接、音乐曲目的购买/试听链接等。

可以理解，用户在观看视频时，会存在获取视频中内容的相关信息的需求，例如，用户在观看视频时，会存在根据视频内容所延伸的“这是谁/这在哪/这是什么商品/这多少钱”等需求。因此，本实施例中在对视频的内容进行识别，获取视频中各时刻的视觉实体以及视觉实体的搜索信息之后，可以根据搜索信息获取相应的关联信息并将与实体对应的关联信息进行线上展示。

可选地，关联信息的展示方式可以有多种。例如，可以在播放视频时展示与关联信息对应的弹幕。再例如，播放视频时在视觉实体附近展示与关联信息对应的图标。其中，关联信息的展现形式包括但不限于可以点击的弹幕词条、在视频播放器上展现的图标等，此处不作具体限制。

本发明实施例的基于视频内容的信息推送方法，通过获取待识别的视频。进而将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。进一步根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息，在播放视频时，展示关联信息。由此，基于对视频内容理解，识别出视频中的视觉实体并获取对应的关联信息进行展示，使用户在观看视频时能够根据关联信息方便的获取相应内容，避免了询问其他用户或者额外搜索的繁琐操作，主动满足用户对知识的搜索需求。并且，能够为搜索开辟新的流量入口，有利于提高搜索流量。

图2为本发明实施例所提供的另一种基于视频内容的信息推送方法的流程示意图，如图2所示，该方法包括：

步骤201，获取待识别的视频，根据视频提取视频帧。

作为一种示例，在获取待识别的视频后，可以每隔预设时间提取一帧视频帧。其中，预设时间可以根据需要进行设置，此处不作限制。

步骤202，收集视觉实体的图像数据，根据标注的图像数据训练神经网络的处理参数，生成识别模型。

在本发明的一个实施例中，可以预先训练识别模型，使识别模型能够识别出图像中的视觉实体，以及确定视觉实体对应的实体类型和与视觉实体对应的搜索信息、视觉实体的位置信息以及识别的置信度值。其中，置信度值用于表示识别结果的准确程度。

作为一种可能的实现方式，可以预先收集视觉实体的图像数据，例如收集名人、汽车等实体的图像，在图像中标注实体的位置信息、视觉实体的实体类型以及名人的姓名、汽车品牌等与视觉实体对应的搜索信息。进而，根据标注的图像训练神经网络的处理参数，生成识别模型。

步骤203，将视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定视觉实体的实体类型和与视觉实体对应的搜索信息。

本实施例中，将视频帧输入到预先训练的识别模型中进行处理，获取视频帧中的视觉实体以及视觉实体的实体类型和与视觉实体对应的搜索信息、视觉实体的位置信息以及识别的置信度值。

作为一种示例，视频帧中包括明星A和汽车B，将该视频帧输入到识别模型中进行处理，可以识别出视觉实体明星A和汽车B，以及A和B在视频帧中的位置信息，例如以矩形框的形式将A和B在视频帧中框选，并确定与视觉实体对应的搜索信息分别为明星A的姓名和汽车B的品牌。

在本发明的一个实施例中，为了进一步提高识别的准确率，在获取视频帧中的视觉实体并确定视觉实体的实体类型和与视觉实体对应的搜索信息之后，还可以对识别结果进行进一步处理。

作为一种可能的实现方式，可以获取未识别到视觉实体的目标视频帧，并获取目标视频帧对应的预设视频帧的识别结果。进而，判断目标视频帧对应的预设视频帧是否对应同一识别结果，若是，则根据同一识别结果填补目标视频帧的识别结果。例如视频帧2未识别到视觉实体，相邻视频帧1和3均识别到实体A，则将实体A作为视频帧2的识别结果。

作为另一种可能的实现方式，还可以获取预设数量的连续视频帧的识别结果，并判定各视频帧的识别结果是否相同，若识别结果不同，则进一步判断出现最多的识别结果的比例是否大于预设阈值，若是，则将连续视频帧的识别结果均替换为该出现最多的识别结果。例如对于多帧视频帧中的同一事物识别结果为AAABAAA，则将其中的B替换为A。

可选地，在确定与实体内容对应的关联信息之后，还可以校验关联信息的数据格式和数据有效性，当校验通过时，根据关联信息进行数据上线，以在线上播放视频时，展示关联信息。

步骤204，根据搜索信息查询与实体类型对应的搜索源，获取与视觉实体对应的关联信息，在播放视频时，展示关联信息。

在本发明的一个实施例中，可以根据识别的置信度、各垂类之间的优先级、关联信息的历史点击率、视觉实体在视频帧中所占区域的大小、预设展示数量中的至少一个因素确定关联信息的展示顺序，根据展示顺序展示关联信息。例如，预设展示数量为2，当前视频帧中识别到实体1-4，对于实体1和2的识别置信度值大于实体3和4，则展示实体1和2对应的关联信息。再例如，当前视频帧中识别到实体1-4，根据实体1-4的关联信息的历史点击率进行排序，选取点击率最高的关联信息进行展示。

在本发明的一个实施例中，还可以识别视频中的背景音乐，可选地，获取视频中的音频内容，并提取音频内容的音频特征，进而，将音频内容的音频特征与预设音乐的音频特征进行匹配，根据匹配结果确定音频内容中的音乐实体以及音乐实体的搜索信息。

作为一种示例，可以预先设置音乐索引，将音乐名称以及相应的频谱信息存储在该索引中。进而，在获取待识别的视频后，通过监听视频中的声道内容以采集视频中的音频内容，进而针对采集的音频内容提取频谱信息，并将音频内容的频谱信息与音乐索引中的频谱信息进行匹配，当存在一致的匹配结果时确定该音频内容为音乐实体，并将匹配结果一致的频谱信息对应的音乐名称作为该音频内容的搜索信息。

在本发明的一个实施例中，还可以获取视频的字幕信息，将字幕信息与预设的索引进行匹配，根据匹配结果确定字幕信息中的对白实体以及对白实体的搜索信息。

进而，可以根据音乐实体以及对白实体对应的搜索信息确定对应的关联内容，并在播放视频时展示关联内容。例如，在视频的t1-t2时间段内识别到了音乐A，进而获取音乐A的试听链接，并将该链接进行数据上线。数据上线后，当视频播放至t1-t2时间段时，展示该音乐A的试听链接，从而在满足用户获取需求的同时激发用户搜索的需求。

本发明实施例的基于视频内容的信息推送方法，能够基于对视频内容理解，识别出视频帧中的视觉实体以及视频中的背景音乐、对话等多模态信息并获取对应的关联信息进行展示，使用户在观看视频时能够根据关联信息方便的获取相应内容，避免了询问其他用户或者额外搜索的繁琐操作，主动满足用户对知识的搜索需求。并且，通过对识别结果进行替换和填补处理，进一步提高识别的准确率。此外，能够快速的自动生成视频内容相关的有用信息，满足信息推送的时效性要求。

为了实现上述实施例，本发明还提出一种基于视频内容的信息推送装置。

图3为本发明实施例所提供的一种基于视频内容的信息推送装置的结构示意图，如图3所示，该装置包括：获取模块100，识别模块200，确定模块300，展示模块400。

其中，获取模块100，用于获取待识别的视频。

识别模块200，用于将所述视频输入到预先训练的识别模型中进行处理，获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息。

确定模块300，用于根据所述搜索信息查询与所述实体类型对应的搜索源，获取与所述视觉实体对应的关联信息。

展示模块400，用于在播放视频时，展示所述关联信息。

在本发明的一个实施例中，获取模块100具体用于：根据视频播放日志获取播放量大于预设阈值的视频的集合；根据集合中各视频的统一资源定位符对集合中的视频进行去重，和/或，根据所述集合中各视频的统一资源定位符和md5值与预设数据库中存储的统一资源定位符和md5值进行匹配，根据匹配结果对所述集合中的视频进行去重；将去重后的视频作为待识别的视频。

在图3的基础上，图4所示的装置还包括：处理模块500，替换模块600，音乐识别模块700，对白识别模块800。

其中，处理模块500，用于获取未识别到视觉实体的目标视频帧；判断与目标视频帧对应的预设视频帧是否对应同一识别结果；若是，则根据同一识别结果填补目标视频帧的识别结果。

替换模块600，用于获取预设数量的连续视频帧的识别结果，判断识别结果是否相同；若识别结果不同，则判断出现最多的目标识别结果在全部识别结果中所占的比例是否大于预设阈值，若是，则将连续视频帧的识别结果替换为目标识别结果。

音乐识别模块700，用于获取视频中的音频内容，提取音频内容的音频特征；将音频内容的音频特征与预设音乐的音频特征进行匹配，根据匹配结果确定音频内容中的音乐实体以及音乐实体的搜索信息。

对白识别模块800，用于获取视频的字幕信息；将字幕信息与预设的索引进行匹配，根据匹配结果确定字幕信息中的对白实体以及对白实体的搜索信息。

在本发明的一个实施例中，展示模块400具体用于：根据识别的置信度、垂类优先级、关联信息的历史点击率、视觉实体的大小、预设展示数量中的至少一个因素确定关联信息的展示顺序，根据展示顺序展示关联信息。

在本发明的一个实施例中，展示模块400具体用于：展示与关联信息对应的弹幕，和/或，在视觉实体附近展示与关联信息对应的图标。

需要说明的是，前述实施例对基于视频内容的信息推送方法的解释说明同样适用于本实施例的基于视频内容的信息推送装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的基于视频内容的信息推送方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的基于视频内容的信息推送方法。

为了实现上述实施例，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的基于视频内容的信息推送方法。

图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于视频内容的信息推送方法，其特征在于，包括：

获取待识别的视频；

2.如权利要求1所述的方法，其特征在于，所述获取待识别的视频包括：

根据视频播放日志获取播放量大于预设阈值的视频的集合；

根据所述集合中各视频的统一资源定位符对所述集合中的视频进行去重，和/或，根据所述集合中各视频的统一资源定位符和md5值与预设数据库中存储的统一资源定位符和md5值进行匹配，根据匹配结果对所述集合中的视频进行去重；

将去重后的视频作为所述待识别的视频。

3.如权利要求1所述的方法，其特征在于，在所述获取待识别的视频之后，还包括：

获取所述视频中的音频内容，提取所述音频内容的音频特征；

将所述音频内容的音频特征与预设音乐的音频特征进行匹配，根据匹配结果确定所述音频内容中的音乐实体以及所述音乐实体的搜索信息。

4.如权利要求1所述的方法，其特征在于，在所述获取待识别的视频之后，还包括：

获取所述视频的字幕信息；

将所述字幕信息与预设的索引进行匹配，根据匹配结果确定所述字幕信息中的对白实体以及所述对白实体的搜索信息。

5.如权利要求1所述的方法，其特征在于，在所述获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息之后，还包括：

获取未识别到视觉实体的目标视频帧；

判断与所述目标视频帧对应的预设视频帧是否对应同一识别结果；

若是，则根据所述同一识别结果填补所述目标视频帧的识别结果。

6.如权利要求1所述的方法，其特征在于，在所述获取各视频帧中的视觉实体，并确定所述视觉实体的实体类型和与所述视觉实体对应的搜索信息之后，还包括：

7.如权利要求1所述的方法，其特征在于，所述在播放所述视频时，展示所述关联信息包括：

根据识别的置信度、垂类优先级、所述关联信息的历史点击率、所述视觉实体的大小、预设展示数量中的至少一个因素确定所述关联信息的展示顺序，根据所述展示顺序展示所述关联信息。

8.如权利要求1所述的方法，其特征在于，所述展示所述关联信息包括：

展示与所述关联信息对应的弹幕，和/或，在所述视觉实体附近展示与所述关联信息对应的图标。

9.一种基于视频内容的信息推送装置，其特征在于，包括：

获取模块，用于获取待识别的视频；

展示模块，用于在播放所述视频时，展示所述关联信息。

10.如权利要求9所述的装置，其特征在于，所述获取模块具体用于：

根据视频播放日志获取播放量大于预设阈值的视频的集合；

将去重后的视频作为所述待识别的视频。

11.如权利要求9所述的装置，其特征在于，还包括：

音乐识别模块，用于获取所述视频中的音频内容，提取所述音频内容的音频特征；

12.如权利要求9所述的装置，其特征在于，还包括：

对白识别模块，用于获取所述视频的字幕信息；

13.如权利要求9所述的装置，其特征在于，还包括：

处理模块，用于获取未识别到视觉实体的目标视频帧；

14.如权利要求9所述的装置，其特征在于，还包括：

替换模块，用于获取预设数量的连续视频帧的识别结果，判断所述识别结果是否相同；

15.如权利要求9所述的装置，其特征在于，所述展示模块具体用于：

16.如权利要求9所述的装置，其特征在于，所述展示模块具体用于：

17.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一项所述的基于视频内容的信息推送方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的基于视频内容的信息推送方法。