CN106534151A

CN106534151A - 用于播放视频流的方法及装置

Info

Publication number: CN106534151A
Application number: CN201611077569.3A
Authority: CN
Inventors: 沙烨锋
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-03-22
Anticipated expiration: 2036-11-29
Also published as: CN106534151B

Abstract

本发明实施例提供了一种用于播放视频流的方法，包括：获取视频流；将所述视频流进行解码，得到帧数据；基于所述帧数据识别所述视频流中的特定对象，得到所述特定对象的识别结果；将所述帧数据与所述识别结果进行封装，得到封装后的数据包；将所述封装后的数据包发送至播放器，以便于所述播放器根据所述封装后的数据包播放所述视频流。本发明实施例中，通过同步地产生帧数据以及特定对象的识别结果，再将帧数据与识别结果进行封装后发送至播放器，可以由播放器实时地同时显示视频流以及对应的识别结果。

Description

用于播放视频流的方法及装置

技术领域

本发明涉及视频播放领域，更具体地涉及一种用于播放视频流的方法及装置。

背景技术

一般的视频播放器直接读取视频流进行编解码并可以实时显示视频流。现在利用人工智能技术处理实时视频流已经是安防行业的常态，利用人工智能技术可以识别出视频流中出现的人脸、人形、年龄、性别、是否背包、衣服颜色、车型、车牌号等等数据，然而目前一般是在显示视频流之后再通过人工智能技术获取其中的数据，这样导致了目前不能与视频流一起实时地显示这些需要的数据。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于播放视频流的方法，能够与视频流同时实时地显示识别出的数据。

根据本发明的第一方面，提供了一种用于播放视频流的方法，包括：

获取视频流；

将所述视频流进行解码，得到帧数据；

基于所述帧数据识别所述视频流中的特定对象，得到所述特定对象的识别结果；

将所述帧数据与所述识别结果进行封装，得到封装后的数据包；

将所述封装后的数据包发送至播放器，以便于所述播放器根据所述封装后的数据包播放所述视频流。

示例性地，所述基于所述帧数据识别所述视频流中的特定对象，得到所述特定对象的识别结果，包括：使用人工智能算法，识别所述帧数据中的所述特定对象，得到所述特定对象的识别结果。

示例性地，所述人工智能算法包括深度学习算法和/或模式匹配算法。

示例性地，所述特定对象包括人物，所述识别结果包括以下中的至少一项：所述人物的性别、所述人物的年龄、所述人物的人脸的坐标、所述人物的衣服的颜色。

示例性地，所述特定对象包括汽车，所述识别结果包括以下中的至少一项：所述汽车的车型、所述汽车的颜色、所述汽车的车牌号。

示例性地，所述识别结果序列化之后位于所述封装后的数据包的包头。

根据本发明的第二方面，提供了一种用于播放视频流的方法，包括：

接收封装后的数据包；

对所述封装后的数据包进行解封装，得到帧数据与识别结果；

根据所述帧数据与所述识别结果，播放带有标注信息的实时视频流。

示例性地，在所述接收封装后的数据包的步骤中，所接收的封装后的数据包为上述第一方面所述的方法中发送至播放器的封装后的数据包。

根据本发明的第三方面，提供了一种用于播放视频流的装置，包括：

获取模块，用于获取视频流；

解码模块，用于将所述获取模块获取的所述视频流进行解码，得到帧数据；

识别模块，用于基于所述解码模块得到的所述帧数据识别所述获取模块获取的所述视频流中的特定对象，得到所述特定对象的识别结果；

封装模块，用于将所述解码模块得到的所述帧数据与所述识别模块得到的所述识别结果进行封装，得到封装后的数据包；

发送模块，用于将所述封装模块得到的所述封装后的数据包发送至播放器，以便于所述播放器根据所述封装后的数据包播放所述视频流。

该装置能够用于实现前述第一方面的用于播放视频流的方法。

根据本发明的第四方面，提供了一种用于播放视频流的装置，包括：

接收模块，用于接收封装后的数据包；

解封装模块，用于对所述接收模块接收的所述封装后的数据包进行解封装，得到帧数据与识别结果；

播放模块，用于根据所述解封装模块得到的所述帧数据与所述识别结果，播放带有标注信息的实时视频流。

该装置能够用于实现前述第二方面的用于播放视频流的方法。

根据本发明的第五方面，提供了一种计算机芯片，该计算机芯片包括处理器，当该处理器执行代码时，能够实现前述第一方面所述的方法。

根据本发明的第六方面，提供了一种计算机芯片，该计算机芯片包括处理器，当该处理器执行代码时，能够实现前述第二方面所述的方法。

本发明实施例中，通过同步地产生帧数据以及特定对象的识别结果，再将帧数据与识别结果进行封装后发送至播放器，可以由播放器实时地同时显示视频流以及对应的识别结果。播放器可以在播放视频流时，同时以几何标注和/或文本标注等形式叠加识别结果，从而实时显示图像中的特定对象的信息。并且，由于视频流的帧数据与识别结果两者是分开的，在通过播放器进行播放的时候，可以根据需要只播放视频，而不显示识别结果，也就是说可以随时开启/关闭识别结果的显示，从而保持了原始图像数据的纯净。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的用于播放视频流的方法的一个示意性流程图；

图3是本发明实施例的用于播放视频流的方法的另一个示意性流程图；

图4是本发明实施例的实时视频流的一个示意图；

图5是本发明实施例的用于播放视频流的方法的交互的示意性流程图；

图6是本发明实施例的用于播放视频流的装置的一个示意性框图；

图7是本发明实施例的用于播放视频流的装置的另一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

现在利用人工智能技术处理实时视频流已经是安防行业的常态，利用人工智能技术可以识别出视频流中出现的人脸、人形、年龄、性别、是否背包、衣服颜色、车型、车牌号等等数据，但是一般的视频播放器直接读取视频流进行编解码，不兼容显示实时数据(有别于字幕，后面会展开)，同时安防行业为了保证原始数据的纯净，不可以对原始视频流进行修改，因此现有技术不能够实时而直观地展示识别结果，例如人脸、人形用不同颜色的框跟踪，年龄性别用文字跟随人脸框展示等等。

本发明实施例所提出的播放实时视频流的方法，能够实现播放视频的时候叠加几何形状的标注和文字信息，并且由于图像数据和标注数据是可以区分开的，播放的时候可以随时开启/关闭标注数据的显示，保持了原始图像数据的纯净。

图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。举例来说，应用程序可以包括播放器。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，该电子设备10可以被实现为诸如智能手机、平板电脑、门禁系统的图像采集端等。

如图2所示，是本发明实施例的用于播放视频流的方法的一个示意性流程图，图2所示的方法包括：

S101，获取视频流。

具体地，可以从视频源获取该视频流。其中，视频流也可以成为视频数据或视频源数据。其中，视频源可以是图像采集设备，例如，可以是安防领域用于监控的摄像头，可以是用于身份认证的图像采集器，可以是图1所示的设备10中的图像传感器110等等，本发明对此不限定。

以h264格式的实时流传输协议(Real Time Streaming Protocol，RTSP)视频流为例，S101可以包括：通过RTSP从视频源获取视频数据。

S102，将所述视频流进行解码，得到帧数据。

具体地，可以包括：将视频流进行解码和拆帧，从而得到帧数据。以h264格式的rtsp视频流为例，S102可以包括：将视频数据从rtsp格式解码为二进制的h264帧数据。h264格式的帧数据一般是一个I帧(关键帧)后面跟着一系列P帧(非关键帧)，每帧的数据都是一个二进制字节流。也就是说，帧数据为二进制的帧数据，即为一串二进制数据。

可选地，S102所得到的帧数据可以称为图像数据。

可选地，S102的过程可以理解为是解码服务或视频流解码服务，该解码服务负责视频流数据的解码和拆帧。那么，S102可以理解为是将视频流经过一个通用的解码服务。其中，该解码服务可以根据需要进行扩容。

S103，基于帧数据识别所述视频流中的特定对象，得到所述特定对象的识别结果。

具体地，可以使用人工智能算法，识别所述帧数据中的所述特定对象，得到所述特定对象的识别结果。其中，人工智能算法可以包括深度学习算法和/或模式匹配算法，或者，也可以单独包括或进一步包括其他的算法，这里不再一一罗列。

可选地，特定对象可以是视频流中的人或物体(如汽车)等，特定对象的识别结果可以是文本或数字等的形式。

举例来说，特定对象包括人物，所述识别结果包括以下中的至少一项：所述人物的性别、所述人物的年龄、所述人物的人脸的坐标、所述人物的衣服的颜色、是否背包等。

其中，人物的性别为男或女，例如，性别为男可以表示为M或男，性别为女可以表示为F或女。

其中，人物的年龄为正整数或者为正整数区间。例如，年龄可以表示为27，或者年龄可以表示为区间25～30。

其中，人物的人脸的坐标可以包括人脸框或人形框的左上角、左下角、右上角和右下角的坐标值。例如，表示为((x1,y1),(x2,y2),(x3,y3),(x4,y4))。或者，作为另一例，人物的人脸的坐标可以包括人脸框或人形框的左上角和右下角的坐标值。例如，表示为((x1,y1),(x4,y4))。或者，作为另一例，人物的人脸的坐标可以包括人脸框或人形框的左下角和右上角的坐标值。例如，表示为((x2,y2),(x3,y3))。其中，(x1,y1)为左上角的坐标值，(x2,y2)为左下角的坐标值，(x3,y3)为右上角的坐标值，(x4,y4)为右下角的坐标值。

其中，人物的衣服的颜色可以包括上衣的颜色、裤子/裙子的颜色、鞋的颜色、帽子的颜色中的一个或多个。颜色可以通过RGB的形式表示，例如，颜色为红色可以表示为(255,0,0)。或者颜色为白色可以表示为#FFFFFF等等。

其中，人物是否背包可以为背包或未背包，例如，背包可以表示为Y，未背包可以表示为N。可选地，若是否背包表示为Y，还可以进一步包括所背的包的颜色、大小等。其中，包的颜色可以通过RGB的形式表示，包的大小可以通过包的左上角和右下角的坐标值表示，或者，包的大小也可以通过包的左下角和右上角的坐标值表示。

可理解，人物的识别结果也可以包括其他的信息，例如：是否戴眼镜，镜框的颜色，是否打伞，等等。

举例来说，特定对象包括汽车，所述识别结果包括以下中的至少一项：所述汽车的车型、所述汽车的颜色、所述汽车的车牌号。

其中，汽车的车型可以包括汽车的品牌及型号，例如，汽车的车型为奔驰C300或奥迪A8L。

其中，汽车的颜色可以是指车身的主要颜色，汽车的颜色可以通过RGB的形式表示，例如，为#FFFFFF。

其中，汽车的车牌号可以为文本形式，例如为京A12345。

可理解，汽车的识别结果也可以包括其他的信息，例如，驾驶员的性别，副驾驶位置是否有人，等等。

本领域技术人员可理解，特定对象也可以是其他的物体，例如行李箱，例如自行车等等，相应地，特定对象的识别结果为与该物体所对应的属性。本发明不再一一罗列。

可选地，S103的过程可以理解为是识别服务，该识别服务负责识别特定对象。

S104，将所述帧数据与所述识别结果进行封装，得到封装后的数据包。

具体地，可以将S102得到的帧数据与S103得到的识别结果封装成统一的数据包。

以h264格式数据为例，可以将识别结果序列化之后写入h264数据包的包头。也就是说，S104可以包括：将识别结果进行序列化；将所述帧数据与所述序列化后的识别结果进行封装，得到所述封装后的数据包，其中，所述序列化后的识别结果位于所述数据包的包头。

或者，可以使用其他的数据格式，将帧数据和识别结果按照预定的方式进行封装，只要不破坏数据逻辑的封装方式即可。

可选地，S104的过程可以理解为是封装服务，该封装服务负责实现帧数据与识别结果的封装。

需要说明的是，S104中的封装与现有技术中字幕或者弹幕与视频的封装是不相同的，字幕或者弹幕是事先载入全部数据然后根据其时间戳与视频进行同步播放。然而本发明实施例中，帧数据与识别结果这两者是同步产生的，两者具有本质的区别。

S105，将所述封装后的数据包发送至播放器，以便于所述播放器根据所述封装后的数据包播放所述视频流。

具体地，可以将封装后的数据包重新打包成视频流格式，再转发给播放器。一般地，可以对封装后的数据包进行压缩以降低传输带宽，其中的压缩比例可以是根据网络状况所确定的。

可选地，S105可以基于预设的网络协议进行一对多的转发，即可以发送至一个或多个播放器。其中的网络协议可以为websocket、传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol，TCP/IP)或用户数据协议(UserDatagram Protocol，UDP)等标准网络协议，或者也可以为其他的网络协议，本发明对此不限定。其中，可以根据实时性或者稳定性等进行网络协议的选取。

可选地，S105的过程可以理解为是转发服务，该转发服务负责将封装后的数据包进行一对多的转发。

本发明实施例中，解码服务、识别服务、封装服务和转发服务可以部署在单独服务器或者集群上，并且各个服务可以根据需要(例如项目的规模等)进行扩容。也就是说，图2所示的方法可以由服务器或集群执行。

这样，本发明实施例中，通过同步地产生帧数据以及特定对象的识别结果，再将帧数据与识别结果进行封装后发送至播放器，可以由播放器实时地同时显示视频流以及对应的识别结果。

相应地，图3是本发明实施例的用于播放视频流的方法的另一个示意性流程图。图3所示的方法包括：

S201，接收封装后的数据包。

可理解，S201中所接收的封装后的数据包即前述图2所示的实施例中S105所发送的封装后的数据包。

S202，对所述封装后的数据包进行解封装，得到帧数据与识别结果。

具体地，针对所述封装后的数据包，可以通过解封装以及解码等，得到帧数据以及识别结果。

作为另一种理解，在S202中，将每个数据包解封装，得到帧数据(即视频数据)和识别结果，识别结果本身包含了需要渲染的所有点和线的坐标以及需要渲染的颜色和文字，然后根据需要将识别结果还原成几何形状或者文字/数字编码到视频数据中。

S203，根据所述帧数据与所述识别结果，播放带有标注信息实时视频流。

具体地，可以按照常规方式播放帧数据，同步渲染识别结果，从而获得跟视频实时渲染的标注效果。也就是说，实时视频流包括所述帧数据以及同步渲染的所述识别结果。

作为另一种理解，将S202中还原得到的几何形状或者文字/数字渲染到显示屏上，从而得到带几何标注和/或文字标注等标注信息的实时视频流。

举例来说，假设识别结果包括人脸的坐标值((x1,y1),(x4,y4))，性别为女，年龄为27。那么，在显示屏上呈现时，可以通过该坐标值画出矩形区域，即进行几何标注；可以在人脸的右侧显示(女,27)，即进行文字标注，如图4所示为该示例的一个示意图。

另外，本发明实施例中的播放器可以根据需要进行开发以兼容额外的数据格式。这里，额外的数据格式是指识别结果的数据格式。

可选地，在S203中，也可以将识别结果显示的功能关闭，并只根据帧数据显示视频流。可选地，可以设置开关，当所述开关为第一状态时，所述实时视频流包括所述帧数据与所述识别结果；当所述开关为第二状态时，所述实时视频流包括所述帧数据，不包括所述识别结果。举例来说，第一状态为开启，第二状态为关闭。

由此可见，本发明实施例中，播放器可以在播放视频流时，同时以几何标注和/或文本标注等形式叠加识别结果，从而实时显示图像中的特定对象的信息。并且，由于视频流的帧数据与识别结果两者是分开的，在通过播放器进行播放的时候，可以根据需要只播放视频，而不显示识别结果，也就是说可以随时开启/关闭识别结果的显示，从而保持了原始图像数据的纯净。

如图5所示，为本发明实施例的用于播放视频流的方法的交互的流程图。可理解，图5中同样序号的步骤可以参见前述图2和图3中相同序号的描述，为避免重复，这里不再赘述。

图6是本发明实施例的用于播放视频流的装置的一个示意性框图。图6所示的装置30包括：获取模块301、解码模块302、识别模块303、封装模块304和发送模块305。

获取模块301，用于获取视频流。解码模块302，用于将所述获取模块301获取的所述视频流进行解码，得到帧数据。识别模块303，用于基于所述解码模块302得到的帧数据识别所述获取模块301获取的所述视频流中的特定对象，得到所述特定对象的识别结果。封装模块304，用于将所述解码模块302得到的所述帧数据与所述识别模块303得到的所述识别结果进行封装，得到封装后的数据包。发送模块305，用于将所述封装模块304得到的所述封装后的数据包发送至播放器，以便于所述播放器根据所述封装后的数据包播放所述视频流。

示意性地，所述识别模块303，具体用于：使用人工智能算法，识别所述帧数据中的所述特定对象，得到所述特定对象的识别结果。其中，所述人工智能算法可以包括深度学习算法和/或模式匹配算法。

可选地，作为一例，所述特定对象包括人物，所述识别结果包括以下中的至少一项：所述人物的性别、所述人物的年龄、所述人物的人脸的坐标、所述人物的衣服的颜色。

可选地，作为另一例，所述特定对象包括汽车，所述识别结果包括以下中的至少一项：所述汽车的车型、所述汽车的颜色、所述汽车的车牌号。

可选地，作为另一例，所述识别结果序列化之后位于所述封装后的数据包的包头。

图6所示的装置30能够用于实现前述图2所示的方法。

图7是本发明实施例的用于播放视频流的装置的另一示意性框图。图7所示的装置40包括：接收模块401、解封装模块402和播放模块403。

接收模块401，用于接收封装后的数据包。解封装模块402，用于对所述接收模块401接收的所述封装后的数据包进行解封装，得到帧数据与识别结果。播放模块403，用于根据所述解封装模块402得到的所述帧数据与所述识别结果，播放带有标注信息的实时视频流。

可选地，作为一例，所述实时视频流包括所述帧数据以及同步渲染的所述识别结果。

可选地，所述播放模块可以设置开关，当所述开关为第一状态时，所述实时视频流包括所述帧数据与所述识别结果；当所述开关为第二状态时，所述实时视频流包括所述帧数据，不包括所述识别结果。

图7所示的装置40能够用于实现前述图3所示的方法。

另外，本发明实施例还提供了一种电子设备，该电子设备包括装置30和装置40。

可选地，该装置30可以包括处理器和存储器，其中，存储器用于存储指令，处理器执行该指令时，可以实现前述图2所示的方法。

可选地，该装置40可以包括处理器和存储器，其中，存储器用于存储指令，处理器执行该指令时，可以实现前述图3所示的方法。

可见，本发明实施例所提供的播放实时视频流的方法，能够实现播放视频的同时显示识别结果，即可以实时地同时显示图像数据和标注数据。并且由于图像数据和标注数据是可以区分开的，播放的时候可以随时开启/关闭标注数据的显示，保持了原始图像数据的纯净。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于播放视频流的方法，其特征在于，包括：

获取视频流；

将所述视频流进行解码，得到帧数据；

2.如权利要求1所述的方法，其特征在于，所述基于所述帧数据识别所述视频流中的特定对象，得到所述特定对象的识别结果，包括：

使用人工智能算法，识别所述帧数据中的所述特定对象，得到所述特定对象的识别结果。

3.如权利要求2所述的方法，其特征在于，所述人工智能算法包括深度学习算法和/或模式匹配算法。

4.如权利要求1所述的方法，其特征在于，所述特定对象包括人物，所述识别结果包括以下中的至少一项：

所述人物的性别、所述人物的年龄、所述人物的人脸的坐标、所述人物的衣服的颜色。

5.如权利要求1所述的方法，其特征在于，所述特定对象包括汽车，所述识别结果包括以下中的至少一项：

所述汽车的车型、所述汽车的颜色、所述汽车的车牌号。

6.如权利要求1至5任一项所述的方法，其特征在于，所述识别结果序列化之后位于所述封装后的数据包的包头。

7.一种用于播放视频流的方法，其特征在于，包括：

接收封装后的数据包；

8.如权利要求7所述的方法，其特征在于，在所述接收封装后的数据包的步骤中，所接收的封装后的数据包为权利要求1至6任一项所述的方法中发送至播放器的封装后的数据包。

9.一种用于播放视频流的装置，其特征在于，包括：

获取模块，用于获取视频流；

10.如权利要求9所述的装置，其特征在于，所述识别模块，具体用于：

11.如权利要求10所述的装置，其特征在于，所述人工智能算法包括深度学习算法和/或模式匹配算法。

12.如权利要求9所述的装置，其特征在于，所述特定对象包括人物，所述识别结果包括以下中的至少一项：

13.如权利要求9所述的装置，其特征在于，所述特定对象包括汽车，所述识别结果包括以下中的至少一项：

所述汽车的车型、所述汽车的颜色、所述汽车的车牌号。

14.如权利要求9至13任一项所述的装置，其特征在于，所述识别结果序列化之后位于所述封装后的数据包的包头。

15.一种用于播放视频流的装置，其特征在于，包括：

接收模块，用于接收封装后的数据包；

16.如权利要求15所述的装置，其特征在于，所述接收模块所接收的封装后的数据包为权利要求9至14任一项所述的装置中的发送模块所发送的封装后的数据包。