CN112784634A

CN112784634A - 视频信息处理方法、装置和系统

Info

Publication number: CN112784634A
Application number: CN201911080621.4A
Authority: CN
Inventors: 黄志标
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2021-05-11

Abstract

本发明公开了一种视频信息处理方法、装置和系统，涉及计算机技术领域。该方法的一具体实施方式包括：接收来自机器人的识别信息；根据识别信息，确定是否处理来自门店摄像头的视频流，其中，门店摄像头所处位置的高度高于机器人的摄像头所处位置的高度；若是，则利用图像识别算法识别视频流中的人物特征；根据人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至机器人，以使机器人输出该目标语音内容。该实施方式能够通过处理机器人的识别信息或门店摄像头拍摄的视频流，得到人物特征，从而提供迎宾服务，解决了现有技术中因机器人因视角范围较小而识别不到人脸而无法提供迎宾服务的问题，从而提高了迎宾服务的可靠性。

Description

视频信息处理方法、装置和系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频信息处理方法、装置和系统。

背景技术

智能迎宾导购是将机器人或带智能识别功能的装置应用于饭店、服装店或酒店等门店的一套技术和系统，是机器智能在服务业的一种新兴应用。目前的主要使用的技术原理主要包括人脸识别技术和语音系统。人脸识别技术一般所使用的视觉装置主要为机器人头上的摄像头。语音系统目前所用方法部分是采用基于语料库的方法，事先收集语料，然后在迎宾时随机播放语料。

但是，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：迎宾机器人的视角范围具有局限性，通常人群从不同方向往门店走来，可能会有相当部分人无法拍摄到人脸，从而无法识别；此外，当人群密度较大时，人脸密度较集中，使得可识别到的人脸区域图片较小，增加了人脸识别难度；同时目前基于语料库播放的语音内容比较单调并不具有个性化。

发明内容

有鉴于此，本发明实施例提供一种视频信息处理方法、装置和系统，能够通过处理机器人的识别信息和门店摄像头拍摄的视频流，得到人物特征，从而提供迎宾服务，解决了现有技术中因机器人因视角范围较小而识别不到人脸而无法提供迎宾服务的问题，从而提高了迎宾服务的可靠性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种视频信息处理方法，包括：接收来自机器人的识别信息；根据所述识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；若是，则利用图像识别算法识别所述视频流中的人物特征；根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

可选地，所述方法还包括：当根据所述识别信息确定不处理所述视频流时，根据所述识别信息确定人物特征。

可选地，根据所述人物特征，从预设的语音内容中匹配目标语音内容包括：根据所述人物特征以及预设的分类器，确定所述视频流中的人物所属的类别；根据所述类别，从预设的语音内容中匹配目标语音内容。

可选地，根据所述识别信息，确定是否处理来自门店摄像头的视频流包括：解析所述识别信息，确定机器人摄像头的识别结果；当所述识别结果为机器人摄像头识别到人脸时，确定不处理所述视频流；当所述识别结果为机器人摄像头识别到行人且未识别到人脸时，确定处理所述视频流。

为实现上述目的，根据本发明实施例的另一方面，提供了一种视频信息处理装置，包括：接收模块，用于接收来自机器人的识别信息；判断模块，用于根据所述识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；图像处理模块，用于利用图像识别算法识别所述视频流中的人物特征；语音匹配模块，用于根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

可选地，所述图像处理模块还用于：当根据所述识别信息确定不处理所述视频流时，根据所述识别信息确定人物特征。

可选地，所述语音匹配模块还用于：根据所述人物特征以及预设的分类器，确定所述视频流中的人物所属的类别；根据所述类别，从预设的语音内容中匹配目标语音内容。

可选地，所述判断模块还用于：解析所述识别信息，确定机器人摄像头的识别结果；当所述识别结果为机器人摄像头识别到人脸时，确定不处理所述视频流；当所述识别结果为机器人摄像头识别到行人且未识别到人脸时，确定处理所述视频流。

为实现上述目的，根据本发明实施例的又一方面，提供了一种视频信息处理系统，所述系统包括机器人、门店摄像头和视频信息处理装置，在所述机器人上安装有摄像头，并且所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；

其中，所述机器人用于识别人脸，并将所识别到的识别信息发送至所述视频信息处理装置；

所述门店摄像头用于拍摄视频流，并将拍摄的视频流发送至所述视频信息处理装置；

所述视频信息处理装置用于：根据所述识别信息或所述视频流，确定人物特征；根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容

可选地，所述视频信息处理装置还用于：根据所述识别信息，确定是否处理来自门店摄像头的视频流；若是，则利用图像识别算法识别所述视频流中的人物特征；若否，根据所述识别信息确定人物特征。

可选地，所述视频信息处理装置还用于：解析所述识别信息，确定机器人摄像头的识别结果；当所述识别结果为机器人摄像头识别到人脸时，确定不处理所述视频流；当所述识别结果为机器人摄像头识别到行人且未识别到人脸时，确定处理所述视频流。

可选地，所述视频信息处理装置还用于：根据所述人物特征以及预设的分类器，确定所述视频流中的人物所属的类别；根据所述类别，从预设的语音内容中匹配目标语音内容。

可选地，所述视频信息处理装置利用图像识别算法识别所述视频流中的人物特征包括：利用MobileNet-SSD神经网络监测行人得到人体检测框；基于所述人体检测框，利用人体解析算法获取人物特征。

可选地，所述视频信息处理装置还用于：利用MobileNet-SSD神经网络监测行人得到人体检测框；基于所述人体检测框，利用FaceNet网络识别人脸，以获得识别信息。

为实现上述目的，根据本发明实施例的又一方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的视频信息处理方法。

为实现上述目的，根据本发明实施例的又一方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的视频信息处理方法。

上述发明中的一个实施例具有如下优点或有益效果：通过采用根据来自机器人的摄像头的识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；若是，则利用图像识别算法识别所述视频流中的人物特征；根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容技术手段，能够解决现有技术中因机器人识别不到人脸而不能提供个性化服务的问题，提高了迎宾服务的可靠性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的视频信息处理的系统的架构图；

图2是根据本发明实施例的视频信息处理方法的主要流程的示意图；

图3是根据本发明实施例的视频信息处理装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的视频信息处理系统100的架构图，如图1所示，该系统100包括机器人101、门店摄像头102和视频信息处理装置103。在所述机器人101上安装有摄像头，并且所述门店摄像头102所处位置的高度高于所述机器人101的摄像头所处位置的高度。

其中，该机器人101用于识别人脸，并将所识别到的识别信息发送至所述视频信息处理装置。当机器人识别到人脸时，可以向视频信息处理装置发送正反馈，在该正反馈中包括识别到的人脸。当检测到行人通过但是识别不到人脸时，可以向视频信息处理装置发送负反馈。具体的，该机器人101是与行人互动的主要部件，在本实施例中将人脸识别功能和行人检测功能集成在位于眼睛位置的摄像头中，且将人脸识别可执行应用程序安装在机器人内置的操作系统上。

具体的，机器人可以根据如下过程识别人脸：

利用MobileNet神经网络监测行人得到人体检测框；

基于所述人体检测框，利用FaceNet网络识别人脸，以获得识别信息。

其中，MobileNet神经网络是一种轻量级的深层神经网络，它使用深度可分离的卷积来构建轻量级的深层神经网络。FaceNet网络是谷歌提出的网络结构，FaceNet网络并没有用传统的方式去进行分类学习，然后抽取其中某一层作为特征，而是直接进行端对端学习一个从图像到欧式空间的编码方法，然后基于这个编码再做人脸识别、人脸验证和人脸聚类等。

门店摄像头102用于拍摄行人，并将拍摄的视频流(即门店摄像头拍摄的一帧一帧的图像)发送至所述视频信息处理装置。该门店摄像头102的所处位置的高度高于机器人101上的摄像头所处位置的高度，可以用于弥补机器人身高不足。作为具体的示例，可以在门店两边各放置一个摄像头，并将拍摄的视频流发送至视频信息处理装置103。门店的摄像头的数量可以根据应用场景灵活设置，本发明在此不做限制。

该门店摄像头102的作用是行人检测及跟踪，其检测原理与机器人101识别人脸的方式不同，其直接检测行人的头肩部分，从而避免了被遮挡的情况，甚至当行人在较远时也可以为迎宾做准备。本实施例的门店摄像头可以采用现有技术中普通的摄像头，将行人的检测、跟踪以及特征识别的功能设置在视频信息处理装置上，摄像头仅仅是为了获取视频流。

视频信息处理装置103用于根据来自机器人101的识别信息和来自门店摄像头102的视频流，确定人物特征；根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人101，以使所述机器人101输出所述目标语音内容。

具体的，如图2所示，可以包括如下步骤：

步骤S201：视频信息处理装置103接收来自机器人101的识别信息。

步骤S202：视频信息处理装置103根据所述识别信息，确定是否处理来自门店摄像头的视频流。

在可选的实施例中，可以根据如下过程确定是否处理来自门店摄像头的视频流：

解析所述识别信息，确定机器人的识别结果；

当所述识别结果为机器人识别到人脸时，确定不处理所述视频流；

当所述识别结果为机器人识别到行人且未识别到人脸时，确定处理所述视频流。

在其他可选的实施例中，当所述识别结果为机器人识别到行人且未识别到人脸时，视频信息处理装置也可以处理所述视频流。

步骤S203：若需要处理视频流，即当机器人识别到行人且未识别到人脸时，利用图像识别算法识别所述视频流中的人物特征。

具体的，可以根据如下过程从视频流中获取人物特征：

利用MobileNet-SSD神经网络监测行人得到人体检测框；

对所述人体检测框进行分割，以获得人物特征。

具体的，其采用MobileNet神经网络监测行人得到人体检测框后，然后在人体检测框内检测头肩部分。因为头肩部分必定包括在人体检测框内，所以可以直接检测行人的头肩部分。当检测到头肩部分时对其进行跟踪，在跟踪的过程中，每隔10帧对人体检测框进行分割，以便得到人物特征。更具体的，可以采用人体解析算法(human parsing)获得人物特征，该算法能对人体按部件分成20个类别，包括头、手和服装等。

在视频流中获取的人物特征可以包括以下至少之一：表情特征(例如快乐、伤心、恐惧、愤怒、惊讶和厌恶等)、年龄特征、性别特征和服装特征(例如社交、日常、职业、运动、室内和娱乐等)。在其他实施例中，该人物特征还可以包括民族特征、行走轨迹特征和速度特征等。

在可选的实施例中，当人群密度较大时，人群中的人体检测框会非常小，检测时可以将小于阈值的人体检测框过滤掉，只考虑比较大的人体检测框。

步骤S204：当机器人识别到人脸时，则根据所述识别信息确定人物特征。

在识别信息中获取的人物特征可以包括以下至少之一：年龄特征、性别特征、表情特征(例如快乐、伤心、恐惧、愤怒、惊讶和厌恶等)。在其他实施例中，该人物特征还可以包括民族特征。

在可选的实施例中，可以将步骤S203或步骤S204识别到的人物特征进行one-hot编码。具体地，年龄特征采用2个比特的one-hot编码；性别特征可以采用2个比特的one-hot编码；表情特征采用6比特的one-hot编码；服装特征采用6比特的one-hot编码，民族特征可以采用6个比特的one-hot编码，一共组成2+2+6+6+6＝22比特的one-hot编码，其可以表示用户的不同特点最少种类为2×2×6×6×6＝864种。其中，one-hot编码也可以称为独热编码，原指数字电路领域的只包含合法编码的编码方法，合法编码是指只有当编码中只有一位为高位(1)其余位为低位(0)时的编码。比如对于2位编码的四种组合中00,01,10,11，只包含01,10是的编码方法称为one-hot编码。该编码方式被用于机器学习领域中提高分类效果。

步骤S205：根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

在本实施例中，可以预先收集大量语音内容。比如针对不同年龄段、不同性别、不同着装、不同心情的客户定制不同的语音内容，这些语音内容可以以不同的格式(例如.mp3格式)存储在机器人的磁盘上，当迎宾时将语音内容加载到内存并进行播放。

对于步骤S205，具体的，可以包括如下步骤：

根据所述人物特征以及预设的分类器，确定所述视频流中的人物所属的类别；

根据所述类别，从预设的语音内容中匹配目标语音内容。

在本实施例中，可以根据一些样本数据训练得到分类器，将客户分成K个类别(K为正整数)。作为具体的示例，该分类器可以是SVM分类器。SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

本发明实施例的视频信息处理系统，能够通过处理机器人的识别信息和或门店摄像头拍摄的视频流，得到人物特征，从而提供迎宾服务，解决了现有技术中因机器人识别不到人脸而无法提供迎宾服务的问题，从而提高了迎宾服务的可靠性。

在其他可选的实施例中，视频信息处理系统可以将视频信息处理装置的功能集成到机器人中，从而省略视频信息处理装置。在这种实施方式中，门店摄像头与机器人通信连接，以将门店摄像头拍摄的视频流发送至机器人。当机器人识别到行人却识别不到人脸时，由机器人处理该视频流获取人物特征，再根据人物特征匹配目标语音内容。

图3是根据本发明实施例的视频信息处理装置300的主要模块的示意图，该装置300包括：

接收模块301，用于接收来自机器人的识别信息；

判断模块302，用于根据所述识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；

图像处理模块303，用于利用图像识别算法识别所述视频流中的人物特征；

语音匹配模块304，用于根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

可选地，所述图像处理模块303还用于：当根据所述识别信息确定不处理所述视频流时，根据所述识别信息确定人物特征。

可选地，所述语音匹配模块304还用于：根据所述人物特征以及预设的分类器，确定所述视频流中的人物所属的类别；根据所述类别，从预设的语音内容中匹配目标语音内容。

可选地，所述判断模块302还用于：解析所述识别信息，确定机器人摄像头的识别结果；当所述识别结果为机器人摄像头识别到人脸时，确定不处理所述视频流；当所述识别结果为机器人摄像头识别到行人且未识别到人脸时，确定处理所述视频流。

本发明实施例的视频信息处理装置，能够通过处理机器人的识别信息和或门店摄像头拍摄的视频流，得到人物特征，从而提供迎宾服务，解决了现有技术中因机器人识别不到人脸而无法提供迎宾服务的问题，从而提高了迎宾服务的可靠性。

上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

图4示出了可以应用本发明实施例的视频信息处理方法或视频信息处理装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的视频信息处理方法一般由服务器405执行，相应地，视频信息处理装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中，这些模块的名称在某种情况下并不构成对该单元本身的限定，例如，发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

接收来自机器人的识别信息；

根据识别信息，确定是否处理来自门店摄像头的视频流，其中，门店摄像头所处位置的高度高于机器人的摄像头所处位置的高度；

若是，则利用图像识别算法识别视频流中的人物特征；

根据人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至机器人，以使机器人输出所述目标语音内容。

本发明实施例的技术方案，能够通过处理机器人的识别信息和或门店摄像头拍摄的视频流，得到人物特征，从而提供迎宾服务，解决了现有技术中因机器人识别不到人脸而无法提供迎宾服务的问题，从而提高了迎宾服务的可靠性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频信息处理方法，其特征在于，包括：

接收来自机器人的识别信息；

根据所述识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；

若是，则利用图像识别算法识别所述视频流中的人物特征；

根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当根据所述识别信息确定不处理所述视频流时，根据所述识别信息确定人物特征。

3.根据权利要求1所述的方法，其特征在于，根据所述人物特征，从预设的语音内容中匹配目标语音内容包括：

根据所述人物特征和预设的分类器，确定所述视频流中的人物所属的类别；

根据所述类别，从预设的语音内容中匹配目标语音内容。

4.根据权利要求1-3中任一项所述的方法，其特征在于，根据所述识别信息，确定是否处理来自门店摄像头的视频流包括：

解析所述识别信息，确定机器人摄像头的识别结果；

当所述识别结果为机器人摄像头识别到人脸时，确定不处理所述视频流；

当所述识别结果为机器人摄像头识别到行人且未识别到人脸时，确定处理所述视频流。

5.一种视频信息处理装置，其特征在于，包括：

接收模块，用于接收来自机器人的识别信息；

判断模块，用于根据所述识别信息，确定是否处理来自门店摄像头的视频流，其中，所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；

图像处理模块，用于利用图像识别算法识别所述视频流中的人物特征；

语音匹配模块，用于根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

6.根据权利要求5所述的装置，其特征在于，所述图像处理模块还用于：当根据所述识别信息确定不处理所述视频流时，根据所述识别信息确定人物特征。

7.根据权利要求5所述的装置，其特征在于，所述语音匹配模块还用于：

根据所述类别，从预设的语音内容中匹配目标语音内容。

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述判断模块还用于：

解析所述识别信息，确定机器人摄像头的识别结果；

9.一种视频信息处理系统，其特征在于，所述系统包括机器人、门店摄像头和视频信息处理装置，在所述机器人上安装有摄像头，并且所述门店摄像头所处位置的高度高于所述机器人的摄像头所处位置的高度；

所述视频信息处理装置用于：根据所述识别信息或所述视频流，确定人物特征；根据所述人物特征，从预设的语音内容中匹配目标语音内容，并将匹配结果发送至所述机器人，以使所述机器人输出所述目标语音内容。

10.根据权利要求9所述的系统，其特征在于，所述视频信息处理装置还用于：

根据所述识别信息，确定是否处理来自门店摄像头的视频流；

若是，则利用图像识别算法识别所述视频流中的人物特征；

若否，根据所述识别信息确定人物特征。

11.根据权利要求10所述的系统，所述视频信息处理装置还用于：

解析所述识别信息，确定机器人摄像头的识别结果；

12.根据权利要求10所述的系统，其特征在于，所述视频信息处理装置还用于：

根据所述类别，从预设的语音内容中匹配目标语音内容。

13.根据权利要求10所述的系统，其特征在于，所述视频信息处理装置利用图像识别算法识别所述视频流中的人物特征包括：

利用MobileNet-SSD神经网络监测行人得到人体检测框；

基于所述人体检测框，利用人体解析算法获取人物特征。

14.根据权利要求9所述的系统，其特征在于，所述视频信息处理装置还用于：

利用MobileNet-SSD神经网络监测行人得到人体检测框；

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。