CN104253944A

CN104253944A - 基于目光连接的声音命令下达装置和方法

Info

Publication number: CN104253944A
Application number: CN201410461030.2A
Authority: CN
Inventors: 陈飞
Original assignee: 陈飞
Current assignee: Bao Kejie
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2014-12-31
Anticipated expiration: 2034-09-11
Also published as: CN104253944B

Abstract

本发明公开了基于目光连接的声音命令下达装置及方法。该方法包括：11，捕捉摄制以获第一视频数据；12，分析第一视频数据，判断是否有人脸朝向第一摄像机且持续停留超过t1，如有则获方位信息，再执行步骤2，否则继续执行步骤11；2，依据方位信息调整第二摄像机，使第二摄像机摄制人脸以获第二视频数据，控制光线发射器以向人眼发射光线以获得人眼的反光图像；3，分析第二视频数据，以获人脸实时三维坐标，且依据人眼图像和反光图像及位置判断人眼是否正在注视摄像机；4，判断人眼注视是否超过t2，如是则认定目光连接且向对应声音采集器发送命令；5，声音采集器采集声音，识别声音以获语义内容，将语义内容提供给其它设备访问，并判断对话是否结束，如结束则执行步骤1，如未结束，则忽略对话期间第一视频数据中的人脸相关信息。

Description

基于目光连接的声音命令下达装置和方法

技术领域

本发明涉及一种基于目光连接的声音命令下达装置和方法。

背景技术

语音识别中有一个难点，就是声音采集装置无法判断用户什么时候在和其它对象聊天，什么时候是向语音系统下达命令，目前采用的手段多为通过设定按钮来开启录音，这种方式带来很多不便，而且既然要按下按钮，在操作步骤简单的场景，下达语音命令就有些多余，直接制作不同的按钮按下即可。

发明内容

本发明提供了基于目光连接的声音命令下达装置和方法，其克服了背景技术中声音命令下达装置和方法所存在的不足。

本发明解决其技术问题的所采用的技术方案之一是：

基于目光连接的声音命令下达装置，包括至少一声音采集器、一第一摄像机、一第一分析器、至少一装设有第二摄像机和光线发射器的自动云台、一第二分析器和一控制器；

该第一摄像机用于捕捉摄制可视空间内的图像以获第一视频数据，该第一分析器信号连接第一摄像机以用于分析第一视频数据，判断是否有人脸朝向第一摄像机且持续停留超过设定时间t1，如有则标定该用户的人脸所处方位且至少将方位信息传输给控制器；

该控制器信号连接自动云台和光线发射器，该控制器依据方位信息调整自动云台使第二摄像机摄制人脸以获第二视频数据，控制光线发射器以向人眼发射光线，以获得人眼的反光图像；该第二分析器信号连接第二摄像机且分析第二视频数据，以获人脸实时三维坐标，且依据人眼图像和经人眼反射的反光图像及位置判断人眼是否正在注视摄像机；

该控制器信号连接第二分析器以判断人眼注视是否超过设定时间t2，如是则认定目光连接且向对应实时三维坐标的声音采集器发送命令以控制声音采集器采集声音。

一实施例之中：该光线发射器包括多个发射光源，所发射的光线为固定距离的多个发射光源组合发射，以获得人眼的包含多个反光点的反光图像。

一实施例之中：该每一自动云台的第二摄像机和光线发射器的发射光源相对固定在一起，并保持相对固定的距离，确保采集到的反光点图像的稳定和可计算性。

一实施例之中：该第一摄像机为广角摄像机，该第一分析器为广角图像采集分析器；该第二摄像机为长可变焦摄像机，第二分析器为长焦图像采集分析器。

一实施例之中：该第一分析器将该方位信息和人脸图像传输给控制器；该第二摄像机依据控制器传输的人脸图像进行捕捉及自动变焦调整，使摄制图像调至合适大小。

一实施例之中：还包括一显示装置和一数据库，该数据库内保存有包括与人脸信息一一对应在内的用户信息；该第二分析器还获取人脸信息，控制器获取人脸信息且依据人脸信息获取用户其它信息，并在显示装置上显示该用户相关的其它信息。

一实施例之中：该光线发射器发射出的光线为摄像机能捕捉且不刺激人眼的光线。

一实施例之中：还包括语义分析装置，信号连接控制器和声音采集器。

本发明解决其技术问题的所采用的技术方案之二是：

基于目光连接的声音命令下达方法，包括：

步骤11，捕捉摄制可视空间内的图像以获第一视频数据；

步骤12，分析第一视频数据，判断是否有人脸朝向第一摄像机且持续停留超过设定时间t1，如有则标定该人脸所处方位且获方位信息，然后执行步骤2，否则继续执行步骤11；

步骤2，依据方位信息调整第二摄像机，使第二摄像机摄制人脸以获第二视频数据，控制光线发射器以向人眼发射光线，所发射的光线为与第二摄像机固定距离的至少一个发射光源组合发射，以获得人眼反射的反光图像；

步骤3，分析第二视频数据，以获人脸实时三维坐标，且依据人眼图像和经人眼反射的反光图像及位置判断人眼是否正在注视摄像机；

步骤4，判断人眼注视是否超过设定时间t2，如是则认定目光连接；

步骤5，向对应实时三维坐标的声音采集器发送命令，声音采集器采集声音，识别声音以获语义内容，将语义内容提供给其它需要语义内容的设备访问，并判断对话是否结束，如结束则执行步骤1，如未结束，则忽略对话期间第一视频数据中转向摄像机组的人脸相关信息。

一实施例之中：该步骤3中，通过分析第二视频数据，还获取人脸图像；

该步骤5中，控制器依据人脸图像从数据库中获取对应的用户信息，还通过显示器显示对话过程中需要显示的提前设定的与该用户相关的其它信息。

本发明解决其技术问题的所采用的技术方案之三是：

基于目光连接的声音命令下达方法，包括：

步骤11，捕捉摄制可视空间内的图像以获第一视频数据；

步骤2，依据方位信息调整第二摄像机，使第二摄像机摄制人脸以获第二视频数据，控制光线发射器以向人眼发射光线，所发射的光线为固定距离的至少一个发射光源组合发射，以获得人眼的反光图像；

步骤4，判断人眼注视是否超过设定时间t2，如是则认定目光连接且同时执行步骤5；

步骤5，向对应实时三维坐标的声音采集器发送命令，声音采集器采集声音，识别声音以获语义内容，将语义内容提供给其它需要语义内容的设备访问，依据语音内容判断对话是否结束，或者通过特定软件通过人工选择结束对话，如结束则执行步骤6；

步骤6，判断是否还有其它人眼依据上述步骤建立目光连接，如是获取其它人眼中仍然在保持试图建立目光连接人眼序列中的一个的实时三维坐标然后执行步骤5，否则执行步骤1。

一实施例之中：该步骤4种，判断人眼注视是否超过设定时间t2，如是则认定目光连接且同时执行步骤5和步骤7；

该步骤7，包括：

步骤71，判断是否还有其它人眼依据上述步骤建立目光连接，如是执行步骤72，否则执行步骤1；

步骤72，判断其它人眼是否断开目光连接且断开时间超过设定时间t3，如是则直接执行步骤71，否则第二摄像机继续朝向该目光连接的人眼，然后执行步骤71。

本技术方案与背景技术相比，它具有如下优点：

依据目光对接确认声音是否向设备发出命令，如是采集声音执行命令，因此能克服背景技术中所存在的不足。先判断方位，再依据方位调整控制摄像机摄像，依据光线发射器发射信号，通过人眼图像和经人眼的反光点的图像及位置判断是否目光对接，判断准确，误操作率低，方便快速。目光连接为准确的一对一连接，解决了传统技术无法判断用户是跟其它人说话还是在向系统下达命令的问题。通过人脸的实时三维坐标控制该对应的声音采集器采集声音，声音清晰，避免杂音，成本低，能耗低。还通过显示器显示对话过程中需要显示的提前设定的与该用户的其它信息，能让其它用户了解谁建立了连接，也能让建立连接的用户获得一定的视觉反馈。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1绘示了基于目光连接的声音命令下达装置的示意图。

具体实施方式

请查阅图1，基于目光连接的声音命令下达装置，包括至少一声音采集器1、一第一摄像机7、一第一分析器8、至少一装设有第二摄像机2和光线发射器3的自动云台4、一第二分析器5和一控制器6。该第一摄像机7为广角摄像机7，根据需要，也可采用其它摄像机，如普通摄像机，该第一分析器8为广角图像采集分析器8，如采用其它摄像机，则相应的可改用普通图像采集分析器；该第二摄像机2为长可变焦摄像机2，根据需要，也可采用其它摄像机，如普通摄像机，第二分析器3为长焦图像采集分析器3，如采用其它摄像机，则相应的可改用普通图像采集分析器。该光线发射器3发射出的光线为摄像机能捕捉且对人眼不刺激的光线，例如红外光发射器或紫外光发射器。该声音采集器1选用定向声音采集器。

该控制器6信号连接所有声音采集器1、第一分析器8、所有自动云台4、第二分析器5、所有光线发射器3；该第二分析器5信号连接所有第二摄像机2，该第一分析器8信号连接第一摄像机7。

该第一摄像机7用于捕捉摄制可视空间内的图像以获第一视频数据；该第一分析器8分析第一视频数据，判断是否有人脸朝向第一摄像机且持续停留超过设定时间t1，如有则标定该用户的人脸所处方位且至少将方位信息传输给控制器6，其例如采用如下方式判断持续停留时间：第一视频数据是由第一摄像机7摄制固定场所的图像连续组成的，判断图像某位置上是否有人脸转向摄像机组方向(例如通过脸形及五官相对位置判断是否为转向摄像机组的人脸)，依据连续有同一人脸转向摄像机组方向的图像张数判断该持续停留时间，依据人脸图像所处位置判断人脸所处方位。

该控制器6信号连接第一分析器8以至少获取方位信息。该控制器6信号连接自动云台4，依据方位信息调整自动云台4，使自动云台4之上的第二摄像机2朝向该方位以能摄制人脸，使自动云台4之上的光线发射器3朝向人眼，该控制器6信号连接光线发射器3以控制光线发射器3能向人眼发射光线，所发射的光线为固定距离的至少一个发射光源组合发射，以获得人眼不同部位的多个反光点组成的反光图像。根据需要，可选择一个发射光源发射单个光线以在人眼的不同部位产生多个反光点，或者，包括多个发射光源发射多个光线以产生多个发光点，当然，不管是一个发射光源还是多个发射光源，该发射光源都相对第二摄像机固定。最好采用多个发射光源，其中，该每一自动云台的第二摄像机和光线发射器的多个发射光源相对固定在一起，确保采集到的反光点图像的稳定和可计算性。图中发射光源个数为n个，相邻的发射光源间隔布置且相对固定，11-nn表示发射光源编号，其中有n个自动云台，n表示各个平台的编号。本实施例之中，该自动云台4例如包括一底座、一能相对底座活动的平台、一传动连接在平台和底座的传动机构及多个驱动机构，驱动机构驱动传动机构，以能带动平台活动，该活动例如包括上下左右前后移动、竖直面转动、水平面转动之类，或者，该活动只包括水平面转动之类，等等。

该第二摄像机2摄制人脸以获第二视频数据。该第二分析器5信号连接第二摄像机2且分析第二视频数据，以获人脸的实时三维坐标，且依据人眼图像和经人眼的多个反光点的反光图像及位置判断人眼是否正在注视摄像机，其中由于光线发射器和摄像机固定，因此根据人眼图形和反光点在人眼图像的位置及反光点之间的图像及位置，既，能根据人眼图像和该反光点的图像及位置判断人眼是否正在注视摄像机。该控制器信号连接第二分析器以判断人眼注视是否超过设定时间t2，如是则认定目光连接且向对应该实时三维坐标的声音采集器1发送命令，启动可以覆盖该位置的定向声音采集器进行声音采集。该声音采集器1优选为多组，平均分布在整个摄像机组可视空间范围内，分布位置最好可将任何位置上的声音进行清晰采集，并且尽量减少周围杂音。

最好，还包括语义分析装置9，信号连接控制器6和声音采集器1，语义分析装置9采集声音且识别声音获语义内容，将语义内容提供给其它需要语义信息的设备访问。该其它需要语义信息的设备是指能访问语义分析装置9的供用户控制的设备。该语义分析装置，还依据语义内容判断该目标对话是否结束，如是则对话结束且发送相关信息给控制器，则将第一摄像机当前的采集目标信息控制云台转向，进入下一轮循环；如对话未结束，则保持云台控制第二摄像机的持续追踪，且忽略对话期间第一视频数据中转向摄像机组的人脸相关信息。根据需要，否则还判断没有语音的持续时间是否达到设定阀值，如是则对话结束且发送相关信息给控制器，否则继续判断。其中，单句语音命令结束可不视为对话结束。

优选方案中，该第一分析器2将方位信息和人脸图像一起传输给控制器6，该第二摄像机2依据控制器6传输的人脸图像进行捕捉及自动变焦以使摄制的视频中的人脸至合适大小，以可清晰捕捉到被捕捉人脸的眼球上的光线发射器造成的反光点。最好，控制器5除获取反射光线和三维信息外，还获取第二分析器5中第二视频数据中的人脸；本实施例的装置还包括显示装置10，显示装置10信号连接控制器6，显示装置10能显示第二摄像机2摄制的人脸，使人脸和采集的声音数据一一对应。根据需要，控制器6还可信号连接数据库，数据库中保存有一一对应的人脸和用户信息，则控制器6识别人脸并获取用户的其它信息(如人脸外的其它信息，如姓名、工作号、应用所需个性化参数等)，显示装置10可显示提前设定的与该用户相关的其它信息，使用户信息和采集的声音数据一一对应，表示该命令终端已被该目标占用。

基于目光连接的声音命令下达方法，包括：

步骤11，第一摄像机捕捉摄制可视空间内的图像以获得第一视频数据；

步骤12，第一分析器分析第一视频数据，判断是否有人脸朝向第一摄像机且持续停留超过设定时间t1，如有则标定该人脸所处方位且获方位信息，至少将方位信息传送给控制器，然后执行步骤2，否则继续执行步骤11；

步骤2，控制器6依据方位信息调整自动云台使第二摄像机摄制人脸以获第二视频数据，控制发射器发射光线，所发射的光线为固定距离的多个发射光源组合发射，以获得人眼的包含多个反光点的图像；而且，最好，第二摄像机还依据人脸图像进行捕捉及自动变焦调整，使图像至合适大小。

步骤3，第二分析器5获取并分析第二视频数据，以获人脸实时三维坐标、人脸图像，且依据人眼图像和经人眼的多个反光点的图像及位置判断人眼是否正在注视摄像机；

步骤4，控制器5信号连接第二分析器5以判断人眼注视是否超过设定时间t2，如超过t2则认定目光连接且向对应该实时三维坐标的声音采集器1发送命令；

步骤51，启动可以覆盖该位置的定向声音采集器采集声音；第二分析器还将人脸图像传送给控制器，控制器依据人脸图像从数据库中获取对应的用户信息，还通过显示器显示对话过程中需要显示的提前设定的与该用户信息相关的按照预设策略需要显示的其它信息；

步骤52，语义分析装置9信号连接控制器6和声音采集器1，语义分析装置9采集声音且识别声音获知语义内容，将语义内容提供给其它需要语义信息的设备访问。该语义分析装置，依据语义内容判断该目标对话是否结束，如是则对话结束且发送相关信息给控制器，否则判断没有语音的持续时间是否达到设定阀值，如是则对话结束且发送相关信息给控制器，否则继续判断。其中，单句语音命令结束可不视为对话结束。本实施例之中，根据语义分析装置对语音的分析结果，如该目标对话阶段未结束，则忽略对话期间第一视频数据中转向摄像机组的人脸相关信息，则保持云台控制第二摄像机的持续追踪，如该目标对话阶段结束，则将第一摄像机当前的采集目标信息控制云台转向，进入下一轮循环，执行步骤11。

另一较佳实施例之中，基于目光连接的声音命令下达方法，包括：

步骤11，捕捉摄制可视空间内的图像以获第一视频数据；

步骤4，判断人眼注视是否超过设定时间t2，如是则认定目光连接且同时执行步骤5和步骤7；

步骤6，判断是否还有其它人眼依据上述步骤建立目光连接，如是获取其它人眼中下一仍然在保持试图建立目光连接人眼序列中的一个的实时三维坐标然后执行步骤5，否则执行步骤1。

该步骤7，包括：

以上所述，仅为本发明较佳实施例而已，故不能依此限定本发明实施的范围，即依本发明专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明涵盖的范围内。

Claims

1.基于目光连接的声音命令下达装置，其特征在于：包括至少一声音采集器、一第一摄像机、一第一分析器、至少一装设有第二摄像机和光线发射器的自动云台、一第二分析器和一控制器；

2.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：该光线发射器包括多个发射光源，所发射的光线为固定距离的多个发射光源组合发射，以获得人眼的包含多个反光点的反光图像。

3.根据权利要求2所述的基于目光连接的声音命令下达装置，其特征在于：该每一自动云台的第二摄像机和光线发射器的发射光源相对固定在一起，并保持相对固定的距离，确保采集到的反光点图像的稳定和可计算性。

4.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：该第一摄像机为广角摄像机，该第一分析器为广角图像采集分析器；该第二摄像机为长可变焦摄像机，第二分析器为长焦图像采集分析器。

5.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：该第一分析器将该方位信息和人脸图像传输给控制器；该第二摄像机依据控制器传输的人脸图像进行捕捉及自动变焦调整，使摄制图像调至合适大小。

6.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：还包括一显示装置和一数据库，该数据库内保存有包括一一对应人脸信息在内的用户信息；该第二分析器还获取人脸信息，控制器获取人脸信息且依据人脸信息获取用户其它信息，并在显示装置上显示该用户相关的其它信息。

7.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：该光线发射器发射出的光线为摄像机能捕捉且不刺激人眼的光线。

8.根据权利要求1所述的基于目光连接的声音命令下达装置，其特征在于：还包括语义分析装置，信号连接控制器和声音采集器。

9.基于目光连接的声音命令下达方法，其特征在于：包括：

步骤11，捕捉摄制可视空间内的图像以获第一视频数据；

10.根据权利要求9所述的基于目光连接的声音命令下达方法，其特征在于：

该步骤3中，通过分析第二视频数据，还获取人脸图像；

11.基于目光连接的声音命令下达方法，其特征在于：包括：

步骤11，捕捉摄制可视空间内的图像以获第一视频数据；

步骤5，向对应实时三维坐标的声音采集器发送命令，声音采集器采集声音，识别声音以获语义内容，将语义内容提供给其它需要语义内容的设备访问，依据语音内容判断对话是否结束，如结束则执行步骤6；

12.根据权利要求11所述的基于目光连接的声音命令下达方法，其特征在于：

该步骤4种，判断人眼注视是否超过设定时间t2，如是则认定目光连接且同时执行步骤5和步骤7；

该步骤7，包括：