CN110166726A

CN110166726A - 一种自识别用户的视频会议终端及系统

Info

Publication number: CN110166726A
Application number: CN201811318972.XA
Authority: CN
Inventors: 蒋毅军; 单正建; 其他发明人请求不公开姓名
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-11-18
Filing date: 2018-11-07
Publication date: 2019-08-23
Anticipated expiration: 2038-11-07
Also published as: CN110166726B

Abstract

一种自动识别用户的视频终端及系统，可以将被识别到的用户的个性化信息自动配置到该用户所选用的终端，识别用户的技术采用了语音识别、图像识别、Beacon、WIFI定位、门禁数据关联、二维码扫描或NFC，当视频终端的使用者用上述任意手段或技术被视频终端或系统识别后，在该使用者的确认下，系统唤醒该终端并将该使用者的个性信息自动配置到该终端中，如果在会议系统中有该用户之前预约的会议，则该终端自动加入到会议中，当会议结束或用户要关了该设备时，用户的个性数据被清除且还原该终端之前的数据。

Description

一种自识别用户的视频会议终端及系统

技术领域

本公开的系统是将视频会议终端、视频会议用户信息、终端配置管理系统及会议管理系统相结合，当视频终端的使用者靠近空闲的视频会议终端或走进空闲的视频会议室后，视频终端系统会被触发，视频终端用语音或图像识别技术确认使用者是否使用视频终端，当确认使用者用语言或行为动作表明要使用该终端，则唤醒该视频终端，并在后台将该使用者的语音特征及脸部特征与用户在注册会议用户时所留脸部特征与语音特征比对后，确认识别出该使用者，然后将该使用者的个性化配置与信息经会议终端的配置管理模块配置到该视频终端，当配置完成后，自动检查会议管理系统内的与该使用者相关的预定，如有预定，可由使用者确认进入会议或直接自动接入已预定的会议。该系统实现的目的是让参与会议者在开会前、会议时出现在实施本方法后任意空闲的会议终端前，就可以进行预先设定的会议而不需要再做任何配置与设定或原来预定的会议室（终端）被他人占用后，会议参与者不必修改原来会议信息而只需在一个空闲的会议终端前被识别后就可以进行会议，从而让会议参与者免于在会议管理系统上再做临时设置会议，取消原先预定的会议配置的工作，让视频会议系统的灵活性大大增强。对于通信带宽或者使用终端需要资费管理的系统，被识别用户的个性化配置中就含其可用的带宽与资费的设定，当个性化配置被配置到该终端后，该用户的通信参数已经被自动设定。

背景技术

人们在使用系统比较完善的视频会议时，通常需要预定会议室、会议终端，以及MCU上的会议资源，然后通过电子邮件或者其它信息形式邀请与会者。对于会议终端而言，绝大多数使用者都没有自己的视频会议终端或者说视频会议终端对大多数人来说是个公共资源，所以该资源上没有任何自己经常沟通的同事信息（如联系名单），而需要开会时，比如点对点会议时，至少得知道对方的IP地址，该终端注册的别名或SIP信息等，才可以发起呼叫，而实际上与使用者视频通信的人在企业内是有唯一用户名有真实姓名的人，对方可以用A终端，也可以用B终端，建立通信时呼叫该同事名称就好，而不是先研究A终端或者B终端到底是什么IP地址，什么别名或者什么E.164编码，我们需要通信的对象是人而不是视频会议终端，而今天用于视频会议通信时，则是双方先约定好了会议室，去呼叫该会议室内的视频终端，而不是呼叫与之通信的人，人是可以移动到不同会议室的，所以当本来预定好用A终端的会议，结果各种原因导致参与会议的人去了B终端的会议室，则会议使用者就必须改变原预定，而如果跟人与会议室关联后而不是跟终端关联后，人出现在哪个会议室就用那个终端开会，这样与会者也不必再修改相应信息而是系统自动调整。因为锁定了用户，所以用户的信息就被配置到该终端，这样无论方便使用者使用还是方便后台资费带宽等的管理，都会比今天提升很多。

这种问题或困惑的产生是因为视频会议系统技术架构的定义是延续了电话通信的逻辑，而忽略了视频终端通常是公共资源而不是私有资源，所以用了电话的E.164为主线的寻址逻辑，而不是以现实使用者个人信息为寻址逻辑，所以在现实的使用中，特别是在大规模企业中，视频会议的使用并不是很方便，而本公开则是改变这种技术缺陷，使视频终端与将要或正在使用该终端的用户绑定，这样建立会议时，只与参与会议的人有关，而与会议终端的信息无关。

比如原来呼叫BJ_VC_1025（BJ代表城市，VC代表视频会议，1025代表会议室号）这个终端，而参与会议的人叫JOB，但此时1025会议室被公司领导占用，而旁边有个会议室内1024终端可用，传统的做法是在重建一个会议，把原来含1025会议室的那个会议取消。而如果使用了本方法，则JOB进入1024会议室，会议管理系统就不会取消原会议，而是将1024会议室的终端唤醒起来，并加入预先设定的会议，而不是呼叫1025会议室的终端。这样会议系统由单一的只认会议终端，变成了识别人，原来对BJ_VC_1024的名称，结果变成了识别到的JOB。

再用另外一个例子说明就是这家公司还有桌面系统，JOB本来用桌面系统开会就可，但今天碰巧他旁边的会议室有空，他进入该会议室并被识别，则会议终端的名称就被后台的配置管理系统变成了JOB在桌面终端上的配置，而别人此时呼叫JOB就不是呼叫他的桌面终端，而是JOB所在会议室的会议终端。而此时JOB呼叫他人时，他在桌面终端的联系人信息等就在会议终端上出现了，他可以方便的找到联系人并进行会议。

发明内容

为了改善上述视频会议终端或系统今天不能灵活寻址、不能自动个性配置的缺陷，本公开在视频会议终端、视频会议用户注册、信息管理、视频会议系统配置管理及会议管理等模块及功能中做了相应的创新，使未来的视频会议系统的会议管理、会议建立、寻址模式上都做了相应的调整，如终端采用语音特征识别、人脸识别技术以及与会议室关联的智能手机无线定位技术等（如WIFI、蓝牙，NFC），使会议参与者通过声音特征识别或者红外触发唤醒摄像机后捕捉到的人脸以及在会议室内监测到的会议参与者的智能手机的无线信息来识别会议使用者。当识别确认出使用者后，唤醒视频终端，并在使用者确认后，将使用者的个性信息配置到该终端，使用者的个人信息由终端配置、管理系统实现，而使用者的个性信息则来自于用户信息注册模块，当终端配置完成后，与会议管理系统关联，查询是否与该使用者有预定的会议，并可自动建立会议或在用户的确认后建立会议；当会议结束后，会议终端使用者的个性信息会被自动清除，当清除后，终端进入休眠状态，等待下个使用者使用。

以下示例型说明中所采用的描述、技术实现均是为说明本方法而采用的具体实施例，并不代表与本法所有一致的实施例，而且恰恰相反，只要与本系统以下四个步骤一致的实施例均是本方法的一个具体的实施例，本方法的四个步骤是1、采用技术手段实现对将使用视频终端的用户进行识别，2、当识别后将该用户的个性化的信息配置到该视频终端，3、并在该用户的确认下自动将该终端接入到预先设定的会议中去（假如之前有预先设定的会议）或视频终端等待该被识别用户按照其个性化的配置的进一步使用终端，4、当该用户使用完该终端后，系统自动恢复之前的配置而把该用户个性化的信息清除，直至下个用户使用该终端重复上述1-4步骤。

附图说明

下面结合附图，对本方法进一步说明。

图1是本公开系统的概要图。

图2是本公开在视频终端中的实现架构图。

在进行本方法的说明前，需要定义一个场景来说明本方法，如某国际跨国公司在X城市有办公室，其中有若干会议室，因为公司业务涉及图文方面大量的交互，所以需要用视频会议系统来频繁进行跨国界会议，会议室的类型有1、公共型的，也就是只要没有人使用或预定会议室时，任何员工都可以使用；也有2、必须门禁才可以进入的，这是由会议室使用权限的员工才可以进入，还有3、非会议室型的，例如在员工咖啡间，员工喝咖啡、下午茶时有好的思路思想时马上可以用视频会议系统与其它会议室或空间的人沟通通信。

对于1、公共型的会议室内的视频会议系统，当员工进入没有人使用的会议室后，一种情况是进入需要使用视频终端开会，在这种情况下，视频会议系统当感知到有人进入会议室，会采用唤醒摄像机，捕捉进入会议室内人的脸部，并将脸部图像提取特征，送后台对比确认进入会议室的人的身份。当确认身份是公司员工后，会议终端通过扬声器询问员工是否要用会议终端，如果此时该员工用特定姿势如点头，或者语音告知是要用会议终端“我要开会”，则唤醒会议终端，并将该员工的个性配置及其联络名单等个人通信有关的信息配置到该终端上，该员工就可以方便的进行会议。如果该员工用特定姿势如摇头，或者语音告知不使用该终端，则该终端摄像机进入休眠。当然感知他人进入会议室时也可以不用唤醒摄像机，而是采用语音识别技术，当有人进入会议室后，会议终端就会用扬声器询问例如“您要开会吗”，进入会议室的人回答“我是JOB，我要开会”，则会议终端将该员工声音提取，一方面做语义识别，确认是否要开会，另一方面是通过提取该员工的声音特征，与后台系统该员工之前留下的语音特征对比，确认是否是JOB，当确认身份无误时，唤醒会议终端，将该员工的个性配置、联络名单及与个人通信有关的信息配置到该终端，该员工就可以进行会议而无需更多的配置等。当然该员工可能就是进入会议室而不是去开会，所以员工告知系统“不开会”时，系统在该员工的持续触发状态下时，比如员工一直在会议室内，一直有不断的声音声响时，终端不会再发出提示，直至该员工离开该会议室后，下个员工进入会议室后会议终端再被触发后再行提示以确认是否要进行会议于员工的识别。

对于2、有门禁的视频会议室，员工进入会议室需要先刷门禁才可以进入，而通常门禁系统也是企业内唯一识别用户的系统，所以当员工进入后，会议终端不必进入上述用图像或者语音识别的方式来确认用户，当会议终端被唤醒后，则自动进行个性化配置或识别到员工进入会议室后，由系统唤醒终端，在该员工确认要使用会议终端时，系统予以自动配置。

对于3、非会议室型的在咖啡间这类布局的会议系统，通常采用触摸屏幕控制，如果用传感器触发，则周围过往人员会经常触发，所以可以使用被动图像识别（用户触发“刷脸”功能登录）或者传统用户登录的方式如用户名及口令方式，当然也可以在该终端的显眼位置贴上2维码，当用户用手机扫描后，即进入相应程序读取手机的信息，如唯一码，电话号码，SIM卡号等（当会议终端支持NFC后，系统注册过的手机用NFC就可以实现用户识别与登录），与用户信息系统中数据核实后，则将该用户的个性信息调用至该终端并完成配置，对于3这类场景，如果对于大规模提供视讯服务的服务商非常有用，视频终端通常布置到各种酒店、机场等公共场所，商业人士需要会议时，用手机扫2维码或NFC后，后台系统从用户管理系统里识别到了对应的用户，并将该用户将使用的终端自动个性化配置，比如该用户的服务协议是通过VPN连接到其公司内部的会议系统，终端配置时就将VPN建立并将其企业内部的GK或SIP信息配置到该终端，该用户开会时跟公司无差异，而他结束会议，离开该终端后，其个性信息被清除，别人也不可能使用其公司的GK与会议资源，目前这种基础能力，整个会议系统不具备，但人们的工作、生活场景中已经有较多的需求，所以利用本方法，使以上三种场景的终端都可以识别用户并自动个性化配置。

所以根据目前会议终端通常使用的3个场所、场景分析，本公开适合于上述含且不限于以上举例的3个场所的场景。

下面用图1来说明本公开，图1是本公开的系统概要图。

图1中S101是声、光传感单元，当一个员工进入一个系统休眠的会议室后，通常有声音及人体的进入，所以S101采用声学、光学、电磁学的触发技术，当该终端设定范围内的声音高于某个设定分贝比如50分贝，或者通过红外监测，感知到设定距离内有人触发时，启动下个步骤。当然S101中有一种类型的传感器比如声学或者光学就可以，当然也可以声学与光学的传感器同时存在，比如会议室外有很大噪音，而室内并没有人进入，如果采用双传感器后，声音被触发但室内并没有人触发说明是外部噪音，所以就不会执行后续步骤，但如果而靠声音触发，则会造成会议终端相关功能误启动，比如唤醒了摄像机，当然电磁场学传感器设备也可以做触发，这样声学、光学、电磁场学互相结合更准确识别。

当S101被触发后，会议终端判断到有人进入了会议室，则执行S106步骤，发出声音提示如“欢迎您进入101会议室，您要使用会议终端吗”；当会议终端的使用者听到提示后，可以回应如“我要开视频会议”，则S107步骤在S106执行后等待该会议者的声音回应并提取该回应的声音，如果会议终端的使用者回应如类似“我要开视频会议”，则先是S108语义识别，当识别到的信息是需要开会的意思时，则唤醒摄像机，即执行S102步骤，并将S107语音提取中提取的语音特征发送给后台S203进行比对。这段内容是视频终端只采用了语音、语义识别功能时的工作流程。

当视频终端采用图像识别的流程则如下，当S101触发后，执行S102步骤唤醒摄像机，唤醒摄像机后，终端发出语音提示如“欢迎您进入101会议室，您要使用会议终端吗”即执行了S106的功能，执行S106时，摄像机会捕捉视频会议室内人员的脸部并锁定即执行S103功能。执行S103时，通常会控制摄像机云台去跟踪进入会议室的人员的脸部，当执行S103功能后，会议终端需要执行S105行为识别及手势识别，即判断被锁定人员如是摇头，还是点头（如果仅用图像识别功能时而不用语言识别技术时）或手向左、右、上、下摆动或画圈、或其它好识别的手势，当识别确定是“摇头”或预先设定为“否定”的姿势或手势，即不使用视频会议终端，则执行S102步骤，休眠摄像机，而如果识别是之前设定的“确定”的姿势或手势，即使用视频会议时，则执行S104步骤，将捕捉到的人脸部的照片提取特征，并将该特征通过网络发送给后台功能S201人脸特征对比，从员工脸部照片的特征库里对比识别具体用户。在这个过程中，可以识别的行为及手势可以定义为若干模式比如上、下、左、右摆手，点头、摇头等，对于本公开而言，方便被视频终端容易识别的手势、行为都可以作为对应确认使用视频终端或不使用视频终端的触发输入而已，同时也是作为会议终端使用者在终端唤醒后控制终端功能的手势输入，比如左摆手是菜单或者功能项目向左切换，右摆手是向右切换，而上、下摆手则是菜单向上切换或向下切换，画个圈或者点头就是执行所选定的功能，而画个X则是退出该功能等，这样今天所控制视频会议所必需的遥控器就不那样必要了，参会者更方便。

当然在语音、语义识别及图像识别功能都具备的终端，则S101传感器被触发后，S106就发出声音提示，当经过S107声音提取及语义识别后是要使用视频终端，则唤醒S102，使摄像机开始人脸锁定即S103，并直接特征提取，这样语音特征（声纹识别）与人脸特征都在后台可以进行比对，因为采用了双因子（声纹识别与图像识别）比对，所以让识别效率更高，准确度更高。

其中本公开中使用的图像识别技术及语音识别技术，均有相关公司的开源代码或者相关API，开发人员可以根据相关代码，实现特征（语音、图像）提取，语义识别（除开源外还可直接调用Google或者微软的API）。手势识别、行为识别、人脸识别等。在语音特征识别中，通常称为“声纹识别”，就是将说话者声音中的生物特征提取，由于每个人的声音特征都不同，所以用“声纹识别”可以锁定该声音的发出者，只要后台“用户信息管理系统”有该说话者的声纹特征，就可以被识别比对出。当会议终端采用语义识别能力后，可以用识别语义来控制视频终端，比如“挂断”、“连接”、“文件共享”等语音指令或根据对应终端显示的菜单去念菜单，这样视频会议终端的遥控也不必一定要使用了。

对于会议室里一下进了几个人的情况，在执行S103时，多个人的脸部都会被锁定，在图像识别时，他们其中用系统定义的“确认”动作的人为该视频终端的身份识别的对象或预先设定会议的人，而语音识别中，通常只识别回答“我要开视频会议”者的身份，否则多人时，会产生混乱比如开会者B本属与另一个会，但临时被领导叫进该会议室，如果B来说我要开会，按照系统内资源，其属于另一个会，则可能会将这个终端串到另一个正在进行中的会议中。所以无论图像也罢，语音识别也罢，最好是原会议预定者或参与者进行识别。

S101至S108的各步骤均在视频会议终端内来实现，也就是图1中A1部分。

当视频终端中提取的语音特征或人脸特征经过与终端互联的网络，发送到后台中后，即进行S203语音特征对比与S201人脸特征对比， S203是将所提取语音中含的特征的信息与之前在用户注册信息中留下的声音特征做比对，从而找到对应的人即实现S202识别用户，而S201则是将由终端提取的特征与之前用户注册信息中留下的人脸照片的特征做比对，从而找到对应的人即实现S202识别用户。对于小规模企业而言，由于员工少，所以识别时相对快，准确度高，而对于大规模企业而言，人多所以识别就比较慢，而且如果调低matching rate后，很可能误识别，而如果系统具备语音与图像双重识别时，则效率与准确率就会好很多，比如从语音的特征可以先分辨男女或从图像的特征先分辨男女，这样检索对比的空间就少了一半。而从语音特征中找到类似频率特征的人，会让脸部识别比对的空间变得更为有限。

S201到S203步骤所使用的信息来自于A2 用户信息注册、管理、个性信息模块，该模块可以是该企业员工信息管理系统的一部分，也可以是视频会议用户管理系统的一部分，对于IT成熟的企业，视频会议用户管理系统通常是通过标准协议归集到企业员工信息管理系统下，而对于IT需要完善的企业，则视频会议系统用户管理与员工信息管理系统通常并无直接关系。

当S203识别用户后，就开始执行S301唤醒终端，对于视频会议系统，通常有摄像机、显现屏、显示投影、会议终端等几个部分，而当识别到用户后，才唤醒终端是因为有人进了会议室，触发了会议终端，但不开会，会议终端没有必要一会儿开，一会儿又休眠，而只有确认是开会后才唤醒。当终端被唤醒后，远端的会议终端配置管理模块就要执行S302远端检查，查看被唤醒终端的相关信息及能否被正常使用，当检测无误后，执行S303将所识别的用户的个性信息配置到该唤醒终端，其中除了该用户的常联系人方式外，还可以将一些设定好的信息给该用户，比如正好今天生日，系统生成了一个公司发给该用户的贺卡及感谢卡，该视频终端被唤醒后在远端配置时，屏幕上出现了对应的感谢信，这样该员工也会很高兴而且也不在意个性配置可能需要的时间，其他同会议室者也会恭喜该员工。

当S303完成配置后，该终端的名称就变成了该员工在会议系统的名称如“JOB”，其常用联络名单，预定的会议、权限、会议及通信资源、资费（付费场景）等信息均被配置到该终端，所以该用户在使用终端时需要确认开始甚至不需要确认开始就可以直接进行会议。这对临时换了会议室或者会议信息与人绑定而非终端绑定的既往会议系统有了很大的差异。终端配置、管理模块通常是由视频会议终端的厂商提供，而用户的个性信息却来自A2，用户信息注册、管理、个性信息模块。

当S303的个性配置被完成后，系统会执行S401步骤，查看在会议管理系统中是否有被识别员工的预定的会议，并让该会议与该终端关联；比如原来会议管理系统中可能是该员工用自己桌面终端参加会议，而此时正好有空余会议终端，所以该终端就用了他桌面终端的信息，而会议接通时，则不是去呼叫他的桌面终端而是这个刚完成配置该员工个性数据的终端。这样会议系统中也不会再以视终端为唯一设定条件，而是以参与者为连接条件。这样会议系统的灵活性大大的得到了增强。当临时换会议室等场景发生时（换终端），与会者也不必要再重新设定会议。而在大规模对公众提供视频会议服务的服务商，如果含有识别用户并自动配置功能后，会议系统的易用性及灵活性就大大的增强，比如上面所举例子是对公众服务终端通过VPN进入到用户企业中的视频会议系统中，而传统方式，用户无法做到迅速、灵活实现（试想一个企业管理者如何会在视频终端上配置类似VPN，GK或SIP服务器等IT人员才懂的配置），而终端服务提供商也不容易有效计算资费。

当S401完成后，则执行S402步骤，该步骤会自动与预先设定的会议直接建立连接，或给用户一个确认界面，只要用户确认就可以接入到预先设定的视频会议中去，当然在会议开始前，确认方式可以是语音（语义识别）也可以是手势、行为等，但会议开始后，语音控制是有障碍的，所以最好用图像识别与分析的方法如用手势、行为来控制终端。

S401与S402步骤要与A3会议管理模块中实现，比如会议的预定可能是公司一个会议预定网页或者与会议预定管理系统互联的Outlook，预定后信息就提交给了A3会议管理模块的会议预定中，传统的设置预定信息是预定会议室的终端，而不是与人有关，在本公开实施之后，可以使用会议室终端及人，比如预先设定的会议室如“BJ_VC_1025”被领导占用后，与会者进入会议室“BJ_VC_1024”后，系统识别该用户，发现现在需要改用BJ_VC_1024这个会议室的终端了，所以呼叫了该用户名，而半个小时后，本来预定使用BJ_VC_1024终端的用户一看BJ_VC_1025的终端没有人占用，领导开会已经结束，该用户进入会议室后被识别，则会议继续开，而与原来的终端设定的信息无关了，所以会议系统内也无需再取消、重建等系列工作，而是确认预定的与会者从何处被何终端识别，然后呼叫该终端而已，而该终端此时在系统中的名称已经变成了该用户在系统中的名称，而配置改成了该用户个性化的配置。

从S101到S402,我们可以简单的理解为，一位员工走进了一个会议室，在不觉中就触发了传感器，并被该会议室的视频终端及后台进行了识别，然后将该视频终端的信息被自动修改为该员工本人个性化的信息，并根据会议管理系统中已有的会议预定信息自动完成了会议接续。该员工进入视频会议室最多只是说了句类似“我要开会”或者冲着会议终端点了点头，然后会议就自动开始了，本公开实现的就是上述功能，而将视频会议系统管理中与终端关联而非与会的人关联这一长期不符合会议场景的问题予以解决。在大规模向公众提供服务的视频会议服务商，则限于终端造价及识别效率问题，建议采用2维码做识别依据（或终端部署NFC功能设备），这样对应手机用户的信息如果在服务商的用户管理系统中已经注册，则扫描会议终端上的二维码后（或NFC通信后），后台就识别到了该用户并将用哪台终端，通过网络将该用户个性信息自动配置到该终端。本公开采用的方法同样适合于企业自用或视频服务商。

当该会议结束后，用户离开该会议室，终端的传感器检测到会议室已经没有人之后（无触发，且会议结束后）或终端被按了关机键，则执行S305,自动清除个性信息，即将该会议终端内个性信息全部清除，回到之前的原始状态，比如终端名变成了之前的“BJ_VC_1025”，而不是刚才被识别的会议终端用户如“JOB”，现在别人呼叫JOB，则是去寻址JOB的桌面终端（如果在线），而不是刚刚JOB使用过的这台会议终端。

在完成S305清除个性信息后，又回到了原先非个性化时的状态，在给定的时间内如1分钟内无触发，则视频终端自动休眠，即执行S304功能。

当没有用户识别能力的终端或会议系统想实现上述功能，则需要用到其它辅助手段，如B1、B2，B3， B1为无线定位识别，B2为会议室门禁系统，B3为二维码识别。

B1常规的实现方式有基于用户手机蓝牙的Beacon技术与室内WIFI定位技术，这要求会议室内要部署Beacon技术的设备，而且用户的蓝牙一直在开启状态，当用户进入了Beacon覆盖的区域后，根据该用户在系统中的信息识别该用户见S202步骤，识别后，后面的步骤一致，只是A4，A2与A3都要升级至能支持自动识别、自动配置，会议自动关联的本公开使能的会议系统下（传统系统无识别功能也不能根据识别自动配置）。当然对于多个人进入某会议室，而且都开着蓝牙这种情况，该方法就需要一个选择排除的过程，比如进入5个人，都是公司员工，如果会议系统预先的预定中含其中两位，那会议终端的配置需要选两个中的一个，比如根据公司中级别选定位置更高的员工的信息。从这个解决逻辑而言，用Beacon技术不是很确定选到最合适的人。

关于Beacon技术的覆盖，可以调整其覆盖范围，而不被会议室外部路过的人误触发。

用WIFI定位技术误差比较大，对于面积的会议室比较适合，会议室太小，不能非常精确的定位。其遇到的问题与Beacon技术一样，在多人时，并不能确认到底谁是最合适的人。而且路过的人手机开WIFI的人容易误触发误识别，因为WIFI的覆盖范围与WIFI的漫游并不是如Beacon那样范围小。

B2是对含有门禁的会议室的识别方法，进入门禁的时候通常需要刷卡（接触、非接触），指纹、手纹、脸部识别等，系统默认第一个触发门禁，使用该会议室的人为被识别使用的用户。

在B1、B2作为识别时，虽然有些系统漏洞，并不是很完善，但至少比之前与会议终端唯一绑定，会议系统的灵活性提高不少。

B3是二维码识别，在企业中或者在对外运营的大规模视频会议服务商可以使用该方式识别，设定扫码者的信息就是被识别到将使用该终端的用户信息，当用户走到一对外运营的视频会议室，比如酒店的商务中心的视频会议室，该用户用手机扫二维码，当扫描后自然会被引导到运营商的网页或应用的输入确认窗口，比如显示“您确认要使用该会议终端”等信息，该用户在手机上确认后，该用户手机的个人信息如唯一号、电话号，SIM号的唯一信息就与运营商用户信息中搜索，如果是该运营商既有的用户，系统就会将该用户的个性信息自动配置到该终端，该用户就可以与运营商的系统内终端或者用户自己企业内的会议系统开会，而不会受限于只能与该运营商内的终端开会。而开会的带宽、会议使用的资源等级等，均根据该用户之前的设定而调用到本终端，这样用户使用时，无需再做个性调整如配置VPN，设置GK，以及寻找联系名单等。扫二维码时，每个终端的二维码都是唯一的，所以扫描的过程其实是用户的唯一性与终端的唯一性都被后台一次确认，所以被识别的用户的个性配置就会被自动配置到贴该二维码的设备。至于二维码识别与用户数据的提取均是业界成熟技术，本处不在叙述。同样道理的就是NFC，只需要注册过的手机直接开启NFC，接触终端就可。

A1、A2、A3、A4均属于视频会议系统的不同模块，之前的视频会议系统管理系统并不能从用户识别一直做到自动根据识别接续，所以在图1中，A1到A4这四个部分，还需要整体联动起来，比如A1是提交特征提取的终端，它与A2识别的用户关联，然后由A3自动实现被识别的用户个性信息配置到A1提取特征的终端，然后在A4会议管理模块管理下的建立会议通信等，这也需要传统意义上的视频会议各系统做整合而非今天相对独立的系统且不能联动。

由于在视频终端A1中增加了触发、识别功能，所以下面内容将A1部分的实现举一个实例进行详细描述。如图2所示，图2是A1视频终端中主要功能模块，A101是本公开中采用的触发传感器，含声学、光学传感器，声学以在视频终端附近的声音超过设定阈值且持续一定时间比如3秒为触发条件；光学以接近终端约如3米内有人出现（红外探测）；而A110为外置传感器接口，根据场景可以增加和扩展一些其它声学、电学、光学以及磁场学的传感器，根据场景特征，选择合适的传感器以侦测会议终端使用者。A101及A110均连接至A102触发控制单元，该单元一方面处理传感器来的触发，另一方面会唤醒摄像机及扬声器，其唤醒摄像机后，A102收到A103摄像机的图像，A102根据在其上运行的人脸捕捉程序，控制摄像机去捕捉人脸及人的行为、手势等，人脸形成特征，人的行为及手势直接分析形成结果，如确认开会，还是不开会。A102从A101中提取现场的声音，当触发时，利用A105扬声器，发出比如“欢迎您进入101会议室，您要使用会议终端吗”，当该声音发出后（TTS或语音音频播放）则用A101的声音传感器拾取声音，比如收到“是的、我要开会”，则A102首先要做语音识别，然后再做语义理解，当理解为要开会时将捕捉到的人脸部特征，语音的特征通过A104网络单元，发送至后台系统。

当A102识别到语义是要开会或者捕捉到人的行为是点头或者手势是预先设定的要开会的含义，则A102通知A106终端唤醒控制，从而让整个终端唤醒，而非只有传感、识别等功能在工作状态。当然也可由A102通过A104将识别数据发送后台，待后台对比确认后，再由后台管理模块通过网络唤醒A106。前者只关心是有人要用终端就开启终端，而后者是只有确认的合法使用者才可以唤醒终端（比如打扫卫生的阿姨好奇，说要开会，但视频终端识别后发现她不是会议员工，则不会唤醒终端）。对于本方法而言，两种逻辑都支持，只是在系统管理中是否增加选项而已。图1是按照后一种逻辑实现的。但实际上在图1中S105行为识别及S108语义识别是得到确认的结果后，可以直接执行S301唤醒终端；而同时还进行比对去识别具体用户。

当A102控制A106 或者网络请求通知A106终端唤醒控制，则A106告知A107终端控制单元启动，则整个终端进入工作状态，含编码、解码器、显示器等系列功能模块等。

从图2我们得知，视频终端需要增加触发、识别功能以及分步唤醒功能，这对于今天的电子设备而言都是容易实现的功能，只是需要对今天的视频终端进行部分优化调整，增加相应能力的过程。

在视频会议终端启动后及会议中时，A102还要对A103来的图像进行识别，比如识别用户的手势如左、右、上、下摆手、用手画圈等预设的图形、摇头、点头等，这样A102发现对应的手势、行为及在对应的交互界面时，其实是该用户用手势及行为来控制终端，而终端的功能菜单就需要根据手势来切换或者执行，从而让一些简单的操作如音量、镜头的聚集位置等，都可以在手势和用户行为的指引下完成，在会议中时，用语音控制并不合理，而用手势，行为则非常方便，而在图2中，当识别后将识别触发编码有A102给A106，A106根据所处的状态及功能页面根据手势来菜单切换或功能执行。

从图1系统性的描述本公开与图2将终端功能分解后，技术人员可以按照本方法实现识别用户的视频会议终端及系统。

而对于配置终端被识别用户的个性信息，这是现在终端远端管理的基本功能，但需要将用户的个性化数据作相应模板供用户及系统管理运营方完善。

本公开是使公共的会议终端资源与使用者自动关联，并被自动个性化配置使用的一种方法，该方法让原来与会议终端锁定的会议管理系统变得更灵活，而且与会者在任意会议室里（非原来设定的会议室）说“终端，我要开会”或者冲着终端摆摆手，则该终端系统就自动根据识别出的使用者在会议系统中预定的会议信息然后自动加入会议。当该使用者结束会议，离开该会场后，该终端又清除了该使用者的信息，并还原终端原来配置。

本方法无论是对大规模部署视频会议终端的企业还是大规模运营视频会议的服务商，都会让系统的管理、使用及运营更加人性化与灵活，并让会议系统的使用者会前准备的工作量大幅度的减少。

Claims

1.一种自动识别用户的视频终端及系统，该系统的特征是将被识别到的用户的个性化信息自动配置到该用户所选用的终端，识别用户的技术采用了语音识别或图像识别或Beacon或WIFI定位或门禁数据关联或二维码扫描或NFC，当视频终端的使用者用被视频终端或系统识别后，在该使用者的语音、动作、手势确认下，系统唤醒该终端并将该使用者的个性信息自动配置到该终端中，当终端使用结束之后，自动清除该使用者信息并还原原先配置。

2.如权利要求1所述的系统，该系统的特征是在视频终端中利用语音识别或图像识别技术单独或结合来实现用户身份的识别。

3.如权利要求1所述的系统，该系统的特征是当语音或图像识别结果为确认使用该视频终端后，唤醒整个视频终端。

4.如权利要求1所述的系统，该系统的特征是采用图像识别技术，被识别的用户可以用预先定义的手势或身体行为来控制会议终端。

5.如权利要求1所述的系统，该系统的特征是采用语音识别技术，其中声纹识别用于身份识别，语义识别用于控制终端。

6.如权利要求1所述的系统，该系统的特征是会将识别到的用户的个性化的信息自动配置到该用户选用的终端，这些信息含且不限于联系人名单，最近的联系人、会议预订信息、个人注册信息、企业VPN、GK、资费、带宽。

7.如权利要求1所述的系统，该系统的特征是在会议结束后，系统会将该视频终端中配置的该用户的个性化信息清除并还原至原先的配置。

8.如权利要求1所述的系统，该系统的特征是视频终端除自身含有声、光触发的传感器外还具备外接传感器接口，以接入外置的传感控制系统。

9.如权利要求1所述的系统，该系统的特征是在面向公共区域及对外提供视频服务的场景中采用二维码扫描来识别用户，系统根据二维码扫描所识别到的用户自动配置该用户个性化信息至其所扫码的是视频终端。