CN112269468A

CN112269468A - 基于蓝牙、2.4g、wifi连接获取云端资讯的人机交互智能眼镜、方法及其平台

Info

Publication number: CN112269468A
Application number: CN202011144898.1A
Authority: CN
Inventors: 雷鸣
Original assignee: Shenzhen Hengbida Electronic Technology Co ltd
Current assignee: Shenzhen Hengbida Electronic Technology Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26

Abstract

本发明公开一种基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，通过设置基于智能眼镜通过蓝牙/2.4G/WIFI连接互联终端设备，在智能眼镜中装置的振动传感器和固定词条语音识别模块唤醒智能眼镜中的智能语音识别系统，接到语音后通过转化成指令上传到云端数据库中检索到对应资讯再反馈到智能眼镜端，智能眼镜端再将接收到的资讯转化成音频并播放给使用者听，从而轻松完成人机交互功能，让眼镜佩戴者更方便自如便捷的获取到想要的资讯内容。

Description

基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜、方法及其平台

技术领域

本发明涉及人机交互技术领域，特别涉及基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜、方法、平台以及计算机可读存储介质。

背景技术

目前的人机交互智能眼镜的交互方法主要有以下几种方式：

1.手势交互。以微软的HoloLens为例，主要实现方式是，人用双手在智能眼镜的外拍摄像头前方摆动、比划，智能眼镜设备通过外拍摄像头传感器拍到的画面，将操作者的不同手势识别为不同的操作指令，从而完成对机器控制指令的下达；

2.触控板交互。目前大多数的智能眼镜采用的都是触控板交互方法，以谷歌的谷歌眼镜为例，主要实现方式是，人用手指在连接智能眼镜的主机触控板或者眼镜腿滑动，滑动的相对位移反映了屏幕上光标的相对位移，结合点击触控板适配的左键、右键或触摸板按压的方式，完成下达控制机器的指令；

3.语音交互。有些智能眼镜采用的是语音交互方法，主要实现方式是，人通过设备的麦克风说设备可以识别的标准词句，从而完成对机器控制指令的下达；

4.意念交互。有些概念型的智能眼镜采用了意念交互方法，主要实现方式是，人通过大脑思考特定的模式，再由智能眼镜设备的脑电波传感器检测，并将操作者不同的思考模式识别为不同的操作指令，从而完成对机器控制指令的下达。

以上人机交互方式都因为各自的缺陷，无论单独使用还是组合使用，都无法使人自然、准确地与智能眼镜设备进行交互，因而也就无法高效地操作智能眼镜设备。

发明内容

本发明的主要目的是提供基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜、方法及其平台，以解决现有技术中存在的不足。

为实现上述目的，本发明提出的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，包括以下步骤：

S101：通过触发智能眼镜中的振动传感器，唤醒固定词条语音识别模块或记忆声纹识别模块，使智能眼镜中的内置语音拾音系统开启工作获取音频，并传输给中央处理器；

S102：中央处理器将获取到的音频转化成数字信号通过蓝牙或2.4G或WIFI等网络连接方式传输给互联网终端设备(路由器/PC端/移动设备端等)；

S103：互联网终端再通过网络接入云端资讯库，在云端资讯库中检索到相对应资讯内容原路反馈到终端再反馈到智能眼镜；

S104：智能眼镜接收到反馈的检索信息经中央处理器转换成音频信号播放给使用者听取。

优选地，在所述的S101中，语音拾音系统对声音的识别包括以下步骤：

S11：对语音数据信号进行转换；

S12：提取用户语音包含的特征参数；

S13：对用户的声音特征参数进行学习处理；

S14：对用户的语音信号进行结果识别。

优选地，在所述的S102中，中央处理器对语音的处理包括：

对语音信号进行采样和自动增益控制预处理，再将声波的共振峰、声音的音调等特征参数提取出来，然后使用算法进行训练和模式库对提取的声音的关键数据进行分类处理，最后进行模式匹配，最后完成语音的准确输出。

优选地，在所述的S103中，所述的云端资讯库采用云计算模式，用于将各种资讯数据存储于云端，并对数据进行处理和调度，实现了数据的大规模聚集，跨地域交互。

优选地，在所述的S103中，还包括：

云端资讯库接收到语音关键词信息后，并将关键词发送至问题检索服务器，在获得问题检索服务器返回的模板问题与问题关键词的匹配度后，确定具有最高匹配度的模板问题的模板答案为需要的资讯信息，并将资讯信息发送给终端。

本发明第二方面提供基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台，包括：

硬件架构：后端服务技能布署在云端服务器上，当用户与智能眼镜进行语音交互时，经过防火墙，达到负载服务器，各个服务器处理的请求由负载均衡服务器负责进行分发，如果请求命中缓存，并且缓存数据有效，则直接从缓存数据中获取数据并返回，如果缓存失效，则服务器请求ES库获取数据，将数据缓存到缓存数据库中并返回，最后到达端以语音播放的形式展现给端用户；

软件架构，包括：

用户层：用于接收用户的语音信息，同时也将用户发出的语音请求经过云端服务处理之后的响应以语音的方式播报给用户听；

接入层：接入层主要负责接入和转发用户的语音请求，并进行全局流量的调度、数据分析、同时还具备安全防御功能；

连接层：负责用户层和云端服务的通信，定义他们之间的通信协议；

云端服务层：将语音的输入进行处理、差异化输出，以及准确解析用户语音的意图，并将用户的语音请求关键信息下发了具体处理用户意图的后端服务模块，然后后端技能对用户的语音进行处理，之后对用户的语音请求进行响应。

优选地，所述的云端服务层包括：

UI模块：针对输入进行处理、差异化输出；

UIC(储存模块)：主要用于储蓄信息；

SESSION(会话管理)：储存特定用户会话所需的属性及配置信息；

DA(意图分析模块)：是整个人机交互平台的大脑，负责对终端用户的输入进行语义分析，理解用户想要表达的意图；

US(中控模块)：关联UI、UIC、DA、SESSION等多种功能模块，使各个功能模块能够协调工作。

本发明第三方面提供基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜，包括：

眼镜本体：用于佩戴在使用者眼镜上；

振动传感器：用于感应外部环境对眼镜本体的敲击，并把敲击指令发送至中央处理器；

传输模块：对信号进行传输；

语音识别系统：对外部环境语音进行识别，并把识别信号发送至中央处理器；

中央处理器：解释信号指令以及处理对数据进行处理。

优选地，还包括：

转换模块：把电信号转换成音频信号；

播放模块：对检索到的相对应资讯内容进行语音播报。

优选地，所述的传输模块包括：

发射模块：信号进行发射；

接收模块：对信号进行接收。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜设计的人机交互方法的步骤。

本发明公开的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜、方法以及平台，实现了人机交互装置不依赖于音箱类网关设备等终端、供电和网线限制的固定设备的人机交互模式，能够应用于人们以佩戴的智能眼镜为载体，随时随地解决人与云端资讯的交互。免去了为了获取资讯时要解锁屏幕再打开应用输入文字搜索的繁琐流程。扩展了人机交互装置的便捷设备。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法原理图；

图2为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法流程图；

图3为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台示意图；

图4为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的功能结构图；

图5为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的硬件架构图；

图6为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的软件架构图；

图7为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的接入层功能结构图；

图8为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的连接层设计图；

图9为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台的云端服务层设计图；

图10为本发明实施例提供的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的结构原理图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

在本发明实施例中，参照图1和图2，该基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，包括以下步骤：

S101：通过触发智能眼镜中的振动传感器，唤醒固定词条语音识别模块或记忆声纹识别模块，使智能眼镜中的内置语音拾音系统开启工作获取音频，并传输给中央处理器。

在使用的过程中，通过手指敲击智能眼镜，振动感应器感应到手指的敲击后，把信号传输到固定词条语音识别模块或记忆声纹识别模块，从而唤醒固定词条语音识别模块或记忆声纹识别模块，语音拾音系统开启工作，对使用者的语音请求信息进行获取，并进行传输到中央处理器。

S102：中央处理器将获取到的音频转化成数字信号通过蓝牙或2.4G或WIFI等网络连接方式传输给互联网终端设备；

在本实施例中，中央处理器与互联网终端设备之间的通讯方式采用蓝牙或者WIFI的方式进行连接，方便快捷，不需要网线等固定设备。而本实施例的互联网终端设备，包括路由器、PC端、移动设备端等。

S103：互联网终端再通过2.4G网络接入云端资讯库，在云端资讯库中检索到相对应资讯内容原路反馈到终端再反馈到智能眼镜。

在本实施例中，所述的云端资讯库采用云计算模式，用于将各种资讯数据存储于云端，并对数据进行处理和调度，实现了数据的大规模聚集，跨地域交互。

云端资讯库接收到终端发出的语音关键词请求信息后，并将关键词信息发送至问题检索服务器，在获得问题检索服务器返回的模板问题与问题关键词的匹配度后，确定具有最高匹配度的模板问题的模板答案为需要的资讯信息，并将答案的资讯信息发送给终端。

终端接收到云端资讯库反馈的检索咨询信息后，再把资讯信息反馈到中央处理器中，中央处理器对资讯信息进行信号转换，把资讯信息电信号转换成音频信号，并通过智能眼镜中的播放功能模块进行播报给使用者听取。

例如：当使用者想知道今天深圳市宝安区的天气情况，使用者通过敲击智能眼镜，振动感应器感应到使用者的敲击，唤醒固定词条语音识别模块或记忆声纹识别模块，语音拾音系统开启工作，然后说出“深圳市宝安区今天的天气”，语音拾音系统对“深圳市宝安区今天的天气”进行拾音，并传输到中央处理器中，中央处理器对语音进行分析处理，把“深圳市宝安区今天的天气”的音频信号转换成电信号，然后发送到互联网终端设备，互联网终端设备通过网络把信号发送到云端资讯库，云端资讯库接收到请求信号后，并将信号信息发送至问题检索服务器，在获得问题检索服务器返回的模板问题与问题关键词的匹配度后，确定具有最高匹配度的今天深圳市宝安区24小时的天气情况为需要的资讯信息，并将答案的资讯信息发送给终端，终端再把答案信息发送回中央处理器，中央处理器把答案信息的电信号转换成音频信号，并进行播报。

在本实施例中，在上述的S101中，语音拾音系统对声音的识别包括以下步骤：

S11：对语音数据信号进行转换；

S12：提取用户语音包含的特征参数；

S13：对用户的声音特征参数进行学习处理；

S14：对用户的语音信号进行结果识别。

进一步地，在上述的S102中，中央处理器对语音的处理包括：

由于用户的请求最后发送到云端服务，并且语言源存在多种，所以中央处理器具备将用户的请求进行处理，并且能够听懂用户的真正意图，才能正确响应用户的需求，然后正确处理用户请求并响应，针对不同的语音源进行差异化输出，才能被云端正确理解并作出正确的响应。

本实施例还提供基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台，参照图3至图6，包括：

软件架构，包括：

用户层：用于接收用户的语音信息，同时也将用户发出的语音请求经过云端服务处理之后的响应以语音的方式播报给用户听；主要包括智能眼镜等，主要负责语音的输入和语音的输出。

具备语音交互功能的音频技能，本实施例把智能眼镜作为语音输入设备，携带方便，适用在不同的环境当中。而且，声音请求与拾音系统距离短，噪音小，不需要对语音做声音加强处理，提高了语音识别的准确率。

接入层：参照图7，接入层主要负责接入和转发用户的语音请求，并进行全局流量的调度、数据分析、同时还具备安全防御功能。

接入层主要包括BGW网关、BFE统一前端、Nginx负载均衡和反向代理服务器。主要负责接入好转发用户请求、全局流量调度、数据分析、负载均衡和反向代理。

在本实施例中，智能眼镜的语音信号可以通过BGW边界网关模块接入，BGW智能网关是一种使用软件实现的负载均衡的设备，当多种请求接入进来以后，需要对请求进行安全和防攻击处理，以防止非法的请求对服务器造成不可逆的攻击，并对全局的流量进行调度，以防止多种请求直接打到服务器导致服务器崩溃，并且还需要对服务器响应请求的服务质量以及服务运行的健康稳定进行监控，然后对请求进行转发到连接层服务器。

连接层：参照图8，负责用户层和云端服务的通信，定义他们之间的通信协议。

连接层主要负责连接用户端和云端，定义了消息格式在前端和后端进行通信，语音交互的设备终端是智能眼镜，用户发送语音请求，连接层负责将接入层传入的语音信号转换成直流请求信息电信号，并维护此次用户请求的链接，将指令信息发送到后端服务，同时也可以接受后端服务对智能眼镜的语音请求的响应和向智能眼镜发送指令。

连接层主要规定智能眼镜和服务端之间的通信协议DCS，是一套把人机交互平台的智能语音交互能力向所有设备开放的API。智能眼镜等用户端，通过这套API与服务端进行通讯，实现DCS协议客户端逻辑，接入人机交互服务，就能够让设备具有人机交互的所有交互能力。主要包括DCS通讯协议、语音Proxy、设备BOSS以及Redis和MYSQL几个模块。

云端服务层：参照图9，将语音的输入进行处理、差异化输出，以及准确解析用户语音的意图，并将用户的语音请求关键信息下发了具体处理用户意图的后端服务模块，然后后端技能对用户的语音进行处理，之后对用户的语音请求进行响应。

当用户向用户层发送语音请求的时候，请求经过连接层到达用户层。由于不同用户层经过连接线的请求数据信息的格式可能不一样，或者后端对用户层的响应需要被用户层进行解析识别，所以就要求后端服务具备对输入信息的标准化和对输出信息的差异化处理；并且当语音请求信息进连接层到达后端之后，后端需要理解识别用户的意图，并对用户的意图进行响应以及储存用户的语音信息，所以就要求后端服务具备对用户层输入信息进行标准化处理，并且要求后端能够识别用户的意图，对用户的意图进行处理，响应用户的语音请求，然后对后端响应的进行差异化处理，并且存储用户的语音信息。

进一步地，所述的云端服务层包括：

UI模块：针对输入进行处理、差异化输出。用于语音不同，UI模块针对对重语音的输入进行归一化，填充各种信息，并对不同用户语音进行差异化输出。连接层将语音信息交给UI模块进行处理，并且UI模块将响应的信息经过输出传给连接层，因此UI模块主要完成对不同用户的请求信息进行标准化输入和对不同端的响应进行差异化输出。

标准化输入：

(1)用户鉴权，获取用户信息；

(2)获取智能眼镜配置信息；

(3)请求校验，过滤非法请求；

(4)补全请求参数。

差异化输出：

(1)结果校验，标准化错误输出；

(2)根据用户语音请求信息适配结果。

UIC(储存模块)：主要用于储蓄信息。包括用户的个人信息、用户对话数据挖掘信息、历史seesion挖掘信息、基于wise(或pc)日志的挖掘信息等用户偏好数据，比如baiduid、dumiid、cuid等。

SESSION(会话管理)：储存特定用户会话所需的属性及配置信息；功能主要包括：

(1)用户的seesion信息，多轮对话胡依赖seesion(us访问)；

(2)用户层配置信息，didp平台配置(ui访问)；

(3)储存预测预取的结果。

DA(意图分析模块)：是整个人机交互平台的大脑，负责对终端用户的输入进行语义分析，理解用户想要表达的意图。主要是对请求信息进行分析，并对用户意图进行分析，填充bot所需要的参数信息。主要功能包括：

(1)query(请求)改写，包括归一化改写与堕落改写；

(2)意图解析，理解并输出query表达的意图；

(3)槽位填充，抽取并填充意图所关联的槽位(即bot满足用户诉求所需要的参数)；

(4)阿拉丁需求识别，通过timeline识别query的阿拉丁需求，并返回相关阿拉丁资源好(aries服务用语请求阿拉丁资源)。

本发明的实施例还提供基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜，参照图10，包括：

眼镜本体10：用于佩戴在使用者眼镜上。

振动传感器20：用于感应外部环境对眼镜本体的敲击，并把敲击指令发送至中央处理器。

传输模块30：对信号进行传输；包括信号发射模块301和信号接收模块302。

语音识别系统40：对外部环境语音进行识别，并把识别信号发送至中央处理器；

中央处理器50：解释信号指令以及处理对数据进行处理；

进一步地，还包括：

转换模块60：把电信号转换成音频信号；

播放模块70：对检索到的相对应资讯内容进行语音播报。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜设计的人机交互方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，其特征在于，在所述的S101中，语音拾音系统对声音的识别包括以下步骤：

S11：对语音数据信号进行转换；

S12：提取用户语音包含的特征参数；

S13：对用户的声音特征参数进行学习处理；

S14：对用户的语音信号进行结果识别。

3.根据权利要求1所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，其特征在于，在所述的S102中，中央处理器对语音的处理包括：

4.根据权利要求1所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，其特征在于，在所述的S103中，所述的云端资讯库采用云计算模式，用于将各种资讯数据存储于云端，并对数据进行处理和调度，实现了数据的大规模聚集，跨地域交互。

5.根据权利要求1所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜的交互方法，其特征在于，在所述的S103中，还包括：

6.基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台，其特征在于，包括：

软件架构，包括：

7.根据权利要求6所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互平台，其特征在于，所述的云端服务层包括：

UI模块：针对输入进行处理、差异化输出；

UIC(储存模块)：主要用于储蓄信息；

8.基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜，其特征在于，包括：

眼镜本体：用于佩戴在使用者眼镜上；

传输模块：对信号进行传输；

中央处理器：解释信号指令以及处理对数据进行处理。

9.根据权利要求8所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜，，其特征在于，还包括：

转换模块：把电信号转换成音频信号；

播放模块：对检索到的相对应资讯内容进行语音播报。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的基于蓝牙、2.4G、WIFI连接获取云端资讯的人机交互智能眼镜设计的人机交互方法的步骤。