CN103916431A

CN103916431A - 一种人机交互系统及方法

Info

Publication number: CN103916431A
Application number: CN201310000643.1A
Authority: CN
Inventors: 邓迪
Original assignee: Cloud Link (beijing) Information Technology Co Ltd
Current assignee: TIANJIN MIYOU TECHNOLOGY CO., LTD.
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2014-07-09

Abstract

本发明提供了一种人机交互系统及方法，解决了Kinect与XBOX360操作系统以外的操作系统或终端的兼容性以及因为Kinect系统和应用占用系统资源而不利于应用的运行及更新的问题。所述人机交互系统包括体感数据和/或语音数据采集装置、客户端和云服务器，所述体感数据和/或语音数据采集装置用于采集用户的体感数据和/或语音数据；所述客户端包括数据获取模块、数据压缩模块、数据传输模块及内容接收模块；所述云服务器包括数据接收模块、数据解压缩模块、数据处理模块、第一内容获取模块及第二内容发送模块。本发明通过映射文件将肢体和语音指令转换为云服务器可识别的操作指令，从而实现了Kinect与电脑、机顶盒等各种终端的融合。

Description

一种人机交互系统及方法

技术领域

本申请涉及人机交互系统及方法，特别是涉及将体感和/或语音交互技术与云服务器相融合的人机交互系统及方法。

背景技术

随着体感及语音交互等人机交互技术的发展，越来越多的娱乐及游戏装置出现在消费者面前。微软于2005年推出了配置功能强大的游戏机XBOX360之后，又于2010年推出了与XBOX360的体感周边外设Kinect。

Kinect的关键技术在于其光编码系统和音频处理系统，其中，光编码系统采用的是红外线发射器、红外线CMOS摄像机及RGB彩色摄像机。由红外线发射器发出具有三维纵深的“体编码”，这种“体编码”叫做激光散斑（laserspeckle），是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点。这些散斑具有高度的随机性，而且会随着距离的不同变换图案。只要在空间中打上这样的结构光，整个空间就都被做了标记，红外线CMOS摄像机就用来记录空间中的散斑。当把一个物体放进这个空间时，只要测量物体上面的散斑图案，就可以知道该物体的位置。Kinect的音频处理系统采用了四元线性麦克风阵列，并结合了噪音抑制、回声消除等技术，使得对声音的辨识度更高。

但是，由于XBOX360的操作系统是微软自行研发的，而其相应的游戏也是必须能够被该操作系统所兼容的，因此用户就不能通过肢体或语音玩其他系统（如Linux系统）上的游戏。

此外，Kinect系统在运行时将占据XBOX360大约10%-15%的CPU资源，业界评论家称如此数量的CPU能耗增加将使得目前的游戏更加不可能通过软件更新的方式来增加Kinect功能。

发明内容

为了解决上述问题，本申请提供了一种人机交互系统，包括体感数据和/或语音数据采集装置、客户端和云服务器，其中，

所述体感数据和/或语音数据采集装置用于采集用户的体感数据和/或语音数据；

所述客户端包括数据获取模块，用于自所述体感数据和/或语音数据采集装置获取采集的所述用户的体感数据和/或语音数据；数据压缩模块，用于压缩所述获取的所述用户的体感数据和/或语音数据；数据传输模块，用于将所述压缩的所述用户的体感数据和/或语音数据传输至所述云服务器；内容接收模块，用于接收自所述客户端发送的第二内容；

所述云服务器包括数据接收模块，用于接收自所述数据传输模块传送的所述压缩的所述用户的体感数据和/或语音数据；数据解压缩模块，用于解压缩所述压缩的所述用户的体感数据和/或语音数据；数据处理模块，用于分析所述用户的体感数据和/或语音数据，并将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令；第一内容获取模块，用于根据所述操作指令获取与所述操作指令相对应的第一内容；第二内容发送模块，用于将第二内容发送至所述客户端，其中，所述第二内容是所述第一内容的子内容。

优选地，所述客户端进一步包括通知模块、USB设备驱动模块以及USB数据发送模块，其中，所述通知模块用于针对所述体感数据和/或语音数据采集装置发送通知至所述云服务器；所述USB设备驱动模块用于解析自所述云服务器发送的IP包；所述USB数据发送模块用于根据对所述IP包的解析结果将相应的USB数据发送至所述云服务器；

优选地，所述云服务器进一步包括通知接收模块，用于接收所述针对所述体感数据和/或语音数据采集装置发送的通知；虚拟USB设备驱动模块，用于根据所述客户端发送的所述通知生成USB请求，将该请求封装成IP包，并将所述IP包发送至所述客户端；USB数据接收模块，用于接收所述USB数据发送模块发送的所述USB数据。

优选地，所述数据处理模块进一步包括映射单元，用于根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

优选地，所述第一内容获取模块进一步包括函数调用单元，用于根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

优选地，所述客户端包括PC机、机顶盒、电视、便携终端、平板和投影机。

相应地，本申请亦提供了一种人机交互方法，包括：

体感数据和/或语音数据采集装置采集用户的体感数据和/或语音数据；

客户端自所述体感数据和/或语音数据采集装置获取采集的所述用户的体感数据和/或语音数据；压缩所述获取的所述用户的体感数据和/或语音数据；将所述压缩的所述用户的体感数据和/或语音数据传输至所述云服务器；

云服务器接收所述压缩的所述用户的体感数据和/或语音数据；解压缩所述压缩的所述用户的体感数据和/或语音数据；分析所述用户的体感数据和/或语音数据，并将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令；根据所述操作指令获取与所述操作指令相对应的第一内容；将第二内容发送至所述客户端，其中，所述第二内容是所述第一内容的子内容；

客户端接收所述第二内容。

优选地，客户端针对所述体感数据和/或语音数据采集装置发送通知至云服务器；

所述云服务器接收所述针对所述体感数据和/或语音数据采集装置发送的通知；根据所述客户端发送的所述通知生成USB请求，将该请求封装成IP包，并将所述IP包发送至所述客户端；

所述客户端解析自所述云服务器发送的IP包；根据对所述IP包的解析结果将相应的USB数据发送至所述云服务器。

优选地，所述将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令进一步包括根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

优选地，所述根据所述操作指令获取与所述操作指令相对应的第一内容进一步包括根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

优选地，所述操作指令包括可被服务器识别的按键指令和鼠标指令。

与现有技术相比，本申请包括以下优点：

1.本发明通过将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令实现了Kinect与PC机、机顶盒、电视、便携终端或平板的融合，增强了Kinect的可扩展性。

2.本发明将肢体动作或语音的识别处理转移至云服务器，而Kinect仅用于肢体动作数据或语音数据的捕获，从而大大降低了Kinect系统在运行时对终端的系统资源的占用，进而也降低了对终端处理性能的要求。

3.通过XBOX360接入网络需要用户另外付费使用微软提供的XBOXLive，而本发明将Kinect与PC机、机顶盒、电视、便携终端或平板结合后，用户就可以使用其已有的网络类型使用应用，从而降低了用户的消费成本。

4.本发明以云服务器取代传统的服务器后，所有的应用都是在云服务器上运行，PC机、机顶盒、电视、便携终端或平板只显示虚拟的应用画面，该虚拟的应用画面不占用系统资源，因此，用户不需要为其PC机、机顶盒、电视、便携终端或平板配置功能强大的硬件或软件以配合应用的运行。

附图说明

图1是本发明人机交互系统实施例1的示意图。

图2是本发明人机交互系统实施例2的示意图。

图3是本发明人机交互方法实施例1的示意图。

图4是本发明人机交互方法实施例2的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请实施例1人机交互系统的示意图，包括体感数据和/或语音数据采集装置100、客户端110和云服务器120。

体感数据和/或语音数据采集装置100可为具有体感信息和语音信息采集功能的装置，例如Kinect。

客户端110可为PC机、机顶盒、电视、便携终端、平板、投影机以及其他具有显示功能的装置。

云服务器120是一种类似VPS服务器的虚拟化技术，VPS是采用虚拟软件，VZ或VM在一台服务器上虚拟出多个类似独立服务器的部分，每个部分都有云服务器的一个镜像，都可以做单独的操作系统，管理方法同服务器一样。

以下将分别对体感数据和/或语音数据采集装置100、客户端110和云服务器120的结构进行说明。

以Kinect为例说明体感数据和/或语音数据采集装置100。Kinect的主要结构为三个摄像头、内置阵列麦克风系统以及底座马达。左右两边摄像头分别为红外线发射器和红外线CMOS摄像机，中间的镜头是RGB彩色摄像机。

红外线发射器发出激光散斑（laser speckle），光线经过扩散分布在测量的空间内，这些散斑具有高度的随机性，而且会随着距离的不同变换图案，即空间中任意两处的散斑图案都是不同的。只要在空间中打上这样的光，整个空间就都被做了标记，把一个物体放进这个空间，只要看看物体上面的散斑图案，就可以知道这个物体在什么位置了。在这之前要把整个空间的散斑图案都记录下来，所以要先做一次光源的标定。标定的方法是：每隔一段距离，取一个参考平面，把参考平面上的散斑图案记录下来。假设Natal规定的用户活动空间是距离电视机1米到4米的范围，每隔10cm取一个参考平面，那么标定下来就保存了30幅散斑图像。需要进行测量的时候，拍摄一副待测场景的散斑图像，将这幅图像和保存下来的30幅参考图像依次做互相关运算，这样会得到30幅相关度图像，而空间中有物体存在的位置，在相关度图像上就会显示出峰值。把这些峰值一层层叠在一起，再经过一些插值，就会得到整个场景的三维形状了。

当光射到人体之后会形成反射斑点，红外线CMOS摄像机就用来记录空间中的散斑，通过芯片合成出3D深度信息的图像。

RGB彩色摄像机用于获取彩色图像，通过该摄像机获得的图像呈现出不同的颜色块，这些颜色块表示物体在空间的距离。识别到3D图像深度信息后，通过软件计算出人体主要的骨骼位置，通过精确掌握玩家身形轮廓与肢体位置来判断玩家的姿势动作。

内置阵列麦克风系统采用了四元线性麦克风阵列，这一阵列由4个独立的水平分布在Kinect下方的麦克风组成。虽然每一个麦克风都捕获相同的音频信号，但是组成阵列可以探测到声音的来源方向。使得能够用来识别从某一个特定的方向传来的声音。麦克风阵列捕获的音频数据流经过复杂的音频增强效果算法处理来移除不相关的背景噪音。所有这些复杂操作在Kinect硬件和Kinect SDK之间进行处理，这使得能够在一个大的空间范围内，即使人离麦克风一定的距离也能够进行语音命令的识别。

底座马达采用了对焦技术，底座马达会随着对焦物体的移动而相应地转动。

由此，Kinect的三个摄像头、内置阵列麦克风系统以及底座马达相互配合共同完成了肢体动作数据及语音数据的捕捉。

客户端110包括数据获取模块111、数据压缩模块112、数据传输模块113及内容接收模块114。其中：

数据获取模块111用于自所述体感数据和/或语音数据采集装置100获取采集的所述用户的体感数据和/或语音数据。

所述数据获取模块111可以通过USB接口与体感数据和/或语音数据采集装置100相接，所述数据获取模块111自体感数据和/或语音数据采集装置100获取到的体感数据和/或语音数据是肢体的空间位置数据和/或音频数据流。

数据压缩模块112用于压缩所述获取的所述用户的体感数据和/或语音数据。

客户端110中具有数据压缩模块112，该模块对体感数据和/或语音数据采集装置100获取的用户的体感数据和/或语音数据进行自动压缩。

其中，体感数据为用户做出一段或多段动作的视频数据。在本发明一实施例中，由体感数据和/或语音数据采集装置100获取的用户的体感数据和/或语音数据为RAW格式。RAW格式图像中的每一帧图像为bmp格式，数据压缩模块112对每一帧图像进行滤波处理或归一化处理，将图像由bmp格式转换为JPG格式，也可以转换为MPEG、MPG、AVI、MOV、ASF、WMV、NAVI、3GP、REAL VIDEO、MKV、FLV、F4V、RMVB、WebM等格式。滤波处理可以采用常用的傅里叶变换、邻域滤波（即输出图像中任何像素的值都是通过对像素周围一定邻域内像素的值得来的）等方法。归一化处理是通过一系列变换，利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响，将待处理的原始图像转换成相应的唯一标准形式。在本发明一实施例中，归一化处理是将bmp格式的原始图像数据转换成JPG格式的图像数据。

语音数据采用线性脉冲编码调制PCM，数据压缩模块112对体感数据的同步语音数据压缩为CD格式、WAVE（*.WAV）、AIFF、AU、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC、APE等音频格式文件。

数据传输模块113，用于将所述压缩的所述用户的体感数据和/或语音数据传输至所述云服务器120。

数据压缩模块112将体感数据和/或语音数据压缩后，由数据传输模块113传输至云服务器120。其中，用户发出的某一指令可以仅为体感数据，也可以仅为语音数据，也可以是语音数据与体感数据的结合。当用户的指令既有语音数据，又有体感数据时，同步压缩语音数据和体感数据，并将两部分数据同时传输至云服务器120。

内容接收模块114，用于接收自所述客户端发送的第二内容。

第一内容获取模块124获取的内容包括程序代码、图像数据等信息，第二内容发送模块125仅将游戏的图像数据发送给客户端，由客户端的内容接收模块114接收。

云服务器120包括数据接收模块121、数据解压缩模块122、数据处理模块123、第一内容获取模块124及第二内容发送模块125。其中：

数据接收模块121，用于接收自所述数据传输模块传送的所述压缩的所述用户的体感数据和/或语音数据。

客户端110中的数据传输模块113将用户的体感数据和/或语音数据传输至云服务器120时，由数据接收模块121接收该数据。

数据解压缩模块122，用于解压缩所述压缩的所述用户的体感数据和/或语音数据。

数据解压缩模块122将所述压缩的所述用户的压缩的体感数据和/或语音数据按照归一化处理相反的方式转换为原始图像和音频数据，完成图像的解压缩。

数据处理模块123，用于分析所述用户的体感数据和/或语音数据，并将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令。

在本发明一实施例中，所述数据处理模块123进一步包括映射单元1231，用于根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

映射单元1231中嵌入一应用程序，通过运行该应用程序可将云服务器120中的每个游戏涉及到的体感数据和/或语音数据转换为所述云服务器120可识别的操作指令。该应用程序可由程序人员使用JAVA语音或C语言编写的应用程序。该应用程序定义了用户的不同的姿势动作或语义所对应的电脑键盘或鼠标指令。

通过映射单元，可以根据用户的体感数据和/或语音数据来判断用户采用了哪一种姿势动作，将该姿势动作与映射文件中的该游戏所涉及到的姿势动作进行对照。若该姿势动作符合映射文件中的该游戏所涉及到的某一姿势动作，则通过该应用程序将用户的姿势动作转换为云服务器120可识别的键盘信息或鼠标信息。该键盘信息或鼠标信息可以是用户在游戏环境下需要操作的某一组电脑键盘或鼠标。

以下通过一实例说明所述映射文件中肢体动作与云服务器120可识别的键盘信息或鼠标信息的对应关系。例如当用户向左挥手时通过上述步骤得知用户采用了向左挥手的姿势动作，映射文件中规定向左挥手映射为键盘A按下。又例如当用户向右挥手时通过上述步骤得知用户采用了向右挥手的姿势动作，映射文件中规定向右挥手映射为键盘A抬起。

第一内容获取模块124，用于根据所述操作指令获取与所述操作指令相对应的第一内容。

第一内容是与所述操作指令相对应的，包括游戏的程序代码、图像数据等信息。在本发明一实施例中，所述第一内容获取模块进一步包括函数调用单元1241，用于根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

以上述实例为例，函数调用单元1241调用sendmessage函数，通过游戏窗口参数（如hwnd）、键盘指令参数（如wm-keyup、wm-keydown）、鼠标指令参数（如mousemove、mousefirst）等参数指定键盘A按下指令和键盘A抬起指令对应“前进”和“停止前进”，该语句运行后游戏图像便改为游戏人物前进图像和游戏人物停止前进图像。游戏人物前进和停止前进相关的程序代码和图像数据等信息由第一内容获取模块124获取。

第二内容发送模块125，用于将第二内容发送至所述客户端，其中，所述第二内容是所述第一内容的子内容。

以上述实例进行说明，第一内容获取模块124获取的内容包括游戏的程序代码、图像数据等信息，第二内容发送模块125仅将游戏的图像数据发送给客户端110，并由客户端110接收。

参照图2，示出了本申请实施例2人机交互系统的示意图，包括体感数据和/或语音数据采集装置200、客户端210和云服务器220。

体感数据和/或语音数据采集装置200可为具有体感信息和语音信息采集功能的装置，例如Kinect。

客户端210可为PC机、机顶盒、电视、便携终端、平板、投影机以及其他具有显示功能的装置。

云服务器220是一种类似VPS服务器的虚拟化技术，VPS是采用虚拟软件，VZ或VM在一台服务器上虚拟出多个类似独立服务器的部分，每个部分都有云服务器的一个镜像，都可以做单独的操作系统，管理方法同服务器一样。

体感数据和/或语音数据采集装置200的结构已在实施例1中加以说明，在此不再赘述。

客户端210包括数据获取模块211、数据压缩模块212、数据传输模块213、内容接收模块217、通知模块214、USB设备驱动模块215以及USB数据发送模块216。其中：

数据获取模块211、数据压缩模块212、数据传输模块213和内容接收模块217已在实施例1中加以说明，此处不再赘述。

通知模块214用于针对所述体感数据和/或语音数据采集装置发送通知至所述云服务器220。

客户端210与云服务器220之间的通信基于TCP/IP协议。当将体感数据和/或语音数据采集装置200通过客户端的USB接口与客户端连接时，通知模块214侦测到体感数据和/或语音数据采集装置200，向云服务器220发出体感数据和/或语音数据采集装置200插入的通知。该通知是封装在IP包里的。

USB设备驱动模块215用于解析自所述云服务器发送的IP包。

USB设备驱动模块215负责各种应用的USB设备，当应用程序对设备要进行I/O访问时，USB设备驱动模块215将I/O请求转换为一系列USB命令，然后以URB的形式提交给USB CORE。对一种USB传输类型，USB设备驱动模块215只是用一个USB地址、一个端地址来和设备通信。在本发明一实施例中，体感数据和/或语音数据采集装置200是固定的，即USB设备驱动模块215仅负责特定的体感数据和/或语音数据采集装置200，因此传输的IP包中可以去掉包头。这样更简化了数据处理和传输过程。

云服务器220接收到客户端210发出的体感数据和/或语音数据采集装置200插入的通知后，解析是一个插入设备的请求，向客户端发出获取体感数据和/或语音数据的请求，该请求封装在IP包中，客户端210的USB设备驱动模块215接收该请求，从该IP包种取出URB，传送给体感数据和/或语音数据采集装置200。

所述USB数据发送模块216用于根据对所述IP包的解析结果将相应的USB数据发送至所述云服务器220。

USB数据发送模块216根据USB设备驱动模块215解析出的URB请求，将由数据压缩模块212压缩的体感数据和/或语音数据输出给云服务器220。该数据同样是封装在IP包中传输的。

云服务器220包括数据接收模块221、数据解压缩模块222、数据处理模块223、第一内容获取模块224、第二内容发送模块225、通知接收模块226、虚拟USB设备驱动模块227及USB数据接收模块228。其中：

数据接收模块221、数据解压缩模块222、数据处理模块223、第一内容获取模块224及第二内容发送模块225已在实施例1中加以说明，此处不再赘述。

通知接收模块226，用于接收所述针对所述体感数据和/或语音数据采集装置发送的通知。

当将体感数据和/或语音数据采集装置200通过客户端的USB接口与客户端连接时，通知模块213侦测到体感数据和/或语音数据采集装置200，发出体感数据和/或语音数据采集装置200插入的通知。该通知是封装在IP包里的，该通知由通知接收模块226接收。

虚拟USB设备驱动模块227，用于根据所述客户端发送的所述通知生成USB请求，将该请求封装成IP包，并将所述IP包发送至所述客户端210。

云服务器220接收到客户端210发出的体感数据和/或语音数据采集装置200插入的通知后，解析是一个插入设备的请求，向客户端发出获取体感数据和/或语音数据的USB请求，该请求封装在IP包中，并将该IP包发送至客户端210。

USB数据接收模块228，用于接收所述USB数据发送模块发送的所述USB数据。

客户端210将由数据压缩模块212压缩的体感数据和/或语音数据输出，由USB数据接收模块228接收该数据，该数据是由体感数据和/或语音数据采集装置200获取的体感数据和/或语音数据，并且同样是封装在IP包中传输的。之后由数据解压缩模块222、数据处理模块223、第一内容获取模块224及第二内容发送模块225对该数据进行处理，将用户的肢体动作指令或语音指令所对应的图像数据传输至客户端。

参照图3，示出了本申请实施例1人机交互方法的示意图，以下将对该方法进行说明。

步骤S31：体感数据和/或语音数据采集装置采集用户的体感数据和/或语音数据。

以Kinect为例说明体感数据和/或语音数据采集装置采集用户的体感数据和/或语音数据的原理。Kinect的主要结构为三个摄像头、内置阵列麦克风系统以及底座马达。左右两边摄像头分别为红外线发射器和红外线CMOS摄像机，中间的镜头是RGB彩色摄像机。

RGB彩色摄像机将获得的图像呈现出不同的颜色块表示物体在空间的距离。识别到3D图像深度信息后，通过软件计算出人体主要的骨骼位置，通过精确掌握玩家身形轮廓与肢体位置来判断玩家的姿势动作。

由此，Kinect的三个摄像头、内置阵列麦克风系统以及底座马达相互配合共同完成了肢体动作信息及语音信息的捕捉。

步骤S32：客户端自所述体感数据和/或语音数据采集装置获取采集的所述用户的体感数据和/或语音数据。

以Kinect为例，用户的肢体动作及语音信息被Kinect获取，该肢体动作及语音信息是肢体的空间位置数据和/或音频数据流，客户端自Kinect获取的是用户的肢体的空间位置数据和/或音频数据流。

步骤S33：压缩所述获取的所述用户的体感数据和/或语音数据。

体感数据为用户做出一段或多段动作的视频数据。在本发明一实施例中，由体感数据和/或语音数据采集装置100获取的用户的体感数据和/或语音数据为RAW格式。RAW格式图像中的每一帧图像为bmp格式，数据压缩模块112对每一帧图像进行滤波处理或归一化处理，将图像由bmp格式转换为JPG格式，也可以转换为MPEG、MPG、AVI、MOV、ASF、WMV、NAVI、3GP、REAL VIDEO、MKV、FLV、F4V、RMVB、WebM等格式。滤波处理可以采用常用的傅里叶变换、邻域滤波（即输出图像中任何像素的值都是通过对像素周围一定邻域内像素的值得来的）等方法。归一化处理是通过一系列变换，利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图像变换的影响，将待处理的原始图像转换成相应的唯一标准形式。在本发明一实施例中，归一化处理是将bmp格式的原始图像数据转换成JPG格式的图像数据。

步骤S34：将所述压缩的所述用户的体感数据和/或语音数据传输至所述云服务器。

用户发出的某一指令可以仅为体感数据，也可以仅为语音数据，也可以是语音数据与体感数据的结合。当用户的指令既有语音数据，又有体感数据时，同步压缩语音数据和体感数据，并将两部分数据同时传输至云服务器120。

步骤S35：云服务器接收所述压缩的所述用户的体感数据和/或语音数据。

上述体感数据和/或语音数据压缩后，传输至云服务器120，云服务器120接收数据。

步骤S36：解压缩所述压缩的所述用户的体感数据和/或语音数据。

将所述压缩的所述用户的压缩的体感数据和/或语音数据按照归一化处理相反的方式转换为原始图像和音频数据，完成图像的解压缩。

步骤S37：分析所述用户的体感数据和/或语音数据，并将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令。

在本发明一实施例中，根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

云服务器中嵌入一应用程序，通过运行该应用程序可将云服务器120中的每个游戏涉及到的体感数据和/或语音数据转换为所述云服务器120可识别的操作指令。该应用程序可由程序人员使用JAVA语音或C语言编写的应用程序。该应用程序定义了用户的不同的姿势动作或语义所对应的电脑键盘或鼠标指令。

通过映射步骤，可以根据用户的体感数据和/或语音数据来判断用户采用了哪一种姿势动作，将该姿势动作与映射文件中的该游戏所涉及到的姿势动作进行对照。若该姿势动作符合映射文件中的该游戏所涉及到的某一姿势动作，则通过该应用程序将用户的姿势动作转换为云服务器120可识别的键盘信息或鼠标信息。该键盘信息或鼠标信息可以是用户在游戏环境下需要操作的某一组电脑键盘或鼠标。

步骤S38：根据所述操作指令获取与所述操作指令相对应的第一内容。

第一内容是与所述操作指令相对应的，包括游戏的程序代码、图像数据等信息。在本发明一实施例中，根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

在本发明一实施例中，调用sendmessage函数，通过游戏窗口参数（如hwnd）、键盘指令参数（如wm-keyup、wm-keydown）、鼠标指令参数（如mousemove、mousefirst）等参数指定键盘A按下指令和键盘A抬起指令对应“前进”和“停止前进”，该语句运行后游戏图像便改为游戏人物前进图像和游戏人物停止前进图像，从而获取游戏人物前进和停止前进相关的程序代码和图像数据等信息。

步骤S39：将第二内容发送至所述客户端，其中，所述第二内容是所述第一内容的子内容。

在本发明一实施例中，第一内容包括游戏的程序代码、图像数据等信息，第二内容则是指该游戏在客户端显示的图像数据，云服务器120仅将游戏的图像数据发送给客户端110。

步骤S40：客户端接收所述第二内容。

云服务器120将游戏的图像数据发送给客户端110，由客户端110接收并通过显示器呈现给用户。

参照图4，示出了本申请实施例2人机交互方法的示意图，以下将对该方法进行说明。

步骤S401：客户端针对所述体感数据和/或语音数据采集装置发送通知至云服务器。

客户端110与云服务器120之间的通信基于TCP/IP协议。当将体感数据和/或语音数据采集装置100通过客户端的USB接口与客户端连接时，客户端侦测到体感数据和/或语音数据采集装置100，向云服务器120发出体感数据和/或语音数据采集装置100插入的通知。该通知是封装在IP包里的。

步骤S402：所述云服务器接收所述针对所述体感数据和/或语音数据采集装置发送的通知；根据所述客户端发送的所述通知生成USB请求，将该请求封装成IP包，并将所述IP包发送至所述客户端。

云服务器120接收到客户端110发出的体感数据和/或语音数据采集装置100插入的通知，解析是一个插入设备的请求，向客户端发出获取体感数据和/或语音数据的请求，该请求封装在IP包中，客户端110的USB设备驱动模块114接收该请求，从该IP包种取出URB，传送给体感数据和/或语音数据采集装置100。

步骤S403：所述客户端解析自所述云服务器发送的IP包。

客户端110中安装了USB设备驱动程序，负责各种应用的USB设备，当应用程序对设备要进行I/O访问时，USB设备驱动程序将I/O请求转换为一系列USB命令，然后以URB的形式提交给USB CORE。对一种USB传输类型，USB设备驱动程序只是用一个USB地址、一个端地址来和设备通信。在本发明一实施例中，体感数据和/或语音数据采集装置100是固定的，即USB设备驱动程序仅负责特定的体感数据和/或语音数据采集装置100，因此传输的IP包中可以去掉包头。这样更简化了数据处理和传输过程。

步骤S404：根据对所述IP包的解析结果将相应的USB数据发送至所述云服务器。

USB数据是指体感数据和/或语音数据采集装置100采集的用户的体感数据和/或语音数据。在发送USB数据之前，体感数据和/或语音数据采集装置100采集用户的体感数据和/或语音数据，并传输给客户端，由客户端压缩所述获取的所述用户的体感数据和/或语音数据，再将所述压缩的所述用户的体感数据和/或语音数据封装在IP包中，发送至云服务器120。其中，体感数据和/或语音数据的压缩和解压缩的过程已在图1中加以说明，再次不在赘述。

步骤S405：云服务器接收所述压缩的所述用户的体感数据和/或语音数据。

云服务器接收包含压缩的所述用户的体感数据和/或语音数据的IP包，对该IP包进行解析，从中取出压缩的所述用户的体感数据和/或语音数据。

步骤S406：解压缩所述压缩的所述用户的体感数据和/或语音数据。

步骤S407：分析所述用户的体感数据和/或语音数据，并将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令。

步骤S406—步骤S407与图3中步骤S36—步骤S38相同，在此不再赘述。

步骤S408：根据所述操作指令获取与所述操作指令相对应的第一内容；将内容数据发送至所述客户端，其中，所述第二内容是所述第一内容的子内容。

在本发明一实施例中，第一内容包括游戏的程序代码、图像数据等信息，第二内容则是指该游戏在客户端显示的图像数据，云服务器120仅将游戏的图像数据发送给客户端110，发送的内容是封装在IP包中的。

步骤S409：客户端接收所述第二内容。

客户端110接收包含图像数据的IP包，解析该IP包，从中取出图像数据，呈现在客户端110的显示装置上。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种人机交互系统及方法进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人机交互系统，包括：

体感数据和/或语音数据采集装置、客户端和云服务器，其中，

2.根据权利要求1所述的系统，其特征在于，所述客户端进一步包括通知模块、USB设备驱动模块以及USB数据发送模块，其中，所述通知模块用于针对所述体感数据和/或语音数据采集装置发送通知至所述云服务器；所述USB设备驱动模块用于解析自所述云服务器发送的IP包；所述USB数据发送模块用于根据对所述IP包的解析结果将相应的USB数据发送至所述云服务器；

所述云服务器进一步包括通知接收模块，用于接收所述针对所述体感数据和/或语音数据采集装置发送的通知；虚拟USB设备驱动模块，用于根据所述客户端发送的所述通知生成USB请求，将该请求封装成IP包，并将所述IP包发送至所述客户端；USB数据接收模块，用于接收所述USB数据发送模块发送的所述USB数据。

3.根据权利要求1所述的系统，其特征在于，所述数据处理模块进一步包括映射单元，用于根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

4.根据权利要求1所述的系统，其特征在于，所述第一内容获取模块进一步包括函数调用单元，用于根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

5.根据权利要求1所述的系统，其特征在于，所述客户端包括PC机、机顶盒、电视、便携终端、平板和投影机。

6.一种人机交互方法，包括：

客户端接收所述第二内容。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

客户端针对所述体感数据和/或语音数据采集装置发送通知至云服务器；

8.根据权利要求6所述的方法，其特征在于，所述将所述用户的体感数据和/或语音数据转换为所述云服务器可识别的操作指令进一步包括根据预置的映射文件将所述体感数据和/或语音数据映射为所述云服务器可识别的操作指令。

9.根据权利要求6所述的方法，其特征在于，所述根据所述操作指令获取与所述操作指令相对应的第一内容进一步包括根据所述操作指令调用相关联的函数，以及根据调用结果获取与所述操作指令相对应的第一内容。

10.根据权利要求6所述的方法，其特征在于，所述操作指令包括可被服务器识别的按键指令和鼠标指令。