CN110853765A

CN110853765A - 一种基于环境可视的智能人机交互系统

Info

Publication number: CN110853765A
Application number: CN201911072525.5A
Authority: CN
Inventors: 刘召义
Original assignee: Jiangsu I-Front Science & Technology Co Ltd
Current assignee: Jiangsu I-Front Science & Technology Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-28

Abstract

本发明属于人机交互技术领域，尤其为一种基于环境可视的智能人机交互系统，包括用户端、服务器端和医生终端，所述用户端和医生终端均通过无线网络与服务器端连接；所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端，还用于为用户播放音视频和进行语音视频通话。本发明能够对用户的语音和图像都进行采集然后综合分析，并且将语音转换为文字分析过程中，会将文字分为关键字进行单一分析，从而能够明确用户的含义，并且会用户的情绪进行分析，从而判断用户的情绪状态，来做出正确的答复和决策，能够使能使人与智能多媒体设备之间的交互更加智能，便捷交互方式更加的便捷快速。

Description

一种基于环境可视的智能人机交互系统

技术领域

本发明涉及人机交互技术技术领域，具体为一种基于环境可视的智能人机交互系统。

背景技术

随着人工智能的不断发展，智能的人机交互系统也得到广泛的应用和普及，如苹果公司的“SIRI”、小米公司的“小爱同学”和目前正处发展研究的“AI”，都在不断的推荐人类的科技进步和改善人们的生活。

目前的人机交互系统还比较单一，如应用在多媒体智能电子产品上的人机交互，人可以解放双手，使用语言驱动的方式发出指令，从而控制手机做出相应的操作，同时智能手机还可以与人进行简单的文字答复，但是由于语言由于语音识别存在一定的误差以及口语交流过程中用户意图往往存在一定模糊性，人机自然语言交互是一种非精确的信息交互，因此多媒体智能电子产品无法对语言含义进行深刻的理解，从而无法做出正确的答复和决策，同时目前的人机交互过程中，只是对语言进行采集，而且没有对用户的情绪进行采集分析，因此做出的答复和决策的不完善。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于环境可视的智能人机交互系统，解决了上述背景技术中提出的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于环境可视的智能人机交互系统，包括用户端、服务器端和医生终端，所述用户端和医生终端均通过无线网络与服务器端连接。

所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端，还用于为用户播放音视频和进行语音视频通话。

所述服务器端用于对用户端采集的数据信息进行分析和处理，并制定相应的解决方案，然后将解决方案反馈给用户端，还用于将用户端与医生终端进行连接。

所述医生终端用于将医生通过无线网络与用户端的用户进行语音视频沟通。

作为本发明的一种优选技术方案，所述用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元；

所述视频单元用于采集用户的视频；

所述语音单元用于采集用户的音频和播放音频；

所述人机交互触摸显示单元用于实现多媒体交互功能；

所述指纹登录单元用于采集用户指纹数据并传输到控制单元进行处理；

所述控制单元用于对视频采集单元、语音采集单元、人机交互触摸显示单元和指纹登录单元进行控制，获取视频单元、语音单元、人机交互触摸显示单元和指纹登录单元并分析和处理，并传输给服务器端，接收服务器端的反馈结果并进行处理。

作为本发明的一种优选技术方案，所述服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元；

所述数据资源单元用于储存用户信息数据、文字数据库、表情数据库和音视频数据库；

所述语音处理单元用于对用户的语音进行处理并作出决策；

所述表情分析单元用于对用户的面部表情进行处理并作出决策；

所述沟通单元用于将用户端与医生终端进行连接。

作为本发明的一种优选技术方案，所述语音处理单元包括语音转换模块、语音检索模块和语音分析模块；

所述语音转换模块用于将音频转换成文字形式；

所述语音检索模块用于将文字进行分段，然后按照关键词的形式在数据资源单元内进行检索；

所述语音分析模块用于将检索出的结果进行分析汇总后生成文字答复或相关指令。

作为本发明的一种优选技术方案，所述表情处理单元包括表情识别模块、表情比对模块和表情分析模块；

所述表情识别模块用于对用户的表情的进行识别并产生表情数据；

所述表情比对模块用于将得到的表情数据与数据资源单元内进行比对得到结果；

所述表情分析模块用于将得到的表情结果进行分析得到用户情绪状态。

作为本发明的一种优选技术方案，所述沟通单元包括判断模块和请求沟通模块；

所述判断模块通过对语音处理单元的文字答复和表情处理单元的用户情绪状态进行综合分析，判断用户是否需要沟通；

所述请求沟通模块用于向用户端和医生终端发送请求沟通指令。

(三)有益效果

与现有技术相比，本发明提供了一种基于环境可视的智能人机交互系统，具备以下有益效果：

1、该基于环境可视的智能人机交互系统，能够对用户的语音和图像都进行采集然后综合分析，并且将语音转换为文字分析过程中，会将文字分为关键字进行单一分析，从而能够明确用户的含义，并且会用户的情绪进行分析，从而判断用户的情绪状态，来做出正确的答复和决策，能够使能使人与智能多媒体设备之间的交互更加智能，便捷交互方式更加的便捷快速。

2、该基于环境可视的智能人机交互系统，在满足人机交互沟通和多媒体功能的同时，本发明增加了医生终端的设计，能够在判断用户情绪的同时，及时的建立医生与用户的沟通桥梁，从而更加智能化和人性化。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明提供以下技术方案：一种基于环境可视的智能人机交互系统，包括用户端、服务器端和医生终端，用户端和医生终端均通过无线网络与服务器端连接。

用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端，还用于为用户播放音视频和进行语音视频通话。

服务器端用于对用户端采集的数据信息进行分析和处理，并制定相应的解决方案，然后将解决方案反馈给用户端，还用于将用户端与医生终端进行连接。

医生终端用于将医生通过无线网络与用户端的用户进行语音视频沟通。

其中用户端和医生终端均为多媒体智能电子设备的一种，如智能手机、智能平板和智能笔记本电脑等；其中服务器端为一个智能云平台引擎；用户端通过将数据传输给服务器端进行分析和决策，并且服务器端储存有海量的数据，用户可以通过用户端将这些数据进行下载、查看和应用；医生终端只是为用户提供一个可以与用户沟通的工具设备。

具体的，用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元。

视频单元用于采集用户的视频。

语音单元用于采集用户的音频和播放音频。

人机交互触摸显示单元用于实现多媒体交互功能。

指纹登录单元用于采集用户指纹数据并传输到控制单元进行处理；

控制单元用于对视频采集单元、语音采集单元、人机交互触摸显示单元和指纹登录单元进行控制，获取视频单元、语音单元、人机交互触摸显示单元和指纹登录单元并分析和处理，并传输给服务器端，接收服务器端的反馈结果并进行处理。

本实施例中，通过视频单元和语音单元将用户的图像信息和语言信息进行采集并通过控制单元传输给服务器端进行分析和决策，然后做出相应的反馈，如可以与用户进行人机交互的智能语音沟通、按照用户的语言文字含义播放音视频或启动某应用等，其中视频单元为高清摄像头，能够获取用户的视频数据，还可以获取用户周围环境数据，其中语音单元包括扬声器和麦克风，一个用于播放音频，一个用于采集音频，从而实现了语音交互；人机交互触摸显示单元是为用户提供多媒体功能，如播放音视频，浏览查阅资源、学习和玩游戏等；指纹登录单元用于用户登入进用户端，通过获取用户的指纹数据并通过控制单元进行比对分析，确定为同一人时，则唤醒人机交互触摸显示单元，从而可以通过用户端进行人机交互操作；控制模块可以对视频单元和语音单元进行智能操控，既保持视频单元一直对焦用户的脸庞，从而更好的捕捉用户的面部表情，可以对语音单元采集的音频进行降噪处理，保证了语音语言含义不会失真。

具体的，服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元。

数据资源单元用于储存用户信息数据、文字数据库、表情数据库和音视频数据库。

语音处理单元用于对用户的语音进行处理并作出决策。

表情分析单元用于对用户的面部表情进行处理并作出决策。

沟通单元用于将用户端与医生终端进行连接。

本实施例中，数据资源单元内储存有海量的数据，包括文字的含义数据、人像表情情绪含义，各种音视频、应用软件和用户数据等，为实现人机交互提供了数据支撑；语音处理单元和表情分析单元都是通过用于对用户进行分析并作出相应的决策；沟通单元用于为用户提供心理辅导和情感的帮助，能够使人机交互更加的人性化和智能化。

具体的，语音处理单元包括语音转换模块、语音检索模块和语音分析模块。

语音转换模块用于将音频转换成文字形式。

语音检索模块用于将文字进行分段，然后按照关键词的形式在数据资源单元内进行检索。

语音分析模块用于将检索出的结果进行分析汇总后生成文字答复或相关指令。

本实施例中，语音转换模块将语音按照拼音的方式转换为文字信息，然后通过语音检索模块将文字信息转化分为独立的字词，从而得到多个字词，并且将多个分词根据所处的文字信息中的组合方式、不同句型中的位置以及语法规律，将其当做关键词在数据资源单元内进行比对查找，然后每个词结合长句进行综合分析，通过语音分析模块将其分析后作出相应决策，如与用户进行正常语音沟通，根据用户含义播放音视频或启动应用等，其中决策的结果传输给控制单元，通过控制单元进行执行。

具体的，表情处理单元包括表情识别模块、表情比对模块和表情分析模块。

表情识别模块用于对用户的表情的进行识别并产生表情数据。

表情比对模块用于将得到的表情数据与数据资源单元内进行比对得到结果。

表情分析模块用于将得到的表情结果进行分析得到用户情绪状态。

本实施例中，通过对表情识别模块将用户的面相按照面相轮廓进行分析识别，将其转换为表情数据，然后通过表情比对模块进行比对，判断出用户此时的情绪状态，然后再结合语音处理模块得出语音含义，可以对用户的情绪状态进行双重判断，从而得出具体用户情绪状态。

具体的，沟通单元包括判断模块和请求沟通模块。

判断模块通过对语音处理单元的文字答复和表情处理单元的用户情绪状态进行综合分析，判断用户是否需要沟通。

请求沟通模块用于向用户端和医生终端发送请求沟通指令。

本实施例中，判断模块来对用户情绪状态进行识别，主要通过与数据资源单元内的数据进行比对，当判断情绪状态不稳定时，需要启动请求沟通模块，使医生与用户能够及时的得到沟通，使用户的情绪和压力得到释放等。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于环境可视的智能人机交互系统，其特征在于：包括用户端、服务器端和医生终端，所述用户端和医生终端均通过无线网络与服务器端连接；

所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端，还用于为用户播放音视频和进行语音视频通话；

所述服务器端用于对用户端采集的数据信息进行分析和处理，并制定相应的解决方案，然后将解决方案反馈给用户端，还用于将用户端与医生终端进行连接；

2.根据权利要求1所述的一种基于环境可视的智能人机交互系统，其特征在于：所述用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元；

所述视频单元用于采集用户的视频；

所述语音单元用于采集用户的音频和播放音频；

所述人机交互触摸显示单元用于实现多媒体交互功能；

3.根据权利要求2所述的一种基于环境可视的智能人机交互系统，其特征在于：所述服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元；

所述语音处理单元用于对用户的语音进行处理并作出决策；

所述沟通单元用于将用户端与医生终端进行连接。

4.根据权利要求3所述的一种基于环境可视的智能人机交互系统，其特征在于：所述语音处理单元包括语音转换模块、语音检索模块和语音分析模块；

所述语音转换模块用于将音频转换成文字形式；

5.根据权利要求4所述的一种基于环境可视的智能人机交互系统，其特征在于：所述表情处理单元包括表情识别模块、表情比对模块和表情分析模块；

6.根据权利要求5所述的一种基于环境可视的智能人机交互系统，其特征在于：所述沟通单元包括判断模块和请求沟通模块；