CN110853765A - 一种基于环境可视的智能人机交互系统 - Google Patents

一种基于环境可视的智能人机交互系统 Download PDF

Info

Publication number
CN110853765A
CN110853765A CN201911072525.5A CN201911072525A CN110853765A CN 110853765 A CN110853765 A CN 110853765A CN 201911072525 A CN201911072525 A CN 201911072525A CN 110853765 A CN110853765 A CN 110853765A
Authority
CN
China
Prior art keywords
unit
user
voice
video
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911072525.5A
Other languages
English (en)
Inventor
刘召义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu I-Front Science & Technology Co Ltd
Original Assignee
Jiangsu I-Front Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu I-Front Science & Technology Co Ltd filed Critical Jiangsu I-Front Science & Technology Co Ltd
Priority to CN201911072525.5A priority Critical patent/CN110853765A/zh
Publication of CN110853765A publication Critical patent/CN110853765A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明属于人机交互技术领域,尤其为一种基于环境可视的智能人机交互系统,包括用户端、服务器端和医生终端,所述用户端和医生终端均通过无线网络与服务器端连接;所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端,还用于为用户播放音视频和进行语音视频通话。本发明能够对用户的语音和图像都进行采集然后综合分析,并且将语音转换为文字分析过程中,会将文字分为关键字进行单一分析,从而能够明确用户的含义,并且会用户的情绪进行分析,从而判断用户的情绪状态,来做出正确的答复和决策,能够使能使人与智能多媒体设备之间的交互更加智能,便捷交互方式更加的便捷快速。

Description

一种基于环境可视的智能人机交互系统
技术领域
本发明涉及人机交互技术技术领域,具体为一种基于环境可视的智能人机交互系统。
背景技术
随着人工智能的不断发展,智能的人机交互系统也得到广泛的应用和普及,如苹果公司的“SIRI”、小米公司的“小爱同学”和目前正处发展研究的“AI”,都在不断的推荐人类的科技进步和改善人们的生活。
目前的人机交互系统还比较单一,如应用在多媒体智能电子产品上的人机交互,人可以解放双手,使用语言驱动的方式发出指令,从而控制手机做出相应的操作,同时智能手机还可以与人进行简单的文字答复,但是由于语言由于语音识别存在一定的误差以及口语交流过程中用户意图往往存在一定模糊性,人机自然语言交互是一种非精确的信息交互,因此多媒体智能电子产品无法对语言含义进行深刻的理解,从而无法做出正确的答复和决策,同时目前的人机交互过程中,只是对语言进行采集,而且没有对用户的情绪进行采集分析,因此做出的答复和决策的不完善。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于环境可视的智能人机交互系统,解决了上述背景技术中提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于环境可视的智能人机交互系统,包括用户端、服务器端和医生终端,所述用户端和医生终端均通过无线网络与服务器端连接。
所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端,还用于为用户播放音视频和进行语音视频通话。
所述服务器端用于对用户端采集的数据信息进行分析和处理,并制定相应的解决方案,然后将解决方案反馈给用户端,还用于将用户端与医生终端进行连接。
所述医生终端用于将医生通过无线网络与用户端的用户进行语音视频沟通。
作为本发明的一种优选技术方案,所述用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元;
所述视频单元用于采集用户的视频;
所述语音单元用于采集用户的音频和播放音频;
所述人机交互触摸显示单元用于实现多媒体交互功能;
所述指纹登录单元用于采集用户指纹数据并传输到控制单元进行处理;
所述控制单元用于对视频采集单元、语音采集单元、人机交互触摸显示单元和指纹登录单元进行控制,获取视频单元、语音单元、人机交互触摸显示单元和指纹登录单元并分析和处理,并传输给服务器端,接收服务器端的反馈结果并进行处理。
作为本发明的一种优选技术方案,所述服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元;
所述数据资源单元用于储存用户信息数据、文字数据库、表情数据库和音视频数据库;
所述语音处理单元用于对用户的语音进行处理并作出决策;
所述表情分析单元用于对用户的面部表情进行处理并作出决策;
所述沟通单元用于将用户端与医生终端进行连接。
作为本发明的一种优选技术方案,所述语音处理单元包括语音转换模块、语音检索模块和语音分析模块;
所述语音转换模块用于将音频转换成文字形式;
所述语音检索模块用于将文字进行分段,然后按照关键词的形式在数据资源单元内进行检索;
所述语音分析模块用于将检索出的结果进行分析汇总后生成文字答复或相关指令。
作为本发明的一种优选技术方案,所述表情处理单元包括表情识别模块、表情比对模块和表情分析模块;
所述表情识别模块用于对用户的表情的进行识别并产生表情数据;
所述表情比对模块用于将得到的表情数据与数据资源单元内进行比对得到结果;
所述表情分析模块用于将得到的表情结果进行分析得到用户情绪状态。
作为本发明的一种优选技术方案,所述沟通单元包括判断模块和请求沟通模块;
所述判断模块通过对语音处理单元的文字答复和表情处理单元的用户情绪状态进行综合分析,判断用户是否需要沟通;
所述请求沟通模块用于向用户端和医生终端发送请求沟通指令。
(三)有益效果
与现有技术相比,本发明提供了一种基于环境可视的智能人机交互系统,具备以下有益效果:
1、该基于环境可视的智能人机交互系统,能够对用户的语音和图像都进行采集然后综合分析,并且将语音转换为文字分析过程中,会将文字分为关键字进行单一分析,从而能够明确用户的含义,并且会用户的情绪进行分析,从而判断用户的情绪状态,来做出正确的答复和决策,能够使能使人与智能多媒体设备之间的交互更加智能,便捷交互方式更加的便捷快速。
2、该基于环境可视的智能人机交互系统,在满足人机交互沟通和多媒体功能的同时,本发明增加了医生终端的设计,能够在判断用户情绪的同时,及时的建立医生与用户的沟通桥梁,从而更加智能化和人性化。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明提供以下技术方案:一种基于环境可视的智能人机交互系统,包括用户端、服务器端和医生终端,用户端和医生终端均通过无线网络与服务器端连接。
用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端,还用于为用户播放音视频和进行语音视频通话。
服务器端用于对用户端采集的数据信息进行分析和处理,并制定相应的解决方案,然后将解决方案反馈给用户端,还用于将用户端与医生终端进行连接。
医生终端用于将医生通过无线网络与用户端的用户进行语音视频沟通。
其中用户端和医生终端均为多媒体智能电子设备的一种,如智能手机、智能平板和智能笔记本电脑等;其中服务器端为一个智能云平台引擎;用户端通过将数据传输给服务器端进行分析和决策,并且服务器端储存有海量的数据,用户可以通过用户端将这些数据进行下载、查看和应用;医生终端只是为用户提供一个可以与用户沟通的工具设备。
具体的,用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元。
视频单元用于采集用户的视频。
语音单元用于采集用户的音频和播放音频。
人机交互触摸显示单元用于实现多媒体交互功能。
指纹登录单元用于采集用户指纹数据并传输到控制单元进行处理;
控制单元用于对视频采集单元、语音采集单元、人机交互触摸显示单元和指纹登录单元进行控制,获取视频单元、语音单元、人机交互触摸显示单元和指纹登录单元并分析和处理,并传输给服务器端,接收服务器端的反馈结果并进行处理。
本实施例中,通过视频单元和语音单元将用户的图像信息和语言信息进行采集并通过控制单元传输给服务器端进行分析和决策,然后做出相应的反馈,如可以与用户进行人机交互的智能语音沟通、按照用户的语言文字含义播放音视频或启动某应用等,其中视频单元为高清摄像头,能够获取用户的视频数据,还可以获取用户周围环境数据,其中语音单元包括扬声器和麦克风,一个用于播放音频,一个用于采集音频,从而实现了语音交互;人机交互触摸显示单元是为用户提供多媒体功能,如播放音视频,浏览查阅资源、学习和玩游戏等;指纹登录单元用于用户登入进用户端,通过获取用户的指纹数据并通过控制单元进行比对分析,确定为同一人时,则唤醒人机交互触摸显示单元,从而可以通过用户端进行人机交互操作;控制模块可以对视频单元和语音单元进行智能操控,既保持视频单元一直对焦用户的脸庞,从而更好的捕捉用户的面部表情,可以对语音单元采集的音频进行降噪处理,保证了语音语言含义不会失真。
具体的,服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元。
数据资源单元用于储存用户信息数据、文字数据库、表情数据库和音视频数据库。
语音处理单元用于对用户的语音进行处理并作出决策。
表情分析单元用于对用户的面部表情进行处理并作出决策。
沟通单元用于将用户端与医生终端进行连接。
本实施例中,数据资源单元内储存有海量的数据,包括文字的含义数据、人像表情情绪含义,各种音视频、应用软件和用户数据等,为实现人机交互提供了数据支撑;语音处理单元和表情分析单元都是通过用于对用户进行分析并作出相应的决策;沟通单元用于为用户提供心理辅导和情感的帮助,能够使人机交互更加的人性化和智能化。
具体的,语音处理单元包括语音转换模块、语音检索模块和语音分析模块。
语音转换模块用于将音频转换成文字形式。
语音检索模块用于将文字进行分段,然后按照关键词的形式在数据资源单元内进行检索。
语音分析模块用于将检索出的结果进行分析汇总后生成文字答复或相关指令。
本实施例中,语音转换模块将语音按照拼音的方式转换为文字信息,然后通过语音检索模块将文字信息转化分为独立的字词,从而得到多个字词,并且将多个分词根据所处的文字信息中的组合方式、不同句型中的位置以及语法规律,将其当做关键词在数据资源单元内进行比对查找,然后每个词结合长句进行综合分析,通过语音分析模块将其分析后作出相应决策,如与用户进行正常语音沟通,根据用户含义播放音视频或启动应用等,其中决策的结果传输给控制单元,通过控制单元进行执行。
具体的,表情处理单元包括表情识别模块、表情比对模块和表情分析模块。
表情识别模块用于对用户的表情的进行识别并产生表情数据。
表情比对模块用于将得到的表情数据与数据资源单元内进行比对得到结果。
表情分析模块用于将得到的表情结果进行分析得到用户情绪状态。
本实施例中,通过对表情识别模块将用户的面相按照面相轮廓进行分析识别,将其转换为表情数据,然后通过表情比对模块进行比对,判断出用户此时的情绪状态,然后再结合语音处理模块得出语音含义,可以对用户的情绪状态进行双重判断,从而得出具体用户情绪状态。
具体的,沟通单元包括判断模块和请求沟通模块。
判断模块通过对语音处理单元的文字答复和表情处理单元的用户情绪状态进行综合分析,判断用户是否需要沟通。
请求沟通模块用于向用户端和医生终端发送请求沟通指令。
本实施例中,判断模块来对用户情绪状态进行识别,主要通过与数据资源单元内的数据进行比对,当判断情绪状态不稳定时,需要启动请求沟通模块,使医生与用户能够及时的得到沟通,使用户的情绪和压力得到释放等。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于环境可视的智能人机交互系统,其特征在于:包括用户端、服务器端和医生终端,所述用户端和医生终端均通过无线网络与服务器端连接;
所述用户端用于采集用户的视频和语音数据信息并通过网络传输给服务器端,还用于为用户播放音视频和进行语音视频通话;
所述服务器端用于对用户端采集的数据信息进行分析和处理,并制定相应的解决方案,然后将解决方案反馈给用户端,还用于将用户端与医生终端进行连接;
所述医生终端用于将医生通过无线网络与用户端的用户进行语音视频沟通。
2.根据权利要求1所述的一种基于环境可视的智能人机交互系统,其特征在于:所述用户端包括视频单元、语音单元、人机交互触摸显示单元、指纹登录单元和控制单元;
所述视频单元用于采集用户的视频;
所述语音单元用于采集用户的音频和播放音频;
所述人机交互触摸显示单元用于实现多媒体交互功能;
所述指纹登录单元用于采集用户指纹数据并传输到控制单元进行处理;
所述控制单元用于对视频采集单元、语音采集单元、人机交互触摸显示单元和指纹登录单元进行控制,获取视频单元、语音单元、人机交互触摸显示单元和指纹登录单元并分析和处理,并传输给服务器端,接收服务器端的反馈结果并进行处理。
3.根据权利要求2所述的一种基于环境可视的智能人机交互系统,其特征在于:所述服务器端包括数据资源单元、语言处理单元、表情处理单元和沟通单元;
所述数据资源单元用于储存用户信息数据、文字数据库、表情数据库和音视频数据库;
所述语音处理单元用于对用户的语音进行处理并作出决策;
所述表情分析单元用于对用户的面部表情进行处理并作出决策;
所述沟通单元用于将用户端与医生终端进行连接。
4.根据权利要求3所述的一种基于环境可视的智能人机交互系统,其特征在于:所述语音处理单元包括语音转换模块、语音检索模块和语音分析模块;
所述语音转换模块用于将音频转换成文字形式;
所述语音检索模块用于将文字进行分段,然后按照关键词的形式在数据资源单元内进行检索;
所述语音分析模块用于将检索出的结果进行分析汇总后生成文字答复或相关指令。
5.根据权利要求4所述的一种基于环境可视的智能人机交互系统,其特征在于:所述表情处理单元包括表情识别模块、表情比对模块和表情分析模块;
所述表情识别模块用于对用户的表情的进行识别并产生表情数据;
所述表情比对模块用于将得到的表情数据与数据资源单元内进行比对得到结果;
所述表情分析模块用于将得到的表情结果进行分析得到用户情绪状态。
6.根据权利要求5所述的一种基于环境可视的智能人机交互系统,其特征在于:所述沟通单元包括判断模块和请求沟通模块;
所述判断模块通过对语音处理单元的文字答复和表情处理单元的用户情绪状态进行综合分析,判断用户是否需要沟通;
所述请求沟通模块用于向用户端和医生终端发送请求沟通指令。
CN201911072525.5A 2019-11-05 2019-11-05 一种基于环境可视的智能人机交互系统 Pending CN110853765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911072525.5A CN110853765A (zh) 2019-11-05 2019-11-05 一种基于环境可视的智能人机交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072525.5A CN110853765A (zh) 2019-11-05 2019-11-05 一种基于环境可视的智能人机交互系统

Publications (1)

Publication Number Publication Date
CN110853765A true CN110853765A (zh) 2020-02-28

Family

ID=69598535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072525.5A Pending CN110853765A (zh) 2019-11-05 2019-11-05 一种基于环境可视的智能人机交互系统

Country Status (1)

Country Link
CN (1) CN110853765A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732468A (zh) * 2015-04-08 2015-06-24 南京吉星兆健康信息咨询有限公司 一种基于移动互联的远程医疗系统
JP2017146914A (ja) * 2016-02-19 2017-08-24 株式会社Mediplat 情報処理装置
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN107943272A (zh) * 2016-10-12 2018-04-20 深圳大森智能科技有限公司 一种智能交互系统
US20180289334A1 (en) * 2017-04-05 2018-10-11 doc.ai incorporated Image-based system and method for predicting physiological parameters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732468A (zh) * 2015-04-08 2015-06-24 南京吉星兆健康信息咨询有限公司 一种基于移动互联的远程医疗系统
JP2017146914A (ja) * 2016-02-19 2017-08-24 株式会社Mediplat 情報処理装置
CN107943272A (zh) * 2016-10-12 2018-04-20 深圳大森智能科技有限公司 一种智能交互系统
US20180289334A1 (en) * 2017-04-05 2018-10-11 doc.ai incorporated Image-based system and method for predicting physiological parameters
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置

Similar Documents

Publication Publication Date Title
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
JP2019102063A (ja) ページ制御方法および装置
WO2017112813A1 (en) Multi-lingual virtual personal assistant
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN111933115A (zh) 语音识别方法、装置、设备以及存储介质
CN109871807B (zh) 人脸图像处理方法和装置
CN109101663A (zh) 一种基于互联网的机器人对话系统
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN107564526A (zh) 处理方法、装置和机器可读介质
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
WO2021139486A1 (zh) 文本增量方法、装置及终端设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
WO2023246558A1 (zh) 语义理解方法、装置、介质及设备
CN115798459B (zh) 音频处理方法、装置、存储介质及电子设备
CN114708849A (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN112261321B (zh) 字幕处理方法、装置及电子设备
CN111723783B (zh) 一种内容识别方法和相关装置
CN110853765A (zh) 一种基于环境可视的智能人机交互系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228

RJ01 Rejection of invention patent application after publication