CN108833941A - 人机交互处理方法、装置、用户终端、处理服务器及系统 - Google Patents

人机交互处理方法、装置、用户终端、处理服务器及系统 Download PDF

Info

Publication number
CN108833941A
CN108833941A CN201810695300.4A CN201810695300A CN108833941A CN 108833941 A CN108833941 A CN 108833941A CN 201810695300 A CN201810695300 A CN 201810695300A CN 108833941 A CN108833941 A CN 108833941A
Authority
CN
China
Prior art keywords
voice
user
expression information
expression
interaction request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810695300.4A
Other languages
English (en)
Inventor
乔爽爽
刘昆
梁阳
林湘粤
韩超
朱名发
郭江亮
李旭
刘俊
李硕
尹世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810695300.4A priority Critical patent/CN108833941A/zh
Publication of CN108833941A publication Critical patent/CN108833941A/zh
Priority to US16/278,679 priority patent/US11282516B2/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Graphics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统,用户终端侧方法包括:接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;向所述用户输出所述交互应答语音。该方法使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。

Description

人机交互处理方法、装置、用户终端、处理服务器及系统
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种人机交互处理方法、装置、用户终端、处理服务器及系统。
背景技术
随着机器人技术的不断发展,机器人的智能程度越来越高,机器人不仅能根据用户的指令完成相应的操作,同时,还能够模拟真人同用户进行交互。其中,基于语音的人机交互是重要的交互手段。在基于语音的人机交互中,用户发出语音指令,机器人根据用户的语音执行相应的操作,并向用户播放回答语音。
现有的基于语音的人机交互场景中,仅支持对回答语音的音色或分贝等进行修改,而在回答语音的感情色彩上,仅支持一种固定的不体现感情色彩的回答语音。
但是,现有技术的这种回答方式过于单调,用户体验不佳。
发明内容
本发明实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统,用于解决现有技术中人机交互的回答语音不带有感情色彩所导致的用户体验不佳的问题。
本发明实施例第一方面提供一种人机交互处理方法,包括:
接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;
获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;
向所述用户输出所述交互应答语音。
进一步的,所述采集获取所述用户输入的交互请求语音时的视频数据,包括:
通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。
进一步的,所述获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的,包括:
向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;
接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
本发明实施例第二方面提供一种人机交互处理方法,包括:
接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;
从所述视频数据中分析得到所述用户的表情信息;
根据所述表情信息以及所述交互请求语音得到交互应答语音;
向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
进一步的,所述从所述视频数据中分析得到所述用户的表情信息,包括:
从所述视频数据中获取关键人脸图像;
对所述关键人脸图像进行表情识别,得到所述用户的表情信息。
进一步的,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:
向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;
接收所述预测模型服务器发送的所述用户的表情信息。
进一步的,所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求,包括:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。
进一步的,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:
将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;
对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。
进一步的,所述根据所述表情信息以及所述交互请求语音得到交互应答语音,包括:
对所述交互请求语音进行语音识别,得到请求语音文本;
根据所述请求语音文本以及所述表情信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
本发明实施例第三方面提供一种人机交互装置,包括:
接收模块,用于接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;
获取模块,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;
输出模块,用于向所述用户输出所述交互应答语音。
进一步的,所述接收模块具体用于:
通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。
进一步的,所述获取模块包括:
发送单元,用于向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;
接收单元,用于接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
本发明实施例第四方面提供一种人机交互装置,包括:
接收模块,用于接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;
分析模块,用于从所述视频数据中分析得到所述用户的表情信息;
处理模块,用于根据所述表情信息以及所述交互请求语音得到交互应答语音;
发送模块,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
进一步的,所述分析模块包括:
获取单元,用于从所述视频数据中获取关键人脸图像;
第一识别单元,用于对所述关键人脸图像进行表情识别,得到所述用户的表情信息。
进一步的,所述第一识别单元具体用于:
向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;
接收所述预测模型服务器发送的所述用户的表情信息。
进一步的,所述第一识别单元具体用于:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。
进一步的,所述第一识别单元具体用于:
将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;
对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。
进一步的,所述处理模块包括:
第二识别单元,用于对所述交互请求语音进行语音识别,得到请求语音文本;
处理单元,用于根据所述请求语音文本以及所述表情信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
本发明实施例第五方面提供一种用户终端,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。
本发明实施例第六方面提供一种处理服务器,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第二方面所述的方法步骤。
本发明实施例第七方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面或者上述第二方面所述的方法步骤。
本发明实施例第八方面提供一种人机交互处理系统,其特征在于,包括上述第五方面所述的用户终端以及上述第六方面所述的处理服务器。
本发明实施例所提供的人机交互处理方法、装置、用户终端、处理服务器及系统,根据用户向用户终端输入交互请求语音时的视频数据,从视频数据中分析出用户的表情信息,进而根据表情信息以及用户输入的交互请求语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人机交互处理方法的应用场景图;
图2为本发明实施例提供的人机交互处理方法涉及的系统架构图;
图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图;
图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图;
图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图;
图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图;
图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图;
图8为本发明实施例提供的人机交互处理方法实施例六五的流程示意图;
图9为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图;
图10为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图;
图11为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图;
图12为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图;
图13为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图;
图14为本发明实施例提供的一种用户终端的实体框图;
图15为本发明实施例提供的一种处理服务器的实体框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有的基于语音的人机交互场景中,机器人的回答语音都是不带有感情色彩的,而人是一种感情动物,因此,真人用户在与机器人交互时,可能带有不同的情绪,在不同的情绪下,用户的表情不尽仅相同。而无论用户以何种表情同机器人交互,机器人的回答语音都不带有感情色彩,这样的处理方式过于单调,导致用户的体验不佳。
本发明实施例基于上述问题,提出一种人机交互处理方法,通过采集用户向机器人输入交互请求语音时的视频数据,从视频数据中分析出用户的表情信息,再根据表情信息以及用户的输入的语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
图1为本发明实施例提供的人机交互处理方法的应用场景图,如图1所示,该方法应用于人机交互场景中,该交互场景涉及用户、用户终端以及处理服务器。其中,该用户为真实的人,该用户终端具体可以为上述的机器人,该用户终端具有采集用户发出的语音以及采集用户的人脸视频功能。当用户向用户终端发出交互请求语音后,由用户终端将采集到的交互请求语音以及用户当前的人脸视频发送给处理服务器,处理服务器再根据交互请求语音以及用户当前的人脸视频确定并向用户终端返回交互应答语音,用户终端再将交互应答语音向用户播放。
图2为本发明实施例提供的人机交互处理方法涉及的系统架构图,如图2所示,该方法涉及用户终端、处理服务器以及预测模型服务器,其中,用户终端与处理服务器的功能以及交互关系如上述图1所述,此处不再赘述。预测模型服务器中加载了预测模型,利用该预测模型,可以根据处理服务器所发送的表情分类请求,得到表情信息并向处理服务器返回表情信息。具体交互过程将在下述实施例中详细说明。
需要说明的是,本发明实施例的处理服务器和预测模型服务器是逻辑上的划分,在具体实施过程中,处理服务器和预测模型服务器也可以部署在同一台物理服务器上,或者部署在不同的物理服务器上,本发明实施例对此不作限制。
本发明实施例以下分别从用户终端以及处理服务器的角度说明本发明实施例的技术方案。
以下为用户终端侧的处理过程。
图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图,该方法的执行主体为上述的用户终端,该用户终端具体可以为机器人,如图3所示,该方法包括:
S301、接收用户输入的交互请求语音,并采集获取该用户输入该交互请求语音时的视频数据。
可选的,用户终端上可以设置麦克风等语音输入装置以及摄像头,用户终端可以通过语音输入装置接收到用户的交互请求语音,并通过摄像头采集用户在输入交互请求语音时的视频数据。
可选的,该视频数据可以是用户的人脸视频,用户终端可以通过调整摄像头角度等方法使得摄像头可以采集到清晰完整的人脸画面。
可选的,上述视频数据可以为持续预设时长的视频。
S302、获取与上述交互请求语音对应的交互应答语音,该交互应答语音是根据上述视频数据中所包含的用户在输入上述交互请求语音时的表情信息得到的。
在一种可选的方式中,用户终端可以通过与处理服务器进行交互,由处理服务器向用户终端提供交互请求语音对应的交互应答语音。
在另一种可选的方式中,也可以由用户终端对交互请求语音进行音色、分贝等特征的分析,确定用户当前的情绪状态,进而选择对应的交互应答语音。
S303、向上述用户输出上述交互应答语音。
可选的,用户终端可以向用户播放所获取到的交互应答语音。
本实施例中,用户终端接收用户输入的交互请求语音,并采集用户在输入教书请求语音时的视频数据,进而,用户终端获取并输出交互应答语音,该交互应答语音是根据视频数据中所包含的用户表情信息得到的,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
在一种可选的实施方式中,用户终端在采集用户输入交互请求语音时的视频数据时,可以通过双目摄像头采集获取用户在输入所述交互请求语音时的视频数据。
在上述实施例的基础上,本实施例涉及用户终端通过与处理服务器交互获取交互应答语音的具体过程。
图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图,如图4所示,上述步骤S302包括:
S401、向处理服务器发送上述交互请求语音以及上述视频数据,以使处理服务器从上述视频数据中分析得到上述用户的表情信息,并根据上述表情信息以及上述交互请求语音得到上述交互应答语音。
S402、接收上述处理服务器反馈的上述交互应答语音。
可选的,用户终端可以通过同一条消息将上述交互请求语音和上述视频数据一同发送给处理服务器,或者,用户终端也可以通过不同的消息分别向处理服务器发送上述交互请求语音和上述视频数据。处理服务器接收到用户终端发送的交互请求语音和视频数据后,会根据视频数据分析出用户当前的表情信息,并根据表情信息生成与交互请求语音对应的交互应答语音,再将交互应答语音发送给用户终端。处理服务器的具体处理过程将在下述实施例中详细说明。
以下为处理服务器侧的处理过程。
图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图,该方法的执行主体为上述的处理服务器,如图5所示,该方法包括:
S501、接收用户终端发送的交互请求语音以及视频数据,该交互请求语音为用户在该用户终端上输入的,该视频数据为该用户终端在用户输入该交互请求语音时采集的。
S502、从上述视频数据中分析得到用户的表情信息。
其中,上述用户的表情信息用于标识用户的情绪。
可选的,上述用户的表情信息可以为用户的表情类型,用户的表情类型例如可以包括喜、怒、哀、乐以及无表情,其中,无表情表示用户当前没有表现出某一种特定的情绪,即没有感情色彩。
S503、根据上述表情信息以及上述交互请求语音得到交互应答语音。
作为一种可选的方式,处理服务器可以根据上述交互请求语音的内容确定交互应答语音的内容,再根据上述表情信息确定交互应答语音的音频特性。
示例性的,用户在用户终端输入的交互请求语音的内容为“谢谢”,则处理服务器根据该内容,确定交互应答语音的内容“不客气”。进而,处理服务器再根据上述表情信息确定“不客气”的音频特性,即具体使用哪一种语调来表达“不客气”这个内容。
作为另一种可选的方式,处理服务器可以同时根据上述表情信息以及上述交互请求语音确定交互应答语音的内容,并根据上述表情信息确定交互应答语音的音频特性。
具体的,针对相同的交互请求语音,在不同的表情信息下所要反馈的交互应答语音的内容并不相同。示例性的,假设用户的交互请求语音为“谢谢”,如果用户在输入该语音时的表情为“喜”,则交互应答语音的内容可以为“感谢您的认可”,如果用户在输入该语音时的表情为“怒”,则交互应答语音的内容可以为“您是否对服务不满意”。进而再继续根据表情信息确定交互应答语音的音频特性。
S504、向上述用户终端发送上述交互应答语音,以使上述用户终端向上述用户播放上述交互应答语音。
本实施例中,处理服务器根据用户向用户终端输入交互请求语音时的视频数据,从视频数据中分析出用户的表情信息,进而根据表情信息以及用户输入的交互请求语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
在上述实施例的基础上,本实施例涉及处理服务器从视频数据中分析得到用户的表情信息的具体方法。
图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图,如图6所示,上述步骤S502包括:
S601、从上述视频数据中获取关键人脸图像。
其中,上述关键人脸图像可以为图像质量较好、清晰度较高以及包含了完整人脸轮廓的图像。
可选的,上述关键人脸图像可以为一幅,也可以为多幅。
S602、对上述关键人脸图像进行表情识别,得到上述用户的表情信息。
在一种可选的方式中,处理服务器可以通过特定的预测模型服务器来进行表情识别。
在另一种可选的方式中,处理服务器也可以通过对关键人脸图像中的关键像素点进行判断来识别表情信息。其中,该关键像素点可以指嘴部或眼部等关键部位所对应的像素点,通过对这些关键像素点的分析可以得出用户当前的表情信息。
在上述实施例的基础上,本实施例涉及通过预测模型服务器进行表情识别的过程。
图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图,如图7所示,上述步骤S602包括:
S701、向预测模型服务器发送包含上述关键人脸图像的表情分类请求,以使该预测模型服务器对上述关键人脸图像进行表情识别,得到上述用户的表情信息。
S702、接收上述预测模型服务器发送的所述用户的表情信息。
可选的,上述预测模型服务器中加载了一个或多个人脸表情识别模型的实例,该人脸表情识别模型可以为卷积神经网络模型,该人脸表情识别模型预先经过大量的全网训练数据进行了训练。并且持续通过新的训练数据进行模型更新。
可选的,上述人脸表情识别模型的输入可以为上述的关键人脸图像,输出可以为该关键人脸图像对应的表情类型信息。示例性的,上述人脸表情识别模型输出的表情类型可以为0,1,2,3,4,5。其中,0代表无感情色彩,1代表喜,2代表怒,3代表哀,4代表乐。
可选的,上述人脸表情识别模型可以由卷积层、池化层、全连层接等组成。其中,卷积层利用权值不同的卷积核对原始的人脸图像或特征图进行扫描卷积,从中提取各种意义的特征,并输出至特征图中。池化层对特征图进行降维操作,保留特征图中的主要特征,从而可以对人脸图像的变形、模糊、光照变化等具有较高的鲁棒性,另外对于分类任务具有更高的可泛化性。
如前所述,上述预测模型服务器中加载了一个或多个人脸表情识别模型的实例。在具体实施过程中,根据实际需要,可以对预测模型服务器的数量以及预测模型服务器上的人脸表情识别模型的数量进行灵活设置。
一种示例中,可以设置一个预测模型服务器,在该预测模型服务器上部署多个人脸表情识别模型的实例。
另一种示例中,可以设置多个预测模型服务器,在每个预测模型服务器上部署一个人脸表情识别模型的实例。
再一种示例中,可以设置多个预测模型服务器,在每个预测模型服务器上部署多个人脸表情识别模型的实例。
可选的,无论采用上述哪一种部署方式,处理服务器在向预测模型服务器发送表情分类请求时,都可以根据负载均衡策略,向存在处理资源的预测模型服务器发送包含上述关键人脸图像的表情分类请求。
示例性的,假设上述第三种示例中的部署方式,则处理服务器首先获取每个预测模型服务器上的每个人脸表情识别模型实例的负载状态,进而,处理服务器选择当前资源占用率最低的预测模型服务器上的状态为空闲的人脸表情识别模型实例。
如前所述,处理服务器从视频数据中获取的关键人脸图像可以为一幅,也可以为多幅。当获取的关键人脸图像为一幅时,直接将该关键人脸图像发送给预测模型服务器以确定该关键人脸图像对应的表情信息。当获取的关键人脸图像为多幅时,可选的,可以将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息,进而,对全部关键人脸图像对应的表情信息进行加权处理,得到用户的表情信息。
示例性的,处理服务器根据每幅关键人脸图像的图像质量等确定每幅关键人脸图像的权值,进而,针对每幅关键人脸图像获取其对应的表情信息,进而,将每幅关键人脸图像对应的表情信息与其对应的权值相乘,并将结果相加,从而得到用户的表情信息。
在上述实施例的基础上,本实施例涉及处理服务器根据表情信息以及交互请求语音得到交互应答语音的过程。
图8为本发明实施例提供的人机交互处理方法实施例六的流程示意图,如图8所示,上述步骤S503包括:
S801、对上述交互请求语音进行语音识别,得到请求语音文本。
S802、根据上述请求语音文本以及上述表情信息,得到交互应答语音。
其中,上述交互应答语音的语音内容与上述表情信息对应,和/或,上述交互应答语音的音频特性与上述表情信息对应。
可选的,处理服务器在接收到上述交互请求语音后,对上述交互请求语音进行转化,得到该交互请求语音对应的请求语音文本。进而,根据得到的请求语音文本以及由上述过程所得到的表情信息,确定交互应答语音。
可选的,可以参照上述步骤S503所述的方式确定交互应答语音,即,一种可选方式下,交互应答语音的音频特性可以与上述表情信息对应,即可以根据表情信息确定交互应答语音的音频特性。另一种可选方式下,交互应答语音的语音内容以及交互应答语音的音频特性都与上述表情信息对应,即可以同时根据上述表情信息以及上述交互请求语音所转化的请求语音文本确定交互应答语音的内容,并根据上述表情信息确定交互应答语音的音频特性。
可选的,处理服务器可以通过预先训练好的表情语音模型确定交互应答语音。示例性的,将上述表情信息以及应答文本输入到该表情语音模型中,其中,应答文本可以根据交互请求文本得到,进而,表情语音模型会输出带有感情色彩的交互应答语音。
图9为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图,如图9所示,该装置包括:
接收模块901,用于接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据。
获取模块902,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的。
输出模块903,用于向所述用户输出所述交互应答语音。
该装置用于实现前述用户终端对应的方法实施例,其实现原理和技术效果类似,此处不再赘述。
进一步的,接收模块901具体用于:
通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。
图10为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图,如图10所示,获取模块902包括:
发送单元9021,用于向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音。
接收单元9022,用于接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
图11为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图,如图11所示,该装置包括:
接收模块1101,用于接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的。
分析模块1102,用于从所述视频数据中分析得到所述用户的表情信息。
处理模块1103,用于根据所述表情信息以及所述交互请求语音得到交互应答语音。
发送模块1104,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
该装置用于实现前述处理服务器对应的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图12为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图,如图12所示,分析模块1102包括:
获取单元11021,用于从所述视频数据中获取关键人脸图像。
第一识别单元11022,用于对所述关键人脸图像进行表情识别,得到所述用户的表情信息。
进一步的,第一识别单元11022具体用于:
向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;
接收所述预测模型服务器发送的所述用户的表情信息。
进一步的,第一识别单元11022具体用于:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。
进一步的,第一识别单元11022具体用于:
将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;
对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。
图13为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图,如图13所示,处理模块1103包括:
第二识别单元11031,用于对所述交互请求语音进行语音识别,得到请求语音文本。
处理单元11032,用于根据所述请求语音文本以及所述表情信息,得到交互应答语音。
其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
图14为本发明实施例提供的一种用户终端的实体框图,如图14所示,该用户终端包括:
存储器1401,用于存储程序指令。
处理器1402,用于调用并执行存储器1401中的程序指令,执行上述方法实施例中用户终端所涉及的方法步骤。
图15为本发明实施例提供的一种处理服务器的实体框图,如图15所示,该处理服务器包括:
存储器1501,用于存储程序指令。
处理器1502,用于调用并执行存储器1501中的程序指令,执行上述方法实施例中处理服务器所涉及的方法步骤。
本发明实施例还提供一种人机交互处理系统,该系统包括上述的用户终端以及上述的处理服务器。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (24)

1.一种人机交互处理方法,其特征在于,包括:
接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;
获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;
向所述用户输出所述交互应答语音。
2.根据权利要求1所述的方法,其特征在于,所述采集获取所述用户输入的交互请求语音时的视频数据,包括:
通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。
3.根据权利要求1或2所述的方法,其特征在于,所述获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的,包括:
向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;
接收所述处理服务器反馈的所述交互应答语音。
4.根据权利要求1或2所述的方法,其特征在于,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
5.一种人机交互处理方法,其特征在于,包括:
接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;
从所述视频数据中分析得到所述用户的表情信息;
根据所述表情信息以及所述交互请求语音得到交互应答语音;
向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
6.根据权利要求5所述的方法,其特征在于,所述从所述视频数据中分析得到所述用户的表情信息,包括:
从所述视频数据中获取关键人脸图像;
对所述关键人脸图像进行表情识别,得到所述用户的表情信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:
向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;
接收所述预测模型服务器发送的所述用户的表情信息。
8.根据权利要求7所述的方法,其特征在于,所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求,包括:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。
9.根据权利要求6-8中任一项所述的方法,其特征在于,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:
将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;
对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。
10.根据权利要求6-8中任一项所述的方法,其特征在于,所述根据所述表情信息以及所述交互请求语音得到交互应答语音,包括:
对所述交互请求语音进行语音识别,得到请求语音文本;
根据所述请求语音文本以及所述表情信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
11.一种人机交互处理装置,其特征在于,包括:
接收模块,用于接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;
获取模块,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;
输出模块,用于向所述用户输出所述交互应答语音。
12.根据权利要求11所述的装置,其特征在于,所述接收模块具体用于:
通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。
13.根据权利要求11或12所述的装置,其特征在于,所述获取模块包括:
发送单元,用于向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;
接收单元,用于接收所述处理服务器反馈的所述交互应答语音。
14.根据权利要求11或12所述的装置,其特征在于,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
15.一种人机交互处理装置,其特征在于,包括:
接收模块,用于接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;
分析模块,用于从所述视频数据中分析得到所述用户的表情信息;
处理模块,用于根据所述表情信息以及所述交互请求语音得到交互应答语音;
发送模块,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
16.根据权利要求15所述的装置,其特征在于,所述分析模块包括:
获取单元,用于从所述视频数据中获取关键人脸图像;
第一识别单元,用于对所述关键人脸图像进行表情识别,得到所述用户的表情信息。
17.根据权利要求16所述的装置,其特征在于,所述第一识别单元具体用于:
向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;
接收所述预测模型服务器发送的所述用户的表情信息。
18.根据权利要求17所述的装置,其特征在于,所述第一识别单元具体用于:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。
19.根据权利要求16-18任一项所述的装置,其特征在于,所述第一识别单元具体用于:
将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;
对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。
20.根据权利要求16-18任一项所述的装置,其特征在于,所述处理模块包括:
第二识别单元,用于对所述交互请求语音进行语音识别,得到请求语音文本;
处理单元,用于根据所述请求语音文本以及所述表情信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。
21.一种用户终端,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行权利要求1-4任一项所述的方法步骤。
22.一种处理服务器,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行权利要求5-10任一项所述的方法步骤。
23.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1-4任一项或者权利要求5-10任一项所述的方法步骤。
24.一种人机交互处理系统,其特征在于,包括权利要求21所述的用户终端以及权利要求22所述的处理服务器。
CN201810695300.4A 2018-06-29 2018-06-29 人机交互处理方法、装置、用户终端、处理服务器及系统 Pending CN108833941A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810695300.4A CN108833941A (zh) 2018-06-29 2018-06-29 人机交互处理方法、装置、用户终端、处理服务器及系统
US16/278,679 US11282516B2 (en) 2018-06-29 2019-02-18 Human-machine interaction processing method and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810695300.4A CN108833941A (zh) 2018-06-29 2018-06-29 人机交互处理方法、装置、用户终端、处理服务器及系统

Publications (1)

Publication Number Publication Date
CN108833941A true CN108833941A (zh) 2018-11-16

Family

ID=64134147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810695300.4A Pending CN108833941A (zh) 2018-06-29 2018-06-29 人机交互处理方法、装置、用户终端、处理服务器及系统

Country Status (2)

Country Link
US (1) US11282516B2 (zh)
CN (1) CN108833941A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN110349577A (zh) * 2019-06-19 2019-10-18 深圳前海达闼云端智能科技有限公司 人机交互方法、装置、存储介质及电子设备
CN110931006A (zh) * 2019-11-26 2020-03-27 深圳壹账通智能科技有限公司 基于情感分析的智能问答方法及相关设备
CN111292737A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 语音交互及语音唤醒检测方法、装置、设备及存储介质
CN111383642A (zh) * 2018-12-27 2020-07-07 Tcl集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
CN111435268A (zh) * 2019-01-11 2020-07-21 合肥虹慧达科技有限公司 基于图像的识别与重建的人机交互方法和使用该方法的系统及装置
CN111722702A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 人机交互方法及系统、介质和计算机系统
CN111883127A (zh) * 2020-07-29 2020-11-03 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN112633110A (zh) * 2020-12-16 2021-04-09 中国联合网络通信集团有限公司 数据处理方法和装置
WO2023137922A1 (zh) * 2022-01-18 2023-07-27 平安科技(深圳)有限公司 语音消息生成方法和装置、计算机设备、存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11228683B2 (en) * 2019-12-06 2022-01-18 At&T Intellectual Property I, L.P. Supporting conversations between customers and customer service agents
CN111327772B (zh) * 2020-02-25 2021-09-17 广州腾讯科技有限公司 进行自动语音应答处理的方法、装置、设备及存储介质
CN111368685B (zh) * 2020-02-27 2023-09-29 北京字节跳动网络技术有限公司 关键点的识别方法、装置、可读介质和电子设备
CN111273833B (zh) * 2020-03-25 2022-02-01 北京百度网讯科技有限公司 人机交互的控制方法、装置和系统、电子设备
US20220148706A1 (en) * 2020-11-11 2022-05-12 David A. Godwin, SR. Mirror Image Apps Device, Software and System, and Methods of Operating Same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055662A (zh) * 2016-06-02 2016-10-26 竹间智能科技(上海)有限公司 基于情感的智能对话方法及系统
CN106373569A (zh) * 2016-09-06 2017-02-01 北京地平线机器人技术研发有限公司 语音交互装置和方法
CN106503786A (zh) * 2016-10-11 2017-03-15 北京光年无限科技有限公司 用于智能机器人的多模态交互方法和装置
CN107301168A (zh) * 2017-06-01 2017-10-27 深圳市朗空亿科科技有限公司 智能机器人及其情绪交互方法、系统
CN107609511A (zh) * 2017-09-11 2018-01-19 广东欧珀移动通信有限公司 信息交互方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768313B2 (en) * 2009-08-17 2014-07-01 Digimarc Corporation Methods and systems for image or audio recognition processing
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US10045737B2 (en) * 2015-06-14 2018-08-14 Facense Ltd. Clip-on device with inward-facing cameras
US10949461B2 (en) * 2016-04-18 2021-03-16 International Business Machines Corporation Composable templates for managing disturbing image and sounds
WO2017189559A1 (en) * 2016-04-26 2017-11-02 Taechyon Robotics Corporation Multiple interactive personalities robot
US10051344B2 (en) * 2016-09-27 2018-08-14 Clarifai, Inc. Prediction model training via live stream concept association
US9812151B1 (en) * 2016-11-18 2017-11-07 IPsoft Incorporated Generating communicative behaviors for anthropomorphic virtual agents based on user's affect
US10586131B2 (en) * 2017-07-11 2020-03-10 International Business Machines Corporation Multimedia conferencing system for determining participant engagement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055662A (zh) * 2016-06-02 2016-10-26 竹间智能科技(上海)有限公司 基于情感的智能对话方法及系统
CN106373569A (zh) * 2016-09-06 2017-02-01 北京地平线机器人技术研发有限公司 语音交互装置和方法
CN106503786A (zh) * 2016-10-11 2017-03-15 北京光年无限科技有限公司 用于智能机器人的多模态交互方法和装置
CN107301168A (zh) * 2017-06-01 2017-10-27 深圳市朗空亿科科技有限公司 智能机器人及其情绪交互方法、系统
CN107609511A (zh) * 2017-09-11 2018-01-19 广东欧珀移动通信有限公司 信息交互方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292737A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 语音交互及语音唤醒检测方法、装置、设备及存储介质
CN111383642A (zh) * 2018-12-27 2020-07-07 Tcl集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
CN111383642B (zh) * 2018-12-27 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
CN111435268A (zh) * 2019-01-11 2020-07-21 合肥虹慧达科技有限公司 基于图像的识别与重建的人机交互方法和使用该方法的系统及装置
CN111722702A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 人机交互方法及系统、介质和计算机系统
WO2020192247A1 (zh) * 2019-03-22 2020-10-01 北京京东尚科信息技术有限公司 人机交互方法及系统、介质和计算机系统
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110349577A (zh) * 2019-06-19 2019-10-18 深圳前海达闼云端智能科技有限公司 人机交互方法、装置、存储介质及电子设备
CN110931006A (zh) * 2019-11-26 2020-03-27 深圳壹账通智能科技有限公司 基于情感分析的智能问答方法及相关设备
CN111883127A (zh) * 2020-07-29 2020-11-03 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN112633110A (zh) * 2020-12-16 2021-04-09 中国联合网络通信集团有限公司 数据处理方法和装置
CN112633110B (zh) * 2020-12-16 2024-02-13 中国联合网络通信集团有限公司 数据处理方法和装置
WO2023137922A1 (zh) * 2022-01-18 2023-07-27 平安科技(深圳)有限公司 语音消息生成方法和装置、计算机设备、存储介质

Also Published As

Publication number Publication date
US11282516B2 (en) 2022-03-22
US20200005781A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
CN108833941A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
CN107203953B (zh) 一种基于互联网、表情识别和语音识别的教学系统及其实现方法
CN109637207B (zh) 一种学前教育互动教学装置及教学方法
CN109176535B (zh) 基于智能机器人的交互方法及系统
US11741949B2 (en) Real-time video conference chat filtering using machine learning models
CN111290568A (zh) 交互方法、装置及计算机设备
CN110418095A (zh) 虚拟场景的处理方法、装置、电子设备及存储介质
CN110992222A (zh) 教学交互方法、装置、终端设备及存储介质
CN108986804A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
KR101375119B1 (ko) 모의 면접 방법 및 모의 면접 방법을 모바일 단말에서 실행할 수 있는 애플리케이션으로 기록한 기록매체
CN113377200B (zh) 基于vr技术的交互式培训方法及装置、存储介质
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质
CN111629222B (zh) 一种视频处理方法、设备及存储介质
CN110767005A (zh) 基于儿童专用智能设备的数据处理方法及系统
CN113257060A (zh) 一种答疑解决方法、装置、设备和存储介质
WO2022193635A1 (zh) 客服服务系统、方法、装置、电子设备及存储介质
CN114048299A (zh) 对话方法、装置、设备、计算机可读存储介质及程序产品
CN117635383A (zh) 一种虚拟导师与多人协作口才培训系统、方法及设备
US20220385700A1 (en) System and Method for an Interactive Digitally Rendered Avatar of a Subject Person
US11582424B1 (en) System and method for an interactive digitally rendered avatar of a subject person
CN112712738B (zh) 学生显示处理方法和装置、电子装置
JP7418106B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN114461772A (zh) 数字人交互系统及其方法、装置、计算机可读存储介质
CN116843805B (zh) 一种包含行为的虚拟形象生成方法、装置、设备及介质
CN109948153A (zh) 一种涉及视频和音频多媒体信息处理的人机交流系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116