CN108897848A - 机器人互动方法、装置及设备 - Google Patents

机器人互动方法、装置及设备 Download PDF

Info

Publication number
CN108897848A
CN108897848A CN201810686130.3A CN201810686130A CN108897848A CN 108897848 A CN108897848 A CN 108897848A CN 201810686130 A CN201810686130 A CN 201810686130A CN 108897848 A CN108897848 A CN 108897848A
Authority
CN
China
Prior art keywords
user
modeled
session
feedback information
interactive object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810686130.3A
Other languages
English (en)
Inventor
戴俊
刘瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810686130.3A priority Critical patent/CN108897848A/zh
Publication of CN108897848A publication Critical patent/CN108897848A/zh
Priority to US16/396,142 priority patent/US11551673B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种机器人互动方法、装置及设备,其中,方法包括:获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图;根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息;将反馈信息合成被模拟用户的声音播放给交互对象。由此,实现了机器人对特定人物的高度仿真,提高了机器人互动的自由度和智能化程度。

Description

机器人互动方法、装置及设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种机器人互动方法、装置及设备。
背景技术
人工智能(Artificial Intelligence,简称AI)。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
相关技术中,存在把一定生物特征用于某个特定场景下的机器人,例如高德地图的林志玲声音导航,通过语音合成技术为用户提供导航服务,再例如一些家庭陪伴机器人,可以录制父母的声音给孩子讲故事等,这类机器人互动能力有限,目前缺少一种能模拟特定人物与交互对象进行高自由度互动的机器人。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种机器人互动方法,通过在声音、对话方式、知识库上高度模仿被模拟用户,实现了机器人对特定人物的高度仿真,并且,通过智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,提高了机器人互动的自由度和智能化程度。
本发明的另一个目的在于提出一种机器人互动装置。
本发明的另一个目的在于提出一种电子设备。
本发明的又一个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种机器人互动方法,包括:
获取交互对象输入的语音信息,对所述语音信息进行语义识别获取会话意图;
根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息;
将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象。
本发明实施例的机器人互动方法,通过获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图,进而根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息,进一步将反馈信息合成被模拟用户的声音播放给交互对象。由此,通过在声音、对话方式、知识库上高度模仿被模拟用户,实现了机器人对特定人物的高度仿真,并且,通过智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,提高了机器人互动的自由度和智能化程度。
另外,根据本发明上述实施例的机器人互动方法还可以具有如下附加技术特征:
可选地,所述根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息,包括:根据所述会话意图查询所述会话场景知识库获知查询路径;若所述查询路径显示预置路径,则查询所述被模拟用户预先配置的与用户特征相关的结构化知识,和/或,富媒体知识,获取与所述会话意图对应的反馈信息。
可选地,在所述根据所述会话意图查询所述会话场景知识库获知查询路径之后,还包括:若所述查询路径显示外接路径,则查询所述被模拟用户预先配置的与所述会话意图对应的第三方应用接口,或,搜索引擎,获取与所述会话意图对应的反馈信息。
可选地,所述将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象,包括:查询所述被模拟用户预先录制的固定场景声音库,获取所述反馈信息的音频文件,播放给所述交互对象。
可选地,所述将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象,包括:查询所述被模拟用户预先训练的会话场景声音库,合成所述反馈信息的音频文件,播放给所述交互对象。
可选地,所述的方法还包括:获取虚拟现实场景交互指令;调用所述被模拟用户预先绘制的用户3D模型,向所述交互对象展示所述被模拟用户。
可选地,所述的方法还包括:向所述被模拟用户上报与所述交互对象的多轮对话交互情况;接收所述被模拟用户发送的接管指令,停止与所述交互对象的交互行为。
为达上述目的,本发明第二方面实施例提出了一种机器人互动装置,包括:
第一获取模块,用于获取交互对象输入的语音信息,对所述语音信息进行语义识别获取会话意图;
第二获取模块,用于根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息;
处理模块,用于将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象。
本发明实施例的机器人互动装置,通过获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图,进而根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息,进一步将反馈信息合成被模拟用户的声音播放给交互对象。由此,通过在声音、对话方式、知识库上高度模仿被模拟用户,实现了机器人对特定人物的高度仿真,并且,通过智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,提高了机器人互动的自由度和智能化程度。
另外,根据本发明上述实施例的机器人互动装置还可以具有如下附加技术特征:
可选地,所述第二获取模块具体用于:根据所述会话意图查询所述会话场景知识库获知查询路径;若所述查询路径显示预置路径,则查询所述被模拟用户预先配置的与用户特征相关的结构化知识,和/或,富媒体知识,获取与所述会话意图对应的反馈信息。
可选地,所述第二获取模块具体用于:若所述查询路径显示外接路径,则查询所述被模拟用户预先配置的与所述会话意图对应的第三方应用接口,或,搜索引擎,获取与所述会话意图对应的反馈信息。
可选地,所述处理模块具体用于:查询所述被模拟用户预先录制的固定场景声音库,获取所述反馈信息的音频文件,播放给所述交互对象。
可选地,所述处理模块具体用于:查询所述被模拟用户预先训练的会话场景声音库,合成所述反馈信息的音频文件,播放给所述交互对象。
可选地,所述的装置还包括:展示模块,用于获取虚拟现实场景交互指令;调用所述被模拟用户预先绘制的用户3D模型,向所述交互对象展示所述被模拟用户。
可选地,所述的装置还包括:接管模块,用于向所述被模拟用户上报与所述交互对象的多轮对话交互情况;接收所述被模拟用户发送的接管指令,停止与所述交互对象的交互行为。
为达上述目的,本发明第三方面实施例提出了一种电子设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的机器人互动方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面实施例所述的机器人互动方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种机器人互动方法的流程示意图;
图2为本发明实施例所提供的另一种机器人互动方法的流程示意图;
图3为本发明实施例所提供的一种机器人互动实际应用示意图;
图4为本发明实施例所提供的一种机器人互动装置的结构示意图;
图5为本发明实施例所提供的另一种机器人互动装置的结构示意图;
图6示出了适于用来实现本发明实施例的示例性电子设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的机器人互动方法、装置及设备。
图1为本发明实施例所提供的一种机器人互动方法的流程示意图,如图1所示,该机器人互动方法包括:
步骤101,获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图。
本发明实施例中,机器人与交互对象进行互动时,需要获取交互对象输入的语音信息,进而根据语音信息获取会话意图。
在本发明的一个实施例中,可以通过语音识别技术获取交互对象输入的语音信息。例如,可以预先训练语音识别模型,进而,通过接收交互对象输入的语音信号并提取相应的特征信息,进一步将特征信息输入到语音识别模型中进行匹配,从而获取交互对象输入的语音信息。
进而,在获取交互对象输入的语音信息之后,可以对语音信息进行语义识别获取会话意图。
在本发明的一个实施例中,可以通过自然语言处理技术,对语音信息进行识别和分析,从而获取会话意图。例如,对语音信息“你好”进行语义识别,获取会话意图为问候。
在本发明的一个实施例中,还可以根据会话场景,针对性的训练语义识别模型,进而根据语义识别模型对语音信息进行识别和分析,从而获取会话意图。例如,会话场景为教学场景时,可以根据教学场景获取相应的训练样本数据,对语义识别模型进行训练,进而机器人在教学场景与交互对象互进行互动时,可以根据相应的语义识别模型对语音信息进行识别和分析,从而获取会话意图。由此,减少了训练模型的运算量,提高了产品的个性化程度。
其中,语音识别模型、语义识别模型可以为深度学习模型。
需要说明的是,上述对语音信息进行语义识别获取会话意图的方式仅仅是示例性的,可以根据其中一种方式获取会话意图,也可以结合多种方式获取会话意图,此处不作限制。
步骤102,根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息。
在本发明的一个实施例中,可以在设备本地或者云服务器预先配置会话场景知识库,将相关知识存储在会话场景知识库中,进而,在机器人与交互对象进行互动时,根据会话意图对会话场景知识库中的知识进行检索,进一步根据检索到的知识生成反馈信息。
例如,在教学场景中,可以将课程内容、教学动画等存储在教学场景知识库中,进而,在机器人模仿教师与学生进行授课答疑互动时,获取学生输入的语音信息并进行语义识别,以获取学生的会话意图,进而根据会话意图对教学场景知识库中的课程内容进行检索,进一步根据检索到的课程内容生成反馈信息。
其中,相关知识可以由被模拟用户自行设置。相关知识的格式可以为文本、图片、视频等,此处不作限制。
在本发明的一个实施例中,为了高度模仿被模拟用户,还可以将被模拟用户的对话数据作为样本数据,训练对话模型。进而,在获取会话意图之后,根据被模拟用户预先配置的会话场景知识库,结合预先训练好的对话模型,获取与会话意图对应的反馈信息,从而使得机器人可以模仿被模拟用户的对话方式与交互对象互动。
需要说明的是,可以根据样本数据训练对话模型,也可以由被模拟用户直接进行对话配置。
步骤103,将反馈信息合成被模拟用户的声音播放给交互对象。
在本发明的一个实施例中,可以针对会话场景,预先录制被模拟用户的语音音频文件,并存储在固定场景声音库中,以支持固定场景的互动。进而,在机器人与交互对象进行固定场景互动时,查询被模拟用户预先录制的固定场景声音库,获取反馈信息的音频文件,进一步将音频文件播放给交互对象。
作为一种可能的实现方式,可以设置反馈信息与音频文件的映射关系表,通过查询映射关系表获取反馈信息对应的音频文件。
其中,音频文件的格式包括但不限于mp3、WAV等,此处不作限制。
在本发明的一个实施例中,还可以获取被模拟用户的声音片段,进而通过语音合成技术(例如TTS语音技术)训练会话场景声音库,以支持高自由度场景的互动。进而,在机器人与交互对象进行互动时,查询被模拟用户预先训练的会话场景声音库,根据反馈信息和会话场景声音库中的声音信息,合成反馈信息的音频文件,进一步将音频文件播放给交互对象。
需要说明的是,上述将反馈信息合成被模拟用户的声音并播放给交互对象的实现方式仅仅是示例性的,用户可以根据实际需求任意选取或组合进行使用,此处不做限制。
本实施例中,通过合成被模拟用户声音、进行对话配置和会话场景知识库配置,使机器人可以在声音、对话方式、知识库上高度模仿被模拟用户,提高了机器人定制的个性化程度。并且,本发明实施例的机器人互动方法可以智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,实现了机器人与交互对象的高自由度互动。
综上所述,本发明实施例的机器人互动方法,通过获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图,进而根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息,进一步将反馈信息合成被模拟用户的声音播放给交互对象。由此,通过在声音、对话方式、知识库上高度模仿被模拟用户,实现了机器人对特定人物的高度仿真,并且,通过智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,提高了机器人互动的自由度和智能化程度。
图2为本发明实施例所提供的另一种机器人互动方法的流程示意图,如图2所示,该机器人互动方法包括:
步骤201,获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图。
需要说明的是,前述实施例针对步骤101的解释说明同样适用于步骤201,此处不再赘述。
步骤202,根据会话意图查询会话场景知识库获知查询路径。
可选地,可以在会话场景知识库中设置查询路径,根据会话意图与查询路径进行匹配,进而获取匹配成功的查询路径。
其中,查询路径可以为预置路径,也可以为外接路径,具体可以根据需要自行设置,此处不作限制。
步骤203,根据查询路径获取与会话意图对应的反馈信息。
作为一种示例,查询路径显示预置路径时,查询被模拟用户预先配置的与用户特征相关的结构化知识,获取与会话意图对应的反馈信息。
其中,与用户特征相关的结构化知识可以根据需要自行设置。例如,教师可以预先配置课程内容,再例如,明星可以预先配置自己的个人信息等。
作为另一种示例,查询路径显示预置路径时,查询被模拟用户预先配置的富媒体知识,获取与会话意图对应的反馈信息。
其中,富媒体知识包括但不限于图片、视频等。
在实际应用中,可能存在根据预置路径查询到的知识不能满足需求的情况,因此,还可以根据外接路径获取与会话意图对应的反馈信息。
作为一种示例,查询路径显示外接路径时,查询被模拟用户预先配置的与会话意图对应的第三方应用接口,获取与会话意图对应的反馈信息。比如,交互对象想要了解天气信息时,可以查询天气应用接口,获取对应的天气信息。再比如,交互对象想要了解当前股票信息时,可以查询证券应用接口,获取对应的实时股票信息。
作为另一种示例,查询路径显示外接路径时,查询被模拟用户预先配置的搜索引擎,获取与会话意图对应的反馈信息。例如,可以根据会话意图提取关键字,进而在查询路径显示外接路径时,查询被模拟用户预先配置的搜索引擎,进一步通过搜索引擎对关键字进行搜索,获取与会话意图对应的反馈信息。
需要说明的是,上述根据查询路径获取与会话意图对应的反馈信息是示例性的,可以通过一种方式获取反馈信息,也可以多种方式结合获取反馈信息,此处不作限制。
步骤204,将反馈信息合成被模拟用户的声音播放给交互对象。
前述实施例针对步骤103的解释说明同样适用于步骤204,此处不再赘述。
步骤205,获取虚拟现实场景交互指令。
其中,虚拟现实场景交互指令的实现方式包括但不限于语音形式、预设触摸轨迹形式、按键触发形式等。
步骤206,调用被模拟用户预先绘制的用户3D模型,向交互对象展示被模拟用户。
在本发明的一个实施例中,可以通过相关3D模型绘制软件绘制被模拟用户的3D模型,进而在获取虚拟现实场景交互指令时,在虚拟现实场景中向交互对象展示被模拟用户的3D模型。
需要说明的是,可以在虚拟现实场景中向交互对象展示被模拟用户,也可以通过其他方式例如增强现实技术展示被模拟用户,此处不作限制。
步骤207,向被模拟用户上报与交互对象的多轮对话交互情况。
本实施例中,机器人可以智能的与交互对象进行多轮对话,并向被模拟用户上报与交互对象的多轮对话交互情况。
其中,可以实时向被模拟用户上报多轮对话交互情况,也可以每隔预设时间向被模拟用户上报多轮对话交互情况。
步骤208,接收被模拟用户发送的接管指令,停止与交互对象的交互行为。
可选地,被模拟用户可以根据多轮对话交互情况决定是否发送接管指令,进而机器人接收被模拟用户发送的接管指令,并停止与交互对象的交互行为,进一步由被模拟用户与交互对象进行互动。
其中,接管指令的实现方式包括但不限于语音形式、预设触摸轨迹形式、按键触发形式等。
本实施例中,通过调用被模拟用户预先绘制的用户3D模型,向交互对象展示被模拟用户,使得机器人在外观上高度模仿被模拟用户。通过向被模拟用户上报与交互对象的多轮对话交互情况,并在接收被模拟用户发送的接管指令时,停止与交互对象的交互行为,实现了被模拟用户对机器人交互情况的监控,并且被模拟用户可以随时接管互动,扩展了产品的功能。
为了更加清楚的解释本发明,下面结合实际应用场景进行说明。
如图3所示,通过机器人a模仿被模拟用户A,与交互对象进行互动。
其中,机器人a包括:语音识别模块,通过训练语音识别模型,使机器人a可以识别交互对象输入的语音信息。语义识别模块,被模拟用户A可以根据需要互动的场景,针对性的训练语义识别模型,从而对语音信息进行语义识别获取会话意图。知识库模块,机器人a根据会话意图对预设的知识库进行检索,获取相应的知识并生成反馈信息,其中,知识库包含的内容可以为被模拟用户A预置的结构化知识、富媒体知识、期望对接的第三方应用接口、非预置的知识库搜索的知识等。语音合成模块,使机器人a在互动过程中,将反馈信息以声音的方式播放给交互对象,其中,合成的声音是被模拟用户A的声音。被模拟用户A的声音合成库可以被训练,支持高自由度互动;也可以录制好放在录音库支持固定场景互动。3D成像模块,可以预先绘制被模拟用户A的3D模型,进而在虚拟现实场景中展示被模拟用户A的3D模型。多轮对话模块,被模拟用户A可以进行多轮对话配置,机器人a可以根据多轮对话配置和多轮对话模型与交互对象进行互动。
交互对象可以通过客户端与机器人a进行互动,其中,客户端包括但不限于手机应用、呼叫中心、虚拟现实应用、即时通讯应用等,机器人a可以为实体机器人,也可以为虚拟机器人。交互对象可以通过语音流、文本流向机器人a发送信息,机器人a通过语音流、文本流向交互对象发送反馈信息,并通过图像流向交互对象展示被模拟用户A的3D模型。机器人a实时向被模拟用户a上报交互情况,被模拟用户A可以随时根据互动情况发送接管指令,以接管互动。本发明实施例的机器人互动方法可以有广泛的应用场景,例如:为明星定制这样的机器人,可以和大量粉丝同时进行对话互动;教师可以定制这样的机器人在网络上进行授课或答疑;外出务工人员可以定制这样的机器人随时陪伴在远方的亲人;商务人士可以定制这样的机器人,应付一些琐碎的事务。
为了实现上述实施例,本发明还提出一种机器人互动装置。图4为本发明实施例所提供的一种机器人互动装置的结构示意图,如图4所示,该机器人互动装置包括:第一获取模块100,第二获取模块200,处理模块300。
其中,第一获取模块100,用于获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图。
第二获取模块200,用于根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息。
处理模块300,用于将反馈信息合成被模拟用户的声音播放给交互对象。
进一步地,第二获取模块200具体用于:
根据会话意图查询会话场景知识库获知查询路径;
若查询路径显示预置路径,则查询被模拟用户预先配置的与用户特征相关的结构化知识,和/或,富媒体知识,获取与会话意图对应的反馈信息。
进一步地,第二获取模块200具体用于:若查询路径显示外接路径,则查询被模拟用户预先配置的与会话意图对应的第三方应用接口,或,搜索引擎,获取与会话意图对应的反馈信息。
进一步地,处理模块300具体用于:查询被模拟用户预先录制的固定场景声音库,获取反馈信息的音频文件,播放给交互对象。
进一步地,处理模块300具体用于:查询被模拟用户预先训练的会话场景声音库,合成反馈信息的音频文件,播放给交互对象。
在图4的基础上,图5所示的机器人互动装置还包括:展示模块400,接管模块500。
其中,展示模块400,用于获取虚拟现实场景交互指令;调用被模拟用户预先绘制的用户3D模型,向交互对象展示被模拟用户。
接管模块500,用于向被模拟用户上报与交互对象的多轮对话交互情况;接收被模拟用户发送的接管指令,停止与交互对象的交互行为。
需要说明的是,前述实施例对机器人互动方法的解释说明同样适用于本实施例的机器人互动装置,此处不再赘述。
综上所述,本发明实施例的机器人互动装置,通过获取交互对象输入的语音信息,对语音信息进行语义识别获取会话意图,进而根据被模拟用户预先配置的会话场景知识库,获取与会话意图对应的反馈信息,进一步将反馈信息合成被模拟用户的声音播放给交互对象。由此,通过在声音、对话方式、知识库上高度模仿被模拟用户,实现了机器人对特定人物的高度仿真,并且,通过智能的识别交互对象的会话意图,并智能的获取反馈信息进行反馈,提高了机器人互动的自由度和智能化程度。
为了实现上述实施例,本发明还提出一种电子设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的机器人互动方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的机器人互动方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的机器人互动方法。
图6示出了适于用来实现本发明实施例的示例性电子设备的框图。图6显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种机器人互动方法,其特征在于,包括以下步骤:
获取交互对象输入的语音信息,对所述语音信息进行语义识别获取会话意图;
根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息;
将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象。
2.如权利要求1所述的方法,其特征在于,所述根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息,包括:
根据所述会话意图查询所述会话场景知识库获知查询路径;
若所述查询路径显示预置路径,则查询所述被模拟用户预先配置的与用户特征相关的结构化知识,和/或,富媒体知识,获取与所述会话意图对应的反馈信息。
3.如权利要求2所述的方法,其特征在于,在所述根据所述会话意图查询所述会话场景知识库获知查询路径之后,还包括:
若所述查询路径显示外接路径,则查询所述被模拟用户预先配置的与所述会话意图对应的第三方应用接口,或,搜索引擎,获取与所述会话意图对应的反馈信息。
4.如权利要求1所述的方法,其特征在于,所述将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象,包括:
查询所述被模拟用户预先录制的固定场景声音库,获取所述反馈信息的音频文件,播放给所述交互对象。
5.如权利要求1所述的方法,其特征在于,所述将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象,包括:
查询所述被模拟用户预先训练的会话场景声音库,合成所述反馈信息的音频文件,播放给所述交互对象。
6.如权利要求1所述的方法,其特征在于,还包括:
获取虚拟现实场景交互指令;
调用所述被模拟用户预先绘制的用户3D模型,向所述交互对象展示所述被模拟用户。
7.如权利要求1所述的方法,其特征在于,还包括:
向所述被模拟用户上报与所述交互对象的多轮对话交互情况;
接收所述被模拟用户发送的接管指令,停止与所述交互对象的交互行为。
8.一种机器人互动装置,其特征在于,包括:
第一获取模块,用于获取交互对象输入的语音信息,对所述语音信息进行语义识别获取会话意图;
第二获取模块,用于根据被模拟用户预先配置的会话场景知识库,获取与所述会话意图对应的反馈信息;
处理模块,用于将所述反馈信息合成所述被模拟用户的声音播放给所述交互对象。
9.如权利要求8所述的装置,其特征在于,所述第二获取模块具体用于:
根据所述会话意图查询所述会话场景知识库获知查询路径;
若所述查询路径显示预置路径,则查询所述被模拟用户预先配置的与用户特征相关的结构化知识,和/或,富媒体知识,获取与所述会话意图对应的反馈信息。
10.如权利要求9所述的装置,其特征在于,所述第二获取模块具体用于:
若所述查询路径显示外接路径,则查询所述被模拟用户预先配置的与所述会话意图对应的第三方应用接口,或,搜索引擎,获取与所述会话意图对应的反馈信息。
11.如权利要求8所述的装置,其特征在于,所述处理模块具体用于:
查询所述被模拟用户预先录制的固定场景声音库,获取所述反馈信息的音频文件,播放给所述交互对象。
12.如权利要求8所述的装置,其特征在于,所述处理模块具体用于:
查询所述被模拟用户预先训练的会话场景声音库,合成所述反馈信息的音频文件,播放给所述交互对象。
13.如权利要求8所述的装置,其特征在于,还包括:
展示模块,用于获取虚拟现实场景交互指令;
调用所述被模拟用户预先绘制的用户3D模型,向所述交互对象展示所述被模拟用户。
14.如权利要求8所述的装置,其特征在于,还包括:
接管模块,用于向所述被模拟用户上报与所述交互对象的多轮对话交互情况;
接收所述被模拟用户发送的接管指令,停止与所述交互对象的交互行为。
15.一种电子设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-7中任一项所述的机器人互动方法。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的机器人互动方法。
CN201810686130.3A 2018-06-28 2018-06-28 机器人互动方法、装置及设备 Pending CN108897848A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810686130.3A CN108897848A (zh) 2018-06-28 2018-06-28 机器人互动方法、装置及设备
US16/396,142 US11551673B2 (en) 2018-06-28 2019-04-26 Interactive method and device of robot, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810686130.3A CN108897848A (zh) 2018-06-28 2018-06-28 机器人互动方法、装置及设备

Publications (1)

Publication Number Publication Date
CN108897848A true CN108897848A (zh) 2018-11-27

Family

ID=64346638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810686130.3A Pending CN108897848A (zh) 2018-06-28 2018-06-28 机器人互动方法、装置及设备

Country Status (2)

Country Link
US (1) US11551673B2 (zh)
CN (1) CN108897848A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697290A (zh) * 2018-12-29 2019-04-30 咪咕数字传媒有限公司 一种信息处理方法、设备及计算机存储介质
CN109739605A (zh) * 2018-12-29 2019-05-10 北京百度网讯科技有限公司 生成信息的方法和装置
CN109878441A (zh) * 2019-03-21 2019-06-14 百度在线网络技术(北京)有限公司 车辆控制方法和装置
CN110047479A (zh) * 2019-04-18 2019-07-23 深圳市三宝创新智能有限公司 一种用于智能机器人的语音交互装置
CN110111795A (zh) * 2019-04-23 2019-08-09 维沃移动通信有限公司 一种语音处理方法及终端设备
CN110216693A (zh) * 2019-06-21 2019-09-10 北京猎户星空科技有限公司 基于智能机器人的讲解方法、装置、设备和存储介质
CN110381221A (zh) * 2019-07-25 2019-10-25 北京百度网讯科技有限公司 呼叫处理方法、装置、系统、设备和计算机存储介质
CN110399462A (zh) * 2019-07-26 2019-11-01 沈阳民航东北凯亚有限公司 一种信息的查询方法及装置
CN110633357A (zh) * 2019-09-24 2019-12-31 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和介质
CN110866588A (zh) * 2019-11-08 2020-03-06 中国科学院软件研究所 一种实现智能虚拟数字动物的可学习能力模型个性化的训练学习方法与系统
CN110928520A (zh) * 2020-02-07 2020-03-27 恒信东方文化股份有限公司 一种人机交互方法及其系统
CN111292856A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111291151A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111290682A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111290568A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111739541A (zh) * 2019-03-19 2020-10-02 上海云思智慧信息技术有限公司 一种基于语音的会议协助方法及系统、存储介质及终端
CN111930907A (zh) * 2020-08-06 2020-11-13 北京艾阿智能科技有限公司 一种通过仿真模拟人类沟通的智能互动对话引擎
CN112035609A (zh) * 2020-08-20 2020-12-04 出门问问信息科技有限公司 一种智能对话方法、装置以及计算机可读存储介质
CN112035630A (zh) * 2020-03-27 2020-12-04 北京来也网络科技有限公司 结合rpa和ai的对话交互方法、装置、设备及存储介质
CN112394816A (zh) * 2020-11-26 2021-02-23 浙江连信科技有限公司 基于人机交互的心理服务方法和机器人
CN113806499A (zh) * 2020-12-30 2021-12-17 京东科技控股股份有限公司 电话作业的培训方法、装置、电子设备和存储介质
CN114840671A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 对话生成方法、模型的训练方法、装置、设备及介质
WO2023138508A1 (zh) * 2022-01-24 2023-07-27 阿里巴巴(中国)有限公司 直播内容生成方法以及装置
CN116828246A (zh) * 2023-06-29 2023-09-29 中科智宏(北京)科技有限公司 一种数字人直播交互方法、系统、设备及存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11276399B2 (en) * 2019-04-11 2022-03-15 Lg Electronics Inc. Guide robot and method for operating the same
CN111833854A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111488447B (zh) * 2020-04-16 2023-06-13 上海茂声智能科技有限公司 一种意图节点跳转方法、装置和跳转设备
CN111611370B (zh) * 2020-05-26 2023-04-18 全球能源互联网研究院有限公司 电费查询方法及电子设备
CN111897935B (zh) * 2020-07-30 2023-04-07 中电金信软件有限公司 基于知识图谱的话术路径选择方法、装置和计算机设备
CN112034989A (zh) * 2020-09-04 2020-12-04 华人运通(上海)云计算科技有限公司 一种智能交互系统
CN112201251A (zh) * 2020-09-30 2021-01-08 北京搜狗科技发展有限公司 一种交互方法、装置和耳机
CN112269864B (zh) * 2020-10-15 2023-06-23 北京百度网讯科技有限公司 生成播报语音的方法、装置、设备和计算机存储介质
CN112259094A (zh) * 2020-10-20 2021-01-22 江苏峰鑫网络科技有限公司 一种语音客服机器人系统
CN112820316A (zh) * 2020-12-31 2021-05-18 大唐融合通信股份有限公司 一种智能客服的对话方法和系统
CN112787899B (zh) * 2021-01-08 2022-10-28 青岛海尔特种电冰箱有限公司 设备语音交互方法、计算机可读存储介质以及冰箱
CN115130478A (zh) * 2021-03-25 2022-09-30 华为技术有限公司 意图决策方法及设备、计算机可读存储介质
CN113096657A (zh) * 2021-03-30 2021-07-09 西安云湾科技有限公司 一种基于物联网产品的智能交互系统和方法
CN113360622B (zh) * 2021-06-22 2023-10-24 中国平安财产保险股份有限公司 用户对话信息的处理方法、装置及计算机设备
CN114189740B (zh) * 2021-10-27 2022-11-11 杭州摸象大数据科技有限公司 视频合成对话构建方法、装置、计算机设备及存储介质
CN114020894B (zh) * 2021-11-08 2024-03-26 桂林电子科技大学 一种可实现多轮互动的智能测评系统
CN113949772B (zh) * 2021-12-13 2022-11-01 荣耀终端有限公司 模拟来电的方法及装置
CN114265505A (zh) * 2021-12-27 2022-04-01 中国电信股份有限公司 人机交互处理方法、装置、存储介质及电子设备
CN115390663B (zh) * 2022-07-27 2023-05-26 上海合壹未来文化科技有限公司 一种虚拟人机交互方法、系统、设备及存储介质
CN115994211B (zh) * 2022-12-19 2024-03-08 镁佳(北京)科技有限公司 一种文本处理方法、装置、电子设备及存储介质
CN117273054B (zh) * 2023-09-28 2024-06-25 江苏八点八智能科技有限公司 一种应用不同场景的虚拟人交互方法与系统
CN117059074B (zh) * 2023-10-08 2024-01-19 四川蜀天信息技术有限公司 一种基于意图识别的语音交互方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120007806A1 (en) * 2010-07-08 2012-01-12 Hon Hai Precision Industry Co., Ltd. Multifunctional mouse, computer system, and input method thereof
CN105513593A (zh) * 2015-11-24 2016-04-20 南京师范大学 一种语音驱动的智能人机交互方法
US20170337478A1 (en) * 2016-05-22 2017-11-23 Microsoft Technology Licensing, Llc Self-Learning Technique for Training a PDA Component and a Simulated User Component
US20180115645A1 (en) * 2016-10-24 2018-04-26 Sriram Venkataramanan Iyer System, method and marketplace for real-time interactive video/voice services using artificial intelligence

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
CN101366065A (zh) * 2005-11-30 2009-02-11 语文交流企业公司 交互式语言教育系统和方法
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US8172637B2 (en) * 2008-03-12 2012-05-08 Health Hero Network, Inc. Programmable interactive talking device
US9172747B2 (en) * 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
US10445115B2 (en) * 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
IN2014DE00332A (zh) * 2014-02-05 2015-08-07 Nitin Vats
US20170124770A1 (en) * 2014-03-15 2017-05-04 Nitin Vats Self-demonstrating object features and/or operations in interactive 3d-model of real object for understanding object's functionality
US10332297B1 (en) * 2015-09-04 2019-06-25 Vishal Vadodaria Electronic note graphical user interface having interactive intelligent agent and specific note processing features
US10268491B2 (en) * 2015-09-04 2019-04-23 Vishal Vadodaria Intelli-voyage travel
US10178218B1 (en) * 2015-09-04 2019-01-08 Vishal Vadodaria Intelligent agent / personal virtual assistant with animated 3D persona, facial expressions, human gestures, body movements and mental states
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10853747B2 (en) * 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
US10699461B2 (en) * 2016-12-20 2020-06-30 Sony Interactive Entertainment LLC Telepresence of multiple users in interactive virtual space
US10957325B2 (en) * 2017-03-23 2021-03-23 Hello Clover, Llc Method and apparatus for speech interaction with children
US11062710B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10574598B2 (en) * 2017-10-18 2020-02-25 International Business Machines Corporation Cognitive virtual detector
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US20190213269A1 (en) * 2018-01-10 2019-07-11 Amojee, Inc. Interactive animated gifs and other interactive images
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
US10896214B2 (en) * 2018-06-01 2021-01-19 Accenture Global Solutions Limited Artificial intelligence based-document processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120007806A1 (en) * 2010-07-08 2012-01-12 Hon Hai Precision Industry Co., Ltd. Multifunctional mouse, computer system, and input method thereof
CN105513593A (zh) * 2015-11-24 2016-04-20 南京师范大学 一种语音驱动的智能人机交互方法
US20170337478A1 (en) * 2016-05-22 2017-11-23 Microsoft Technology Licensing, Llc Self-Learning Technique for Training a PDA Component and a Simulated User Component
US20180115645A1 (en) * 2016-10-24 2018-04-26 Sriram Venkataramanan Iyer System, method and marketplace for real-time interactive video/voice services using artificial intelligence

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291151A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111290568A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111290682A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111292856A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN109739605A (zh) * 2018-12-29 2019-05-10 北京百度网讯科技有限公司 生成信息的方法和装置
CN111399629A (zh) * 2018-12-29 2020-07-10 Tcl集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN109697290A (zh) * 2018-12-29 2019-04-30 咪咕数字传媒有限公司 一种信息处理方法、设备及计算机存储介质
CN111399629B (zh) * 2018-12-29 2022-05-03 Tcl科技集团股份有限公司 一种终端设备的操作引导方法、终端设备及存储介质
CN111739541A (zh) * 2019-03-19 2020-10-02 上海云思智慧信息技术有限公司 一种基于语音的会议协助方法及系统、存储介质及终端
CN109878441A (zh) * 2019-03-21 2019-06-14 百度在线网络技术(北京)有限公司 车辆控制方法和装置
CN109878441B (zh) * 2019-03-21 2021-08-17 百度在线网络技术(北京)有限公司 车辆控制方法和装置
CN110047479A (zh) * 2019-04-18 2019-07-23 深圳市三宝创新智能有限公司 一种用于智能机器人的语音交互装置
CN110111795A (zh) * 2019-04-23 2019-08-09 维沃移动通信有限公司 一种语音处理方法及终端设备
CN110111795B (zh) * 2019-04-23 2021-08-27 维沃移动通信有限公司 一种语音处理方法及终端设备
CN110216693A (zh) * 2019-06-21 2019-09-10 北京猎户星空科技有限公司 基于智能机器人的讲解方法、装置、设备和存储介质
CN110381221A (zh) * 2019-07-25 2019-10-25 北京百度网讯科技有限公司 呼叫处理方法、装置、系统、设备和计算机存储介质
CN110399462B (zh) * 2019-07-26 2022-03-04 沈阳民航东北凯亚有限公司 一种信息的查询方法及装置
CN110399462A (zh) * 2019-07-26 2019-11-01 沈阳民航东北凯亚有限公司 一种信息的查询方法及装置
CN110633357A (zh) * 2019-09-24 2019-12-31 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和介质
CN110866588A (zh) * 2019-11-08 2020-03-06 中国科学院软件研究所 一种实现智能虚拟数字动物的可学习能力模型个性化的训练学习方法与系统
CN110866588B (zh) * 2019-11-08 2023-05-02 中国科学院软件研究所 一种实现智能虚拟数字动物的可学习能力模型个性化的训练学习方法与系统
CN110928520A (zh) * 2020-02-07 2020-03-27 恒信东方文化股份有限公司 一种人机交互方法及其系统
CN110928520B (zh) * 2020-02-07 2020-06-16 恒信东方文化股份有限公司 一种人机交互方法及其系统
CN112035630A (zh) * 2020-03-27 2020-12-04 北京来也网络科技有限公司 结合rpa和ai的对话交互方法、装置、设备及存储介质
CN111930907A (zh) * 2020-08-06 2020-11-13 北京艾阿智能科技有限公司 一种通过仿真模拟人类沟通的智能互动对话引擎
CN112035609A (zh) * 2020-08-20 2020-12-04 出门问问信息科技有限公司 一种智能对话方法、装置以及计算机可读存储介质
CN112035609B (zh) * 2020-08-20 2024-04-05 出门问问创新科技有限公司 一种智能对话方法、装置以及计算机可读存储介质
CN112394816A (zh) * 2020-11-26 2021-02-23 浙江连信科技有限公司 基于人机交互的心理服务方法和机器人
CN113806499A (zh) * 2020-12-30 2021-12-17 京东科技控股股份有限公司 电话作业的培训方法、装置、电子设备和存储介质
WO2023138508A1 (zh) * 2022-01-24 2023-07-27 阿里巴巴(中国)有限公司 直播内容生成方法以及装置
CN114840671A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 对话生成方法、模型的训练方法、装置、设备及介质
CN116828246A (zh) * 2023-06-29 2023-09-29 中科智宏(北京)科技有限公司 一种数字人直播交互方法、系统、设备及存储介质
CN116828246B (zh) * 2023-06-29 2024-03-19 中科智宏(北京)科技有限公司 一种数字人直播交互方法、系统、设备及存储介质

Also Published As

Publication number Publication date
US11551673B2 (en) 2023-01-10
US20200005772A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
CN108897848A (zh) 机器人互动方法、装置及设备
JP4395687B2 (ja) 情報処理装置
KR102341752B1 (ko) 메타버스에서 아바타를 이용한 강의 보조 방법 및 그 장치
André et al. Interacting with embodied conversational agents
WO2008001350A2 (en) Method and system of providing a personalized performance
CN106408480A (zh) 基于增强现实、语音识别的国学三维交互学习系统及方法
CN204650422U (zh) 一种基于语言交互操控的移动智能玩具
CN111414506B (zh) 基于人工智能情绪处理方法、装置、电子设备及存储介质
KR20220129989A (ko) 아바타에 기초한 인터랙션 서비스 방법 및 장치
KR20180105861A (ko) 외국어 학습 어플리케이션 및 이에 포함된 콘텐츠를 이용한 외국어 학습 시스템
Champion Defining cultural agents for virtual heritage environments
Trichopoulos et al. Augmented and personalized digital narratives for Cultural Heritage under a tangible interface
Ballagas et al. REXplorer: Using player-centered iterative design techniques for pervasive game development
US20220301250A1 (en) Avatar-based interaction service method and apparatus
KR20230018586A (ko) 입력된 시나리오에 따라 사이버공간에서 영상, 이미지, 음성, 배경음악의 전부 또는 일부를 구현하는 시스템 및 방법
Divekar AI enabled foreign language immersion: Technology and method to acquire foreign languages with AI in immersive virtual worlds
DeMara et al. Towards interactive training with an avatar-based human-computer interface
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Sorrentino et al. SuperAvatar children and mobile tourist guides become friends using superpowered avatars
Feng et al. A platform for building mobile virtual humans
Edlund In search for the conversational homunculus: serving to understand spoken human face-to-face interaction
Zikky et al. Utilizing Virtual Humans as Campus Virtual Receptionists
Marulli et al. The imitation game to cultural heritage: a human-like interaction driven approach for supporting art recreation
McDonald et al. An abstraction framework for cooperation among agents and people in a virtual world
Inoue et al. Multimodal corpus for psychotherapeutic situations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181127

RJ01 Rejection of invention patent application after publication