CN109658928B - 一种家庭服务机器人云端多模态对话方法、装置及系统 - Google Patents

一种家庭服务机器人云端多模态对话方法、装置及系统 Download PDF

Info

Publication number
CN109658928B
CN109658928B CN201811486867.7A CN201811486867A CN109658928B CN 109658928 B CN109658928 B CN 109658928B CN 201811486867 A CN201811486867 A CN 201811486867A CN 109658928 B CN109658928 B CN 109658928B
Authority
CN
China
Prior art keywords
information
service
cloud
user
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811486867.7A
Other languages
English (en)
Other versions
CN109658928A (zh
Inventor
周风余
王淑倩
尹磊
刘进
万方
郭仁和
沈冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811486867.7A priority Critical patent/CN109658928B/zh
Publication of CN109658928A publication Critical patent/CN109658928A/zh
Application granted granted Critical
Publication of CN109658928B publication Critical patent/CN109658928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种家庭服务机器人云端多模态对话方法、装置及系统,该方法包括:实时接收用户语音信息和场景图像信息;将用户语音信息转化为文字信息,进行分词和命名实体识别处理,确定对话类型;将场景图像信息进行预处理;筛选预处理图像信息和处理后的文字信息,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,更新对话服务模型;对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息,通过对话服务模型,生成用户和机器人交互的对话信息。

Description

一种家庭服务机器人云端多模态对话方法、装置及系统
技术领域
本公开属于家庭服务机器人语音对话的技术领域,涉及一种家庭服务机器人云端多模态对话方法、装置及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近年来,人口老龄化等问题日益凸显,社会的迫切需求及人工智能和机器人技术的快速发展,极大促进了服务机器人的发展。语音对话技术为家庭服务机器人提供了最人性化的交互方式。然而,目前的人机语音交互中,机器人对场景信息和交互对象信息无感知,经常答非所问,无法生成让用户满意的回答,非常不人性化。传统家庭服务机器人存在以下不足:
(1)传统的家庭服务机器人对话系统单一的使用用户的语音交互信息,对机器人场景信息无感知,存在由于缺乏场景信息造成的对话策略偏差问题,生成的对话无法对应用户交互内容,人机交互体验差。
(2)传统的家庭服务机器人对话系统对于不同的用户相同的语音输入信息,生成类似的回答,无法生成根据不同用户情感、兴趣等信息生成个性化回答。
(3)传统的基于云端的家庭服务人对话系统对于海量的用户数据,对于模型更新训练方式造成了大量时间和计算能力的浪费,资源利用率低。
以上不足导致了家庭服务机器人对话系统中用户人机交互体验差、云端资源利用率等问题,阻碍了家庭服务机器人的应用和推广。
发明内容
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种家庭服务机器人云端多模态对话方法、装置及系统,基于云平台的优势,充分挖掘多模态数据的信息特征,构建多模态信息的共融的交互系统,为家庭服务机器人交互系统提供了更加智能的语音交互平台,改善人机体验和提高云端资源利用率。
根据本公开的一个或多个实施例的一个方面,提供一种家庭服务机器人云端多模态对话方法。
一种家庭服务机器人云端多模态对话方法,该方法包括:
实时接收用户语音信息和场景图像信息;
调用语音识别服务将用户语音信息转化为文字信息,对文字信息进行分词和命名实体识别处理,确定对话类型;
将场景图像信息进行预处理,得到预处理图像信息;
根据预处理图像信息和处理后的文字信息进行筛选,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,动态更新根据知识库训练的对话服务模型;
对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;
根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息,通过对话服务模型,生成用户和机器人交互的对话信息。
进一步地,在该方法中,所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息,所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息,所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。
进一步地,在该方法中,所述对话类型包括闲聊型对话和任务型对话;
在任务型对话中,将文字信息分词后的词语转化为分布式词向量与场景感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;将文字信息分词后的词语转化为分布式词向量与用户感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;
在闲聊型对话中,将预处理后的场景图像信息、用户语音信息和/或处理后的文字信息通过情感感知器获取情感感知信息,并将情感感知信息分类,根据不同情感感知信息类型,生成其对应的不同的对话信息。
进一步地,该方法还包括主动生成对话,具体步骤包括:
实时接收场景图像信息;
将场景图像信息进行预处理,对预处理后的场景图像信息分别通过场景感知器进行行为识别和通过情感感知器进行人脸表情识别,结合用户感知器中的行为画像,监测用户情绪或行为;
当情绪异常或行为异常时,根据异常情绪类别和异常行为类别,主动生成相对应的对话信息。
进一步地,该方法还包括:将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息,根据历时交互信息通过用户感知器进行行为画像和兴趣画像,并加入时间轴信息,得到基于时序的动态历史用户感知信息,在生成用户和机器人交互的对话信息时,调用该历史用户感知信息。
进一步地,在该方法中,筛选预处理图像信息加入增量知识库的具体步骤包括:
对预处理图像信息依次进行清晰度、对比度和亮度计算,删除清晰度、对比度和亮度小于其对应预设阈值的图像;
将保留的图像和知识库中的图像进行图像结构相似度计算,删除大于预设相似度阈值的图像;
将保留的图像进行目标检测,对检测结果中的置信度小于置信度阈值的目标进行图像标注,加入增量知识库。
进一步地,在该方法中,筛选处理后的文字信息加入增量知识库的具体步骤包括:
判断文字信息的长度,删除长度小于预设长度阈值的文字信息;
采用统计语言模型计算文字信息的概率,将概率大于预设概率阈值的文字信息加入增量知识库;
对于概率小于预设阈值的文字信息,对分词处理后的文字信息进行词性标注,并将标注为名词的词语转化为分布式词向量,计算其与用户兴趣相关词语的余弦相似度夹角,将夹角大于预设余弦相似度夹角阈值的文字信息加入增量知识库,用于用户兴趣画像。
进一步地,在该方法中,通过增量训练网络进行所述模型增量训练,所述增量训练网络包括更新数据层、特征提取层、特征层和输出层;
所述更新数据层用于筛选数据得到用于模型改善的训练数据;
所述特征提取层用于对输入该层的数据依次进行映射、变换,成为特征层的强化节点;
所述特征层由输入映射特征节点和强化节点拼接而成。
进一步地,该方法还包括,当对话服务模型精度小于精度阈值时,通过增加强化节点和特征映射矩阵改善模型结构和/或增加训练数据量。
根据本公开的一个或多个实施例的另一个方面,还提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。
根据本公开的一个或多个实施例的另一个方面,还提供一种终端设备。
一种终端设备,采用互联网终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。
根据本公开的一个或多个实施例的另一个方面,还提供一种家庭服务机器人云端多模态对话系统。
一种家庭服务机器人云端多模态对话系统,基于所述的一种家庭服务机器人云端多模态对话方法,包括:
数据采集池、计算层、云机交互网关层、服务池、数据池和对话生成服务;
所述数据采集池包括机器人,采集用户语音信息和场景图像信息;
所述计算层搭建于GPU和CPU物理集群上,用于为服务池提供的各项服务提供计算结果;
所述云机交互网关层用于服务池和数据采集池的交互,负责服务认证、服务请求解析和负载均衡;
所述服务池包括服务解析器、配置器和各项云端服务,服务解析器对接收的服务请求进行解析,配置器用于确定服务数量,并根据服务数量对服务请求分配资源,调用服务池云端服务进行业务处理;
所述数据池包括知识库和增量知识库;
所述对话生成服务采用家庭服务机器人云端多模态对话方法生成对话信息,通过所述云机交互网关层反馈至机器人,进行人机交互对话。
进一步地,在该系统中,所述云机交互网关层包括服务认证层、解析器和网关层;
所述服务认证层控制机器人请求服务的合法性,机器人按照规定的统一JSON文件格式发送服务请求之后,所述解析器对服务请求进行数据、协议文本和服务需求的提取和解析,所述网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务。
进一步地,在该系统中,通过在云端部署模型,将各种云端服务注到服务池,为机器人提供各项云端服务,各个云端服务功能模块通过封装,形成通用的云端服务接口,机器人和云端服务通过云端服务接口进行数据传输和通信。
本公开的有益效果:
(1)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,针对家庭服务机器人复杂多样性的工作环境,基于云平台的优势,充分挖掘多模态数据的信息特征,构建多模态信息的共融的交互系统。研究基于声场、语音语言情感、用户表情和视觉环境等多维信息构建场景信息的语义表示,采用信息融合的方法进行对话决策场景自适应,实现场景感知的智能化语音交互。
(2)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,针对海量的语音交互日志和场景图像信息的冗余问题,建立有效数据的反馈机制和数据提取方法,实现云端场景和语音模型数据库的更新。
(3)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,构建基于动态数据的存储模型,结合云端行为知识库,采用深度网络分析长时序的用户行为,构建语音交互的用户画像和场景用户画像的混合用户画像。
(4)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,采用增量学习的方法,在云端构建基于宽度网络增量式训练的云服务模型,完成模型的增量式动态更新,提高云端资源的利用率,实现系统的智能进化。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是根据一个或多个实施例的家庭服务机器人基于云端的多模态对话系统架构图;
图2是根据一个或多个实施例的家庭服务机器人基于云端的多模态对话系统图像数据筛选流程图;
图3是根据一个或多个实施例的家庭服务机器人基于云端的模型增量训练架构图。
具体实施方式:
下面将结合本公开的一个或多个实施例中的附图,对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合,下面结合附图与实施例对本公开作进一步说明。
随着云技术的不断发展,将云计算和机器人学相结合,利用云平台强大的计算、存储和丰富的数据资源,构建用户画像,融入用户情感和场景等多维信息,采用信息融合的方式进行对话决策场景自适应,实现场景和上下文感知的人性化语音交互。对云端模型进行基于宽度学习的增量训练,使交互系统越用越智能。
本发明基于云平台的优势,充分挖掘多模态数据的信息特征,建立用户画像,研究多模态信息共融的个性化语音交互技术。针对海量的语音交互日志和场景信息的冗余问题,建立有效的反馈机制和有效数据提出的方法,实现云端场景和语言模型数据库的更新。在云端构建增量式的云服务模型,完成模型的增量式动态更新。本发明为家庭服务机器人交互系统提供了更加智能的语音交互平台,改善人机体验和提高云端资源利用率。
本发明是一种基于云端的家庭服务机器人多模态对话系统,如图1所示,基于云端的对话系统主要分为六个模块:数据采集池、计算层、云机交互网关层、服务池、数据池和对话生成服务。
数据采集池主要由机器人本体构成,机器人本体包含但不仅包含麦克风阵列和摄像头。机器人本体是用户和云端资源进行交互的媒介,其中的麦克风阵列可以进行声源定位和环境噪声处理,采集环境中和机器人对话的用户语音信号。机器人本体的摄像头实时采集场景图像信息。
计算层搭建在计算能力强的GPU和CPU物理集群上,负责进行快速、并行的数据计算,为服务池提供的各项服务提供计算结果。
云机交互网关层是云端服务池和机器人进行交互的媒介,主要负责服务认证、服务请求解析和负载均衡。服务认证层控制机器人请求服务的合法性。机器人按照规定的统一JSON文件格式发送服务请求之后,解析器对服务请求进行数据、协议文本和服务需求的提取和解析。网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务,保证服务器集群的整体性能最优,提高资源利用率,保证系统高效性。
服务池主要由服务解析器、配置器和各项云服务组成。服务请求经过服务接入层的解析之后,配置器的服务调度层确定是进行单个服务选择还是多个服务的组合,配置器的节点层负责对服务请求分配资源,并调用服务池服务进行业务处理。通过在云端部署模型,将各种云端基础服务注到服务池,为机器人提供各项微服务,各个功能模块通过封装,形成通用的接口,机器人和云端进行数据传输和通信,实现各个服务模块特定的功能。服务可以单独调用或者以组合的形式进行调用,服务之间可以相互调用,具体方式由服务配置器确定。云服务类型主要包括图像、语音、自然语言理解、数据库以及导航等相关服务。
数据池主要包含各种数据知识库资源,数据库资源分为知识库和增量知识库。知识库主要是用于服务池各个模型训练的资源。对于数据采集池采集到海量的数据资源,通过资源过滤池,筛选有用的语音和图像信息,作为增量知识库。当云端系统处于低负载或低并发等资源利用率比较低的状态时,对于由于数据量不足引起的模型精度较低的服务模型进行增量模型训练,动态更新模型,使系统不断进化。
对话生成服务,服务池接收的机器人实时采集的语音和图像数据,进行场景感知、情感感知和用户感知,将语音识别之后文字信息和多模态信息进行融合,生成对话信息。为机器人和用户交互提供对话交流服务,通过云基交互网关层,将生成的文字信息传递给机器人本体,通过机器人本体将文字转化为语音播放,完成一次人机语音交互。
下面对系统进行具体的描述。
在用户和机器人交互时,机器人本体的麦克风阵列采集用户语音信息,摄像头信息实时采集环境信息,通过云机交互网关层,将语音和图像信息上传到云端服务池。
上传到云端的声波和图像信息不仅用于对话生成,同时也用于数据库和增量知识库的构建。
首先在对话生成阶段。
(1)调用云端语音识别服务,将输入的语音信息转化为文字,记为Input。
(2)将得到的语音识别之后的信息Input进行分词和命名实体识别,进入场景分发模块,确定是开放域闲聊的话题还是任务型对话。
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
(3)对输入的图像进行归一化等处理。
(4)将用户和机器人交互时拍摄的图像上传到云端并输入场景感知器。
①目标检测模块,得到图像中存在的物体种类和位置信息,记为(Ti,Di),其中Ti表示检测到物体的类型,Di表示检测到物体在图像中的位置信息。
②场景分类模块,通过分析图像中存在各物品的特点,得到机器人所在场景是客厅、卧室、厨房、书房、餐厅、卫生间的概率,将最大概率对应的场景类型记为S。
③场景描述模块,将场景图像输入端到端网络中,得到对整个图片的文字描述信息,将文字描述记为W。
④行为识别模块,将在目标检测模块中检测到人的图片输入行为识别模块,根据人的行为特征,得到场景中人的行为类别接电话、握手、拥抱、亲吻、坐下、起立、站立、吃饭、睡觉等日常行为的概率,并将概率值最大的行为类别记为A。同时通过对用户长期行为识别建立时序分析模型,可以建立用户场景行为画像。
(5)在系统的初始阶段,由于知识库中用户交互记录较少,用户信息主要从用户注册机器人客户端获取,比如性别、年龄等信息,用户感知信息较少。随着用户和机器人的持续交互,通过对云端知识库进行基于时序的数据主题挖掘和建立用户行为模型,使用户画像更加立体和丰富。
(6)对于任务型对话,将分词之后的词语转化成分布式词向量和场景感知器中得到的目标监测Ti、场景分类S、场景描述W进行余弦距离匹配,根据相关性结果对场景感知信息进行筛选,筛选出大于0.5的场景信息。将筛选出来的相关性比较高的场景信息加入对话生成中。将分词之后的词语转化后的分布式词向量和兴趣、爱好等主题词语类进行余弦距离匹配,若匹配程度大于0.5,那么将用户感知器得到的用户画像转化为嵌入分布式向量加入对话生成中。
(7)对于开放域闲聊对话,为了使人机交互时生成的答复更加富有情感,根据用户不同的情感状态生成不同情感类型答复,同时将机器人上传到云端的信息输入情感感知器。
①将采集的语音声波信号输入声波情感识别模块,对声波信号进行采样、量化和编码之后,采用时间序列提取声波序列特征,使用卷积神经网络提取深层特征,分析用户声波信号,得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型,记为Ps、Ts
②将语音识别转化后的文字经过分词,输入到文字情感识别模块,通过分析用户文字语义信息,得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型,记为Pt、Tt
③对实时上传到云端的图像进行人脸目标检测,若检测到人脸,则继续将图片上传到人脸表情识别模块,通过分析用户人脸表情图像信息,得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型,记为Pf、Tf
(8)在情感感知器中,比较文字情感识别、情感表情识别、声波情感识别的类型,若出现两个相同类型的结果,则将此类型设置为情感感知器输出的多模态情感类型,若三个类型都不相同,则比较概率值Ps、Pt、Pf的大小,将概率值最大对应的情感类型作为情感感知器的输出情感类型。
(9)对于开放域闲聊对话,使用基于情感的对话生成模型。针对不同的情感感知器的类型,输出不同的回答。例如一个人比较悲伤,那么生成的对话内容就比较愉悦,开朗;如果一个人比较害怕,那么生成的对话内容就要带有安慰性质等。
(10)特别的,云端服务池的对话生成服务具有主动生成对话模式。当情感感知器中的人脸表情识别模块和场景感知器中的行为识别模块,结合系统建立的用户行为画像,监测出用户处于情绪低落或行为异常时,进入主动生成对话模式,使对话系统更加人性化,改善人机交互体验。
(11)通过云机交互网关层,将生成的文字信息传递给机器人本体,通过机器人本体将文字转化为语音播放,完成一次人机语音交互。
完成一次语音交互之后,记录用户和机器人交互的日志信息。将其和采集的图像信息一起上传到云端的数据池中,对于云端采集的海量的文字和图像信息,要通过资源过滤器,进入数据池的增量数据库中。通过对用户历史交互信息进行主题挖掘,建立用户兴趣、语言风格等方面的用户画像。通过对用户历史行为分析,建立基于时序的用户行为画像。加入时间轴信息,建立动态用户画像。为云端服务池针对不同的用户提供个性化服务提供可能。
数据池中的知识库包含服务池中各功能模型的训练数据。服务池中部分功能模块由于数据集较少或者网络结构未能满足功能需求,利用云平台人机日常交互中采集的共享海量信息资源,经过筛选,构建增量知识库。
为了实现上述功能,本发明还提供了一种从机器人本体上传到云端的海量数据中筛选出可用于服务池各模型训练的方法。
1.对于图像信息。方法如图2所示。
(1)对来自服务机器人拍摄的图像进行灰度化和归一化预处理,得到预处理图像;
(2)对预处理后的图像依次进行清晰度、对比度、亮度的计算,分别记为D、C、B。
①清晰度:
Figure BDA0001894732120000111
②对比度:
Figure BDA0001894732120000112
其中,δ(i,j)=|i-j|,是相邻像素间的灰度差;Pδ(i,j)是相邻像素间灰度差为δ的像素分布概率。
③亮度:将图像转换到HSL空间,然后对图像求均值,得到亮度B。
(3)根据实际需求设定清晰度、对比度和亮度的阈值,如果不满足,则直接删除图像。
(4)对于满足要求的图像和数据库中的图像进行图像结构相似度计算,记为S*,若值大于阈值0.7,则删除图像。
计算公式为:S*(X,Y)=L(X,Y)*C(X,Y)*S(X,Y)
其中,
Figure BDA0001894732120000113
Figure BDA0001894732120000114
Figure BDA0001894732120000121
uX、uy表示图像X和Y的均值,σX、σY表示标准差,σX 2、σY 2表示方差,σXσY表示图像的协方差。设定C1=(K1*L)2,C2=(K2*L)2
Figure BDA0001894732120000122
K1=0.01,K2=0.03,L=255。
(5)对于满足要求的图像使用云端的图像服务池中目标检测云服务接口进行目标监测,若检测结果中存在置信度小于0.5的目标,则对其进行图像标注,最后将其加入图像模型更新训练数据库。
2.对于用户和机器人一次语音交互文字信息,记为(Inputi,Responsei)。
(1)判断Inputi的长度,若长度小于等于2,则不将该次交互信息保存到数据池中。
(2)将句子进行中文分词,形成一些词语的序列。
(3)使用统计语言模型中的n-gram模型,n取3,计算Inputi的概率,设定阈值k,若句子概率大于k,则将此次交互信息存入数据池中。否则进行步骤(4)。
(4)对分词之后的句子进行词性标注,将标注为名词的词语转化为分布式词向量,计算其和兴趣、性格等类词语的余弦相似度夹角,若其大于0.5,则将其保存到数据池中,用于用户兴趣画像的刻画。
通过云机交互网关层,可以对服务池运行状态进行监控。在云端服务池处于低负载率的时候,利用基于宽度学习的增量训练方法,在原有模型的基础上,进行模型的动态更新,改善模型表现能力。
为了实现以上目的,本发明提供一种基于云端的利用宽度网络的增量模型训练方法。
如图3所示,增量训练系统整体分为更新数据层、特征提取层、特征层和输出层四层。
模型更新数据层是云端对机器人日常使用过程中采集的各种信息经过筛选,满足条件的用于模型改善的训练数据。
模型提取层是对输入的数据X进行映射,使用函数
Figure BDA0001894732120000131
将输入数据映射为特征Zi,对Zi进行
Figure BDA0001894732120000132
变换,成为特征层的强化节点Hj。对于i≠j、k≠r,φiφj、ξkξr可以是不同的函数。映射函数可以是核函数、非线性转换等。对于不同的数据类型,可以选取不同的映射函数,比如文字信息使用TF-IDF,RNN等映射函数,图像信息使用CNN等映射函数。
特征层节点主要由n个输入映射特征节点和m个强化节点拼接而成。对于每个特征映射,对应k个节点。
输出层需要满足,
Figure BDA0001894732120000133
令A=[Zn|Hm],即求出在
Figure BDA0001894732120000134
条件下的解,其中σ1=σ2=u=v=2。通过矩阵分析和转换,可以求得Wm=A+Y。其中
Figure BDA0001894732120000135
当模型精度未能达到要求的时候,可以通过改善模型结构和增加训练数据量来提高模型精度。改善模型结构可以通过增加强化节点和特征映射节点来实现。如图三所示,具体操作如下:
(1)增加强化节点
对新增加的强化节点的参数
Figure BDA0001894732120000136
进行随机初始化,计算Hm+1,更新原来的
Figure BDA0001894732120000137
Figure BDA0001894732120000138
计算
Figure BDA0001894732120000139
其中,
Figure BDA00018947321200001310
更新权重:
Figure BDA00018947321200001311
(2)增加特征映射节点
Figure BDA00018947321200001312
进行初始化,计算Zn+1,然后计算
Figure BDA00018947321200001313
更新原来
Figure BDA00018947321200001314
Figure BDA00018947321200001315
计算
Figure BDA0001894732120000141
其中BT和(1)相同,
Figure BDA0001894732120000142
Figure BDA0001894732120000143
更新权重:
Figure BDA0001894732120000144
(3)增加新的数据
新的数据为Xa,此时
Figure BDA0001894732120000145
其中
Figure BDA0001894732120000146
更新
Figure BDA0001894732120000147
那么
Figure BDA0001894732120000148
其中
Figure BDA0001894732120000149
其中BT和(1)相同。最后更新权值矩阵
Figure BDA00018947321200001410
得到更新的权值矩阵,对服务池对应的服务模型进行更新,提供更优的云端服务模型。
根据本公开的一个或多个实施例的一个方面,提供一种家庭服务机器人云端多模态对话方法。
一种家庭服务机器人云端多模态对话方法,该方法包括:
实时接收用户语音信息和场景图像信息;
调用语音识别服务将用户语音信息转化为文字信息,对文字信息进行分词和命名实体识别处理,确定对话类型;
将场景图像信息进行预处理,得到预处理图像信息;
根据预处理图像信息和处理后的文字信息进行筛选,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,动态更新根据知识库训练的对话服务模型;
对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;
根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息,通过对话服务模型,生成用户和机器人交互的对话信息。
进一步地,在该方法中,所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息,所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息,所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。
进一步地,在该方法中,所述对话类型包括闲聊型对话和任务型对话;
在任务型对话中,将文字信息分词后的词语转化为分布式词向量与场景感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;将文字信息分词后的词语转化为分布式词向量与用户感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;
在闲聊型对话中,将预处理后的场景图像信息、用户语音信息和/或处理后的文字信息通过情感感知器获取情感感知信息,并将情感感知信息分类,根据不同情感感知信息类型,生成其对应的不同的对话信息。
进一步地,该方法还包括主动生成对话,具体步骤包括:
实时接收场景图像信息;
将场景图像信息进行预处理,对预处理后的场景图像信息分别通过场景感知器进行行为识别和通过情感感知器进行人脸表情识别,结合用户感知器中的行为画像,监测用户情绪或行为;
当情绪异常或行为异常时,根据异常情绪类别和异常行为类别,主动生成相对应的对话信息。
进一步地,该方法还包括:将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息,根据历时交互信息通过用户感知器进行行为画像和兴趣画像,并加入时间轴信息,得到基于时序的动态历史用户感知信息,在生成用户和机器人交互的对话信息时,调用该历史用户感知信息。
进一步地,在该方法中,筛选预处理图像信息加入增量知识库的具体步骤包括:
对预处理图像信息依次进行清晰度、对比度和亮度计算,删除清晰度、对比度和亮度小于其对应预设阈值的图像;
将保留的图像和知识库中的图像进行图像结构相似度计算,删除大于预设相似度阈值的图像;
将保留的图像进行目标检测,对检测结果中的置信度小于置信度阈值的目标进行图像标注,加入增量知识库。
进一步地,在该方法中,筛选处理后的文字信息加入增量知识库的具体步骤包括:
判断文字信息的长度,删除长度小于预设长度阈值的文字信息;
采用统计语言模型计算文字信息的概率,将概率大于预设概率阈值的文字信息加入增量知识库;
对于概率小于预设阈值的文字信息,对分词处理后的文字信息进行词性标注,并将标注为名词的词语转化为分布式词向量,计算其与用户兴趣相关词语的余弦相似度夹角,将夹角大于预设余弦相似度夹角阈值的文字信息加入增量知识库,用于用户兴趣画像。
进一步地,在该方法中,通过增量训练网络进行所述模型增量训练,所述增量训练网络包括更新数据层、特征提取层、特征层和输出层;
所述更新数据层用于筛选数据得到用于模型改善的训练数据;
所述特征提取层用于对输入该层的数据依次进行映射、变换,成为特征层的强化节点;
所述特征层由输入映射特征节点和强化节点拼接而成。
进一步地,该方法还包括,当对话服务模型精度小于精度阈值时,通过增加强化节点和特征映射矩阵改善模型结构和/或增加训练数据量。
根据本公开的一个或多个实施例的另一个方面,还提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。
根据本公开的一个或多个实施例的另一个方面,还提供一种终端设备。
一种终端设备,采用互联网终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。
这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。
本公开的有益效果:
(2)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,针对家庭服务机器人复杂多样性的工作环境,基于云平台的优势,充分挖掘多模态数据的信息特征,构建多模态信息的共融的交互系统。研究基于声场、语音语言情感、用户表情和视觉环境等多维信息构建场景信息的语义表示,采用信息融合的方法进行对话决策场景自适应,实现场景感知的智能化语音交互。
(2)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,针对海量的语音交互日志和场景图像信息的冗余问题,建立有效数据的反馈机制和数据提取方法,实现云端场景和语音模型数据库的更新。
(3)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,构建基于动态数据的存储模型,结合云端行为知识库,采用深度网络分析长时序的用户行为,构建语音交互的用户画像和场景用户画像的混合用户画像。
(4)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统,采用增量学习的方法,在云端构建基于宽度网络增量式训练的云服务模型,完成模型的增量式动态更新,提高云端资源的利用率,实现系统的智能进化。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种家庭服务机器人云端多模态对话方法,其特征在于,该方法包括:
实时接收用户语音信息和场景图像信息;
调用语音识别服务将用户语音信息转化为文字信息,对文字信息进行分词和命名实体识别处理,确定对话类型;
将场景图像信息进行预处理,得到预处理图像信息;
根据预处理图像信息和处理后的文字信息进行筛选,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,动态更新根据知识库训练的对话服务模型;
对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;
根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息,通过对话服务模型,生成用户和机器人交互的对话信息;
筛选预处理图像信息加入增量知识库的具体步骤包括:
对预处理图像信息依次进行清晰度、对比度和亮度计算,删除清晰度、对比度和亮度小于其对应预设阈值的图像;
将保留的图像和知识库中的图像进行图像结构相似度计算,删除大于预设相似度阈值的图像;
将保留的图像进行目标检测,对检测结果中的置信度小于置信度阈值的目标进行图像标注,加入增量知识库;
筛选处理后的文字信息加入增量知识库的具体步骤包括:
判断文字信息的长度,删除长度小于预设长度阈值的文字信息;
采用统计语言模型计算文字信息的概率,将概率大于预设概率阈值的文字信息加入增量知识库;
对于概率小于预设阈值的文字信息,对分词处理后的文字信息进行词性标注,并将标注为名词的词语转化为分布式词向量,计算其与用户兴趣相关词语的余弦相似度夹角,将夹角大于预设余弦相似度夹角阈值的文字信息加入增量知识库,用于用户兴趣画像;
通过增量训练网络进行所述模型增量训练,所述增量训练网络包括更新数据层、特征提取层、特征层和输出层;
所述更新数据层用于筛选数据得到用于模型改善的训练数据;
所述特征提取层用于对输入该层的数据依次进行映射、变换,成为特征层的强化节点;
所述特征层由输入映射特征节点和强化节点拼接而成;
当对话服务模型精度小于精度阈值时,通过增加强化节点和特征映射矩阵改善模型结构和/或增加训练数据量。
2.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,在该方法中,所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息,所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息,所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。
3.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,在该方法中,所述对话类型包括闲聊型对话和任务型对话;
在任务型对话中,将文字信息分词后的词语转化为分布式词向量与场景感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;将文字信息分词后的词语转化为分布式词向量与用户感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;
在闲聊型对话中,将预处理后的场景图像信息、用户语音信息和/或处理后的文字信息通过情感感知器获取情感感知信息,并将情感感知信息分类,根据不同情感感知信息类型,生成其对应的不同的对话信息。
4.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,该方法还包括主动生成对话,具体步骤包括:
实时接收场景图像信息;
将场景图像信息进行预处理,对预处理后的场景图像信息分别通过场景感知器进行行为识别和通过情感感知器进行人脸表情识别,结合用户感知器中的行为画像,监测用户情绪或行为;
当情绪异常或行为异常时,根据异常情绪类别和异常行为类别,主动生成相对应的对话信息。
5.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,该方法还包括:将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息,根据历史交互信息通过用户感知器进行行为画像和兴趣画像,并加入时间轴信息,得到基于时序的动态历史用户感知信息,在生成用户和机器人交互的对话信息时,调用该历史用户感知信息。
6.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法。
7.一种终端设备,采用互联网终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法。
8.一种家庭服务机器人云端多模态对话系统,其特征在于,基于如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法,包括:
数据采集池、计算层、云机交互网关层、服务池、数据池和对话生成服务;
所述数据采集池包括机器人,采集用户语音信息和场景图像信息;
所述计算层搭建于GPU和CPU物理集群上,用于为服务池提供的各项服务提供计算结果;
所述云机交互网关层用于服务池和数据采集池的交互,负责服务认证、服务请求解析和负载均衡;
所述服务池包括服务解析器、配置器和各项云端服务,服务解析器对接收的服务请求进行解析,配置器用于确定服务数量,并根据服务数量对服务请求分配资源,调用服务池云端服务进行业务处理;
所述数据池包括知识库和增量知识库;
所述对话生成服务采用家庭服务机器人云端多模态对话方法生成对话信息,通过所述云机交互网关层反馈至机器人,进行人机交互对话。
9.如权利要求8所述的一种家庭服务机器人云端多模态对话系统,其特征在于,在该系统中,所述云机交互网关层包括服务认证层、解析器和网关层;
所述服务认证层控制机器人请求服务的合法性,机器人按照规定的统一JSON文件格式发送服务请求之后,所述解析器对服务请求进行数据、协议文本和服务需求的提取和解析,所述网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务;
在该系统中,通过在云端部署模型,将各种云端服务注到服务池,为机器人提供各项云端服务,各个云端服务功能模块通过封装,形成通用的云端服务接口,机器人和云端服务通过云端服务接口进行数据传输和通信。
CN201811486867.7A 2018-12-06 2018-12-06 一种家庭服务机器人云端多模态对话方法、装置及系统 Active CN109658928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811486867.7A CN109658928B (zh) 2018-12-06 2018-12-06 一种家庭服务机器人云端多模态对话方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811486867.7A CN109658928B (zh) 2018-12-06 2018-12-06 一种家庭服务机器人云端多模态对话方法、装置及系统

Publications (2)

Publication Number Publication Date
CN109658928A CN109658928A (zh) 2019-04-19
CN109658928B true CN109658928B (zh) 2020-06-23

Family

ID=66111819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811486867.7A Active CN109658928B (zh) 2018-12-06 2018-12-06 一种家庭服务机器人云端多模态对话方法、装置及系统

Country Status (1)

Country Link
CN (1) CN109658928B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083693B (zh) * 2019-04-28 2021-03-12 腾讯科技(深圳)有限公司 机器人对话回复方法及装置
CN110085229A (zh) * 2019-04-29 2019-08-02 珠海景秀光电科技有限公司 智能虚拟外教信息交互方法及装置
CN110225207B (zh) * 2019-04-29 2021-08-06 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质
CN110378485B (zh) * 2019-06-03 2021-05-11 广东幽澜机器人科技有限公司 一种机器人自学习新业务知识方法及装置
CN110347823A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 基于语音的用户分类方法、装置、计算机设备及存储介质
CN110297887B (zh) * 2019-06-26 2021-07-27 山东大学 基于云平台的服务机器人个性化对话系统及方法
CN110457709A (zh) * 2019-08-16 2019-11-15 北京一链数云科技有限公司 外呼对话处理方法、装置及服务器
CN110599999A (zh) * 2019-09-17 2019-12-20 寇晓宇 数据交互方法、装置和机器人
CN110727773B (zh) * 2019-10-11 2022-02-01 沈阳民航东北凯亚有限公司 信息提供方法及装置
CN110837856B (zh) * 2019-10-31 2023-05-30 深圳市商汤科技有限公司 神经网络训练及目标检测方法、装置、设备和存储介质
CN110930117A (zh) * 2019-11-21 2020-03-27 中国银行股份有限公司 一种人工智能微服务系统
CN112925887A (zh) * 2019-12-05 2021-06-08 北京四维图新科技股份有限公司 交互方法和装置、电子设备、存储介质、文本识别方法
CN111143525A (zh) * 2019-12-17 2020-05-12 广东广信通信服务有限公司 车辆信息获取方法、装置和智能移车系统
CN111107156A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统
CN113076965A (zh) * 2020-01-06 2021-07-06 广州中国科学院先进技术研究所 一种基于云端的服务机器人场景分类系统及方法
CN113378562B (zh) * 2020-03-10 2023-09-19 中国移动通信集团辽宁有限公司 分词处理方法、装置、计算设备及存储介质
CN111274489B (zh) * 2020-03-25 2023-12-15 北京百度网讯科技有限公司 信息处理方法、装置、设备及存储介质
CN111782788A (zh) * 2020-07-03 2020-10-16 电子科技大学 一种面向开放域对话系统的情感回复自动生成方法
CN111951787A (zh) * 2020-07-31 2020-11-17 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN112183417B (zh) * 2020-09-30 2023-12-05 重庆天智慧启科技有限公司 一种置业顾问服务能力评价系统及方法
CN112231556B (zh) * 2020-10-13 2023-07-25 中国平安人寿保险股份有限公司 基于对话场景的用户画像方法、装置、设备及介质
TWI776296B (zh) * 2020-11-30 2022-09-01 中華電信股份有限公司 語音應答系統和語音應答方法
CN112687269B (zh) * 2020-12-18 2022-11-08 山东盛帆蓝海电气有限公司 楼宇管理机器人语音自动识别方法及系统
CN113596130A (zh) * 2020-12-21 2021-11-02 刚倩 基于兴趣画像的人工智能模块训练方法、系统及服务器
US11978438B1 (en) * 2021-03-29 2024-05-07 Amazon Technologies, Inc. Machine learning model updating
CN113011551B (zh) * 2021-04-02 2023-01-31 山东大学 一种基于用户情感反馈的机器人服务认知方法及系统
US11615252B2 (en) * 2021-05-13 2023-03-28 D8AI Inc. Virtual assistants for emergency dispatchers
CN113299287A (zh) * 2021-05-24 2021-08-24 山东新一代信息产业技术研究院有限公司 基于多模态的服务机器人交互方法、系统及存储介质
CN113505874A (zh) * 2021-06-07 2021-10-15 广发银行股份有限公司 一种多模型智能机器人系统及构建方法
CN113433941A (zh) * 2021-06-29 2021-09-24 之江实验室 一种基于多模态知识图谱的低层级机器人任务规划方法
CN116383365B (zh) * 2023-06-01 2023-09-08 广州里工实业有限公司 一种基于智能制造的学习资料生成方法、系统及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701211A (zh) * 2016-01-13 2016-06-22 北京光年无限科技有限公司 面向问答系统的主动交互数据处理方法及系统
JP6594235B2 (ja) * 2016-03-16 2019-10-23 Kddi株式会社 作業支援装置およびプログラム
CN106663001A (zh) * 2016-06-28 2017-05-10 深圳狗尾草智能科技有限公司 基于单意图的技能包并行执行管理方法、系统及机器人
CN107369443B (zh) * 2017-06-29 2020-09-25 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN108922540B (zh) * 2018-07-27 2023-01-24 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Also Published As

Publication number Publication date
CN109658928A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109658928B (zh) 一种家庭服务机器人云端多模态对话方法、装置及系统
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
CN109964223A (zh) 会话信息处理方法及其装置、存储介质
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN109815322B (zh) 应答的方法、装置、存储介质及电子设备
US20200184965A1 (en) Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
CN114547244A (zh) 用于确定信息的方法和装置
CN112910761B (zh) 即时通讯方法、装置、设备、存储介质以及程序产品
CN114974253A (zh) 一种基于人物画像的自然语言解释方法、装置及存储介质
CN112559715B (zh) 态度的识别方法、装置、设备及存储介质
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN116913266B (zh) 一种语音检测方法、装置、设备及存储介质
CN111783429A (zh) 信息处理方法、装置、电子设备以及存储介质
CN116737895A (zh) 一种数据处理方法及相关设备
CN115378890B (zh) 信息输入方法、装置、存储介质及计算机设备
CN115860013A (zh) 对话消息处理方法、装置、系统、设备及介质
CN109002498A (zh) 人机对话方法、装置、设备及存储介质
CN112002306B (zh) 语音类别的识别方法、装置、电子设备及可读存储介质
CN112035648B (zh) 一种用户数据的处理方法、装置及电子设备
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质
CN113763925A (zh) 语音识别方法、装置、计算机设备及存储介质
CN113569585A (zh) 翻译方法和装置、存储介质及电子设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN117059082B (zh) 基于大模型的外呼通话方法、装置、介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant