CN112651334B

CN112651334B - 机器人视频交互方法和系统

Info

Publication number: CN112651334B
Application number: CN202011558482.4A
Authority: CN
Inventors: 马聪; 赵瑞; 严肃; 刘坤
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-05-23
Anticipated expiration: 2040-12-25
Also published as: CN112651334A

Abstract

公开了一种机器人视频交互方法和系统。所述机器人视频交互方法包括：监测场景中的用户动作和语音；对用户动作和语音进行分析以识别场景；基于用户动作和语音预测用户意图；判断场景中进行交互的时机；在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户。本公开的方法解决了用户行为场景中智能视频系统只会无交互性的服从用户指令的问题，拓展了智能视频系统的应用场景，提升了智能视频系统的使用体验。

Description

机器人视频交互方法和系统

技术领域

本公开涉及计算机技术领域。更具体地，本公开涉及一种机器人视频交互方法和系统。

背景技术

在传统的方法中，机器人通常需要被动唤醒去完成特定的任务，例如商场的导航机器人需要人们唤醒，根据人们的指令进行导航服务，即机器人需要被人们主动唤醒，然后被动地接受指令完成任务，无主动参与性，也就是说，传统的机器人交互只能提供被动反馈，不能满足自然交互的要求；另外，即使是在单纯的视频交互的场景中，也是视频监控拍到用户视频，进行特定时刻特定行为分析，智能交互还停留在基于静态特征的单场景环境中，很少涉及场景的关联行为分析，而且也没有把动作行为等动态特征以及它们之间的关联性做结构化的处理而形成上下文的理解以主动与用户做出交互；此外，当前的主动交互系统在时序判断方面表现不佳，其“不及时”的反馈通常会导致不良的用户体验。

公开内容

本公开的一个方面在于提供一种机器人视频交互方法，解决了用户行为场景中智能视频系统只会无交互性的服从用户指令的问题，拓展了智能视频系统的应用场景，提升了智能视频系统的使用体验。

在一个总的方面，提供一种机器人视频交互方法，包括：监测场景中的用户动作和语音；对用户动作和语音进行分析以识别场景；基于用户动作和语音预测用户意图；判断场景中进行交互的时机；在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户。

可选地，对用户动作和语音进行分析的步骤包括：对监测的用户动作和语音进行分离，以分别对用户动作和语音进行分析。

可选地，对用户动作和语音进行分析以识别场景的步骤包括：采用LRCN算法模型对用户动作进行分析，采用CNN提取用户的面部特征以识别用户的情绪。

可选地，场景被分类为多个场景，并且识别的场景为所述多个场景之一。

可选地，基于用户动作和语音预测用户意图包括采用PredNet模型预测用户下一步的动作和语音。

可选地，判断场景中进行交互的时机的步骤包括：使用随机森林模型判断与用户进行交互的时机。

可选地，使用随机森林模型判断与用户进行交互的时机的步骤包括：根据用户动作和语音的频率、用户动作和语音的中断时间来判断与用户进行交互的时机。

可选地，使用随机森林模型判断与用户进行交互的时机的步骤包括：当用户动作的频率小于预定阈值并且用户动作的中断时间大于时间阈值或者用户语音的频率小于预定阈值并且用户语音的中断时间大于时间阈值时，判断需要与用户进行交互。

可选地，使用随机森林模型判断与用户进行交互的时机的步骤包括：当用户动作的频率大于预定阈值时，判断需要与用户进行交互。

可选地，以视频推荐、语音提示、音乐播放、图片展示的形式将用户意图的解决方案反馈给用户。

在另一个总的方面，提供一种机器人视频交互系统，包括：监测模块，被配置为监测场景中的用户动作和语音；分析模块，被配置为对用户动作和语音进行分析以识别场景；预测模块，被配置为基于用户动作和语音预测用户意图；时机判断模块，被配置为判断场景中进行交互的时机；反馈模块，被配置为在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户。

在另一总的方面，提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时实现如上所述的机器人视频交互方法。

在另一总的方面，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的机器人视频交互方法。

在根据本公开的示例性实施例的机器人视频交互方法和系统，可以处理诸如动作和语音的动态特征以及它们之间的相关性，从而形成上下文理解，并且可以在适当的时候与用户积极互动，即，本公开实现了基于视频场景的适当时机的主动交互，其解决了用户行为场景中智能视频系统只会无交互性的服从用户指令的问题，拓展了智能视频系统的应用场景，提升了智能视频系统的使用体验。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本公开的示例性实施例的机器人视频交互系统；

图2是示出根据本公开的示例性实施例的机器人视频交互方法的流程图；

图3是示出根据本公开的示例性实施例的用户场景分类以及主动参与判断参数；

图4是示出根据本公开的示例性实施例的视频分析流程图；

图5是示出根据本公开的示例性实施例的随机森林树模型；

图6是示出根据本公开的示例性实施例的RF判断机制图；

图7是示出根据本公开的示例性实施例的机器人视频交互系统总图；

图8至图12是示出根据本公开的示例性实施例的机器人视频交互的不同场景的示例。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件(诸如，层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

在下文中，将参照附图详细描述实施例。然而，实施例可以以各种形式实现，并且不限于在此描述的示例。

本发明公开了一种机器人视频交互方法和系统。该方法主要包括：将不同用户场景分为聊天类、提示类、固定程序类、固定行为类四种，在实际应用中，机器人视频交互系统对场景进行监测，标记用户行为动作以及语音内容中的关键字进而识别场景，当根据用户的动作需要参与时或者系统预先预设的关键字被触发时，智能系统采用长期循环卷积网络(LRCN，Long-term Recurrent Convolutional Networks，)算法分析用户的意图并给出合适的解决方案，然后，系统通过随机森林模型(RF，Random Forest)算法训练对当前场景中进行主动参与时机分析，能够在合适的时机主动为用户对相关问题反馈解决方案。在本发明中，机器人视频交互方法和系统一般通过机器人实现，词语“干预”、“主动干预”、“交互”、“主动交互”、“介入”、“主动介入”、“参与”、“主动参与”应理解为基本相同的含义，即均为机器人或机器人视频交互系统根据具体场景主动地为用户提供服务，词语“停顿”、“停顿时间”、“中断”、“中断时间”应理解为基本相同的含义，即均为用户作出动作或发出语音的停顿时间。

如图1所示，机器人视频交互系统包括监测模块、分析模块、预测模块、视频标记模块、时机判断模块、反馈模块、IOT(物联网)控制模块以及存储模块。其中，监测模块包括视频捕获单元并被配置为通过视频捕获单元监测场景中的用户动作和语音，分析模块包括视频分析单元、音频分析单元，存储模块包括内部存储单元以及外部存储单元。

下面结合图2至图7对图1所示出的机器人视频交互系统以及本发明的机器人视频交互方法进行详细描述。

在图2中，示出了一个用户场景，该场景中存在3个用户，即用户A、用户B和用户C，机器人视频交互系统的监测模块对场景进行监测，通过视频捕获单元捕获场景中的用户A、用户B和用户C的动作和语音，并将视频内容进行音视频分离，即对所捕获的动作和语音分开进行分析，进而通过视频分析单元对动作进行分析得到视频分析结果，通过音频分析单元对语音进行分析得到音频分析结果，并综合视频分析结果和音频分析结果实现对场景的识别，如图3所示将场景分类为多个类别，并且因此将场景识别为图3中所定义的场景之一，另外，在对动作和语音进行分析的过程中，可以通过视频标记模块加入时间戳，从而将视频分析结果和音频分析结果在视频中进行标记，时间戳的加入使得视频具有时序的特征，便于更容易地识别场景并更好地对用户意图进行预测，在完成对场景的识别之后，预测模块采用PredNet模型做行为预测，预测出用户的意图(例如，用户下一步的动作、语音等)，此时，时机判断模块采用RF(随机森林)模型，判断为用户主动提供服务的时机，并且在系统得到具体的分析结果并判定是否执行某一操作时，反馈模块根据情况在合适的交互时机提供用户意图的相应的解决方案并输出相应的解决方案或者将相应的解决方案保留等待，如图2中所示，机器人视频交互系统通过IOT控制模块控制多种IOT设备(例如，电视、电脑、智能手机、音箱、pad等)将用户意图的解决方案反馈给用户，以实现与用户的交互。

其中，视频分析单元采用LRCN算法模型对视频内容进行分析，该网络同时具备处理时序视频输入或单帧图片的能力，同时也具备输出单值预测或序列预测的能力，并且可以处理三种不同任务，其中动作识别任务输入的图片是时序图片，输出单个预测值表示存在某动作的概率；图片描述任务是输入单帧图片信息来输出序列文字对该图片进行描述；视频描述任务是输入时序的图片信息，并同时输出序列的文字对视频内容进行描述。

其中，音频分析单元利用GMM(Gaussian mixture model)高斯混合模型的声纹识别进行用户标记，将语音内容与用户身份进行对应，还原用户对话场景，实现系统对对话场景的识别。

其中，存储模块包括内部存储单元和外部存储单元，内部存储单元负责将系统的源指令、数据库、历史视频信息、分析结果等数据进行整理储存，以便其他模块随时调用；外部存储单元表示外部的云端服务器，系统针对用户意图会从外部服务器中检索相应的反馈内容。

图3描述了对用户场景进行分类，作为示例，将不同用户场景分为聊天类场景、提示类场景、固定程序类场景、固定行为类场景四种，不同的场景具有不同的策略(Policy)和反馈类型，其中策略包括基线(Baseline)、时机判断(Timing Judgment)、时机调整(TimingAdjusting)，基线表示系统在此模式下检测干预时机的关键特征，时机判断表示影响干预时间的一般特征，时机调整表示可能会影响此模式下的用户体验，因此系统可以据此调整干预时间，反馈类型定义了此模式下给用户反馈的形式。

其中，聊天类场景为生活模式，涉及的聊天内容包括例如天气、食物、衣服、电影、音乐等生活中常见的话题，基线包括动作意图、询问性语句等，时机判断包括动作意图、中断时间、语音频率等，时机调整包括用户情绪、用户表情、用户数量、用户特征等，反馈类型包括App活动、推荐(例如网络链接)等。

其中，提示类场景为服务模式，场景示例包括提醒在一定时间之后做某些事情、提醒出门带伞等，基线包括动作意图、提示库等，时机判断包括动作意图、中断时间等，反馈类型包括语音提示、解释等。

其中，固定程序类场景为游戏模式，场景示例包括交互类游戏等，基线包括动作意图、游戏进程等，时机判断包括动作意图、游戏进程等，时机调整包括用户数量等，反馈类型包括游戏角色等。

其中，固定行为类场景为运动模式，场景示例包括瑜伽、有氧运动、芭蕾等，基线包括动作意图、运动库等，时机判断包括动作意图等，反馈类型包括音乐、视频教程等。

图3中对场景的分类以及场景的不同的策略和反馈类型仅为示例，本公开不限于此，而是可以根据实际应用将场景分为更多或更少的类别，并且场景的策略以及反馈类型可以根据实际应用对数量和内容进行相应的调整。

图4描述了对视频进行智能分析的示例性过程，通过对视频内容的分析识别，得到一些特征值，并且用这些特征值对视频进行时序标记。其中，对于视频内容描述，采用LRCN模型，网络输入图片后先使用传统CNN(Convolutional Neural Networks)卷积神经网络来提取输入图片的特征，然后将这些具备时序关联的图片的特征送入后续的LSTM(LongShort-Term Memory)长短期记忆网络进行处理，并得到时序的输出，LRCN将CNN和LSTM的结合得非常全面，其中的输入可以是单帧图片或者是视频中的序列信息，同时网络的数据也可以是单个预测值或序列预测值，这使得该网络可以适应多种任务处理，最终可以得到视频内容的描述关键字。对于用户情绪识别，采用CNN提取用户面部特征，最终可以得到用户的情绪(开心、生气、沮丧、害怕等)；对于场景中的中断时间和交流频率，使用VAD(VoiceActivity Detection)语音活动检测方法进行检测，该方法主要利用了语音信号的短时能量和短时过零率，将语音信号进行分帧、加窗处理，计算每帧信号的能量和过零率。对于用户声音识别，采用GMM-UBM算法以及TextRank提取人说话的模型以及关键字；对于用户特征，采用Adaboost+SVM算法识别用户性别，并且采用LBP+HOG识别用户的人数以及年龄，图4中示出了用户的性别、年龄、人数等，但不限于此，用户还可以包括其他特征。通过对视频内容进行描述并识别用户的情绪、声音、特征，可以实现对场景的识别，用户的特征可以便于增加对场景的更清楚的识别并可以用于后续的用户意图预测。

其中，对于用户意图(例如动作预测)，采用PredNet模型，该模型网络由一些列的重复的堆叠模块组成，其尝试对模型的输入进行局部预测，然后利用预测的结果减去真实的输入得到误差信息，并将其传播到网络的下一层。模型中的单元主要通过两次的传播来进行更新，一次是通过指定向下的传播来计算状态，另一次则是通过一个前向传播来进行预测和得到预测误差以及更高阶的目标。

图5示出了机器人主动干预的时机，即机器人交互系统判断场景中进行交互的时机，为此本公开需要训练出一个自动判断主动参与用户行为的模型，并且因此采用监督式学习分类算法，RF符合这个要求，用它来进行系统决策与主动交互的判断，采用随机森林进行主动参与学习的步骤包括根据提取的特征信息(例如，动作意图、动作频率、动作中断时间、语音间隔、语音频率、语音中断时间、用户情绪、用户表情、用户数量、用户特征)，在多用户的场景下，加入语音的参数来校正主动参与时机，可以避免不必要的打扰。随机森林模型由很多的决策树组成，每个决策树从全部样本数据中有放回的多次重复抽样作为模型的训练集，根据特征进行分类判断是否可以主动交互，重复多次生成多个决策树即组成了随机森林。在得到森林之后，当有一个新的输入进入的时候，就让森林中的每一棵决策树分别进行一下判断是否应该主动交互，多个决策树的结果采用少数服从多数的投票方式，决定最终的决策结果。具体每个树建立如图6所示，其中，多棵决策树组成了随机森林，并且对于一个输入，对应地一棵决策树进行一个判断步骤，判断是否需要交互，当多个决策树针对所有的输入完成了所有的交互判断时，根据不同的输入汇总得到最终的决策结果。例如，以聊天类场景为例，当通过场景分类器识别出聊天场景时，根据用户动作和语音判断用户意图是否清晰，当意图不清晰时，判断不需要介入，当意图清晰时，针对下一输入进行判断；当下一输入为语音频率时，判断语音频率是否小于阈值，当答案为否时，判断不需要介入，当答案肯定时，针对下一输入进行判断；当下一输入为停顿时间时，判断停顿时间是否大于阈值，当答案为否时，判断不需要介入，当答案肯定时，针对下一输入进行判断；当下一输入为情绪时，判断情绪是开心还是生气，当情绪为生气时，判断不需要介入，当情绪为开心时，针对下一输入进行判断；当下一输入为信息是否与用户特征相关时，决策树进行判断，当答案为否时，判断不需要介入，当答案肯定时，判断需要介入。

如图7所示，在理解用户的意图之后，系统会选择合适的反馈内容，通过多种方式反馈内容，比如视频推荐、语音提示、音乐播放、图片展示等，同时机器人交互系统可以控制家里IOT设备对这些内容进行展示。根据图1至图7的示例性描述，本发明通过分析所监测的视频内容，对用户(谁)和场景(什么)进行分类和识别，了解并预测用户意图(为什么)，然后实施主动干预时间判断(何时)和解决方案(如何)，最后，系统决定为用户提供解决方案。

图8至图12描述了根据本发明的视频交互的若干示例，其中，图8至图9为聊天类场景，如图8所示，两个用户在家中讨论网络购物，机器人视频交互系统对此进行监测，并通过LRCN模型对视频内容进行描述，进而将场景识别为聊天类场景、模式为生活模式，通过CNN模型提取用户面部特征以得到用户的情绪，使用VAD语音活动检测方法检测场景的语音停顿时间和交流频率，采用GMM-UBM算法以及TextRank提取用户说话的模型以及关键字从而识别用户声音，采用Adaboost+SVM算法识别用户性别，采用LBP+HOG识别用户的人数以及年龄或者其他特征(例如，体型等)，监测用户的语音聊天、用户的语音频率和停顿时间，监测聊天过程中出现的询问性语句或动作，当用户通过手指指向裙子想要裙子的网站链接或与裙子相关的APP时，监测用户的语音频率和停顿时间，当用户的语音频率小于预定阈值并且停顿时间大于时间阈值时，系统对此进行判定，认为用户此时可能在思考或在寻找裙子的网站链接或与裙子相关的APP，系统就此判断需要主动介入，机器人对裙子牌照并获取裙子图像，通过外部存储单元在网上进行搜索，将搜索出的链接结果存放在外部存储单元中，并将搜索的链接结果在智能设备上进行显示，供用户查看；在图9中，继续如图8所示监测用户的聊天，当用户询问裙子尺寸的时候，监测用户情绪的兴奋，例如如果用户语速变慢，停顿时间变长，判断用户情绪失落，此时不宜介入，对于用户语音的频率和停顿时间的判断进行修正，适当增加阈值，当用户的语音频率小于修正后的预定阈值并且停顿时间大于修正后的时间阈值时，系统就此判断用户情绪变得开心，需要主动介入，机器人对用户进行拍照并据此识别用户的特征(性别为女性，体型微胖)以判断用户需要的衣服尺寸，将所推荐的衣服尺寸存储在内部存储单元中，并通过语音输出将衣服尺寸反馈给用户，当监测到用户之间的谈话涉及出门购物并且在用户走到门口并打开门时，机器人可以判断出用户的动作意图是外出，机器人根据提前设置好的提示库，搜索与外出有关的信息，例如天气、交通路况、车辆尾号限行等，并对用户进行语音提示：根据气象局预报，今天有雨，出门记得带伞。

图10为提示类场景，图中显示了一位老年人吃药的场景，日常生活中，老年人因为年龄原因会忘记按照医嘱吃药的事情，例如，按照医嘱，正常的吃药频率为每24小时吃一次药，而老年人可能忘记了遵医嘱按时吃药或者已经吃过药不久后(例如，1个小时后)又再次吃药，从而没有按照正常的吃药动作频率(1/24h)吃药。在图10中，系统监测到在早上8点半用户拿起药瓶倒出药丸进行服药，系统对此进行存储并加入时间戳，在9点半时，系统监测到用户拿起药瓶倒出药丸，对此动作进行分析，识别出用户可能想要再次吃药，计算出用户吃药动作的频率为1/1h(即每小时吃一次药)，而根据系统中存储的吃药动作频率(例如，正常的吃药动作频率为1/24h，即每24小时吃一次药)，用户吃药动作的频率1/1h大于正常的阈值频率1/24h，系统就此判定在本场景下需要进行主动干预，因此，系统通过语音提示用户：早上8点半您已经吃过药了，下次吃药时间为明天早上8点半。

图11为固定程序类场景，图中显示了游戏类场景，例如你比划我来猜，需要2个参与者，屏幕上显示出被猜的词语，一个参与者背对屏幕，看不到具体的词语，另一参与者观看屏幕，并根据屏幕上显示的词语，通过语音和身体动作将词语的有关信息传递给另一参与者，但不能说出屏幕上的词语本身，另一参与者根据所传递的语音和身体语言猜测词语，机器人可以扮演猜词人，用户可以扮演比划的人，当用户做完一个动作后，机器人判断用户意图，根据游戏程序以及停顿时间判断主动加入时机，主动参与进行答话，以此和用户进行互动游戏。例如，屏幕上显示词语“拳击”，用户做出握拳准备出击的动作，机器人根据该动作判断用户的意图并猜出合适的词语，当用户的语音频率小于预定阈值并且语音停顿时间大于时间阈值、或者动作频率小于预定阈值并且动作停顿时间大于时间阈值时，系统就此判断用户的比划完毕，机器人可以主动介入，并通过在屏幕上显示所猜测的词语以将输出反馈给用户，由于机器人可能一次猜不对该词语，则用户可以重复该动作，机器人进行反复猜测，待到正确猜测出词语，则根据游戏程序继续下一个词语的猜测过程，以此和用户进行互动游戏。

图12为固定动作类场景，图中显示了运动类场景，当用户进行运动的时候，例如做瑜伽，机器人根据动作识别出用户意图是做瑜伽后，监测用户的动作，将监测到的动作频率与存储的参考动作频率(例如用户动作习惯频率或者标准瑜伽动作频率)进行比较或将监测到的动作停顿时间与存储的参考动作停顿时间进行比较，如果监测到的动作频率与参考动作频率不一致或动作停顿时间与参考动作停顿时间不一致(例如监测到的动作频率小于参考动作频率，或者监测到的动作停顿时间大于参考动作停顿时间)，机器人判断用户可能淡忘了瑜伽动作，此时判定在本场景下需要进行主动干预，可以询问用户是否需要播放教学视频，或者根据用户习惯，询问用户是否需要播放音乐，用户回答说可以播放教学视频或背景音乐，则机器人控制显示屏幕(例如电视)播放教学视频或者控制家里音响进行音乐的播放，便于用户根据瑜伽教学视频对瑜伽动作进行纠正或者沉浸于瑜伽中，更好地体验瑜伽的乐趣。以上所展现的场景仅为示例，本公开不限于此，可以包括其他类型的场景并相应地根据上述流程和方法进行交互，与用户进行互动。

此外，根据本公开的示例性实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现根据本公开的机器人视频交互方法。

作为示例，所述计算机可读存储介质可承载有一个或者多个程序，当所述计算机程序被执行时可实现以下步骤：监测场景中的用户动作和语音；对用户动作和语音进行分析以识别场景；基于用户动作和语音预测用户意图；判断场景中进行交互的时机；在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户。

计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中；也可以单独存在，而未装配入该装置中。

以上已参照图1至图12描述了根据本公开示例性实施例的机器人视频交互方法和系统。然而，应该理解的是：机器人视频交互系统及其模块和单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。

在根据本公开的示例性实施例的机器人视频交互方法和系统，可以处理诸如动作和语音的动态特征以及它们之间的相关性，从而形成上下文理解，本公开可以根据分析用户的视频记录用户的性格和习惯，并且可以在适当的时候与用户积极互动，即，本公开实现了基于视频场景的适当时机的主动交互，并且其不仅仅局限于机器人，所有带有摄像头的智能设备均可以实现，其解决了用户行为场景中智能视频系统只会无交互性的服从用户指令的问题，拓展了智能视频系统的应用场景，提升了智能视频系统的使用体验。

尽管已经参照其示例性实施例具体显示和描述了本公开，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本公开的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种机器人视频交互方法，包括：

监测场景中的用户动作和语音；

对用户动作和语音进行分析以识别场景；

基于用户动作和语音预测用户意图；

判断场景中进行交互的时机；

在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户，

其中，场景被分类为多个场景，不同的场景具有不同的策略，策略包括基线、时机判断、时机调整，其中，场景包括聊天类场景、提示类场景、固定程序类场景、固定行为类场景，

其中，基线表示检测交互时机的关键特征，时机判断表示影响交互时机的一般特征，时机调整表示由于影响用户体验而调整交互时机的特征，

其中，针对聊天类场景，基线包括动作意图、询问性语句，时机判断包括动作意图、中断时间、语音频率，时机调整包括用户情绪、用户表情、用户数量、用户特征，

其中，针对提示类场景，基线包括动作意图、提示库，时机判断包括动作意图、中断时间，

其中，针对固定程序类场景，时机判断包括动作意图、游戏进程，时机调整包括用户数量，

其中，针对固定行为类场景，基线包括动作意图、运动库，时机判断包括动作意图。

2.根据权利要求1所述的机器人视频交互方法，其中，对用户动作和语音进行分析的步骤包括：对监测的用户动作和语音进行分离，以分别对用户动作和语音进行分析。

3.根据权利要求2所述的机器人视频交互方法，其中，对用户动作和语音进行分析以识别场景的步骤包括：采用LRCN算法模型对用户动作进行分析，采用CNN提取用户的面部特征以识别用户的情绪。

4.根据权利要求3所述的机器人视频交互方法，其中，识别的场景为所述多个场景之一。

5.根据权利要求4所述的机器人视频交互方法，其中，基于用户动作和语音预测用户意图包括采用PredNet模型预测用户下一步的动作和语音。

6.根据权利要求5所述的机器人视频交互方法，其中，判断场景中进行交互的时机的步骤包括：使用随机森林模型判断与用户进行交互的时机。

7.根据权利要求6所述的机器人视频交互方法，其中，使用随机森林模型判断与用户进行交互的时机的步骤包括：根据用户动作和语音的频率、用户动作和语音的中断时间来判断与用户进行交互的时机。

8.根据权利要求7所述的机器人视频交互方法，其中，使用随机森林模型判断与用户进行交互的时机的步骤包括：当用户动作的频率小于预定阈值并且用户动作的中断时间大于时间阈值或者用户语音的频率小于预定阈值并且用户语音的中断时间大于时间阈值时，判断需要与用户进行交互。

9.根据权利要求7所述的机器人视频交互方法，其中，使用随机森林模型判断与用户进行交互的时机的步骤包括：当用户动作的频率大于预定阈值时，判断需要与用户进行交互。

10.根据权利要求1所述的机器人视频交互方法，其中，以视频推荐、语音提示、音乐播放、图片展示的形式将用户意图的解决方案反馈给用户。

11.一种机器人视频交互系统，包括：

监测模块，被配置为监测场景中的用户动作和语音；

分析模块，被配置为对用户动作和语音进行分析以识别场景；

预测模块，被配置为基于用户动作和语音预测用户意图；

时机判断模块，被配置为判断场景中进行交互的时机；

反馈模块，被配置为在判断到的交互时机提供用户意图的解决方案并将解决方案反馈给用户，

12.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述的机器人视频交互方法。

13.一种计算装置，包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述的机器人视频交互方法。