CN114911346A

CN114911346A - 一种终端设备的交互方法和装置

Info

Publication number: CN114911346A
Application number: CN202210564697.XA
Authority: CN
Inventors: 连欢
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-16

Abstract

本申请提供了一种终端设备的交互方法和装置，能够提高终端设备回复质量，升级对用户的陪伴，提升主动交互效果，该方法通过获取终端设备的输出数据和/或用户多模态数据，其中，用户多模态数据包括语音数据、图像数据、文本数据和针对终端设备的触摸数据中的至少一种；根据用户多模态数据包括语音数据、图像数据、文本数据和针对终端设备的触摸数据中的至少一种确定用户行为类别，用户行为类别包括用户对终端设备抱怨类别、用户上网课类别、用户情绪消极类别和/或用户行为敏感类别；然后基于用户行为类别主动与用户交互。

Description

一种终端设备的交互方法和装置

技术领域

本申请涉及物联网技术领域，尤其涉及一种终端设备的交互方法和装置。

背景技术

目前，终端设备被动地与用户交互已无法满足人们的需求，即用户问了之后终端设备才会作出回复，导致终端设备无法及时感知用户的情绪并做出有效的处理。因此，主动交互是终端设备发展的重要趋势，就像人和人之间的交互有来有往，终端设备能够与用户主动沟通，进而进行的合适的主动交互也会让人产生更可信更亲密的感受。

如何进一步提升终端设备主动交互的效果，提升用户满意度值得研究。

发明内容

本申请提供了一种终端设备的交互方法和装置，能够提升终端设备主动交互的效果，从而提升用户的满意度。

第一方面，本申请实施例提供了一种终端设备的交互方法，包括：

获取用户的语音数据；

根据所述用户的语音数据获取用户的语音文本数据；

根据所述用户的语音文本数据确定用户行为类别包括用户对所述终端设备抱怨类别；

根据所述用户对所述终端设备抱怨类别确定与其匹配的第一事件，所述第一事件为语音交互或应用故障；

基于所述第一事件主动与用户交互。

采用上述方式，终端设备根据用户的语音数据，确定用户的行为类别包括用户对终端设备抱怨类别，然后，根据用户对终端设备抱怨类别确定引起用户抱怨的事件为语音交互或者应用故障，从而确定主动与用户交互的方式。从而能够快速改善可能引起投诉的回复或处理发生故障的应用，从而进一步提高终端设备的回复质量，持续提升用户满意度。

第二方面，本申请实施例提供了一种终端设备的交互装置，包括：

数据获取模块，用于获取用户的语音数据；

数据处理模块，用于根据所述用户的语音数据获取用户的语音文本数据；

用户行为类别确定模块，用于根据所述用户的语音文本数据确定用户行为类别包括用户对所述终端设备抱怨类别；

抱怨事件确定模块，用于根据所述用户对所述终端设备抱怨类别确定与其匹配的第一事件，所述第一事件为语音交互或应用故障；

主动交互模块，用于基于所述第一事件主动与用户交互。

第三方面，本申请实施例提供了一种终端设备的交互方法，包括：

获取用户的多模态数据或针对所述终端设备的触摸数据；

根据所述用户的多模态数据或针对所述终端设备的触摸数据，确定用户行为类别包括用户情绪消极类别；

展示与所述用户情绪消极类别相匹配的视觉界面，和/或确定与所述用户情绪消极类别相匹配的语音并播放；

经过第一预设时间后，确定当前所述用户行为类别是否为用户情绪消极类别；

若当前所述用户行为类别为用户情绪消极类别，则向与所述用户关联的联系人发送第一提示信息，所述第一提示信息用于提醒所述用户的情绪状态。

采用上述方式，根据用户多模态数据或针对终端设备的触摸数据，确定用户行为类别为用户情绪消极类别，展示与其匹配的视觉界面或者播放与其匹配的语音能够达到安慰用户的效果。进一步地，经过第一预设时间后再次识别用户情绪，来确定用户情绪是否消极，如果还是消极，能够及时提醒家人或朋友，帮助使用户情绪尽快好转，进一步提升终端设备的主动交互效果，从而提升用户的满意度。

第四方面，本申请实施例提供了一种终端设备的交互装置，包括：

数据获取模块，用于获取用户的多模态数据或针对所述终端设备的触摸数据；

用户行为类别确定模块，用于根据所述用户的多模态数据或针对所述终端设备的触摸数据，确定用户行为类别包括用户情绪消极类别；

主动交互模块，用于展示与所述用户情绪消极类别相匹配的视觉界面，和/或确定与所述用户情绪消极类别相匹配的语音并播放；

用户行为类别确定模块还用于经过第一预设时间后，确定当前所述用户行为类别是否为用户情绪消极类别；

主动交互模块，还用于若当前所述用户行为类别为用户情绪消极类别，则向与所述用户关联的联系人发送第一提示信息，所述第一提示信息用于提醒所述用户的情绪状态。

第五方面，本申请实施例提供了一种终端设备的交互方法，包括：

获取所述终端设备的输出数据和/或用户的图像数据；

根据所述终端设备的输出数据和/或所述用户的图像数据确定用户行为类别包括用户上网课类别；

确定所述用户为上网课的对象；

确定目标时段的类型，所述目标时段的类型为上网课或休息；

根据所述终端设备的输出数据和/或所述用户的图像数据确定所述目标时段内所述用户的动作，所述用户的动作包括第一动作和第二动作，所述第一动作表示设置的用户在上网课时不被允许做的动作，所述第二动作表示设置的用户在上网课时被允许做的动作；

基于所述用户的动作和所述目标时段的类型主动与所述用户交互。

采用上述方式，在确定用户为上网课对象后，通过结合目标时段的类型和用户的动作，来准确地确定用户上网课的状态，从而主动与用户交互，能够进一步提升监督用户上网课的效果。

第六方面，本申请实施例提供了一种终端设备的交互装置，包括：

数据获取装置，用于获取所述终端设备的输出数据和/或用户的图像数据；

用户行为类别确定模块，用于根据所述终端设备的输出数据和/或所述用户的图像数据确定用户行为类别包括用户上网课类别；

主动交互模块，用于确定所述用户为上网课的对象；

主动交互模块还用于确定目标时段的类型，所述目标时段的类型为上网课或休息；

主动交互模块还用于根据所述终端设备的输出数据和/或所述用户的图像数据确定所述目标时段内所述用户的动作，所述用户的动作包括第一动作和第二动作，所述第一动作表示设置的用户在上网课时不被允许做的动作，所述第二动作表示设置的用户在上网课时被允许做的动作；

主动交互模块还用于基于所述用户的动作和所述目标时段的类型主动与所述用户交互。

第七方面，本申请实施例提供了一种终端设备的交互方法，包括：

获取所述终端设备的输出数据和/或用户的图像数据；

根据所述终端设备的输出数据和/或所述用户的图像数据确定用户行为类别包括用户行为敏感类别；

展示与所述用户行为敏感类别相匹配的视觉界面，和/或确定与所述用户行为敏感类别相匹配的语音并播放；

确定所述用户的属性信息满足第一预设条件；

向与所述用户关联的联系人发送第三提示信息，所述第三提示信息用于报告所述用户的敏感行为。

采用上述方式，在用户行为类别包括用户行为敏感类别的情况下，能够对其行为进行提醒或纠正，保证了未成年用户的身心健康发展。进一步地，还能够向其监护人报告未成年用户的敏感行为，加强了对未成年用户的监督，提升了终端设备主动交互的效果，从而提升用户使用终端设备的满意度。

第八方面，本申请实施例提供了一种终端设备的交互装置，包括：

数据获取模块，用于获取所述终端设备的输出数据和/或用户的图像数据；

用户行为类别确定模块，用于根据所述终端设备的输出数据和/或所述用户的图像数据确定用户行为类别包括用户行为敏感类别；

主动交互模块，用于展示与所述用户行为敏感类别相匹配的视觉界面，和/或确定与所述用户行为敏感类别相匹配的语音并播放；

主动交互模块还用于确定所述用户的属性信息满足第一预设条件；

主动交互模块还用于向与所述用户关联的联系人发送第三提示信息，所述第三提示信息用于报告所述用户的敏感行为。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请的终端设备的交互方法和交互装置的示例性系统架构；

图2示出了根据示例性实施例中终端设备200的硬件配置框图；

图3示出了操作系统为Android系统的终端设备的示例性系统架构图；

图4为本申请实施例提供的一种终端设备的交互网络架构示意图；

图5是本申请实施例提供的一例终端设备的交互方法示意性流程图；

图6是本申请实施例提供的一例主动交互效果示意图；

图7是本申请实施例提供的再一例终端设备的交互方法示意性流程图；

图8是本申请实施例提供的一例主动交互效果示意图；

图9是本申请实施例提供的一例第一提示信息示意图；

图10是本申请实施例提供的又一例终端设备的交互方法示意性流程图；

图11是本申请实施例提供的一例主动交互效果示意图；

图12是本申请实施例提供的又一例主动交互效果示意图；

图13是本申请实施例提供的一例第二提示信息示意图；

图14是本申请实施例提供的又一例第二提示信息示意图；

图15是本申请实施例提供的又一例终端设备的交互方法示意性流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的终端设备的交互方法和交互装置的示例性系统架构。如图1所示，其中，10为服务器，200为终端设备，示例性包括(智能电视200a,移动设备200b,智能音箱200c)。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备200提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200、201、202为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的终端设备的交互方法可以通过服务器10执行，也可以通过终端设备200执行，还可以通过服务器10和终端设备200共同执行，本申请对此不做限定。

图2示出了根据示例性实施例中终端设备200的硬件配置框图。如图2所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。终端设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中，终端设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在终端设备200上，或者麦克风通过有线或者无线的方式与终端设备200相连接。当然，本申请实施例对麦克风在终端设备200上的位置不作限定。或者，终端设备200可以不包括麦克风，即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

图3示出了操作系统为Android系统的终端设备的示例性系统架构图，在一些示例中，以终端设备的操作系统为Android系统为例，如图3所示，智能电视200-1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现智能电视200-1与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，终端设备200中的语音识别应用启动，终端设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将终端设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种终端设备的交互网络架构示意图。图4中，终端设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示终端设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图4所示架构处理输入终端设备的信息的过程进行举例描述，以输入终端设备的信息为通过语音输入的查询语句为例：

[语音识别]

终端设备可在接收到通过语音输入的查询语句后，终端设备可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

[语言生成]

自然语言生成(NLG)被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。

[语音合成]

语音合被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由智能终端来完成，在此不做赘述。

相比于用户问什么终端设备答什么的被动的人际交互，主动交互能够像人一样识别潜在的含义，主动调整成更合适的回复。但是，目前的主动交互的效果有待进一步提升。

为了提升主动交互的效果，针对用户对终端设备抱怨场景，本申请提供了一例终端设备的交互方法，该方法300包括：

S310，获取用户的语音数据。

示例性地，终端设备通过麦克风获取用户的语音数据。

S320，根据用户的语音数据获取用户的语音文本数据。

其中，用户的语音数据是音频数据，将音频数据转换为用户的语音文本数据，可通过神经网络模型识别语音数据中的文本。

S330，根据用户的语音文本数据确定用户行为类别包括用户对终端设备抱怨类别。

其中，用户对终端设备抱怨类别表示用户在使用终端设备时，对终端设备的响应不满意。

例如，终端设备的聊天回复没有解决用户的问题，或者是让用户觉得不高兴，譬如以下场景：

(1)用户说：我胖不胖；

终端设备回复：你才胖呢，你们全家都胖；

用户说：你气死我了。

即表明终端设备的回复让用户感到不满意。

(2)用户说：如何织毛衣；

终端设备回复：我不知道呢；

用户说：你笨死了。

即表明终端设备的回复没有解决用户的问题。

又例如，用户在使用终端设备的某项功能时，终端设备出了问题，而让用户体验感很差。譬如，用户使用终端设备某个APP时，该APP的程序闪退，用户说：这什么破XX(APP具体名称)。

S340，根据用户对终端设备抱怨类别确定与其匹配的第一事件。

其中，该第一事件为语音交互，即终端设备对语音交互作出的语音回复的内容令用户不满意，从而引起用户对终端设备抱怨，或者该第一事件为应用(APP)故障，即用户在使用终端设备操作应用时发生的故障令用户不满意。

S350，基于第一事件主动与用户交互。

示例性地，展示与用户对终端设备抱怨类别相匹配的视觉界面，和/或确定与用户对终端设备抱怨类别相匹配的语音并播放。

其中，与赔笑模式相匹配的视觉界面用于表达终端设备的歉意，例如用动漫人物鞠躬的动作表达歉意。

与赔笑模式相匹配的语音用于表达终端设备的歉意，例如用温柔的语调播放“XX给您鞠躬了”。

在上述方法中，终端设备根据用户的语音数据，确定用户的行为类别包括用户对终端设备抱怨类别，然后，根据用户对终端设备抱怨类别确定引起用户抱怨的事件为语音交互或者应用故障，从而确定主动与用户交互的方式。从而能够快速改善可能引起投诉的回复或处理发生故障的应用，从而进一步提高终端设备的回复质量，持续提升用户满意度。

为了提升主动交互的效果，针对用户情绪消极场景，本申请还提供了一例终端设备的交互方法，该方法400包括：

S410，获取用户的多模态数据。

其中，用户多模态数据包括语音数据、图像数据、文本数据和针对终端设备的触摸数据中的至少一种。

具有多模态数据采集功能的终端设备通常配备有多种不同的接收装置或传感器，例如，摄像头、麦克风、触摸屏、压力传感器、距离传感器、红外传感器等等，以保障多模态数据的有效采集。

示例性地，多模态数据是用户想要与终端设备交互时，针对终端设备的多模态数据；或者是用户并没有与终端设备进行交互的意图，仅是在终端设备所在空间环境中活动时产生的多模态数据。

多模态数据中的语音数据可通过终端设备的语音采集装置如麦克风采集获得，图像数据可通过终端设备的图像采集装置如摄像头采集获得，文本数据是用户输入到终端设备的数据，触摸数据可通过相应的传感器如触摸屏的压力传感器或触摸按钮或开头的压力传感器等，在交互对象触摸或按压终端设备时采集获得。

S420，根据用户的多模态数据，确定用户行为类别包括用户情绪消极类别。

其中，用户情绪消极类别表示用户忧伤、悲伤、愤怒、紧张、焦虑、痛苦、恐惧、憎恨等情绪状态，例如：

(1)用户说：“好烦啊”，说明情绪状态不好。

(2)用户说话很正常，但是语气不太好。比如说：“我想听歌”，但是语气是怒气冲冲的，或者语气是难过的。也说明用户的情绪状态不好。

(3)用户的表情比较生气，或者很难过，也能说明用户的情绪状态不好。

(4)用户生气地摔打键盘，表示了用户愤怒。

用户情绪消极类别还包括用户在向终端设备输入文本数据时反映出其情绪消极，例如，用户使用终端设备在某APP上搜索“分手后很伤心怎么办”等内容，能够出用户情绪消极。

S430，展示与用户情绪消极类别相匹配的视觉界面，和/或确定与用户情绪消极类别相匹配的语音并播放。

其中，展示与用户情绪消极类别相匹配的视觉界面，和/或确定与用户情绪消极类别相匹配的语音并播放，以用于安慰用户情绪。与用户情绪消极类别相匹配的视觉界面例如摸头安慰的动漫人物动态图等，与用户情绪消极类别相匹配的语音例如“别伤心了，我给你放首歌好不好”等其他能够使用户开心的语音，并用温柔的语调播放。

S440，经过第一预设时间后，确定当前用户行为类别是否为用户情绪消极类别。

第一预设时间根据用户需求自定义设置即可，可选地，默认为30分钟。

S450，若当前用户行为类别为用户情绪消极类别，则向与用户关联的联系人发送第一提示信息，第一提示信息用于提醒用户的情绪状态。

其中，第一提示信息用于提醒该联系人用户的情绪状态。其中，该联系人根据实际需要设置即可，例如可以是用户的家人或朋友。

第一提示信息包括提醒用户的家人或朋友关注用户的情绪状态的文字或动态图，可选地，还包括用户的心情曲线记录。该心情曲线记录方便家人或朋友随时查看用户的历史情绪状态。

为了提升主动交互的效果，针对用户上网课场景，本申请还提供了一例终端设备的交互方法，该方法500包括：

S510，获取终端设备的输出数据和/或用户的图像数据。

终端设备的输出数据包括终端设备输出的语音数据、图像数据、文本数据等，例如，终端设备根据用户的需求播放的图片、视频、音频、文本等。

S520，根据终端设备的输出数据和/或用户的图像数据确定用户行为类别包括用户上网课类别。

其中，用户上网课类别包括由于不可抗力用户无法去学校上课，只能在家上网课的场景或者用户为了额外提升自己而自发进行的线上教育场景。

S530，确定用户为上网课的对象。

具体地，使用终端设备的用户可能不止一个，需要确定使用终端设备的用户是否为注册的需要上网课的对象。

S540，确定目标时段的类型，目标时段的类型为上网课或休息。

示例性地，通过设置的网课时段来确定目标时段类型。

示例性地，自定义设置回放的网课时段，该网课直播的时间段不固定。

示例性地，通过对显示界面截屏判断目标时段是否是网课时间段。

S550，根据终端设备的输出数据和/或用户的图像数据确定目标时段内用户的动作，用户的动作包括第一动作和第二动作，第一动作表示设置的用户在上网课时不被允许做的动作，第二动作表示设置的用户在上网课时被允许做的动作。

S560，基于用户的动作和目标时段的类型主动与用户交互。

在该示例中，在确定用户为上网课对象后，通过结合目标时段的类型和用户的动作，来准确地确定用户上网课的状态，从而主动与用户交互，能够进一步提升监督用户上网课的效果。

为了提升主动交互的效果，针对用户行为敏感场景，本申请还提供了一例终端设备的交互方法，该方法600包括：

S610，获取终端设备的输出数据和/或用户多模态数据。

终端设备的输出数据、用户多模态数据的内容参见前述内容，在此不再赘述。

S620，根据终端设备的输出数据和/或用户多模态数据确定用户行为类别包括用户行为敏感类别。

用户行为敏感类别包括用户自身作出的敏感行为，或者用户使终端设备显示敏感的文本信息或图像数据、播放敏感的视频(包括敏感的语音)等内容。

敏感行为包括涉及政治、暴力、色情等主题的行为。

其中，用户自身作出的敏感行为即用户的言语或动作等涉及敏感行为，例如，用户的说话内容涉及政治、暴力、色情等主题，或者两个小孩子打架等等。

用户使终端设备显示敏感的文本信息或图像数据、播放敏感的视频(包括敏感的语音)，例如未成年使用终端设备观看涉及暴力、色情等主题的电影等。

在一个示例中，敏感行为也可以是用户根据需求自定义的，例如，家长为了不让孩子玩游戏影响学习，那么可以将“未成年玩游戏”设置为敏感行为，起到监督未成年的作用。

S630，展示与用户行为敏感类别相匹配的视觉界面，和/或确定与用户行为敏感类别相匹配的语音并播放。

其中，与用户行为敏感类别相匹配的视觉界面包括提示用户行为涉及敏感主题的视觉界面，或被遮挡处理后的视觉界面。

与用户行为敏感类别相匹配的语音包括提示用户行为涉及敏感主题的语音。

S640，确定用户的属性信息满足第一预设条件。

在一个示例中，用户的属性信息包括年龄，第一预设条件为不超过18岁。

在一个示例中，用户的属性信息包括身高，第一预设条件为不超过1米20。

S650，向与用户关联的联系人发送第三提示信息，第三提示信息用于报告用户的敏感行为。

示例性地，第三提示信息包括用户涉及敏感内容的说法、动作等行为，或用户使用终端设备显示的文本、视频或播放的音频等内容。

上述实施例中，在用户行为类别包括用户行为敏感类别的情况下，能够对其行为进行提醒或纠正，保证了未成年用户的身心健康发展。进一步地，还能够向其监护人报告未成年用户的敏感行为，加强了对未成年用户的监督，提升了终端设备主动交互的效果，从而提升用户使用终端设备的满意度。

在方法300的基础上，本申请通过具体实施例来介绍基于用户对终端设备抱怨类别的终端设备的交互方法，图5是本申请实施例提供的一例终端设备的交互方法示意性流程图，如图5中的方法300a所示：

S310a，获取用户说法。

具体地，用户说法即将用户的语音数据转换成的语音文本数据。

S320a，确定用户行为类别。

具体地，终端设备根据用户说法确定用户行为类别。

在一个示例中，根据用户说法确定用户行为类别的方式包括：

方式一

对用户说法进行文本分类处理从而确定用户行为类别。

例如，对常见用户说法进行标注0和1，0代表非抱怨，1代表抱怨。通过卷积神经网络训练一个文本分类二分类模型，向该模型输入获取的用户说法，得到文本分类的结果，如果结果为1，则认为是用户对终端设备抱怨类别。

方式二

对用户说法进行正则匹配处理从而确定用户行为类别。

例如，设置用户对终端设备抱怨的关键词，配置到数据库中，比如“不喜欢”，“傻子”，“生气”等关键词，当用户说法中出现上述关键词的时候认为是是用户对终端设备抱怨类别。该用户对终端设备抱怨的关键词可以根据实际情况进行人工维护增删，方便进行扩展。

方式三

对用户说法进行情感评分处理从而确定用户行为类别。设置关键词的情感评分，然后识别用户说法中的关键词，将该用户说法中所有关键词的评分相加，符合预设条件的用户说法为抱怨语句，即当前用户行为类别为用户对终端设备抱怨。

例如，对用户说法中的关键词进行情感评分，比如“讨厌”，“生气”等为-3分，“喜欢”为3分，“很“、“太”为2，“聪明”为2，“傻”、“笨”为-2，“不”为-1，“气死”为-8。设置情感阈值为0，用户说法的情感评分小于0则认为是抱怨。

那么用户说法“我很喜欢和你聊天”的情感评分为：2*3＝6，大于0，不是抱怨；

用户说法“我很讨厌和你聊天”的情感评分为：2*(-3)＝-6，是抱怨；

用户说法：“你太笨了”的情感评分为2*(-2)＝-4，是抱怨；

用户说法：“你不聪明”的情感评分为-1*(2)＝-2，是抱怨。

用户说法：“你气死我了”的情感评分为-8，是抱怨。

以此类推，用情感评分进行用户说法分析时，评分越低，用户抱怨程度越高，需要优先主动与用户进行交互。

可选地，如果用户行为类别不包括用户对终端设备抱怨类别、用户情绪消极类别、用户上网课类别和用户行为敏感类别，则终端设备启动正常模式；如果用户行为类别包括用户对终端设备抱怨类别，则进行方法S340a。其中，正常模式表示终端设备不基于上述用户行为类别与用户交互。

S330a，确定第一事件。

具体地，如果用户行为类别不包括用户对终端设备抱怨类别则终端设备启动正常模式；如果用户行为类别包括用户对终端设备抱怨类别，则确定与用户对终端设备抱怨类别匹配的第一事件。

S340a，终端设备基于第一事件主动与用户交互。

在一种可能的实施方式中，第一事件为应用故障，方法S340a还包括：

展示的视觉界面包括表达终端设备歉意的动漫形象，和/或播放表达终端设备歉意的语音，然后关闭该应用的程序，经过第一预设时间后重启该应用的程序，如图5中的S341a。

在另一个示例中，第一事件为语音回复，方法S340a还包括：

屏蔽终端设备针对该语音交互作出的语音回复，使与语音交互的内容匹配的候选回复集合中不包括该语音回复。然后校验该语音回复的内容，并将校验后的语音回复的内容放入候选回复集合。

其中，可以是人工校验该该语音回复的内容，也可以是服务器自动校验该该语音回复的内容。

其中，语音交互包括，用户对终端设备提出语音问答，终端设备对用户作出语音回复，或者，用户与终端设备进行语音聊天等其他语音交互方式。

在上述示例中，在识别引起用户对终端设备抱怨的第一事件之后，及时地做出相应处理，能够进一步提升用户的满意度。

下面举例说明语音交互：

语音问答的内容例如：你胖不胖。

校验前该语音回复的内容例如：你才胖呢，你全家都胖。

校验后该语音回复的内容例如：胖胖的我也很可爱啊。

可选地，校验该语音回复的内容，并将校验后的语音回复的内容放入候选回复集合，包括：

终端设备发送提醒信息，提醒信息用于提示对语音回复进行校验。然后根据提醒信息校验语音回复，并将校验后的语音回复插入候选回复集合中。

可选地，终端设备向工作人员操作的设备发送该提醒信息。

可选地，终端设备向服务器发送该提醒信息。

下面结合图5对第一事件为语音回复时的主动交互过程进行示例性说明：

S342a，找出最近的聊天回复，并放到屏蔽数据库中。

该最近的聊天回复即引起用户不满意的聊天回复。

具体地，将该最近的聊天回复对应的语句修改为“enable＝false”，并放入屏蔽数据库中。其中，屏蔽数据库中的聊天回复不能被检索式聊天模型调用。

S343a，屏蔽数据库发送提醒信息。

具体地，当屏蔽数据库中接收到该最近的聊天回复，则发送提醒信息，以提醒工作人员对最近的聊天回复进行人工校验。

S344a，对该最近的聊天回复进行人工校验。

具体地，将该最近的聊天回复人工修改为合适的聊天回复，并将其对应的语句修改为“enable＝true”，然后放入其对应的聊天候选集合中。

人工校验后的聊天回复可以再次被检索式聊天模型调用，检索式聊天模型结合用户查询语句或历史记录等信息给出合适的语音回复。

采用上述方式，屏蔽数据库在接收到引起用户不满意的聊天回复后，提醒工作人员进行人工校验，使得工作人员能够及时修正引起用户不满意的聊天回复，从而提升用户对终端设备的满意度。

进一步地，在将校验后的语音回复的内容放入候选回复集合前，如果用户再一次进行了上述语音问答，则终端设备将与该语音问答的内容匹配的候选回复集合中其他的语音回复播放。

例如用户再一次问：你胖不胖。

终端设备语音回复的内容例如：心宽体胖，嘻嘻(原有的候选回复集合中排名第二的语句)。

上述方式中，在避免了引起用户不满意的回复再次被终端设备使用的情况下，还能保证对用户的问答作出高质量的回复，进一步提升终端设备的主动交互效果。

下面对上述方法300a进行详细举例说明，以检索式聊天举例，比如聊天的对话记录如下：

用户：你胖不胖。

终端设备：你才胖呢，你们全家都胖。

用户：你气死我了。

这里“你气死我了”，就表明是终端设备的语音回复导致用户抱怨，终端设备通过该用户说法识别用户抱怨并确定当前用户行为类别为用户对终端设备抱怨类别，然后展示与其相匹配的视觉界面，和/或确定与其相匹配的语音并播放，图6是本申请实施例提供的一例主动交互效果示意图，如图6所示，展示表示歉意的动漫形象，如鞠躬的女士，同时配上“给您道个歉，我马上就改哦”的语音回复，并用温柔的语调播放该语音。

随后，终端设备迅速调用历史记录，找出最近一条回复“你才胖呢，你们全家都胖”，把该语句加到屏蔽数据库中。后面用户再问同样的语句时，就不会调取刚才不合适的语句了。

例如，预期效果：(将之前引起用户抱怨的语音答复加入了屏蔽数据库，但是还没有修复)

用户：你胖不胖。

终端设备：心宽体胖，嘻嘻。(原有的排名top2的句子)

与此同时，维护人员会马上收到新加了一条不合适语句到屏蔽数据库的消息，可以马上进行修复，再放回候选语句中。默认候选语句的enable＝true，当语句在屏蔽数据库中时，enable＝false，修复完成后，修改后的语句enable＝true，此时又可以被检索式聊天的模型调用了。

例如，预期效果：(人工校验后)

用户：你胖不胖。

终端设备：胖胖的我也很可爱啊。(人工修改标注的句子)

本申请上述方案能够识别用户对终端设备抱怨类别，并确定引起用户抱怨的第一事件，基于第一事件主动与用户交互，安抚用户对终端设备产生的不满情绪，表达终端设备的歉意，进一步地，还能及时校验引起用户抱怨的语音回复内容，提高终端设备的语音回复质量，进一步提升终端设备主动交互的效果，从而提升用户使用终端设备的满意度。

在方法400的基础上，本申请通过具体实施例来介绍基于用户情绪消极类别的终端设备的交互方法，图7是本申请实施例提供的再一例终端设备的交互方法示意性流程图，如图7中的方法400a所示：

S410a，获取用户多模态数据。

其中，该用户多模态数据包括用户声音(audio)、用户说法(text)、用户视频(video)和用户针对该终端设备的触摸数据中的一种或多种。

S420a，确定用户行为类别。

具体地，根据用户多模态数据进行情感分析从而确定用户行为类别包括用户情绪消极类别。

例如，当用户多模态数据包括用户声音时，通过用户声音的分贝大小或语气来确定用户行为类别是否为用户情绪消极类别，或者将用户声音传递给后端进行VAD语音语义检测，以及深度增强降噪的Steam ASR(支持情感识别)处理，以将用户的声音转化为文本，并识别用户情绪。譬如用户声音悲痛表明用户情绪消极。

又例如，当用户多模态数据包括用户说法时，将该用户说法作为情感识别模型的输入，然后根据输出结果识别用户情绪。譬如用户说法中包括“伤心”、“分手”等表明用户情绪消极的关键词。

又例如，当用户多模态数据包括用户视频时，通过神经网络模型识别用户视频中的动作、表情来识别用户情绪。譬如用户哭泣超过1分钟等表明用户情绪消极的动作或表情。

又例如，当用户多模态数据包括用户针对该终端设备的触摸数据时，通过该触摸数据来识别用户情绪。例如，用户摔鼠标键盘等等表明用户情绪消极的对该终端设备的触摸数据。

S430a，基于用户行为类别主动与用户交互。

如果用户行为类别不包括用户对终端设备抱怨类别、用户情绪消极类别、用户上网课类别和用户行为敏感类别，则终端设备启动正常模式；如果用户行为类别包括用户情绪消极类别，则基于用户行为类别主动与用户交互。

具体地，展示与用户情绪消极类别相匹配的视觉界面，和/或确定与用户情绪消极类别相匹配的语音并播放。

当终端设备询问“我给你放首歌好不好”、“我给你放个电影好不好”等建议后，用户答应建议，则终端设备进行相应的动作，例如播放令人情绪舒缓的歌曲、搞笑电影或小品、讲笑话、鼓舞人心的电子书等。

在一个示例中，终端设备通过持续识别用户情绪来提升安慰效果，如图7所示，方法400a还包括：

S440a，经过第一预设时间后，确定当前用户行为类别是否为用户情绪消极类别。

若不是用户情绪消极类别，即用户情绪好转，则终端设备启动正常模式，进一步地，还可以在屏幕上显示表示开心的画面，例如在屏幕上显示笑脸等。

若是用户情绪消极类别，则进行S450a。

S450a，向与用户关联的联系人发送第一提示信息。

其中，第一提示信息的内容参见方法S400，在此不再赘述。

示例性地，通过邮件、短信、彩信等方式发送第一提示信息。

图8是本申请实施例提供的再一例主动交互效果示意图，图9是本申请实施例提供的一例第一提示信息示意图，下面结合图8和图9对上述方法400a进行详细举例说明。

用户：我好难过啊。

终端设备通过用户语音识别用户情绪消极，启动安慰模式，在显示界面上展示摸头安慰的动画，并回复：抱抱亲爱的，听首歌好不好。

用户：好的。

终端设备播放鼓舞人心的歌，经过30分钟后通过用户视频识别用户在哭泣，向其家人发送第一提示信息，该第一提示信息的内容如图9所示。

方法400a中，通过用户多模态数据来识别用户情绪消极，并基于用户情绪消极类别主动与用户交互，通过展示画面或播放语音等方式安慰用户使用户心情好转，进一步地，若用户经过预设时间后情绪依旧消极，则通知其家人或朋友关注其情绪状态，以帮助用户恢复情绪，进一步提升了终端设备主动交互的效果。

在方法500的基础上，本申请通过具体实施例来介绍基于用户上网课类别的终端设备的交互方法，图10是本申请实施例提供的又一例终端设备的交互方法示意性流程图，如图10中的方法500a所示：

S510a，确定用户身份信息。

具体地，在用户打开终端设备时，可通过摄像头获取用户面部数据，通过对其进行面部识别来确定该用户是否为网课监督的对象(即注册的需要上网课的对象)，如果该用户不是网课监督的对象，则终端设备启动正常模式；如果该用户是网课监督的对象，则终端设备进行方法S520a。

S520a，确定目标时段的类型。

若目标时段为休息时段，则终端设备启动正常模式；若目标时段为上网课时段，则进行方法S530a。

其中，确定目标时段是否为上网课时段的方式包括：

方式一

通过设置的网课时段来确定目标时段是否为上网课时段。

例如，对于由于疫情隔离导致的正式学校的网课，时间段是固定的，可以设置网课时间段，比如周一到周五，早上8:30-12:00，下午2:00到5:30。对于固定的app或直播地址接入，可以进行提前设置网课时间段。

进一步地，到了上网课的时间，终端设备发送网课时间提醒，并自动打开对应的app或网址；此外，也可以选择手动连接网课，然后进行手机投屏。

方式二

对于时间段不固定的可以回看的网课，可以自定义网课时间段，例如设置每晚6点进行上网课。

方式三

对显示界面截屏进行是否为网课截图的判断，例如利用卷积神经网络的图片分类来判断目标时段是否为上网课的时段。

相应地，上网课时段之外的其他时段则为休息时段。

S530a，基于用户上网课类别主动与用户交互。

具体地，终端设备根据终端设备的输出数据和/或用户的图像数据确定目标时段用户的动作，然后根据用户的动作和目标时段的类型主动与用户交互。

示例性地，基于用户的动作和目标时段的类型展示与用户上网课类别相匹配的视觉界面，和/或确定与用户上网课类别相匹配的语音并播放。

其中，与用户上网课类别相匹配的视觉界面用于向用户报告其上网课的状态，例如，向用户报告其上网课的状态认真，并配有表扬动画画面；或者，向用户报告其上网课时存在“开小差”等行为，以配有提醒用户下次上网课要注意的动画画面。

与用户上网课类别相匹配的语音用于向用户报告其上网课的状态，例如，向用户报告其上网课的状态认真，并播放“你今天表现很棒”的语音；或者，向用户报告其上网课时存在“开小差”等行为，并播放“今天没有认真上课，下次注意哦”的语音。

在该示例中，通过结合目标时段的类型和用户的动作，来准确地确定用户上网课的状态，从而确定相应的视觉界面的内容，或者确定与相应的语音并播放，能够进一步提升监督用户上网课的效果。

在一个示例中，终端设备根据终端设备的输出数据和/或用户的图像数据确定目标时段内用户的动作，包括：

终端设备根据用户的图像数据确定目标时段用户的动作，包括：

终端设备获取目标时段内用户的视频流，根据用户的视频流数据确定用户的动作，其中，确定用户动作的方式包括：

方式一

基于swin-transformer对用户的视频流数据进行动作识别。

例如，终端设备识别网课开始后，摄像头自动开启，持续获取用户现场学习的视频流数据，结束网课后，摄像头自动关闭。将获取的视频流剪辑成多个小视频片段，每个小视频片段包含一段明确的动作，视频时长较短，且有唯一确定的动作类别。其中，动作类别包括第一动作和第二动作，第一动作例如“玩手机”、“开小差”等；第二动作例如“认真听课”、“写作业”、“发言”等行为。最后使用swin-transformer来识别用户的第一动作和第二动作。

该方式中，在上课期间，能够根据实时获取的视频流数据来识别用户第一动作或第二动作的持续时长，从而起到实时监督用户上网课的效果。

方式二

基于时序动作定位(Temporal Action Localization)或称为时序动作检测(Temporal Action Detection)对用户上网课进行动作识别。时序动作定位可以看作由两个子任务组成，一个子任务是预测动作的起止时序区间，另一个子任务是预测动作的类别。例如，若当天的视频中包含学生在上网课的时候开小差，会预测出“开小差”的动作，并且给出对应的时间区间，比如上午10：30——10：46。

终端设备持续获取的用户现场学习的视频流数据，当某时间段的课程结束后(比如9：00-17：00)，基于时序动作定位预测视频中包含的用户的动作类别，以及用户动作的起始和终止时刻。其中，用户的动作通常只发生在视频中的一小段时间内，监测的视频中可能包含多个动作类别，也可能不包含动作，视频中的动作类别即为背景(Background)类。

以某天的9:00-12:00网课为例，预测结果如下：

某某小朋友今天的上课情况：

9：00-10：30“认真学习”；

10：30-10：46“开小差”；

10：46-11：10“其他(Background)”；

11:10-12:00“认真学习”。

在该方式中，通过预测结果能够确定一段时间内被监督对象的具体上网课情况，以便于生成该时段内的详细的上网课情况报告，有利于被监督对象的监护人能够清楚地了解被监督对象的上网课情况。

终端设备根据终端设备的输出数据确定目标时段用户的动作，包括：

终端设备根据终端设备的显示内容，来确定是否切换到其他与网课无关的内容从而确定用户的动作。

例如，在上网课时间段学生切换到电视节目，比如退出网课界面，看动画片等，会被认为是用户的第一动作。

可选地，终端设备根据终端设备的输出数据和用户的图像数据确定目标时段用户的动作，即结合上述两种方案确定目标时段用户的动作。例如，终端设备基于swin-transformer对用户的视频流数据进行动作识别，虽然识别到用户进行第二动作，但是根据终端设备的显示界面确定用户切换到了与上网课无关的内容，那么确定用户没有认真上网课。

在一个示例中，基于用户的动作和目标时段的类型展示与用户上网课类别相匹配的视觉界面，和/或确定与用户上网课类别相匹配的语音并播放，包括：

若目标时段的类型为课堂间休息，则根据用户在上一堂课的第一动作的时长占该堂课总时长的比例，来展示与用户上网课类别相匹配的视觉界面，和/或确定与用户上网课类别相匹配的语音并播放。

例如，用户在上一堂课的第一动作的时长占该堂课总时长的比例超过30％，则展示用于报告用户上网课的状态差的视觉界面；或播放报告用户上网课的状态差的语音；或既展示用于报告用户上网课的状态差的视觉界面，也播放报告用户上网课的状态差的语音。

又例如，用户在上一堂课的第一动作的时长占该堂课总时长的比例不超过30％，则展示用于报告用户认真上网课并表扬用户的视觉界面；或播放用于报告用户认真上网课并表扬用户的语音；或既展示用于报告用户认真上网课并表扬用户的视觉界面，也播放报告用户认真上网课并表扬用户的语音。

在一个示例中，基于用户的动作和目标时段的类型展示与网课监督模式相匹配的视觉界面，和/或确定与网课监督模式相匹配的语音并播放，还包括：

若目标时段的类型为上网课，则根据实时获取的用户的视频流数据，基于swin-transformer进行动作识别，若识别到用户的第一动作，则通过视频流数据记录该第一动作的持续时间，根据该持续时间展示提示用户的界面和/或确定并播放提示用户的语音。

例如，若该持续时间超过5分钟，弹出提示用户认真学习的界面，并用自定义的音色进行播报。自定义的音色可以是家长或老师的声音，也可以是这个学生的偶像的声音。播放完提示后2秒内退出，回到网课界面。

又例如，若第一动作持续时间没有超过5分钟，持续了2分钟就结束了，然后进行了第二动作，则终端设备继续播放上网课相关视频，不会弹出提示界面。

在一种可能的实施方式中，方法500a还包括：

S540a，根据第一时长确定是否向与用户关联的联系人发送第二提示信息。

具体地，第一时长为用户在上网课时段中第一动作的总时长，根据第一时长确定是否向与用户关联的联系人发送第二提示信息，第二提示信息用于报告用户上网课的状态。

其中，第一时长为用户在上网课时段中第一动作的总时长中的上网课时段可理解为，一堂网课的时段，或多堂网课的时段，或当天所有网课的时段。

例如，第一时长超过50分钟则向该联系人发送第二提示信息，报告用户上网课不认真。其中，第一时长满足什么预设条件后向联系人发送第二提示信息可自定义设置。

在一个示例中，该方法还包括根据第一时长占第二时长的比例确定是否向与用户关联的联系人发送第二提示信息，第二时长为用户上网课时段的总时长。

例如，该比例超过30％且不超过50％向家长发送第二提示信息，报告用户上网课不认真；或者，该比例超过50％向老师发送第二提示信息，报告用户上网课不认真。该比例不超过30％，则终端设备进入正常模式，其中，上述的各个比例可根据实际需求设置。

在一个示例中，通过短信、邮件、彩信等方式发送第二提示信息。

在一个示例中，若当天用户的第一动作的总时长为0，即当天用户一直认真上网课，则向用户展示表扬用户的界面。

在上述示例中，通过第一时长确定是否向与用户关联的联系人发送第二提示信息，能够有效地将用户上网课的情况及时报告给该联系人，从而提升终端设备对用户上网课的监督效果。

图11是本申请实施例提供的又一例主动交互效果示意图，图12是本申请实施例提供的又一例主动交互效果示意图，图13是本申请实施例提供的一例第二提示信息示意图，图14是本申请实施例提供的又一例第二提示信息示意图，下面结合图11至图13对上述方法500a进行详细举例说明。

在上网课时段，终端设备基于swin-transformer实时识别用户的动作类别，当识别到用户的第一动作的持续时间超过5分钟，弹出提示认真上网课的界面，如图11所示，并用老师的声音播放“不要贪玩啦，好好学习哦”。声音播放完毕后，则返回上网课界面。在当天网课结束后，如果第一时长不超过50分钟，则弹出鼓励的界面，如图12所示，并用用户自定义的声音播放“今天表现棒棒的，有学霸的潜力”。如果当天网课结束后，第一时长不超过50分钟，终端设备可以向家长发送第二提示信息，报告用户上网课的状态认真，如图13所示，其中显示了用于表扬用户的动漫形象和语句；如果当天网课结束后，第一时长超过50分钟，终端设备可以向家长发送第二提示信息，报告用户上网课不认真，如图14所示，其中显示了不认真上网课的动漫形象和提醒家长监督用户上网课的语句。

进一步地，终端设备还能基于时序与动作定位获取当天用户上网课的视频流数据，识别出用户的动作和相应的时间情况，从而生成用户学习情况报告，以便于用户的家长了解用户的上网课状态。

方法500a中，通过识别用户上网课时的动作类别，监督用户认真上网课，进一步地，还可以向用户的老师或家长报告其上网课状态，加强对用户上网课的监督效果，进一步提升了终端设备主动交互的效果。

在方法600的基础上，本申请通过具体实施例来介绍基于用户行为敏感类别的终端设备的交互方法，图15是本申请实施例提供的又一例终端设备的交互方法示意性流程图，如图15中的方法600a所示：

S610a，获取终端设备的输出数据和/或用户多模态数据。

其中，终端设备的输出数据和/或用户多模态数据的说明参见方法300，在此不再赘述。

S620a，确定用户行为类别。

具体地，根据终端设备的输出数据确定用户行为类别，和/或根据用户多模态数据确定用户行为类别。

示例性地，根据终端设备显示的文本、视频、音频等数据利用卷积神经网络模型或其他方式来识别其中的内容，从而确定用户是否观看涉及政治、暴力、色情等敏感的内容，若是，则确定用户行为类别为用户行为敏感类别。

示例性地，根据用户说法、用户动作等用户行为利用卷积神经网络模型来识别用户行为是否涉及政治、暴力、色情等敏感的内容，若是，则确定用户行为类别为用户行为敏感类别。

示例性地，同时根据终端设备显示的文本、视频、音频等数据和用户说法、用户动作等用户行为，利用卷积神经网络模型来识别用户行为是否涉及政治、暴力、色情等敏感的内容，若是，则确定用户行为类别为用户行为敏感类别。

例如，提取用户说法中的关键词来识别用户行为是否涉及政治、暴力、色情等敏感的内容，用户说：“我想看个血腥暴力的电影”，这部分可以用敏感关键词进行判断，如果说法中包含敏感关键词“血腥暴力”等，则认为是用户行为涉及敏感的内容。

又例如，通过摄像头获取包含用户动作的图像数据，可以通过动作识别的模型判断是否有打斗行为(如swin-transformer)。

又例如，对正在播放的影视剧信息进行分析，是否涉及敏感的内容。此外，对于小视频，手机投屏等，不方便获取正在播放的片名和对应标签，则可以通过对终端设备显示屏幕的截图进行分析，比如利用图片分类方法等判断是否涉及敏感的内容，如果属于暴力、色情等内容，则认为用户行为类别为用户行为敏感类别。

S630a，基于用户行为敏感类别主动与用户进行交互。

如果用户行为类别包括用户行为敏感类别，则基于用户行为敏感类别主动与用户进行交互，如果行为类别不包括用户对终端设备抱怨类别、用户上网课类别、用户行为敏感类别和用户情绪消极类别，则启动正常模式。

具体地，展示与用户行为敏感类别相匹配的视觉界面，和/或确定与用户行为敏感类别相匹配的语音并播放。

在一个示例中，对视觉界面进行遮挡处理，和/或语音提示用户更换播放内容。

在一个示例中，根据用户多模态数据确定用户的属性信息，如果用户的属性信息满足第一预设条件，则对视觉界面进行遮挡处理，并语音提示用户更换播放内容；如果用户的属性信息不满足第一预设条件，则语音提示用户观看的内容为敏感内容。

上述示例中，通过用户的属性信息，针对性地基于敏感兜底模式主动与用户进行交互，能够有效帮助未成年用户身心健康发展。

在一种可能的实施方式中，方法600a还包括：

在用户的属性信息满足第一预设条件的情况下，如果用户行为类别包括用户行为敏感类别，则向与用户关联的联系人发送第三提示信息，第三提示信息用于报告用户的敏感行为。

示例性地，通过短信、彩信、邮件等方式发送第三提示信息。

下面结合方法600a举例说明基于用户行为敏感类别的主动交互过程。

未成年用户A使用终端设备搜索了涉及血腥暴力内容的电影并播放，终端设备获取了该电影的名称后，确定用户行为类别为用户行为敏感类别，然后启动敏感兜底模式，通过面部识别确定用户A为未成年，则对显示屏幕上的画面打上马赛克，并播放语音“您是未成年用户，请不要观看此电影，建议换一个电影看”，同时将该用户观看的电影名称向其监护人发送，以便监护人监督用户A。

在方法600a中，在用户行为类别包括用户行为敏感类别的情况下，能够对其行为进行提醒或纠正，保证了未成年用户的身心健康发展，进一步地，还能够向其监护人报告未成年用户的敏感行为，加强了对未成年用户的监督，提升了终端设备主动交互的效果，从而提升用户使用终端设备的满意度。

结合上述实施例，本申请还提供了一种终端设备的交互装置，包括：

数据获取模块，用于获取用户的语音数据；

数据处理模块，用于根据用户的语音数据获取用户的语音文本数据；

用户行为类别确定模块，用于根据用户的语音文本数据确定用户行为类别包括用户对终端设备抱怨类别；

抱怨事件确定模块，用于根据用户对终端设备抱怨类别确定与其匹配的第一事件，第一事件为语音交互或应用故障；

主动交互模块，用于基于第一事件主动与用户交互。

其他实施方式参见方法300和方法300a，在此不再赘述。

数据获取模块，用于获取用户的多模态数据或针对终端设备的触摸数据；

用户行为类别确定模块，用于根据用户的多模态数据或针对终端设备的触摸数据，确定用户行为类别包括用户情绪消极类别；

主动交互模块，用于展示与用户情绪消极类别相匹配的视觉界面，和/或确定与用户情绪消极类别相匹配的语音并播放；

用户行为类别确定模块还用于经过第一预设时间后，确定当前用户行为类别是否为用户情绪消极类别；

主动交互模块，还用于若当前用户行为类别为用户情绪消极类别，则向与用户关联的联系人发送第一提示信息，第一提示信息用于提醒用户的情绪状态。

其他实施方式参见方法400和方法400a，在此不再赘述。

数据获取装置，用于获取终端设备的输出数据和/或用户的图像数据；

用户行为类别确定模块，用于根据终端设备的输出数据和/或用户的图像数据确定用户行为类别包括用户上网课类别；

主动交互模块，用于确定用户为上网课的对象；

主动交互模块还用于确定目标时段的类型，目标时段的类型为上网课或休息；

主动交互模块还用于根据终端设备的输出数据和/或用户的图像数据确定目标时段内用户的动作，用户的动作包括第一动作和第二动作，第一动作表示设置的用户在上网课时不被允许做的动作，第二动作表示设置的用户在上网课时被允许做的动作；

主动交互模块还用于基于用户的动作和目标时段的类型主动与用户交互。

其他实施方式参见方法500和方法500a，在此不再赘述。

数据获取模块，用于获取终端设备的输出数据和/或用户的图像数据；

用户行为类别确定模块，用于根据终端设备的输出数据和/或用户的图像数据确定用户行为类别包括用户行为敏感类别；

主动交互模块，用于展示与用户行为敏感类别相匹配的视觉界面，和/或确定与用户行为敏感类别相匹配的语音并播放；

主动交互模块还用于确定用户的属性信息满足第一预设条件；

主动交互模块还用于向与用户关联的联系人发送第三提示信息，第三提示信息用于报告用户的敏感行为。

其他实施方式参见方法600和方法600a，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种终端设备的交互方法，其特征在于，包括：

获取用户的语音数据；

根据所述用户的语音数据获取用户的语音文本数据；

基于所述第一事件主动与用户交互。

2.根据权利要求1所述的方法，其特征在于，所述第一事件为语音交互，所述基于所述第一事件主动与用户交互包括：

展示与所述用户对所述终端设备抱怨类别相匹配的视觉界面，和/或确定与所述用户对所述终端设备抱怨类别相匹配的语音并播放；

屏蔽所述终端设备针对所述语音交互作出的语音回复，使与所述语音交互的内容匹配的候选回复集合中不包括所述语音回复；

发送提醒信息，所述提醒信息用于提示对所述语音回复进行校验；

根据所述提醒信息校验所述语音回复；

将校验后的所述语音回复插入所述候选回复集合中。

3.根据权利要求1所述的方法，其特征在于，所述第一事件为应用故障，所述基于所述第一事件主动与用户交互包括：

关闭所述应用的程序；

经过第一预设时间后重启所述应用的程序。

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音文本数据确定用户行为类别包括：

对所述语音文本数据进行第一处理以确定所述用户行为类别，所述第一处理包括文本分类、正则匹配和情感评分中的一种或多种。

5.一种终端设备的交互方法，其特征在于，包括：

获取用户的多模态数据；

根据所述用户的多模态数据，确定用户行为类别包括用户情绪消极类别；

6.一种终端设备的交互方法，其特征在于，包括：

获取所述终端设备的输出数据和/或用户的图像数据；

确定所述用户为上网课的对象；

7.根据权利要求6所述的方法，其特征在于，所述目标时段的类型为上网课，根据所述终端设备的输出数据和/或所述用户的图像数据确定所述目标时段内所述用户的动作，包括：

对所述用户的图像数据进行动作识别；

所述基于所述用户的动作和所述目标时段的类型主动与所述用户交互，包括：

确定当堂网课时段内所述用户的第一动作持续的时间；

根据所述用户的第一动作持续的时间展示与所述用户上网课类别相匹配的视觉界面，和/或确定与所述用户上网课类别相匹配的语音并播放。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定第一时长，所述第一时长为所述用户在上网课时段中的所述第一动作的总时长；

根据所述第一时长确定是否向与所述用户关联的联系人发送第二提示信息，所述第二提示信息用于报告所述用户上网课的状态。

9.一种终端设备的交互方法，其特征在于，包括：

获取所述终端设备的输出数据和/或用户多模态数据；

根据所述终端设备的输出数据和/或所述用户多模态数据确定用户行为类别包括用户行为敏感类别；

确定所述用户的属性信息满足第一预设条件；

10.一种终端设备的交互装置，其特征在于，包括：

数据获取模块，用于获取用户的语音数据；

主动交互模块，用于基于所述第一事件主动与用户交互。