CN111783928A

CN111783928A - 动物互动方法、装置、设备和介质

Info

Publication number: CN111783928A
Application number: CN202010610107.3A
Authority: CN
Inventors: 孔祥晖
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16

Abstract

本申请的一个或多个实施例提出动物互动方法、装置、设备和介质。上述方法可以包括，采集参与动物互动的第一参与方和/或第二参与方的图像数据。确定与上述第一参与方和/或上述第二参与方对应的特效元素。在上述图像数据中与上述第一参与方和/或第二参与方对应的位置处添加上述特效元素。通过上述智能终端展示添加上述特效元素后的图像数据。

Description

动物互动方法、装置、设备和介质

技术领域

本申请涉及计算机技术，具体涉及一种动物互动方法、装置、设备和介质。

背景技术

越来越多的家庭选择饲养动物。随着与动物相处时间的增加，主人需要与动物进行沟通。

目前，在相关技术中，在动物互动的过程中并没有借助一些智能化的工具来辅助互动过程，导致动物互动的趣味性不高。

发明内容

有鉴于此，本申请公开一种一种动物互动方法，应用于智能终端，上述方法包括：

采集参与动物互动的第一参与方和/或第二参与方的图像数据；

确定与上述第一参与方和/或上述第二参与方对应的特效元素；

在上述图像数据中与上述第一参与方和/或第二参与方对应的位置处添加上述特效元素；

通过上述智能终端展示添加上述特效元素后的图像数据。

在示出的一实施例中，上述方法还包括：

根据上述第一参与方和/或第二参与方的图像数据，确定上述第一参与方的分类属性和/或第二参与方的分类属性；

上述确定与上述第一参与方和/或上述第二参与方对应的特效元素，包括：

根据上述第一参与方的分类属性和/或第二参与方的分类属性，确定分别与上述第一参与方和/或第二参与方对应的特效元素。

在示出的一实施例中，上述特效元素包括虚拟形象，上述方法还包括：

基于上述图像数据，确定上述第一参与方的情绪状态；

根据上述情绪状态，在上述图像数据中上述第一参与方对应的位置处渲染符合上述情绪状态的虚拟形象。

基于上述图像数据，识别上述第一参与方的姿态；

根据上述姿态，在上述图像数据中上述第一参与方对应的位置处渲染符合上述姿态的虚拟形象。

在示出的一实施例中，上述方法还包括：

采集上述第一参与方的第一语音数据；

将上述第一语音数据转换为参与上述动物互动的第二参与方对应的第二语音数据，并通过上述智能终端播放上述第二语音数据。

在示出的一实施例中，在通过上述智能终端播放上述第二语音数据之前，上述方法还包括：

确定与上述第二参与方的分类属性对应的声音属性；其中，上述声音属性包括音色和/或音调；

根据上述第二参与方对应的声音属性，对上述第二语音数据进行语音渲染。

识别上述第一参与方的情绪状态；

根据上述第一参与方的情绪状态，对上述第二语音数据进行语音渲染。

在示出的一实施例中，上述将上述第一语音数据转换为参与上述动物互动的第二参与方对应的第二语音数据，包括：

根据参与上述第二参与方对应的分类属性，确定上述第二参与方对应的语种类别；

将上述第一语音数据转换为与上述语种类别对应的第二语音数据。

在示出的一实施例中，上述将上述第一语音数据转换为与上述语种类别对应的第二语音数据，包括：

对上述第一语音数据进行语义解析，得到与上述第一语音数据对应的语义信息；

根据上述语义信息，生成与上述语种类别对应的语音文本信息；

对上述语音文本信息进行音频编码，得到与上述语种类别对应的第二语音数据。

在示出的一实施例中，上述第一参与方和上述第二参与方中至少有一方为动物。

在示出的一实施例中，上述第一参与方与上述第二参与方至少有一方为基于动物的真实主人构建的虚拟主人；上述方法还包括：

通过上述智能终端展示上述虚拟主人。

本申请还提出一种动物互动装置，应用于智能终端，上述装置包括：

图像采集模块，采集参与动物互动的第一参与方和/或第二参与方的图像数据；

特效元素确定模块，确定与上述第一参与方和/或上述第二参与方对应的特效元素；

添加模块，在上述图像数据中与上述第一参与方和/或第二参与方对应的位置处添加上述特效元素；

展示模块，通过上述智能终端展示添加上述特效元素后的图像数据。

在示出的一实施例中，上述装置还包括：

分类属性确定模块，根据上述第一参与方和/或第二参与方的图像数据，确定上述第一参与方的分类属性和/或第二参与方的分类属性；

上述特效元素确定模块，包括：

在示出的一实施例中，上述特效元素包括虚拟形象，上述装置还包括：

情绪状态确定模块，基于上述图像数据，确定上述第一参与方的情绪状态；

图像渲染模块，根据上述情绪状态，在上述图像数据中上述第一参与方对应的位置处渲染符合上述情绪状态的虚拟形象。

识别模块，基于上述图像数据，识别上述第一参与方的姿态；

图像渲染模块，根据上述姿态，在上述图像数据中上述第一参与方对应的位置处渲染符合上述姿态的虚拟形象。

在示出的一实施例中，上述装置还包括：

语音采集模块，采集上述第一参与方的第一语音数据；

转换模块，将上述第一语音数据转换为参与上述动物互动的第二参与方对应的第二语音数据，并通过上述智能终端播放上述第二语音数据。

在示出的一实施例中，上述装置还包括：

声音属性确定模块，确定与上述第二参与方的分类属性对应的声音属性；其中，上述声音属性包括音色和/或音调；

语音渲染模块，根据上述第二参与方对应的声音属性，对上述第二语音数据进行语音渲染。

在示出的一实施例中，上述装置还包括：

情绪识别模块，识别上述第一参与方的情绪状态；

语音渲染模块，根据上述第一参与方的情绪状态，对上述第二语音数据进行语音渲染。

在示出的一实施例中，上述转换模块，包括：

语种确定模块，根据参与上述第二参与方对应的分类属性，确定上述第二参与方对应的语种类别；

转换子模块，将上述第一语音数据转换为与上述语种类别对应的第二语音数据。

在示出的一实施例中，上述转换子模块，包括：

解析模块，对上述第一语音数据进行语义解析，得到与上述第一语音数据对应的语义信息；

生成模块，根据上述语义信息，生成与上述语种类别对应的语音文本信息；

编码模块，对上述语音文本信息进行音频编码，得到与上述语种类别对应的第二语音数据。

在示出的一实施例中，上述第一参与方与上述第二参与方至少有一方为基于动物的真实主人构建的虚拟主人，上述装置还包括：

虚拟主人展示模块，通过上述智能终端展示上述虚拟主人。

本申请还提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述任一实施例示出的动物互动方法。

本申请还提出一种动物互动设备，上述设备包括：

处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现上述任一实施例示出的动物互动方法。

由上述方案可知，由于在动物互动过程中，播放了添加参与方对应的特效元素的图像数据，从而可以吸引参与方进行相关互动，提升了动物互动趣味性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种动物互动方法的方法流程图；

图2为本申请示出的一种图像数据展示效果图；

图3为本申请示出的一种图像数据展示效果图；

图4为本申请示出的一种动物互动方法；

图5为本申请示出的一种语音转换流程图；

图6为本申请示出的一种智能电视的示意图；

图7为本申请示出的一种动物互动装置的结构图；

图8为本申请示出的一种动物互动设备的硬件结构图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

有鉴于此，本申请提出一种动物互动方法，应用于智能终端。该方法通过将确定的与上述第一参与方和/或上述第二参与方对应的特效元素添加至图像数据相应位置，并通过智能终端展示上述图像数据，以使参与动物互动的参与方，可以在互动过程中观看到与参与方对应的图像以及特效元素，从而提升动物互动的趣味性。

请参见图1，图1为本申请示出的一种动物互动方法的方法流程图。如图1所示，上述方法可以包括：

S102，采集参与动物互动的第一参与方和/或第二参与方的图像数据；

S104，确定与上述第一参与方和/或上述第二参与方对应的特效元素；

S106，在上述图像数据中与上述第一参与方和/或第二参与方对应的位置处添加上述特效元素；

S108，通过上述智能终端展示添加上述特效元素后的图像数据。

上述方法可以应用于智能设备。上述智能设备(以下简称设备)可以是任意电子设备。例如，上述智能设备可以是手机，计算机，笔记本电脑、平板电脑、智能电视等设备。

上述智能设备，可以包括用于采集图像的图像采集设备，用于采集语音的收音设备、用于播放声音的音箱设备以及用于播放图像的图像播放设备。

上述智能设备，可以搭载用于动物互动的客户端。上述客户端可以为参与动物互动的参与方(主人或动物)提供交互界面，以完成动物互动。

在启动该客户端程序时，在一实施例中，上述设备可以通过确定是否识别到预设的开启条件，来启动该客户端程序。

在一方式中，上述设备可以通过其搭载的手势采集模块，确定是否采集到与预设手势一致的手势。如果采集到，则自动启动该客户端程序。

例如，用户可以通过上述客户端程序以及上述设备，录入若干用于开启该客户端的手势。在完成手势录入后，上述设备可以确定该设备搭载的摄像头是否采集到录入的任一手势，并在确定采集到任一手势后，开启该客户端。

在另一方式中，上述设备可以通过搭载的收音模块，确定是否采集到预设的语音指令。如果采集到，则自动启动该客户端程序。

例如，用户可以通过上述客户端程序以及上述设备，录入若干用于开启该客户端的语音(例如，“开始沟通”)。在完成语音录入后，上述设备可以确定该设备搭载的收音模块是否采集到录入的任一语音，并在确定采集到任一语音后，开启该客户端。

当然，在启动该客户端程序的方式还可以包括键控，或通过触摸该客户端为用户提供的图标等方式，在此不走穷尽时列举。

通过上述方式，可以简化开启上述客户端程序，提升用户体验感。

上述客户端通常可以与服务端通信连接。其中，上述服务端可以是由单台设备构成的服务器，由若干服务器构成的服务器集群，或者是云服务器(以下简称云端)，在此不作特别限定，以下以服务端为云端为例进行说明。

在本申请中为了方便说明实施例，以执行主体为设备进行方案说明。本领域技术人员可以理解的是，上述设备在完成上述动物互动方法时，可以通过其搭载的上述客户端与上述服务端之间的相互配合完成相关服务的。而客户端与服务端之间的工作量分配，可以是根据实际情形进行灵活调整。通常，为了减轻客户端(设备)工作压力，通常仅为客户端(设备)一侧分配数据(图像、语音等数据)采集，以及部分数据分析工作；而对数据的处理(包括，转换，音频编码等)将放在云端一侧。

上述第一参与方与上述第二参与方(以下可以将上述第一参与方和/或上述第二参与方统称为“参与方”)，可以是参与动物互动的任意参与方。

上述第一参与方可以是指发出语音的发声方(以下将上述第一参与方统称为“发声方”)；上述第二参与方可以是指接收语音的收声方(以下将上述第二参与方统称为“收声方”)。

需要说明的是，在动物互动过程中，发声方与收声方的身份可以进行相互转换。例如，当参与动物互动的至少一参与方在讲话时，正在讲话的参与方可以作为发声方，相应的，其他参与方则可以作为收声方。而当上述其它参与方在讲话时，其身份则将由收声方转变为发声方。

上述特效元素，具体可以是可视化渲染图像。例如，上述特效元素可以是一个虚拟形象(比如，动物形象或卡通形象)。

在本实施例中，上述设备可以实时采集上述动物互动的参与方的图像数据，并实时播放上述图像数据。

在实际应用中，当上述设备启动动物互动功能后，可以保持其搭载的图像采集模块处于开启状态。其中，该图像采集模块可以实时采集参与方的图像数据，并将该图像数据通过上述设备搭载的图像播放模块向参与方进行实时播放。

请参见图2，图2为本申请示出的一种图像数据展示效果图。如图2所示，上述设备可以实时播放包括参与方动态的图像数据，从而可以吸引参与方进行相关互动，进一步提升动物互动趣味性。

为了进一步提升动物互动趣味性，在动物互动过程中，上述设备可以确定与上述参与方对应的特效元素，并在上述图像数据中，与上述参与方对应的位置添加上述特效元素。

在确定与上述参与方对应的特效元素时，在一种方式中，可以由参与方自行在设备提供的若干特效元素中选择合适的特效元素。例如，在开启动物互动功能后，上述设备可以通过与参与方交互的界面输出若干预先渲染的特效元素。此时，上述参与方可以选择自身喜欢的特效元素。

在另一种方式中，可以基于维护的分类属性与特效元素的对应关系，根据参与方的分类属性，确定对应的特效元素。例如，动物互动功能的开发人员可以根据不同分类属性对特效元素的喜好规则，预先维护分类属性与特效元素的对应关系。此时，在确定参与方对应的特效元素时，可以根据参与方对应的分类属性，查询上述对应关系，并将查询到的特效元素确定为与与上述参与方对应的特效元素。

在确定上述参与方对应的特效元素后，上述设备可以在上述图像数据中，与上述参与方对应的位置添加上述特效元素。例如，在上述参与方的面部位置添加上述特效元素。

在添加上述特效元素后，上述设备可以实时播放添加了上述特效元素的图像数据。

由于在播放图像数据时，可以播放添加了参与方对应的特效元素的图像数据，从而进一步提升了动物互动趣味性。

在一实施例中，为了提升动物互动趣味性，在确定与上述参与方对应的特效元素时，可以根据上述收声方对应的分类属性，确定与该分类属性对应的虚拟形象。

在实际应用中，动物互动功能的开发人员可以根据不同分类属性对特效元素的喜好规则，预先维护分类属性与特效元素的对应关系(比如，狗喜好狗形象；猫喜好猫形象)。此时，在确定参与方对应的特效元素时，可以根据参与方对应的分类属性，查询上述对应关系，并将查询到的特效元素确定为与上述参与方对应的特效元素。

假设上述收声方对应的分类属性为2岁哈士奇，在维护分类属性与虚拟形象的对应关系时，可以维护2岁公哈士奇对应基于哈士奇维护的虚拟形象。

此时，在确定参与方对应的特效元素时，上述设备可以将上述类似哈士奇的虚拟形象作为上述参与方对应的特效元素，并实时播放添加了上述类似哈士奇的虚拟形象的图像数据，从而提升动物(收声方)对动物互动的注意力，进一步提升动物互动趣味性。

请参见图3，图3为本申请示出的一种图像数据展示效果图。如图3所示，可以在发声方(主人)的头像部位添加虚拟形象，从而提升动物对互动的注意力，进一步提升动物互动趣味性。

在一实施例中，为了进一步提升动物互动趣味性，上述特效元素可以根据发声方的当前的情绪状态，对上述虚拟形象进行可视化渲染。

在实际应用中，上述设备可以基于采集到的图像数据，实时确定发声方当前的情绪状态，并将上述虚拟形象渲染为与上述发声方当前的情绪状态一致的虚拟形象，从而使播放的虚拟形象带有情绪感知，从而表达出发声方的真实情绪，进一步提升动物互动趣味性。

在一实施例中，为了进一步提升动物互动趣味性，上述特效元素可以根据发声方的当前的动作，对上述虚拟形象进行可视化渲染。

在实际应用中，上述设备可以基于采集到的图像数据，实时确定发声方当前的动作(例如，肢体动作和/或手势动作)，并将上述虚拟形象渲染为与上述发声方当前的动作一致的虚拟形象，从而使播放的虚拟形象带有动作，从而表达出发声方的真实动作，进一步提升动物互动趣味性。

在一实施例中，为了提升动物互动趣味性，提出了一种动物互动方法。该方法通过实时获取参与动物互动的发声方发出的语音数据，并实时进行转换播放，从而提升动物互动效率，避免漏掉动物发出的语音数据。

以下结合具体实施例对本申请记载的技术方案进行说明。

请参见图4，图4为本申请示出的一种动物互动方法。该方法应用于智能终端。如图4所示，上述方法可以包括，

S402，采集参与动物互动的发声方发出的第一语音数据；

S404，将上述第一语音数据转换为参与上述动物互动的收声方对应的第二语音数据；

S406，播放上述第二语音数据。

以下对上述方案进行说明。

上述发声方，具体是指在动物互动过程中的发出语音方。

上述收声方，具体是指在动物互动过程中的接收语音方。

上述第一语音数据，具体可以是上述设备搭载的收声模块(麦克风)实时采集的由发声方发出的声音。

例如，当上述设备启动动物互动功能后，上述设备可以启动收声功能，实时采集声音。当设备采集到语音数据后，可以对该语音数据进行转换得到第二语音数据。

上述第二语音数据，具体可以是收声方可以理解的语音数据。

例如，当上述设备启动动物互动功能后，可以启动播放功能，上述设备在接收到转换的第二语音数据后，可以实时播放该语音。

当上述设备接收到动物互动功能对应的客户端开启指令后，将开启上述客户端。在开启上述客户端后，上述客户端可以使上述设备开启收声模块，以及播放模块，以使该设备可以实时采集和实时播放语音数据。

当上述设备采集到上述第一语音数据后，可以将上述第一语音数据转换为参与上述动物互动的收声方对应的第二语音数据。

在实际应用中，上述设备在接收到上述第一语音数据后，上述设备可以通过其搭载的硬件环境本地完成针对上述第一语音数据的转换工作。

在转换过程中，上述设备可以根据参与上述动物互动的收声方对应的分类属性，确定上述收声方对应的语种类别。然后，上述设备可以将上述第一语音数据转换为与上述语种类别对应的第二语音数据。

上述分类属性，具体是对参与动物互动的参与方的属性描述。通过该分类属性，至少可以确定参与方的声音属性(可以包括音色和/或音调)、语种类别等。

在实际应用中，可以维护分类属性与声音属性，语种类别的对应关系，在确定参与方的声音属性或语种类别时，可以基于上述对应关系来确定。

在确定参与方属性时，可以根据与上述收声方对应的图像信息，确定上述收声方对应的分类属性。可以理解的是，上述图像信息可以是通过参与方自行上传的图像或上述设备采集的图像，在此不作限定。

在实际应用中，上述设备中可以包括基于神经网络构建的分类属性确定网络。在确定参与方的分类属性时，可以将上述图像信息输入上述分类属性确定网络，得到上述参与方的分类属性。

例如，如果上述参与方为动物时，上述参与方属性信息识别网络，可以包括以下中的任一或任几项子网络：

动物面部属性识别子网络，动物年龄识别子网络，动物体态识别子网络，情绪识别子网络。

在确定参与方分类属性时，可以将上述参与方图像信息输入上述参与方属性信息识别网络包括的子网络，得到与上述动物对应的动物类别，当前情绪状态，年龄，性别等分类属性信息。

如果上述第二参与方为主人时，上述参与方属性信息识别网络，可以包括以下中的任一或任几项子网络：

人脸属性识别子网络，年龄识别子网络，国别识别子网络，以及情绪识别子网络。

在确定参与方分类属性时，上述设备可以将上述第一输入向量输入上述参与方属性信息识别网络包括的子网络，得到与主人对应的性别，国籍，年龄，肤色等分类属性信息。

在此需要说明的是，上述分类属性可以根据实际情形进行设定。在一实施例中，可以采用较多的分类属性对采用方进行描述，维护精准的分类属性与声音属性，语种类别等的对应关系，从而使确定的与参与方的声音属性，语种类别等信息更为精准，从而使转换结果更精准。

例如，对动物的分类属性描述可以是2岁左右的大型哈士奇(一种犬类)或5岁左右的肥胖拉布拉多(一种犬类)。在维护该动物的分类属性与声音属性的对应关系时，可以细化到2岁左右的大型哈士奇对应声音属性A；5岁左右的肥胖拉布拉多对应声音属性B。该种对应关系维护方式，相较于狗对应的声音属性A来讲，明显维护的更精准，从而使确定的与参与方的声音属性，语种类别等信息更为精准，从而使转换结果更精准。

以下介绍如何进行语音转换。请参见图5，图5为本申请示出的一种语音转换流程图。

如图5所示，在语音转换过程中，上述设备可以执行S502，根据参与上述动物互动的收声方对应的分类属性，确定上述收声方对应的语种信息。

上述设备可以执行S504，解析上述第一语音数据，得到上述第一语音数据包括的语义信息。

在得到上述语义信息后，上述设备可以执行S506，根据上述语义信息，生成与上述语种类别对应的语音文本信息。

在得到上述语音文本信息后，上述设备可以执行S508，对上述语音文本信息进行音频编码，得到与参与上述语种类别对应的第二语音数据。

需要说明的是，上述各步骤的执行顺序可以根据实际情形进行调整，在此不作限定。

当然，为了缓解设备工作压力，上述设备也可以通过与其搭载的客户端对应的云端完成针对上述第一语音数据的转换工作。

以下以通过云端完成上述转换过程为例进行说明。

当上述设备采集到上述第一语音数据后，可以基于该第一语音数据构建转换请求，并将该转换请求发送至与上述客户端对应的云端。

可以理解的是，为了便于区分是采集的语音或是需要播放的语音，在一实施例中，可以在云端与客户端之间交互的语音数据的报文头(帧头)中，加入预设标识。

例如，可以在发声方采集的第一语音数据的帧头中添加标识001，在收声方需要播放的第二语音数据的帧头中添加标识002，以使设备或云端可以基于该标识，确定语音数据类别。

上述云端在接收到该转换请求后，可以先解析该转换请求，得到该转换请求携带的第一语音数据。

在得到该第一语音数据后，上述云端可以通过音频解码模块对该第一语音数据进行解码，得到上述第一语音数据对应的文本内容。

然后上述云端可以将该文本内容输入云端搭载的基于神经网络构建的转换网络(例如，用于自然语言处理的transformer转换网络)中，对该文本内容进行转换。需要说明的是，一方面，本申请不对转换网络的种类进行特别限定。另一方面，上述转换网络为经过若干训练样本预先训练得到的可以用于转换的网络。

具体地，上述转换网络可以先基于上述收声方对应的语种类别，确定对应的语种单词库。可以理解的是，在确定收声方对应的语种类别时，可以是通过在上述客户端提供的语种类别中进行选择，或通过上述收声方对应的分类属性，进行确定。

然后，上述设备可以对该文本内容进行分词处理，得到若干单词。

在得到上述单词后，上述转换网络可以对各单词进行编码，并根据与上述收声方对应的语种单词库，对编码后的单词进行解码，得到上述收声方语种下的单词。

在得到上述收声方语种下的单词后，上述转换网络可以根据上述第一语音数据对应的文本内容的语义信息(即，该文本内容单词与单词之间的关联关系)，将解码得到的上述收声方语种下的单词进行组合，得到上述语种下的文本信息。

上述云端在得到上述语种下的文本信息后，可以根据基于预设的音频编码规则将该文本信息编码为第二语音数据。

在得到转换之后的第二语音数据后，上述云端可以将该第二语音数据返回上述设备，进行实施播放。

例如，在主人与动物狗沟通的场景中，当主人讲出语义为“过来吃饭”的这句话时，上述第一语音数据则可以是“过来吃饭”。当上述设备接收到上述第一语音数据后，可以实时转换为动物狗可以理解的第二语音数据(“狗语”)，并实时播放，以使该动物狗可以理解上述第二语音数据所表达的语义。

由上述方案可知，该方法通过实时获取参与动物互动的发声方发出的第一语音数据，并实时对该第一语音数据进行转换，得到参与上述动物互动的收声方对应的第二语音数据，并进行实时播放，从而提升动物互动效率，避免漏掉动物发出的语音数据。

在一实施例中，为了进一步提升动物互动趣味性，在实时播放上述第二语音数据之前，上述设备可以确定与上述收声方的分类属性对应的声音属性；其中，上述声音属性包括音色和/或音调，在确定收声方对应的声音属性后，上述设备可以根据上述收声方对应的声音属性，对上述第二语音数据进行语音渲染。

在实际应用中，在将上述第一语音数据转换为参与上述动物互动的收声方对应的第二语音数据的过程中，上述设备可以查询维护的分类属性与声音属性的对应关系，确定与收声方的分类属性对应的声音属性。

在确定收声方对应的声音属性后，上述设备可以根据上述收声方对应的声音属性，对上述第二语音数据进行语音渲染。

上述声音属性可以包括音色和/或音调。在对上述第二语音数据进行语音渲染时，上述设备可以将上述音色和/或音调，以及通过转换得到收声方对应的语种下的文本信息作为输入，得到上述第二语音数据，然后再将该第二语音数据传送到智能设备进行播放，从而得到更贴近上述收声方音色音调的第二语音数据，提升收声方的互动的兴趣，进一步提升动物互动趣味性。

在一实施例中，为了进一步提升动物互动趣味性，在实时播放上述第二语音数据之前，上述设备可以识别上述发声方当前的情绪状态，并根据上述发声方当前的情绪状态，对上述第二语音数据进行语音渲染。

在实际应用中，在将上述第一语音数据转换为参与上述动物互动的收声方对应的第二语音数据的过程中，上述设备可以从分类属性中获取上述发声方当前的情绪状态属性。

在识别出上述发声方当前的情绪状态属性后，上述设备可以根据上述发声方当前的情绪状态，对上述第二语音数据进行语音渲染。

在对上述第二语音数据进行语音渲染的过程中，上述设备可以根据预先维护的情形状态对声音属性的影响规则，对上述收声方对应的声音属性进行调整，获取到有发声方情绪感知的音色和/或音调。然后，上述设备可以将上述音色和/或音调，以及通过转换得到收声方对应的语种下的文本信息作为输入，得到上述第二语音数据，然后再将该第二语言数据传送到智能设备进行播放，从而得到具有发声方情绪感知的第二语音数据，更真实的表达发声方的情绪，进一步提升动物互动趣味性。

可以理解的是，如果上述分类属性中并未包括上述发声方当前的情绪状态，则可以通过将上述发声方对应的图像信息输入预先训练的情绪状态识别模型中，或通过音频分析等方式对上述发声方发出的第一语音数据进行音频分析，以得到该发声方当前的情绪状态。

需要说明的是，本申请提出的上述实施例可以应用在多种动物互动场景中。例如，上述动物互动场景可以是，主人与动物当面互动场景，主人与动物远程互动场景，动物与动物当面互动场景，动物与动物远程互动场景，动物与虚拟主人当面互动场景等，在此不作穷尽式列举。

可以理解的是，在主人与动物或动物与动物互动的场景中，上述发声方，与上述收声方至少有一方为动物。在动物与虚拟主人当面互动的场景中，上述发声方，与上述收声方至少有一方为基于动物的真实主人构建的虚拟主人。

当动物独处时，可以启动动物互动功能，在上述设备上显示基于动物的真实主人构建的虚拟主人，并通过上述任一实施例公开的动物互动方法，使动物可以与该虚拟主人进行互动，从而为动物独处时带来乐趣。

以下以动物与主人通过智能电视进行互动的场景为例进行说明。

请参见图6，图6为本申请示出的一种智能电视的示意图。

如图6所示，上述智能电视可以搭载具有人工智能处理能力的硬件环境，用于采集图像的摄像头(覆盖90度*70度的FOV视角，覆盖用户客厅环境)，用于采集语音的麦克风，用于播放声音的音箱，以及用于播放图像数据的屏幕。

该智能电视搭载的操作系统中安装了用于进行动物交互的客户端。

上述客户端与远程云端可以进行相互访问。

上述客户端中集成了程序代码，可以使上述摄像头实时采集视频或图像信息，使上述麦克风实时采集声音，使上述音箱实时播放声音，以及使上述屏幕实时播放摄像头采集的图像数据。

上述客户端中还集成了基于神经网络构建的参与方分类属性确定网络，可以使上述设备基于采集的图像信息(图像数据)，确定参与方的分类属性。

上述云端分别维护了分类属性与语种类别，声音属性，虚拟形象的对应关系，以及用于转换语音的转换网络。

当主人开启动物互动功能后，上述设备可以基于上述参与方分类属性确定网络，从摄像头采集的主人和动物的图像信息中，确定主人和动物各自对应的分类属性，然后将主人和动物各自对应的分类属性上传至云端。

当主人讲出“过来吃饭”时，上述设备可以将该第一语音数据的帧头部位打上001的标识，并将该第一语音数据发送至云端。

当云端接收到该第一语音数据后，可以根据动物的分类属性确定该动物对应的语种类别，音色音调，并基于该语种类别将“过来吃饭”转换为该动物可以识别的第二语音数据。当然，上述云端还可以根据主人讲话时的情绪状态，对上述第二语音数据进行语音渲染。

当得到上述第二语音数据后，上述云端可以在该语音数据的帧头打上002的标识，并将该标识返回至上述设备。

当该设备接收到该第二语音数据后，可以实时播放该语音。

当然，在主人开启动物互动功能后，上述智能电视可以通过屏幕实时的将摄像头当前采集的图像数据进行播放。

本申请还提出一种一种动物互动装置，应用于智能终端。请参见图7，图7为本申请示出的一种动物互动装置的结构图。

如图7所示，上述装置700包括：

图像采集模块710，采集参与动物互动的第一参与方和/或第二参与方的图像数据；

特效元素确定模块720，确定与上述第一参与方和/或上述第二参与方对应的特效元素；

添加模块730，在上述图像数据中与上述第一参与方和/或第二参与方对应的位置处添加上述特效元素；

展示模块740，通过上述智能终端展示添加上述特效元素后的图像数据。

在示出的一实施例中，上述装置700还包括：

上述特效元素确定模块720，包括：

在示出的一实施例中，上述特效元素包括虚拟形象，上述装置700还包括：

在示出的一实施例中，上述装置700还包括：

语音采集模块750，采集上述第一参与方的第一语音数据；

转换模块760，将上述第一语音数据转换为参与上述动物互动的第二参与方对应的第二语音数据，并通过上述智能终端播放上述第二语音数据。

在示出的一实施例中，上述装置700还包括：

情绪识别模块，识别上述第一参与方的情绪状态；

在示出的一实施例中，上述转换模块760，包括：

在示出的一实施例中，上述转换子模块，包括：

在示出的一实施例中，上述第一参与方与上述第二参与方至少有一方为基于动物的真实主人构建的虚拟主人，上述装置700还包括：

虚拟主人展示模块，通过上述智能终端展示上述虚拟主人。

本申请示出的装置的动物互动实施例可以应用于动物互动设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本申请示出的一种动物互动设备的硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图8所示的一种设备，上述设备包括：处理器。

用于存储处理器可执行指令的存储器。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述任一实施例示出的动物互动方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请中记载的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种动物互动方法，其特征在于，应用于智能终端，所述方法包括：

确定与所述第一参与方和/或所述第二参与方对应的特效元素；

在所述图像数据中与所述第一参与方和/或第二参与方对应的位置处添加所述特效元素；

通过所述智能终端展示添加所述特效元素后的图像数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一参与方和/或第二参与方的图像数据，确定所述第一参与方的分类属性和/或第二参与方的分类属性；

所述确定与所述第一参与方和/或所述第二参与方对应的特效元素，包括：

根据所述第一参与方的分类属性和/或第二参与方的分类属性，确定分别与所述第一参与方和/或第二参与方对应的特效元素。

3.根据权利要求2所述的方法，其特征在于，所述特效元素包括虚拟形象，所述方法还包括：

基于所述图像数据，确定所述第一参与方的情绪状态；

根据所述情绪状态，在所述图像数据中所述第一参与方对应的位置处渲染符合所述情绪状态的虚拟形象。

4.根据权利要求2或3所述的方法，其特征在于，所述特效元素包括虚拟形象，所述方法还包括：

基于所述图像数据，识别所述第一参与方的姿态；

根据所述姿态，在所述图像数据中所述第一参与方对应的位置处渲染符合所述姿态的虚拟形象。

5.根据权利要求1-4任一所述的动物互动方法，其特征在于，所述方法还包括：

采集所述第一参与方的第一语音数据；

将所述第一语音数据转换为参与所述动物互动的第二参与方对应的第二语音数据，并通过所述智能终端播放所述第二语音数据。

6.根据权利要求5所述的方法，其特征在于，在通过所述智能终端播放所述第二语音数据之前，所述方法还包括：

确定与所述第二参与方的分类属性对应的声音属性；其中，所述声音属性包括音色和/或音调；

根据所述第二参与方对应的声音属性，对所述第二语音数据进行语音渲染。

7.根据权利要求5或6所述的方法，其特征在于，在通过所述智能终端播放所述第二语音数据之前，所述方法还包括：

识别所述第一参与方的情绪状态；

根据所述第一参与方的情绪状态，对所述第二语音数据进行语音渲染。

8.根据权利要求5-7任一所述的方法，其特征在于，所述将所述第一语音数据转换为参与所述动物互动的第二参与方对应的第二语音数据，包括：

根据参与所述第二参与方对应的分类属性，确定所述第二参与方对应的语种类别；

将所述第一语音数据转换为与所述语种类别对应的第二语音数据。

9.根据权利要求8所述的方法，其特征在于，所述将所述第一语音数据转换为与所述语种类别对应的第二语音数据，包括：

对所述第一语音数据进行语义解析，得到与所述第一语音数据对应的语义信息；

根据所述语义信息，生成与所述语种类别对应的语音文本信息；

对所述语音文本信息进行音频编码，得到与所述语种类别对应的第二语音数据。

10.根据权利要求1-9任一所述的方法，其特征在于，所述第一参与方和所述第二参与方中至少有一方为动物。

11.根据权利要求1-10任一所述的方法，其特征在于，所述第一参与方与所述第二参与方至少有一方为基于动物的真实主人构建的虚拟主人，所述方法还包括：通过所述智能终端展示所述虚拟主人。

12.一种动物交互装置，其特征在于，应用与智能终端，上述装置包括：

特效元素确定模块，确定与所述第一参与方和/或所述第二参与方对应的特效元素；

添加模块，在所述图像数据中与所述第一参与方和/或第二参与方对应的位置处添加所述特效元素；

展示模块，通过所述智能终端展示添加所述特效元素后的图像数据。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行所述权利要求1至11任一所述的动物互动方法。

14.一种动物互动设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1至11中任一项所述的动物互动方法。