CN111640179B

CN111640179B - 宠物模型的显示方法、装置、设备以及存储介质

Info

Publication number: CN111640179B
Application number: CN202010593307.2A
Authority: CN
Inventors: 江文俊; 孙璠; 董浩; 高雪峰; 张宏伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-26
Filing date: 2020-06-26
Publication date: 2023-09-01
Anticipated expiration: 2040-06-26
Also published as: CN111640179A

Abstract

本申请公开了宠物模型的显示方法、装置、设备以及存储介质，涉及人工智能、深度学习、神经网络、物体检测等领域。具体实现方案为：选择需要显示的宠物模型；获取环境视频的识别结果，该识别结果包括该环境视频中的至少一个物体的位置坐标；在该环境视频的至少一个物体的位置坐标处显示该宠物模型。本申请实施例将预先制作的宠物模型与环境视频一起显示，并且宠物模型放置在环境视频的某个物体上，以使得宠物模型的显示效果更真实。

Description

宠物模型的显示方法、装置、设备以及存储介质

技术领域

本申请涉及计算机领域，尤其涉及人工智能、深度学习、神经网络、物体检测等领域。

背景技术

很多人喜欢养一些宠物，例如宠物猫，宠物狗，但是养宠物需要付出很多耐心。宠物本身会也会带来很多麻烦，比如：洗澡，铲屎，喂养，遛弯等。目前在手机等终端上有许多种虚拟宠物，虚拟宠物有很多的优点：虚拟的宠物可以给主人更多的陪伴，宠物本身也不会产生健康、卫生的问题。

但是，虚拟宠物一般通过贴纸结合二维/三维(2D/3D)模型的实现。这样的虚拟宠物，存在显示效果不真实，宠物表情呆板或没有表情，没有交互等问题。

发明内容

本申请提供了一种宠物模型的显示方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种宠物模型的显示方法，包括：

选择需要显示的宠物模型；

获取环境视频的识别结果，该识别结果包括该环境视频中的至少一个物体的位置坐标；

在该环境视频的至少一个物体的位置坐标处显示该宠物模型。

根据本申请的另一方面，提供了一种宠物模型的显示装置，包括：

选择模块，用于选择需要显示的宠物模型；

获取模块，用于获取环境视频的识别结果，该识别结果包括该环境视频中的至少一个物体的位置坐标；

显示模块，用于在该环境视频的至少一个物体的位置坐标处显示该宠物模型。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行宠物模型的显示方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，该计算机指令用于使该计算机执行宠物模型的显示方法。

根据本申请，将预先制作的宠物模型与环境视频一起显示，并且宠物模型放置在环境视频的某个物体上，以使得宠物模型的显示效果更真实。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的宠物模型的显示方法的流程图；

图2是根据本申请另一实施例的宠物模型的显示方法的流程图；

图3是根据本申请另一实施例的宠物模型的显示方法的流程图；

图4是根据本申请另一实施例的宠物模型的显示方法的流程图；

图5是本申请实施例的宠物模型的显示方法的应用实例的流程图；

图6为手势数据分析与处理模块生产的数据，事件通知模块通知的消息类型；

图7为绘制和渲染的示意图；

图8是根据本申请一实施例的宠物模型的显示装置的框图；

图9是根据本申请另一实施例的宠物模型的显示装置的框图；

图10是根据本申请另一实施例的宠物模型的显示装置的框图。

图11是根据本申请实施例的宠物模型的显示方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请一实施例的宠物模型的显示方法的流程图，该方法可以包括：

S101、选择需要显示的宠物模型；

S102、获取环境视频的识别结果，该识别结果包括该环境视频中的至少一个物体的位置坐标；

S103、在该环境视频的至少一个物体的位置坐标处显示该宠物模型。

在一种示例中，可以通过建模工具例如Unity3D创建一个或多个宠物模型。在建模工具中创建好宠物模型后，可以发送到终端。终端可以包括手机、掌上电脑、智能手表等具有显示功能的设备。然后，在终端例如手机导入例如iOS的依赖框架，然后添加头文件路径，对摄像机、手机等进行一些隐私设置。在终端例如手机可以显示可供选择的宠物模型。可供选择的宠物模型可能有多个，例如宠物狗、宠物猫、龙猫、仓鼠蜥蜴等的模型。如果用户选择其中一个，可以响应于用户选择宠物的操作，选中一个宠物模型。

此外，如果用户选择在实景中显示该宠物模型，可以响应于用户选择实景显示的操作，打开终端的摄像头，拍摄终端所处的环境，得到环境视频。然后对环境视频进行识别。例如利用深度学习、神经网络等人工智能算法训练得到物体检测模型，再利用该物体检测模型对手机采集的环境视频进行物体检测，得到该视频中包括的各种物体，以及每个物体的位置坐标等识别结果。例如，识别出视频A中包括桌子、椅子、沙发等物体，并识别出桌子、椅子、沙发等的位置坐标。这些物体的位置坐标可以包括该物体所在的二维检测框的坐标(例如、左上角和右下角坐标)，也可以包括物体的中心点坐标等。

物体检测过程可以在终端执行，也可以在远端的服务器执行。例如终端将采集的环境视频发送到云端的服务器进行识别。可以将完整的环境视频发送给云端的服务器，也可以将环境视频的部分帧给云端的服务器。云端的服务器识别完成后，可以向终端回传数据(包括识别结果)。

结合之前选中的宠物模型例如宠物猫的模型，可以将在终端进行绘制和渲染，从而在终端屏幕上显示的环境视频中可以显示选中的宠物模型。此外，具体显示在终端屏幕的哪个位置，可以由用户选择，也可以由终端选择。例如，用户可以选择在桌子上显示该宠物模型，在终端上可以看到在当前的视频场景中，显示该宠物模型。

在本实施例中，将预先制作的宠物模型与环境视频一起显示，并且宠物模型放置在环境视频的某个物体上，以使得宠物模型的显示效果更真实。

图2是根据本申请另一实施例的宠物模型的显示方法的流程图。该实施例的宠物模型的显示方法可以包括上述实施例的各步骤。在本实施例中，在S102中，获取该环境视频的识别结果，包括：

S201、向服务器发送该环境视频的多个视频帧；

S202、接收该服务器回传的该识别结果，该识别结果中包括该环境视频的多个视频帧中的物体以及该物体的位置坐标。

在本实施例中，可以将环境视频中的多个视频帧发送到云端的服务器，利用云端的计算资源，能够快速准确对这些视频帧进行图像识别，支持复杂的图像识别算法。云端可以将识别结果回传到终端。这样，可以节约终端的计算资源，提高图像识别效率和准确性。

在一种可能的实施方式中，在S201之前，可以先从环境视频中提取多个视频帧，该宠物模型的显示方法还包括：

S301、在图形处理库(GPUImage)中，使用音视频基础(AVFoundation)框架来获取该环境视频；

S302、通过音视频捕获会话(AVCaptureSession)类从音视频(AV)输入设备采集的该环境视频中捕获多个视频帧；

S303、比较相邻的两个视频帧之间的颜色差异，以提取颜色差异大于阈值的视频帧。

在本实施例中，从环境视频中提取部分视频帧，并将颜色差异大于阈值的视频帧发送到云端进行识别，既能够对关键的视频帧进行处理，又可以减少重复识别的图像的量，减少数据处理量，提高识别速度。

在本实施例中，图形处理库例如，GPUImage是开元的基于GPU的图片或视频的处理框架。在GPUImage中，使用AVFoundation(音视频基础)框架来获取环境视频；通过AVCaptureSession(音视频捕获会话)类从音视频(Audio&Video，AV)输入设备采集的环境视频中捕获多个视频帧。在这多个视频帧中，可以比较每两个相邻的视频帧之间像素点的颜色差异。例如，如果颜色不同的像素点的比例占视频帧的所有像素点的比例大于阈值，表示这两个视频帧的颜色差异较大，可以将这两个视频帧全部发给云端，也可以将其中的一帧发给云端。

在一种可能的实施方式中，在S103中，在该环境视频的至少一个物体的位置坐标处显示该宠物模型，包括：

S203、通过开放图形库(OpenGLES)框架和增强现实(Augmented Reality，AR)框架在终端进行绘制和渲染，以在该终端显示的该环境视频的至少一个物体上显示该宠物模型。

在本实施例中，开放图形库例如OpenGL ES是开源嵌入式系统图形的处理框架，包括图形与硬件接口，以及软件与图形加速间灵活强大的底层交互接口。AR框架例如ARKit.Framework可以实现增强现实的效果，将用户所处环境中与宠物结合显示，更加生动真实。

图3是根据本申请另一实施例的宠物模型的显示方法的流程图。该实施例的宠物模型的显示方法可以包括上述实施例的各步骤。在本实施例中，在一种可能的实施方式中，该宠物模型的显示方法还包括：

S401、在三维建模工具中，利用创建原始(CreatePrimitive)功能创建宠物模型的关键原始的对象；

S402、利用添加组件(AddComponent)功能为该对象新增组件，并利用渲染材质颜色(renderer.material.color)功能，设置该组件的渲染材质的颜色和贴图；

S403、利用变换位置(transform.positio)功能，设置该宠物模型的位置。

在本实施例中，利用三维建模工具例如Unity3D可以预先创建一个或多个宠物模型。对于每个宠物模型，可以利用AddComponent功能添加所需的组件，能够为宠物模型增加丰富的表情、动作等。利用renderer.material.color功能设置渲染材质的颜色和贴图，能够使得宠物模型的显示效果更加真实生动。利用transform.positio功能能够实现宠物模型的位置变换。

图4是根据本申请另一实施例的宠物模型的显示方法的流程图。该实施例的宠物模型的显示方法可以包括上述实施例的各步骤。在本实施例中，在一种可能的实施方式中，该宠物模型的显示方法还包括：

S501、响应于触摸手势事件，生成对该宠物模型的控制指令；

S502、控制该宠物模型执行与该控制指令对应的交互动作。

示例性地，触摸手势事件可以包括多种，例如，单击、双击、左右滑动、上下滑动、沿着设定轨迹滑动等。不同的触摸手势事件可以对应不同的控制指令。例如，单击手势事件，生成发声控制指令，可以控制在环境视频中显示的宠物模型发出声音。再如，向上滑动的手势事件，生成跳跃控制指令，可以控制在环境视频中显示的宠物模型跳跃。再如，左右滑动的手势事件，生成旋转控制指令，可以控制在环境视频中显示的宠物模型旋转。通过多种触摸手势事件，可以实现与环境视频中显示的宠物模型的互动，有利于增强趣味性，寄托用户的情感。

在一种应用示例中，本申请可以提供一种iOS平台上的宠物方案，可以有效的解决真实的宠物各种不方便因素，又能有效的寄托用户的情感。甚至可以缓解抑郁症、自闭症等。

如图5所示，本申请实施例的方案可以包括以下步骤：

S1模型创建：

示例性地，可以利用Unity3D等三维建模工具创建宠物模型。例如，用创建原始(CreatePrimitive)功能去创建关键原始的对象，参数可以按照具体需要实现的宠物功能来设定。

进一步的，利用添加组件(AddComponent)功能新增一个组件，然后用渲染材质颜色(renderer.material.color)功能，设置渲染材质的颜色和贴图。

进一步的，利用变换位置(transform.positio)功能去设置宠物模型的对应的位置。

进一步的，还可以对模型进入绑定设置，选择人形(Humanoid)方式的化身定义(Avatar Definition)功能，可以直接利用选中的模型创作其他的模型(Create From ThisModel)，也就是根据本模型新建一个化身(Avatar)，该化身可以作为一种宠物模型。

在利用Unity3d等建模工具创建模型后，可以利用各种脚本实现模型的动画效果，可以添加各种的贴图，根据需要实现的模型的具体展现效果来决定。

S2导入依赖框架：

在终端例如手机，导入图形处理库(GPUImage)开源框架。例如，依赖框架主要可以包括：CoreMedia(核心媒体)/CoreVideo(核心视频)/OpenGLES(open graphics library，开放图形库)/AVFoundation(音视频基础)/QuartzCore/libc++.tbd/CoreGraphics.framework(核心图形框架)/OpenGLES.framework(开放图形库框架)/ARKit.framework(增强现实框架)。

导入相关的框架之后，需要添加头文件路径。例如，在Build Settings(生成设置)->Header Search Paths(标题搜索路径)添加GPUImage(图形处理库)的路径，并且在BuildsSetting(建立设置)中，Other Linker Flags(其他链接标志)中添加-fobjc-arc-ObjC。然后，禁用Bitcode(位码)，配置一些隐私设置。比如添加camera(摄像机或相机)，添加Privacy-Camera Usage Description(隐私-摄像头使用说明)。如果要使用录屏，添加Privacy-Microphone Usage Description(隐私-麦克风使用说明)。

S3宠物选择：

终端例如手机能够显示可供选择的模型，其中展示的页面用到UICollectionView(用户界面收集视图)并且对UICollectionViewLayout(用户界面收集视图布局)进行重写。例如，可以重写以下相关函数：

-(void)prepareLayout

-(NSArray*)layoutAttributesForElementsInRect:(CGRect)rect；

-(BOOL)shouldInvalidateLayoutForBoundsChange:(CGRect)newBounds；

-(CGSize)collectionViewContentSize；

-(UICollectionViewLayoutAttributes*)layoutAttributesForItemAtIndexPath:(NSIndexPath*)indexPath

其中，如图6所示，还可以利用终端例如手机的手势系统，以及相关的响应链。例如，触摸手势事件数据采用Switchinfo表示，对应的翻页事件采用PageLifecycleEvent表示。触摸手势事件可以包括LEFT_TO_RIGHT(左到右)、RIGHT_TO_LEFT(右到左)、UP_TO_BOTTOM(上到下)、BOTTOM_TO_UP(下到上)等。翻页事件可以包括onPageCreated(创建页面)、onPageSwitched(切换页面)、onPageSelected(选择页面)、onPageDestroy(销毁页面)。不同的触摸手势事件可以对应不同的翻页事件。

S4视频采集：

GPUImage(图形处理库)使用AVFoundation(音视频基础)框架来获取视频。AVCaptureSession(音视频捕获会话)类从AV输入设备的采集数据到制定的输出。为了实现实时的图像捕获，可以使用AVCaptureSession类，添加输入(AVCaptureDeviceInput)和输出(比如AVCaptureMovieFileOutput(音视频捕获电影文件输出)调用startRunning(开始运行)开始输入到输出的数据流，调用stopRunning(停止运行)停止数据流。

例如，通过以下处理可以从输入的视频中捕获多个视频帧：

获取视频帧之后，对视频帧进行取样，例如，比对两个CMSampleBufferRef(用于存放一个或多个压缩或未压缩的媒体文件)所表示的视频帧之间的颜色差异，将颜色差异比较大的视频帧上传到远端例如云端的服务器。

S5远端图像识别：

例如，将上述步骤中提取的视频帧发送到云端的服务器后，可以在云端的服务器上利用人工智能的图像识别技术进行图像识别。

图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。

信息的获取：指通过传感器，将光或声音等信息转化为电信息，电信息是一种数据。

预处理：例如在图像处理中的去燥、平滑、变换等操作，从而加强图像的重要特征。

特征抽取和选择：在模式识别中，需要进行特征的抽取和选择。

分类器设计：通过训练而得到一张识别规则，通过此识别规则可以得到的一种特征分类，

分类决策：在特征空间中对识别对对象进行分类，从而更好地识别所研究的对象具体属于哪一类。

S6数据回传：

在远端对视频帧进行图像识别后，返回视频帧中相关的物体和该物体的三维坐标，终端例如手机可以进行相关的数据处理。

S7绘制和渲染：

图像在OpenGL ES(开放图形库)中的表示是纹理，可以在片元着色器中对上述的视频帧进行像素级别的处理。

在绘制和渲染过程中，图形处理库(GPUImage)负责初始化OpenGL ES环境，缓存顶点、纹理坐标数据，传送图像数据到GPU，绘制图元到特定的帧缓存。GPUImageFramebuffer(图形处理库帧缓存)负责在帧缓存取出绘制的图像。

例如，如图7所示，摄像头或摄像机(GPUImageCamera)进行数据采集得到视频帧后，一路数据流发给图形处理库滤镜(GPUImageFilter)。滤镜(Filter)可以对图像进行各种滤镜效果的处理。此外，对摄像头采集的另一路数据流的视频帧进行比对处理后，发送到用户界面元素(UIElement)。用户界面元素(UIElement)将收到的视频帧和宠物数据一起发给添加混合滤镜(AddBlendFilter)模块。滤镜(Filter)将绘制的视频帧发给添加混合滤镜(AddBlendFilter)模块。添加混合滤镜(AddBlendFilter)模块将视频帧和宠物数据合并输出设定格式的视频文件例如Mp4文件。

示例性地，在绘制和渲染过程中，获取纹理坐标，可以参见以下代码示例：

+(constGLfloat*)textureCoordinatesForRotation:(GPUImageRotationMode)rotationMode；

在绘制和渲染过程中，绑定纹理，可以参见以下代码示例：

glBindTexture(GL_TEXTURE_2D,[firstInputFramebuffer texture])；

在绘制和渲染过程中，绑定顶点和纹理坐标并绘制图元，可以参见以下代码示例：

glVertexAttribPointer(filterPositionAttribute,2,GL_FLOAT,0,0,vertices)；glVertexAttribPointer(filterTextureCoordinateAttribute,2,GL_FLOAT,0,0,textureCoordinates)；

glDrawArrays(GL_TRIANGLE_STRIP,0,4)；

本实施例中的基于iOS的宠物喂养方案，可以在减少用户成本的情况下，实现虚拟的宠物更多的陪伴。用户使用终端例如手机打开摄像头之后，可以根据摄像头采集的数据，将宠物模型融入到当前的环境里，比如书桌上、餐桌上、电脑旁等地方。此外，采用Unity3d等建模工具可以使得宠物模型实现生动表情和互动，比如打哈欠、聊天、点击挠痒痒，拉起改变位置、投放零食、换装等。

图8是根据本申请一实施例的宠物模型的显示装置的框图。该装置可以包括：

选择模块41，用于选择需要显示的宠物模型；

获取模块42，用于获取环境视频的识别结果，该识别结果包括该环境视频中的至少一个物体的位置坐标；

显示模块43，用于在该环境视频的至少一个物体的位置坐标处显示该宠物模型。

在一种可能的实施方式中，如图9所示，获取模块42包括：

发送子模块421，用于向服务器发送该环境视频的多个视频帧；

接收子模块422，用于接收该服务器回传的该识别结果，该识别结果中包括该环境视频的多个视频帧中的物体以及该物体的位置坐标。

在一种可能的实施方式中，如图10所示，该装置还包括：

提取模块51，用于在图形处理库GPUImage中，使用音视频基础AVFoundation框架来获取该环境视频；通过音视频捕获会话AVCaptureSession类从音视频AV输入设备采集的该环境视频中获取多个视频帧；比较相邻的两个视频帧之间的颜色差异，以提取颜色差异大于阈值的视频帧。

在一种可能的实施方式中，如图10所示，该装置还包括：

建模模块52，用于在三维建模工具中，利用创建原始CreatePrimitive功能创建宠物模型的关键原始的对象；利用添加组件AddComponent功能为该对象新增组件，并利用渲染材质颜色renderer.material.color功能，设置该组件的渲染材质的颜色和贴图；利用坐标更改transform.positio功能，设置该宠物模型的位置；

在一种可能的实施方式中，如图10所示，该装置还包括：

交互模块53，用于响应于触摸手势事件，生成对该宠物模型的控制指令；控制该宠物模型执行与该控制指令对应的交互动作。

在一种可能的实施方式中，显示模块43具体用于通过开放图形库OpenGLES框架和增强现实AR框架ARKit.Framework在终端进行绘制和渲染，以在该终端显示的该环境视频的至少一个物体上显示该宠物模型。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图11所示，是根据本申请实施例的宠物模型的显示方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使该至少一个处理器执行本申请所提供的宠物模型的显示方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的宠物模型的显示方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的宠物模型的显示方法对应的程序指令/模块(例如，附图8所示的选择模块41、获取模块42和显示模块43)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的宠物模型的显示方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据宠物模型的显示方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至宠物模型的显示方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

宠物模型的显示方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与宠物模型的显示方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

在本申请实施例中，将预先制作的宠物模型与环境视频一起显示，并且宠物模型放置在环境视频的某个物体上，以使得宠物模型的显示效果更真实。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种宠物模型的显示方法，包括：

选择需要显示的宠物模型；

获取环境视频的识别结果，所述识别结果包括所述环境视频中的至少一个物体的位置坐标；

在所述环境视频的至少一个物体的位置坐标处显示所述宠物模型；

其中，获取所述环境视频的识别结果，包括：

向服务器发送所述环境视频的多个视频帧；

接收所述服务器回传的所述识别结果，所述识别结果中包括所述环境视频的多个视频帧中的物体以及所述物体的位置坐标；

其中，所述方法还包括：

在图形处理库中，使用音视频基础框架来获取所述环境视频；

通过音视频捕获会话类从音视频输入设备采集的所述环境视频中获取多个视频帧；

比较相邻的两个视频帧之间的颜色差异，以提取颜色差异大于阈值的视频帧。

2.根据权利要求1所述的方法，其中，还包括：

在三维建模工具中，利用创建原始功能创建宠物模型的关键原始的对象；

利用添加组件功能为所述对象新增组件，并利用渲染材质颜色功能，设置所述组件的渲染材质的颜色和贴图；

利用坐标更改功能，设置所述宠物模型的位置。

3.根据权利要求1所述的方法，其中，还包括：

响应于触摸手势事件，生成对所述宠物模型的控制指令；

控制所述宠物模型执行与所述控制指令对应的交互动作。

4.根据权利要求1至3中任一项所述的方法，其中，在所述环境视频的至少一个物体的位置坐标处显示所述宠物模型，包括：

通过开放图形库框架和增强现实AR框架在终端进行绘制和渲染，以在所述终端显示的所述环境视频的至少一个物体上显示所述宠物模型。

5.一种宠物模型的显示装置，包括：

选择模块，用于选择需要显示的宠物模型；

获取模块，用于获取环境视频的识别结果，所述识别结果包括所述环境视频中的至少一个物体的位置坐标；

显示模块，用于在所述环境视频的至少一个物体的位置坐标处显示所述宠物模型；

其中，所述获取模块包括：

发送子模块，用于向服务器发送所述环境视频的多个视频帧；

接收子模块，用于接收所述服务器回传的所述识别结果，所述识别结果中包括所述环境视频的多个视频帧中的物体以及所述物体的位置坐标；

其中，所述装置还包括：

提取模块，用于在图形处理库中，使用音视频基础框架来获取所述环境视频；通过音视频捕获会话类从音视频输入设备采集的所述环境视频中获取多个视频帧；比较相邻的两个视频帧之间的颜色差异，以提取颜色差异大于阈值的视频帧。

6.根据权利要求5所述的装置，其中，还包括：

建模模块，用于在三维建模工具中，利用创建原始功能创建宠物模型的关键原始的对象；利用添加组件功能为所述对象新增组件，并利用渲染材质颜色功能，设置所述组件的渲染材质的颜色和贴图；利用坐标更改功能，设置所述宠物模型的位置。

7.根据权利要求5所述的装置，其中，还包括：

交互模块，用于响应于触摸手势事件，生成对所述宠物模型的控制指令；控制所述宠物模型执行与所述控制指令对应的交互动作。

8.根据权利要求5至7中任一项所述的装置，其中，显示模块具体用于通过开放图形库框架和增强现实框架在终端进行绘制和渲染，以在所述终端显示的所述环境视频的至少一个物体上显示所述宠物模型。

9. 一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。