CN113329202A

CN113329202A - 提供利用视频通话机器人的通信的方法、系统及计算机程序

Info

Publication number: CN113329202A
Application number: CN202110077806.0A
Authority: CN
Inventors: 金娜怜
Original assignee: Line Plus Corp
Current assignee: Line Plus Corp
Priority date: 2020-02-12
Filing date: 2021-01-20
Publication date: 2021-08-31
Also published as: US11785178B2; US20210250548A1; US11343468B2; JP2021129296A; KR20210102698A; US20220256115A1

Abstract

本发明公开提供利用视频通话机器人的通信的方法、系统及非暂时性计算机可读记录介质。所述方法包括：显示步骤，针对包括所述计算机装置的用户在内的多个用户参与的视频通话，将与所述多个用户中的至少一个用户的请求对应的机器人作为所述视频通话的参与者显示；传输步骤，向服务器传输在进行所述视频通话的过程中向所述计算机装置输入的输入中的与所述机器人有关的一部分输入；以及输出步骤，响应所述一部分输入，通过参与所述视频通话的所述机器人输出与所述一部分输入有关的响应。

Description

提供利用视频通话机器人的通信的方法、系统及计算机程序

技术领域

本发明公开涉及提供视频通话功能的技术。

背景技术

最近，通信设备除语音通话服务或文字服务之外，还提供无线网络服务、地面/卫星广播服务等多种服务。

尤其，随着影像的压缩技术和复原技术的发展，设置有摄像头的设备的普及，目前提供可以确认对方的脸部并进行通话的视频通话服务。

作为提供视频通话服务的技术的一个示例，在韩国授权专利公报第10-0401262号(授权日期：2003年09月29日)揭示了在无线环境的移动通信网中提供移动电话终端之间的视频电话服务的技术。

发明内容

本发明可提供在进行视频通话的情况下支持通信的视频通话机器人(bot)。

作为视频通话的参与者，可以邀请机器人，并可以在包含参与者的影像的视频通话画面上显示与机器人有关的图像。

可通过参与视频通话的机器人，作为响应，接收与特定时间点的影像或语音对应的内容。

本发明提供视频通话方法，在计算机装置中执行，所述计算机装置包括执行包含在存储器的计算机可读指令的至少一个处理器，所述视频通话方法包括：显示步骤，通过所述至少一个处理器，针对包括所述计算机装置的用户在内的多个用户参与的视频通话，将与所述多个用户中的至少一个用户的请求对应的机器人作为所述视频通话的参与者显示；传输步骤，通过所述至少一个处理器，向服务器传输在进行所述视频通话的过程中向所述计算机装置输入的输入中的与所述机器人有关的一部分输入；以及输出步骤，通过所述至少一个处理器，响应所述一部分输入，通过参与所述视频通话的所述机器人输出与所述一部分输入有关的响应。

根据一实施方式，所述显示步骤可包括如下的渲染步骤，即，从所述服务器接收与所述机器人有关的影像，将在参与所述视频通话的所述多个用户中的至少一个用户的影像和与所述机器人有关的影像渲染在一个视频通话画面上。

根据再一实施方式，所述显示步骤可包括：识别步骤，识别用于邀请向所述计算机装置输入的机器人的指令；以及显示步骤，根据所述指令，将与所述指令对应的机器人作为所述视频通话的参与者显示。

根据另一实施方式，所述视频通话方法还可包括如下的设定步骤，即，通过所述至少一个处理器，按能够参与所述视频通话的机器人设定唤醒关键词(wake up word)。

根据还有一实施方式，在所述机器人参与所述视频通话之前，将所述唤醒关键词用作用于邀请机器人的指令，在所述机器人参与所述视频通话之后，将所述唤醒关键词用作用于请求通过所述机器人的响应的指令。

根据又一实施方式，所述传输步骤可包括：识别步骤，识别与向所述计算机装置输入的所述机器人有关的指令；以及传输步骤，在识别所述指令之后，向所述服务器传输向所述计算机装置输入的语音或影像。

根据又一实施方式，在向所述服务器传输向所述计算机装置输入的语音或影像的步骤中，可向所述服务器传输从识别所述指令的时间点开始在规定时间内输入的语音或影像。

根据又一实施方式，在所述输出步骤中，可通过参与所述视频通话的所述机器人，将针对所述一部分输入，通过所述服务器搜索的响应以语音或影像输出。

根据又一实施方式，在所述输出步骤中，可在对于所述视频通话的视频通话画面中，在所述机器人的影像所占据的区域显示对于所述一部分输入的响应。

根据又一实施方式，在所述输出步骤中，可将对于所述一部分输入的响应以参与所述视频通话的所述机器人对应的语音输出。

本发明提供非暂时性计算机可读记录介质，存储有计算机程序，，根据所述计算机程序，所述计算机系统中执行所述视频通话方法。

本发明提供计算机装置，所述计算机装置包括执行存储器中包含的计算机可读指令的至少一个处理器，所述至少一个处理器包括：视频通话提供部，针对包括所述计算机装置的用户在内的多个用户参与的视频通话，将与所述多个用户中的至少一个用户的请求对应的机器人作为所述视频通话的参与者显示；通话输入传输部，向服务器传输在进行所述视频通话的过程中向所述计算机装置输入的输入中的与所述机器人有关的一部分输入；以及响应输出部，响应所述一部分输入，通过参与所述视频通话的所述机器人输出与所述一部分输入有关的响应。

附图说明

图1为示出本发明一实施例的网络环境的示例的图。

图2为用于说明本发明一实施例的电子设备及服务器的内部结构的框图。

图3为示出本发明一实施例的电子设备的处理器可包括的结构要素的示例的图。

图4为示出本发明一实施例的电子设备可执行的方法的示例的流程图。

图5至图12为用于说明本发明一实施例的提供利用视频通话机器人的通信的过程的示例示图。

具体实施方式

以下，参照附图，详细说明本发明的实施例。

本发明的实施例涉及提供视频通话功能的技术。

包括本说明书中具体揭示的内容的实施例可提供在进行视频通话的情况下帮助通信的视频通话机器人。

图1为示出本发明一实施例的网络环境的示例的图。图1的网络环境包括多个电子设备110、120、130、140、多个服务器150、160及网络170。上述图1为用于说明本发明的一个示例，电子设备的数量或服务器的数量并不局限于图1。

多个电子设备110、120、130、140可以为通过计算机系统体现的固定型终端或移动型终端。作为多个电子设备110、120、130、140的示例，包括智能手机(smart phone)、手机、导航仪、计算机、笔记本计算机、数字广播终端、个人数据助理(PDA，Personal DigitalAssistants)、可携带式多媒体播放器(PMP，Portable Multimedia Player)、平板计算机、游戏机(game console)、可穿戴设备(wearable device)、物联网(IoT，internet ofthings)设备、虚拟现实(VR，virtual reality)设备、增强现实(AR，augmented reality)设备等。作为一个示例，图1中，电子设备110的示例示出智能手机的形状，但在本发明的实施例中，电子设备110实质上可以为可以利用无线或有线通信方式，通过网络170与其他电子设备120、130、140和/或服务器150、160进行通信的多种物理计算机系统中的一个。

通信方式并不受限，可包括使用网络170可包括的通信网(例如，移动通信网、有线网络、无线网络、广播网、卫星网等)的通信方式和多个设备之间的近距离无线通信。例如，网络170可包括个人区域网(PAN，personal area network)、本地网络(LAN，local areanetwork)、校园网(CAN，campus area network)、城域网(MAN，metropolitan areanetwork)、广域网(WAN，wide area network)、宽带网(BBN，broadband network)、互联网等网络中的一种以上的任意网络。并且，网络170可包括具有总线网络、星型网络、环型网络、网状网络、星型总线网络、树形网络、分级(hierarchical)网络等的网络拓扑中的一个以上，但并不局限于此。

服务器150、160可以为通过网络170与多个电子设备110、120、130、140进行通信来提供指令、代码、文件、内容、服务等的计算机装置或多个计算机装置。例如，服务器150可以为向通过网络170连接的多个电子设备110、120、130、140提供第一服务的系统，服务器160也可以为向通过网络170连接的多个电子设备110、120、130、140提供第二服务的系统。作为更具体的示例，服务器150可通过设置于多个电子设备110、120、130、140来驱动的作为计算机程序的应用，将对应应用所需要的服务(作为一个示例，视频通话服务等)作为第一服务来向多个电子设备110、120、130、140提供。作为另一个示例，服务器160可将向多个电子设备110、120、130、140分配用于设置及驱动上述应用的文件的服务作为第二服务提供。

图2为用于说明本发明一实施例的电子设备及服务器的内部结构的框图。图2中，作为电子设备的示例，说明电子设备110及服务器150的内部结构。并且，其他电子设备120、130、140或服务器160也可以具有与上述电子设备110或服务器150相同或类似的内部结构。

电子设备110和服务器150可包括存储器211、221、处理器212、222、通信模块213、223及输入输出接口214、224。存储器211、221作为非暂时性计算机可读记录介质，可包括如随机存取存储器(RAM，random access memory)、只读存储器(ROM，read only memory)及硬盘驱动器、固态硬盘(SSD，sol id state drive)、闪存(flash memory)等永久性大容量记录装置(permanent mass storage device)。其中，如只读存储器、固态硬盘、闪存、硬盘驱动器等永久性大容量记录装置为与存储器211、221区分的单独的永久存储装置，可形成在电子设备110或服务器150。并且，存储器211、221可存储操作系统和至少一个程序代码(作为一个示例，用于设置于电子设备110来驱动的浏览器或为了提供特定服务而设置于电子设备110的应用等的代码)。上述软件结构要素可从与存储器211、221单独的计算机可读记录介质装载。上述单独的计算机可读记录介质可包括软盘驱动器、磁盘、磁带、DVD/CD-ROM驱动器、存储卡等计算机可读记录介质。在另一实施例中，软件结构要素可通过通信模块213、223向存储器211、221装载，而并非通过计算机可读记录介质。例如，至少一个程序可基于通过文件设置的计算机程序(作为一个示例，上述应用)向存储器211、221装载，上述文件由开发人员或分配应用的设置文件的文件分配系统(例如，上述服务器160)通过网络170提供。

处理器212、222可执行基本的算术、逻辑及输入输出计算，由此可以处理计算机程序的指令。指令可通过存储器211、221或通信模块213、223向处理器212、222提供。例如，处理器212、222可根据存储于如存储器211、221的记录装置的程序代码来执行所接收的指令。

通信模块213、223可提供通过网络170来使电子设备110与服务器150相互进行通信的功能，并可提供使电子设备110和/或服务器150与其他电子设备(作为一个示例，电子设备120)或其他服务器(作为一个示例，服务器160)进行通信的功能。作为一个示例，电子设备110的处理器212可根据通信模块213的控制，通过网络170向服务器150传递根据存储于如存储器211的记录装置的程序代码生成的请求。相反，根据服务器150的处理器222的控制提供的控制信号、指令、内容、文件等可经过通信模块223和网络170来通过电子设备110的通信模块213向电子设备110提供。例如，通过通信模块213接收的服务器150的控制信号、指令、内容、文件等可向处理器212或存储器211传递，内容或文件等可存储于电子设备110还可包括的存储装置(上述永久存储装置)。

输入输出接口214可以为用于与输入输出装置215之间的交互的单元。例如，输入装置可包括键盘、鼠标、麦克风、摄像头等装置，输出装置可包括如显示器、扬声器、触觉反馈装置(haptic feedback device)等的装置。作为另一个示例，输入输出接口214也可以为用于与如触摸屏的用于输入和输出的功能合并的装置之间的交互的单元。输入输出装置215可以与电子设备110由一个装置构成。并且，服务器150的输入输出接口224可以为与服务器150相连接或者用于与服务器150可包括的用于输入或输出的装置(未图示)之间的交互的单元。作为更具体的示例，电子设备110的处理器212在处理向存储器211装载的计算机程序的指令的过程中，利用服务器150或电子设备120提供的数据来构成的服务画面或内容可通过输入输出接口214显示在显示器上。

并且，在另一实施例中，电子设备110及服务器150可包括比图2的结构要素更多的结构要素。但是，无需明确示出大部分现有技术的结构要素。例如，电子设备110包括上述输入输出装置215中的至少一部分，或者还可包括如收发器(transceiver)、全球定位系统(GPS，Global Positioning System)模块、摄像头、各种传感器、数据库等的其他结构要素。作为更具体的示例，在电子设备110为智能手机的情况下，电子设备110还可包括智能手机通常包括的加速度传感器、陀螺仪传感器、摄像头模块、各种物理按钮、利用触摸板的按钮、输入输出端口、用于振动的振动器等多种结构要素。

以下，说明提供利用视频通话机器人的通信的方法及系统的具体实施例。

图3为示出本发明一实施例的电子设备的处理器可包括的结构要素的示例的图，图4为示出本发明一实施例的电子设备可执行的方法的示例的流程图。

在本实施例的电子设备110可以构成通过计算机体现的视频通话系统。作为一个示例，视频通话系统可体现为独立工作的程序形态，或者以特定应用的应用内(in-app)形态构成，从而可以在上述特定应用上进行工作，根据情况，可通过与服务器150联动来提供视频通话服务。

基于设置于电子设备110的应用所提供的指令来体现在电子设备110的视频通话系统可执行图4所示的视频通话方法。

为了执行图4的视频通话方法，如图3所示，电子设备110的处理器212可包括视频通话提供部310、通话输入传输部320、响应输出部330。根据实施例，处理器212的结构要素可以选择性地包括在处理器212或从其排除。并且，根据实施例，处理器212的结构要素为了处理器212的功能的表现而可以分离或合并。

上述处理器212及处理器212的结构要素能够以执行图4的视频通话方法所包括的多个步骤(步骤S410至步骤S440)的方式控制电子设备110。例如，处理器212及处理器212的结构要素可执行存储器211包括的操作系统的代码和基于至少一个程序代码的指令(instruction)。

其中，处理器212的结构要素可以为根据存储于电子设备110的程序代码所提供的指令(例如，在电子设备110中驱动的应用所提供的指令)，通过处理器212执行的处理器212的不同功能(different functions)的表现。例如，作为以提供视频通话的方式根据上述指令控制电子设备110的处理器212的功能性表现，电子设备110可以利用视频通话提供部310。

处理器212可以从加载有与电子设备110的控制有关的指令的存储器211读取指令。在此情况下，上述读取的指令可以包含以使处理器212执行之后说明的多个步骤(步骤S410至步骤S430)的方式进行控制的指令。

参照图4，在步骤S410中，视频通话提供部310可以提供包括电子设备110的用户在内的多个用户和机器人参与的视频通话。在电子设备110、120、130、140的用户之间请求视频通话的情况下，服务器150可以向对方的电子设备传递视频通话请求，对此，可以将接收参与视频通话的多个用户为对象连接视频通话频道。视频通话提供部310可以向服务器150传递电子设备110的用户的视频通话参与意图，从服务器150分别以个别影像接收视频通话的参与者影像之后，将所接收的参与者影像渲染(rendering)成一个画面来构成视频通话画面。在服务器150方面，并非形成包含多个参与者影像的一个影像来向电子设备110提供，而是，服务器150将各个参与者影像作为个别影像向电子设备110传输，在电子设备110中，将多个参与者影像构成为一个画面的视频通话画面。

视频通话提供部310可以作为视频通话的参与者，包含机器人。在此情况下，可从服务器150接收与机器人有关的图像(以下，称之为“机器人影像”)，在视频通话画面包括如一名参与者影像的机器人影像来显示。作为一个示例，在选择视频通话的参与者的过程中选择机器人，从而，可以从视频通话开始时间点开始，机器人可以一同参与视频通话。作为另一个示例，如参与视频通话的一人邀请朋友，在视频通话过程中也可以邀请机器人来使其参与。

在电子设备110的用户请求及机器人邀请的情况下，视频通话提供部310可通过与服务器150的联动呼叫与请求对应的机器人来作为视频通话的参与者包含。参与视频通话的机器人可以预先存储用于向视频通话邀请的指令或者可通过基于电子设备110的用户的个人设定确定。对此，视频通话提供部310可识别从用户基于语音或文本输入的邀请指令，根据所识别的邀请指令，使不同的机器人参与视频通话。除利用邀请指令的机器人邀请之外，可通过与在朋友目录中选择朋友来邀请类似的方案向视频通话邀请在朋友目录中所包含的机器人。

在步骤S420中，通话输入传输部320可以向服务器150传输在与电子设备110的视频通话有关的输入(通话影像或通话语音)中，通过机器人选择性地特定的一部分输入。作为一个示例，若在机器人参与视频通话的状态下，从电子设备110的用户识别出与对应机器人的呼叫指令，则通话输入传输部320可以向服务器150传输从呼叫指令识别时间点开始规定时间内的输入。通话输入传输部320能够以呼叫指令为基础，与服务器150选择性地共享视频通话的内容的一部分数据包，在机器人的呼叫指令之后，特定连续输入的通话语音，或者以呼叫指令识别时间点为基准，在之后通话影像中特定规定数量的通话影像帧来向服务器150传输。与视频通话有关的输入除通话影像和通话语音之外，还可包括文本、图像等在视频通话过程中可以输入的所有类型的数据。

在步骤S430中，响应输出部330可以从服务器150接收与通过机器人的呼叫指令特定的输入对应的响应，可通过参与视频通话中的对应机器人输出上述接收的响应。服务器150可通过参与包括电子设备110的用户的视频通话的机器人共享视频通话内容的一部分数据包，作为对于共享数据包的响应，可以提供影像、语音、文本等多种形态的内容。作为一个示例，响应输出部330作为与输入对应的响应，可以向在视频通话画面中由机器人影像所占据的区域输出所接收的内容。作为另一个示例，响应输出部330作为与输入对应的响应，可以将所接收的内容以参与视频通话中的机器人的语音输出。

服务器150可将在视频通话中，通过机器人的呼叫指令特定的输入用作用于选择与对应机器人对应的服务内的内容的质疑。在此情况下，向服务器150传递的输入可包含作为视频通话内容发送的一部分影像或一部分语音。并且，还可包括能够以用于选择通过电子设备110所包括的各种输入接口的输入值，例如，在呼叫指令识别时间点为前后检测的检测值等内容为基准使用的多种输入来向服务器150传递。

因此，本发明的视频通话系统可以将机器人作为一名用户，作为视频通话的参与者邀请，可通过参与视频通话的机器人，可将与特定时间点的通话影像或通话语音对应的内容作为响应提供。

参照图5，服务器150可以在参与视频通话的参与者的电子设备110、120、130之间，可以在相互之间实时接收影像511、512、513来传递，由此可提供视频通话服务。在电子设备110的用户参与视频通话的情况下，可将参与对应视频通话中的参与者影像511、512、513作为个别影像向电子设备110传递。在此情况下，处理器212可将通过电子设备110的摄像头输入的影像511和从服务器150接收个别影像的参与者影像512、513一同渲染在一个画面来显示视频通话画面500。

参照图6，处理器212可根据电子设备110的用户的请求，可以向视频通话画面500上提供与视频通话有关的菜单画面610。在此情况下，菜单画面610可包括用于邀请机器人的“机器人”菜单611。

在电子设备110的用户在菜单画面610中选择“机器人”菜单611的情况下，处理器212可以提供包括能够向视频通话邀请的至少一个机器人的机器人目录画面620。作为一个示例，机器人目录画面620可包括通过电子设备110的用户特定的机器人目录，例如，可将最近向视频通话邀请的机器人、收藏夹等预先设定的机器人、以用户为对象推荐的机器人等作为目录提供。机器人目录画面620除上述机器人目录之外，还可包括用于访问能够向视频通话邀请的整个机器人目录的菜单等。

参照图7，处理器212可以向视频通话邀请电子设备110的用户通过机器人目录画面620选择的特定机器人，在此情况下，在从服务器150将机器人影像714作为一名参与者影像接收之后，可构成包括机器人影像714的视频通话画面500来显示。

换句话说，在视频通话开始时间点或视频通话过程中，在视频通话参与者中的一名向视频通话邀请机器人的情况下，处理器212可从服务器150将机器人影像714作为一名参与者影像接收之后，可构成包括机器人影像714的视频通话画面500来显示。

除利用与视频通话有关的菜单之外，处理器212可以将基于语音或文本的唤醒关键词(wake up word)用作用于邀请机器人的指令来向视频通话邀请特定机器人。参照图8，处理器212可以在本地存储空间(作为一个示例，存储器211)存储各个机器人810的唤醒关键词820，在此情况下，各个机器人810的唤醒关键词820可以预先定义，或者可通过电子设备110的用户直接设定。

处理器212可根据从电子设备110的用户输入的唤醒关键词来呼叫不同角色或工具的机器人来向视频通话邀请。

处理器212可通过与服务器150的联动来提供能够参与视频通话的机器人目录，在机器人目录中，可针对电子设备110的用户在朋友目录追加请求的机器人存储各个机器人810的唤醒关键词820。

在通过电子设备110的用户，唤醒关键词820被识别成语音输入或文本输入的情况下，处理器212可呼叫与所输入的唤醒关键词820对应的机器人810来作为视频通话的参与者包括。

唤醒关键词820在向视频通话邀请机器人之前，可以作为用于邀请机器人的指令使用，在向视频通话邀请机器人之后，可以作为用于请求机器人的响应的呼叫指令使用。可以不同地设定邀请指令和呼叫指令。

处理器212除利用唤醒关键词820的邀请之外，可以利用朋友目录来向视频通话邀请在朋友目录中所包含的机器人。

参照图9，处理器212可根据电子设备110的用户的请求，作为与视频通话有关的接口中的一个提供包括朋友目录的接口画面900，通过接口画面900提供可参与视频通话的机器人目录901。在此情况下，机器人目录901可包括用户作为朋友添加的机器人，或者在服务器150中推荐的机器人。

视频通话机器人可作为人气演员等有名人士的角色体现或者可作为起到特定功能的工具功能的机器人。而且，视频通话机器人可在与服务器150联动的平台上作为一种商品交易，可将电子设备110的用户购买的机器人添加在用户的朋友目录。并且，服务器150也可根据电子设备110的用户的请求来生成用户所需要的定制角色或工具的机器人来提供。而且，服务器150能够以视频通话参与者、用户简介信息、用户内容消费履历等为基础来推荐至少一个机器人。

处理器212可针对视频通话内容的共享数据包，以从服务器150接收的响应为基础来输出机器人影像内角色的反应。换句话说，视频通话机器人可针对视频通话内容提供基于语音或影像的反应。例如，在电子设备110的用户在视频通话过程中，一同发出呼叫指令“布朗(brown)”和“今天是莎拉(Sarah)的生日”的情况下，处理器212可以向服务器150传输在识别呼叫指令“布朗(brown)”之后发出的语音数据包“今天是莎拉(Sarah)的生日”。参照图10，处理器212在视频通话过程中，可针对识别到呼叫指令“布朗(brown)”之后的通话语音数据包“今天是莎拉(Sarah)的生日”，以从服务器150接收的响应为基础，可作为机器人影像714内角色的反应输出生日祝贺语音。在此情况下，在输出生日祝贺语音的过程中，可以在机器人影像714内追加显示表示输出语音的用户界面1020。虽然未图示，处理器212在视频通话过程中，可针对识别呼叫指令“布朗(brown)”之后的通话语音数据包“今天是莎拉(Sarah)的生日”，以从服务器150接收的响应为基础，可提供机器人影像714内的角色改变换上其他衣服或者带上尖顶帽等角色的外形，或者在机器人影像714上适用与生日有关的过滤器等基于影像的反应。

处理器212可针对视频通话内容的共享数据包，以从服务器150接收的响应为基础，可通过机器人影像输出地图信息。换句话说，视频通话机器人可以起到在视频通话环境内提供基于位置的服务器，例如，地图服务的工具作用。例如，在电子设备110的用户在视频通话的过程中，在发出呼叫指令“布朗(brown)”和“最近的咖啡厅在哪儿？”的情况下，处理器212可通过作为地图工具进行工作的机器人向服务器150传输识别到呼叫指令“布朗(brown)”之后发出的语音数据包“最近的咖啡厅在哪儿？”。参照图11，处理器212可以在视频通话的过程中，可针对识别到呼叫指令“布朗(brown)”之后的通话语音数据包“最近的咖啡厅在哪儿？”，以从服务器150接收的响应为基础，向机器人影像714所占据的区域输出规定时间的地图画面1130。

处理器212可针对视频通话内容的共享数据吧，以从服务器150接收的响应为基础，可通过机器人影像输出翻译结果。换句话说，视频通话机器人可以起到在视频通话环境内提供翻译服务的工具作用。例如，参照图12，在电子设备110的用户在视频通话过程中，发出呼叫指令“布朗(brown)”和“请对此进行翻译”并通过电子设备110的摄像头捕捉到翻译对象的情况下，处理器212可通过以翻译工具进行工作的机器人，向服务器150传输在识别到呼叫指令“布朗(brown)”之后，从电子设备110中发出的影像数据包，即，在电子设备110的用户的影像511所占据的区域中捕捉的原文图像1201。处理器212可在视频通话过程中，针对识别到呼叫指令“布朗(brown)”之后的通话影像数据包，以从服务器150接收的响应为基础，可以向机器人影像714所占据的区域输出包含对于原文图像1201内的文本的翻译结果的图像1240规定时间。

与此类似，当视频通话机器以购物工具进行工作时，在用户在视频通话的过程中，发出呼叫指令“布朗(brown)”和“想买这个”并通过电子设备110的摄像头捕捉商品图像的情况下，向服务器150传输在识别到呼叫指令“布朗(brown)”之后，从电子设备110发出的影像数据包，即，在电子设备110的用户的影像511所占据的区域中捕捉的商品图像。处理器212在视频通话过程中，可针对识别到呼叫指令“布朗(brown)”之后的通话影像数据包，以从服务器150接收的响应为基础，可以向机器人影像714所占据的区域输出能够购买商品的网站信息规定时间。

在本实施例中，通过视频通话机器人提供的内容向在视频通话画面500中由机器人影像714所占据的区域输出，但并不局限于此。根据实施例，视频通话机器人所提供的内容可暂时显示在视频通话画面500的整个区域。作为一个示例，处理器212可根据视频通话机器人的类型，或者视频通话机器人提供的内容的类型选择性地显示在视频通话画面500的整个区域或机器人影像714所占据的区域。作为另一个示例，处理器212与机器人影像714无关，将视频通话机器人提供的内容以弹窗的形态层叠显示在视频通话画面500的一部分区域。

在视频通话的过程中，可通过机器人提供的内容可包含对于通话内容的反应、地图信息、翻译信息、购物信息。上述内容为例示性实施例，此外，可包含能够以图像搜索、视频搜索、新闻搜索、词典(dictionary)信息、电影信息、音乐信息、书籍信息、手相或看相解释、情侣搭配等视频通话过程中发送的语音或影像数据包为基础响应的网络上的所有类型的信息。

作为另一实施例，如上所述，在视频通话过程中，通过机器人提供的内容中的至少一部分可以作为与对应视频通话有关的聊天室的消息接收。在视频通话过程中，通过机器人提供的内容可通过用户选择或预先设定的值来作为消息接收。

如上所述，根据本发明的实施例，如一名用户，将机器人作为视频通话的参与者邀请，在视频通话环境下，通过机器人响应多种信息，从而可以支持无线功能的通信。

以上说明的系统或装置可体现为硬件结构要素、软件结构要素和/或硬件结构要素及软件结构要素的组合。例如，在实施例中说明的装置及结构要素可利用如处理器、控制器、算术逻辑单元(ALU，arithmetic logic unit)、数字信号处理器(digital signalprocessor)、微型计算机、现场可编程门阵列(FPGA，field programmable gate array)、可编程逻辑单元(PLU，programmable logic unit)、微处理器或可执行并响应指令(instruction)的其他装置的一个以上的常用计算机或特殊目标计算机体现。处理装置可以执行操作系统(OS)及在上述操作系统上执行的一个以上的软件应用。并且，处理装置响应软件的执行来访问、存储、操作、处理及生成数据。为了方便理解，说明了仅使用一个处理装置的情况，本发明所属技术领域的普通技术人员可以知道处理装置可包括多个处理要素(processing element)和/或多种类型的处理要素。例如，处理装置可包括多个处理器或一个处理器及一个控制器。并且，也可以是如并行处理器(parallel processor)的其他处理结构(processing configuration)。

软件可包含计算机程序(computer program)、代码(code)、指令(instruction)或它们中的一种以上的组合，以按需要进行工作的方式构成处理装置或对独立或结合性(collectively)地处理装置下达指令。软件和/或数据为了通过处理装置解释或者为了向处理装置提供指令或数据而可以具体化(embody)在任何类型的机械、结构要素(component)、物理装置、计算机存储介质或装置。软件分散在通过网络连接的计算机系统上，从而可通过分散的方法存储或执行。软件及数据可存储于一个以上的计算机可读记录介质。

实施例的方法体现为可通过多种计算机单元执行的程序指令形态来记录在计算机可读介质。在此情况下，介质可以继续存储能够通过计算机执行的程序，或者为了执行或下载而暂时存储。并且，介质可以为单一或多个硬件结合的形态的多种记录单元或存储单元，而并不局限于与一种计算机系统直接连接的介质，而可以在网络上分散存在。作为介质的示例，包括如硬盘、软盘及磁盘的磁介质、如CD-ROM及DVD的光记录介质、如光磁软盘(floptical disk)的磁光介质(magneto-optical medium)及如只读存储器、随机存取存储器、闪存等，从而可以存储程序指令。并且，作为其他介质的示例示，也可以为流通应用的应用商城或供给或流通其他多种软件的网页、在服务器等中管理的记录介质或存储介质。

如上所述，虽然通过限定的实施例和附图说明了多个实施例，但是只要是本发明所属技术领域的普通技术人员，可以从上述记载进行多种修改及变形。例如，即使所说明的技术与所说明的方法不同的顺位执行和/或所说明的系统、结构、装置、电路等的结构要素可以与所说明的方法不同的形态结合或组合，或者通过其他结构要素或等同技术方案代替或置换，也可以实现相应结果。

因此，其他实例、其他实施例及与发明要求保护范围等同的内容也属于后述的发明要求保护范围内。

Claims

1.一种视频通话方法，在计算机装置中执行，其特征在于，

所述计算机装置包括至少一个处理器，所述至少一个处理器执行包含在存储器的计算机可读指令，

所述视频通话方法包括：

显示步骤，通过所述至少一个处理器，针对包括所述计算机装置的用户在内的多个用户参与的视频通话，将与所述多个用户中的至少一个用户的请求对应的机器人作为所述视频通话的参与者显示；

传输步骤，通过所述至少一个处理器，向服务器传输在进行所述视频通话的过程中向所述计算机装置输入的输入中的与所述机器人有关的一部分输入；以及

输出步骤，通过所述至少一个处理器，响应所述一部分输入，通过参与所述视频通话的所述机器人输出与所述一部分输入有关的响应。

2.根据权利要求1所述的视频通话方法，其特征在于，所述显示步骤包括如下的渲染步骤，即，从所述服务器接收与所述机器人有关的影像，将在参与所述视频通话的所述多个用户中的至少一个用户的影像和与所述机器人有关的影像渲染在一个视频通话画面上。

3.根据权利要求1所述的视频通话方法，其特征在于，所述显示步骤包括：

识别步骤，识别用于邀请向所述计算机装置输入的机器人的指令；以及

显示步骤，根据所述指令，将与所述指令对应的机器人作为所述视频通话的参与者显示。

4.根据权利要求1所述的视频通话方法，其特征在于，所述视频通话方法还包括如下的设定步骤，即，通过所述至少一个处理器，按能够参与所述视频通话的机器人设定唤醒关键词。

5.根据权利要求4所述的视频通话方法，其特征在于，在所述机器人参与所述视频通话之前，将所述唤醒关键词用作用于邀请机器人的指令，在所述机器人参与所述视频通话之后，将所述唤醒关键词用作用于请求通过所述机器人的响应的指令。

6.根据权利要求1所述的视频通话方法，其特征在于，所述传输步骤包括：

识别步骤，识别与向所述计算机装置输入的所述机器人有关的指令；以及

传输步骤，在识别所述指令之后，向所述服务器传输向所述计算机装置输入的语音或影像。

7.根据权利要求6所述的视频通话方法，其特征在于，在向所述服务器传输向所述计算机装置输入的语音或影像的步骤中，向所述服务器传输从识别所述指令的时间点开始在规定时间内输入的语音或影像。

8.根据权利要求1所述的视频通话方法，其特征在于，在所述输出步骤中，通过参与所述视频通话的所述机器人，将针对所述一部分输入，通过所述服务器搜索的响应以语音或影像输出。

9.根据权利要求1所述的视频通话方法，其特征在于，在所述输出步骤中，在对于所述视频通话的视频通话画面中，在所述机器人的影像所占据的区域显示对于所述一部分输入的响应。

10.根据权利要求1所述的视频通话方法，其特征在于，在所述输出步骤中，将对于所述一部分输入的响应以参与所述视频通话的所述机器人对应的语音输出。

11.一种非暂时性计算机可读记录介质，存储有计算机程序，其特征在于，根据所述计算机程序，所述计算机系统执行权利要求1至10中任一项所述的视频通话方法。

12.一种计算机装置，其特征在于，

包括至少一个处理器，所述至少一个处理器执行存储器中包含的计算机可读指令，

所述至少一个处理器包括：

视频通话提供部，针对包括所述计算机装置的用户在内的多个用户参与的视频通话，将与所述多个用户中的至少一个用户的请求对应的机器人作为所述视频通话的参与者显示；

通话输入传输部，向服务器传输在进行所述视频通话的过程中向所述计算机装置输入的输入中的与所述机器人有关的一部分输入；以及

响应输出部，响应所述一部分输入，通过参与所述视频通话的所述机器人输出与所述一部分输入有关的响应。

13.根据权利要求12所述的计算机装置，其特征在于，所述视频通话提供部从所述服务器接收与所述机器人有关的影像，将在参与所述视频通话的所述多个用户中的至少一个用户的影像和与所述机器人有关的影像渲染在一个视频通话画面上。

14.根据权利要求12所述的计算机装置，其特征在于，所述视频通话提供部识别用于邀请向所述计算机装置输入的机器人的指令，根据所述指令，将与所述指令对应的机器人作为所述视频通话的参与者显示。

15.根据权利要求12所述的计算机装置，其特征在于，所述至少一个处理器按能够参与所述视频通话的机器人设定唤醒关键词。

16.根据权利要求15所述的计算机装置，其特征在于，在所述机器人参与所述视频通话之前，将所述唤醒关键词用作用于邀请机器人的指令，在所述机器人参与所述视频通话之后，将所述唤醒关键词用作用于请求通过所述机器人的响应的指令。

17.根据权利要求12所述的计算机装置，其特征在于，所述通话输入传输部识别与向所述计算机装置输入的所述机器人有关的指令，在识别所述指令之后，向所述服务器传输向所述计算机装置输入的语音或影像。

18.根据权利要求17所述的计算机装置，其特征在于，所述通话输入传输部向所述服务器传输从识别所述指令的时间点开始在规定时间内输入的语音或影像。

19.根据权利要求12所述的计算机装置，其特征在于，所述响应输出部在对于所述视频通话的视频通话画面中，在所述机器人的影像所占据的区域显示对于所述一部分输入的响应。

20.根据权利要求12所述的计算机装置，其特征在于，所述响应输出部将对于所述一部分输入的响应以参与所述视频通话的所述机器人对应的语音输出。