CN116033107A

CN116033107A - 视频标记方法、视频标记服务器及终端

Info

Publication number: CN116033107A
Application number: CN202111240053.7A
Authority: CN
Inventors: 庞亚坤; 严砥; 郑健平; 李颖; 张昕; 胡跃; 刘峰; 刘晨; 蔡亚莉; 李继
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2023-04-28

Abstract

本申请公开了一种视频标记方法、视频标记服务器及终端，涉及视频处理技术领域。该视频标记方法，应用于视频标记服务器，包括：接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记。上述方案，能够使用户方便的进行视频标记，同时能够保证标记位置的准确。

Description

视频标记方法、视频标记服务器及终端

技术领域

本申请属于视频处理技术领域，特别涉及一种视频标记方法、视频标记服务器及终端。

背景技术

随着网络和通信技术的不断发展，通信方式也在持续发生变化，视频通信因可实时传输图像，在可视性方面有了极大突破，已得到越来越广泛的应用，视频会议和视频电话已经成为很多人通信交互的选择。视频屏幕共享和标记技术也广泛应用在视频会议中用于会议内容的标记，目前常用的标记方式是使用系统提供的电子画笔完成。

目前也有通过画笔方式对视频通话中的视频内容进行标记的方案，当视频通话的用户终端屏幕较小时，可能会存在对于较小的物体不方便操作甚至发生标记位置错误，导致通话双方无法精准交流，影响通话体验。

发明内容

本申请实施例提供一种视频标记方法、视频标记服务器及终端，能够解决现有的视频标记方式存在不方便操作，甚至发生标记位置错误的问题。

为了解决上述技术问题，本申请实施例提供一种视频标记方法，应用于视频标记服务器，包括：

接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；

根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记。

可选地，所述接收第一终端发送的语音信息，包括：

在确定第一终端开启视频标记功能的情况下，接收第一终端发送的语音信息。

可选地，所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记，包括：

对所述语音信息进行语音识别，获取文字内容；

通过预设标注关键字，对所述文字内容进行筛选，在所述文字内容中确定待标记的第一对象；

在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记。

可选地，在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记，包括：

确定所述文字内容中是否包含所述第一对象的特征信息；

若包含所述第一对象的特征信息，则在所述第一终端与第二终端的视频通话中的视频画面上标记与所述特征信息匹配的所述第一对象；

若不包含所述第一对象的特征信息，则在所述第一终端与第二终端的视频通话中的视频画面上标记所述第一对象。

可选地，所述在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记，包括：

确定待标记的目标视频画面，所述目标视频画面由所述语音信息指示；

根据所述语音信息的接收时间，从所述接收时间对应的时刻开始提取所述目标视频画面中的视频帧；

在所述视频帧中进行所述第一对象的标记。

可选地，所述在所述视频帧中进行所述第一对象的标记，包括以下至少一项：

将所述视频帧中的所述第一对象的外轮廓添加线条；

在所述视频帧中的所述第一对象包括多个的情况下，利用不同的标记方式对多个不同的所述第一对象进行标记；

其中，所述标记方式包括：线条样式和/或线条颜色。

可选地，在所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记之后，还包括：

将标记后的视频画面发送给所述第一终端和/或所述第二终端。

接收第一终端或第二终端发送的停止标记指令；

根据所述停止标记指令，停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

本申请实施例还提供一种视频标记方法，应用于第一终端，包括：

向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

可选地，在所述向视频标记服务器发送语音信息之后，还包括：

接收所述视频标记服务器返回的标记后的视频画面；

将所述标记后的视频画面进行替换显示。

向所述视频标记服务器发送停止标记指令，使得所述视频标记服务器根据所述停止标记指令停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

本申请实施例还提供一种视频标记服务器，包括：

第一接收模块，用于接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；

标记模块，用于根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记。

本申请实施例还提供一种视频标记服务器，包括收发机和处理器；

所述收发机，用于：接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；

所述处理器，用于：根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记。

本申请实施例还提供一种视频标记服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的视频标记方法的步骤。

本申请实施例还提供一种终端，所述终端为第一终端，包括：

第一发送模块，用于向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

本申请实施例还提供一种终端，所述终端为第一终端，包括收发机和处理器；

所述收发机，用于：向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

本申请实施例提供一种终端，所述终端为第一终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的视频标记方法的步骤。

本申请实施例还提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的视频标记方法中的步骤。

本申请的有益效果是：

上述方案，通过接收第一终端发送的用于指示进行视频标记的语音信息，根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记，能够使用户方便的进行视频标记，同时能够保证标记位置的准确。

附图说明

图1是本申请实施例的应用于视频标记服务器的视频标记方法的流程示意图；

图2是应用本申请实施例实现语音方式标记视频通话的视频内容的系统架构；

图3是本申请实施例的语音方式实现视频内容标记的具体流程示意图；

图4是视频内容标记处理的详细过程示意图；

图5是标记视频流向终端A和终端B发送过程示意图；

图6是视频标记擦除过程示意图；

图7是本申请实施例的视频标记服务器的模块示意图；

图8是本申请实施例的视频标记服务器的结构图；

图9是本申请实施例的应用于终端的视频标记方法的流程示意图；

图10是本申请实施例的终端的模块示意图；

图11是本申请实施例的终端的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

值得指出的是，本申请实施例所描述的技术不限于长期演进型(Long TermEvolution，LTE)/LTE的演进(LTE-Advanced，LTE-A)系统，还可用于其他无线通信系统，诸如码分多址(Code Division Multiple Access，CDMA)、时分多址(Time DivisionMultiple Access，TDMA)、频分多址(Frequency Division Multiple Access，FDMA)、正交频分多址(Orthogonal Frequency Division Multiple Access，OFDMA)、单载波频分多址(Single-carrier Frequency-Division Multiple Access，SC-FDMA)和其他系统。本申请实施例中的术语“系统”和“网络”常被可互换地使用，所描述的技术既可用于以上提及的系统和无线电技术，也可用于其他系统和无线电技术。以下描述出于示例目的描述了新空口(New Radio，NR)系统，并且在以下大部分描述中使用NR术语，但是这些技术也可应用于NR系统应用以外的应用，如第6代(6th Generation，6G)通信系统。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频标记方法、视频标记服务器及终端进行详细地说明。

如图1所示，本申请的至少一个实施例提供一种视频标记方法，应用于视频标记服务器，包括：

步骤101，接收第一终端发送的语音信息；

需要说明的是，该语音信息是用于指示进行视频标记；也就是说，本申请中通过语音的方式便可实现视频的标记。

步骤102，根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记；

需要说明的是，本申请实施例通过接收第一终端发送的用于指示进行视频标记的语音信息，根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记，能够使用户方便的进行视频标记，同时能够保证标记位置的准确。

需要说明的是，本申请实施例中将视频通话的双方中，发起语音信息指示进行视频标记的一方称为第一终端，将视频通话中的另一方称为第二终端，可选地，第一终端可以为视频通话的主叫方(即主动发起视频呼叫的一方)，也可以为被叫方(接收视频呼叫的一方)。

可选地，本申请的另一实施例中，所述步骤101的可选实现方式为：

需要说明的是，该视频标记功能是由第一终端主动触发的，例如，用户可以通过点击第一终端上的功能按键开启视频标记功能，也可以通过发送语音指示给视频标记服务器，以指示确定开启视频标记功能；只有在视频标记服务器确定第一终端开启视频标记功能的情况下，才接收第一终端发送的语音信息，以此能够避免视频标记服务器频繁的进行语音信息的采集，造成功耗较大的问题，此种开启视频标记的方式能够节省视频标记服务器的功耗。

可选地，本申请的另一实施例中，步骤102的可选实现方式为：

步骤1021，对所述语音信息进行语音识别，获取文字内容；

步骤1022，通过预设标注关键字，对所述文字内容进行筛选，在所述文字内容中确定待标记的第一对象；

需要说明的是，该预设标注关键字指的是获取第一对象的开关，若文字内容中存在预设标注关键字，则需要在所述文字内容中进行第一对象的筛选，若文字内容不中不存在预设标注关键字，则无需对文字内容进行筛选；例如，预设标注关键字可以设置为“标记”，在进行语音识别得到文字内容之后，判断该文字内容中是否存在标记这一关键字，若文字内容中存在标记，则通常对位于标记关键字之后的文字内容进行筛选，确定第一对象。

步骤1023，在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记。

需要说明的是，本申请中在通过语音进行视频标记时，先对语音进行识别，获取文字内容，然后利用文字内容进行标记对象的确定，进而在视频画面中进行对象的标记。

可选地，本申请另一实施例中，所述步骤1023的具体实现过程为：

确定所述文字内容中是否包含所述第一对象的特征信息；

若包含所述第一对象的特征信息，则在所述第一终端与第二终端的视频通话中的视频画面上标记与所述特征信息匹配的所述第一对象，若不包含所述第一对象的特征信息，则在所述第一终端与第二终端的视频通话中的视频画面上标记所述第一对象。

需要说明的是，该第一对象的特征信息可以用于表征第一对象的特点，例如，第一对象为杯子，则第一对象的特征信息可以为颜色信息、形状信息等。

此种实现方式指的是，当语音信息对应的文字内容中仅包括第一对象时，则只需要在视频画面中标记出所有的第一对象即可，若该语音信息对应的文字内容中不仅包括第一对象，还包括第一对象的特征信息，则在具体实现时可以先在视频画面中找到第一对象，然后再根据第一对象的特征信息确定需要标记的第一对象，例如，文字内容中包括白色杯子，若视频画面中包含多个杯子时，只需要在视频画面中标记出颜色为白色的杯子即可。

可选地，本申请另一实施例中，所述在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记的具体实现过程为：

在所述视频帧中进行所述第一对象的标记。

需要说明的是，视频标记服务器在进行标记时应当先获取开始标记的时刻，本申请中将接收语音的时刻确定为标记开始时刻；还需要说明的是，因视频画面包括第一终端采集的画面(可以看作是本端视频画面)以及第一终端显示的第二终端采集的画面(可以看作是对端视频画面)，第一终端的用户在进行语音消息发送时，该语音消息中应当包括待标记的目标视频画面的指示信息，例如，用户可以发送的语音信息为：标记本端视频画面中的杯子，则视频标记服务器在接收到该语音信息后，对本端视频画面中的杯子进行标记。

可选地，本申请的另一实施例中，所述在所述视频帧中进行所述第一对象的标记的实现方式可以采用以下至少一项：

A11、将所述视频帧中的所述第一对象的外轮廓添加线条；

需要说明的是，此种方式是仿照用户使用画笔在视频图像中被识别对象的外侧画线做标记。

A12、在所述视频帧中的所述第一对象包括多个的情况下，利用不同的标记方式对多个不同的所述第一对象进行标记；

其中，所述标记方式包括：线条样式和/或线条颜色。

需要说明的是，通常A11是必选的方式，而只有在第一对象包括多个的情况下，才采用A12的方式进行多个第一对象的区分。例如，当需要标记的第一对象为杯子，且视频图像中有多个杯子时，采用不同的颜色标识不同的杯子，例如使用红橙黄绿青蓝紫的画笔颜色依次对杯子的外侧画线做标记。

可选地，本申请的另一实施例中，在所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记之后，还包括：

需要说明的是，第一终端和第二终端具备视频替换功能，例如，内置视频替换模块。当第一终端发起视频标记请求，则在第一终端收到网络推送的标记视频流后，完成视频展现替换，用网络回传的标记视频流替代展现的本地摄像头采集视频流，展现给用户。

接收第一终端或第二终端发送的停止标记指令；

需要说明的是，用户可以通过点击第一终端上的功能按键停止视频的标记，也可以通过发送语音指令给视频标记服务器，以指示停止视频标记的功能。在视频标记服务器收到停止标记指令时，对后续的视频画面不再进行标记，此处可以理解为标记的擦除，即只有要视频通话的一方决定擦除标记，则视频标记服务器便不再提供视频标记服务。

下面对本申请实施例的具体应用进行举例说明如下。

图2是应用本申请实施例实现语音方式标记视频通话的视频内容的系统架构，系统基于IP多媒体子系统(IMS)网络实现。视频标记服务器部署于IMS核心网之上，接收呼叫会话控制功能(X-CSCF)呼叫触发请求，根据用户指令完成视频内容标记。

过程1～2，终端A发起视频呼叫请求，请求建立终端A与终端B之间的视频呼叫话路，呼叫信令到达IMS核心网设备X-CSCF；X-CSCF设备收到呼叫请求，根据业务触发条件iFC触发视频标记业务，并转发视频呼叫请求至视频标记服务器。

过程3，X-CSCF指示终端B接收视频呼叫请求，建立与终端A的视频呼叫话路。

过程4，终端A发送语音标记指令(即上述的语音信息)到X-CSCF；

需要说明的是，语音标记指令可在通话中的任何时刻发起，发起方式可以是通过按键触发，也可以通过语音唤醒语触发。

过程5，视频标记服务器接收终端A发送的语音标记指令。

过程6，视频标记服务器根据接收的语音标记指令，完成视频内容标记。

过程7，标记后的视频流发送到IMS核心网。

过程8a，终端A收到网络回传的标记后的视频流，在本端进行视频画面的替换显示；

例如，当标记的视频画面为终端A的摄像头视频画面时，终端A根据回传的标记后的视频流，会将本端摄像头视频画面替换为回传的标记后的视频流。

过程8b，终端B收到标记后的视频流；

需要说明的是，终端B接收到标记后的视频流，也会采用与终端A相同的方式进行视频画面的替换。

本申请实施例采用语音方式实现视频内容标记的具体流程如图3所示，主要包括：

步骤S11，视频标记服务器的标记接收功能，监听用户发起的进行视频标记的语音标记指令。

步骤S12，视频标记服务器的标记接收功能收到用户的语音标记指令，完成处理，通知视频标记服务器的语音识别功能，准备接收用户的语音标记指令。

步骤S13，语音识别功能，将语音识别为文字，并将识别出的文字发送给视频标记服务器的视频标记功能。

步骤S14，视频标记功能，首先通过预设标注关键字等，筛选出需要识别的对象，然后对视频进行识别，提取出对象，进行标记，生成标记后的视频流；

例如，识别文字为“标记杯子”，则从文字中提取出“杯子”，对视频进行识别，识别出杯子，并标记，标记可用画笔，以及不同的颜色等方式呈现。生成标记后的视频流。

视频内容标记处理的详细过程如图4所示，具体包括：

步骤S21，标记接收功能收到语音标记启动指令，将自己置为工作状态，并通知语音识别功能启动。

步骤S22，语音识别功能收到标记接收模块的通知消息，启动工作。记录收到语音标记指令的时间，根据时间确定开始标记的通话时间位置。从该时间开始，对视频通话的音频媒体文件做语音识别。并通知视频标记功能启动工作，每一句话作为一条识别结果，并标出该句话对应的通话开始时间，识别出的文字结果提交给视频标记功能。

步骤S23，视频标记功能收到语音识别功能的通知消息，启动工作。接收语音识别功能的文字识别结果，将每一条文字识别结果与预设标注关键字(即语音识别唤醒关键字)进行对比，直到找到语音识别标注关键字。找到语音识别标注关键字后，提取出关键字后的名词及其形容词，例如提取的结果为：形容词“白色”，名词“杯子”。视频标记的工作流程：1)根据该条文字识别结果的时间，确定需要视频标记内容画面，提取包含多条视频帧图像的视频流；2)根据识别出的语音标记指令的名词确定需要识别的物体，确定该物体的特征；在图像上识别出语音标记指令所指示的所有物体。如图像上有多个杯子，则识别出多个杯子；3)根据识别出的语音标记指令的形容词，对2)中识别出的物体进一步筛选。如白色的只有一个，则只标注1个白色的杯子。若仍有多个，则标注多个。4)根据识别结果，仿照用户使用画笔在图像中被识别物体的外侧画线做标记，如果有多个物体需标记，使用红橙黄绿青蓝紫的画笔颜色依次对物体标记；5)根据标记后的视频帧图像合成新的添加标记的视频流。

标记视频流向终端A和终端B发送过程如图5所示，具体包括：

1.视频标记服务器向终端A回传标记的视频流。

具体包括：1)视频标记服务器向终端发送re-Invite消息，重新协商会话描述协议(SDP)消息，增加一条视频媒体流。媒体参数包括IP、端口号、编码格式等。媒体方向为sendonly；2)终端A收到请求，回复200OK，告知本端的IP、端口号和编码格式。媒体协商成功；3)终端A收到视频服务器发送的视频流，停止显示摄像头采集的视频流，显示媒体服务器发送的视频流。

2.视频标记服务器向终端B发送标记的视频流。

具体包括：1)视频标记服务器向终端B发送re-Invite消息，重新协商SDP消息，增加一条视频媒体流。媒体参数包括IP、端口号、编码格式等。媒体方向为sendrecv；2)终端B收到请求，回复200OK，告知本端的IP、端口号和编码格式。媒体协商成功；3)终端B收到视频服务器发送的视频流，显示在终端。

视频标记擦除过程如图6所示，具体包括：

1、视频标记服务器的标记接收功能收到终端发起的视频标记擦除指令(即停止标记指令)；

该视频标记擦除指令可通过终端按键、操作屏幕按钮等方式生成。

2、视频标记功能向终端A发送会话初始协议(SIP)INFO消息，请求停止IMS核心网推送的标记视频，转为显示终端A的摄像头采集视频。终端A收到请求后回复200OK消息，接受请求，显示终端A的摄像头采集视频。

3、视频标记功能向终端B发送SIP INFO消息，请求停止IMS核心网推送的标记视频。终端B收到请求后回复200OK消息，接受请求，不再IMS核心网推送的标记视频内容。

需要说明的是，本申请提出在视频通话中终端不方便使用标记工具完成视频标记时，通过语音输入方式标记视频内容，能够方便用户操作，为用户提供更丰富的业务能力；本申请通过图像识别的方式进行视频标记，也能保证标记的准确性。

如图7所示，本申请的至少一个实施例还提供一种视频标记服务器700，包括：

第一接收模块701，用于接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；

标记模块702，用于根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记。

可选地，所述第一接收模块701，用于：

可选地，所述标记模块702，包括：

获取单元，用于对所述语音信息进行语音识别，获取文字内容；

确定单元，用于通过预设标注关键字，对所述文字内容进行筛选，在所述文字内容中确定待标记的第一对象；

标记单元，用于在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记。

可选地，所述标记单元，用于：

确定所述文字内容中是否包含所述第一对象的特征信息；

可选地，所述标记单元，用于：

在所述视频帧中进行所述第一对象的标记。

可选地，所述在所述视频帧中进行所述第一对象的标记的实现方式，包括以下至少一项：

将所述视频帧中的所述第一对象的外轮廓添加线条；

其中，所述标记方式包括：线条样式和/或线条颜色。

可选地，在所述标记模块702根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记之后，还包括：

第二发送模块，用于将标记后的视频画面发送给所述第一终端和/或所述第二终端。

第二接收模块，用于接收第一终端或第二终端发送的停止标记指令；

停止模块，用于根据所述停止标记指令，停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

需要说明的是，本申请的至少一个实施例提供的视频标记服务器能够执行上述视频标记方法，则上述视频标记方法的所有实施例均适用于该视频标记服务器，且均能达到相同或相似的有益效果。

本申请的至少一个实施例还提供一种视频标记服务器，所述视频标记服务器包括收发机和处理器；

可选地，所述收发机，用于：

可选地，所述处理器，用于：

对所述语音信息进行语音识别，获取文字内容；

可选地，所述处理器，用于：

确定所述文字内容中是否包含所述第一对象的特征信息；

可选地，所述处理器，用于：

在所述视频帧中进行所述第一对象的标记。

可选地，所述处理器，用于实现以下至少一项：

将所述视频帧中的所述第一对象的外轮廓添加线条；

其中，所述标记方式包括：线条样式和/或线条颜色。

可选地，所述收发机，还用于：

接收第一终端或第二终端发送的停止标记指令；

所述处理器，还用于：根据所述停止标记指令，停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

如图8所示，本发明实施例还提供一种视频标记服务器，包括处理器800、收发机810、存储器820及存储在所述存储器820上并可在所述处理器800上运行的程序；其中，收发机810通过总线接口与处理器800和存储器820连接，其中，所述处理器800用于读取存储器中的程序，执行下列过程：

通过收发机810接收第一终端发送的语音信息，所述语音信息用于指示进行视频标记；

收发机810，用于在处理器800的控制下接收和发送数据。

其中，在图8中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器800代表的一个或多个处理器和存储器820代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机810可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器800负责管理总线架构和通常的处理，存储器800可以存储处理器800在执行操作时所使用的数据。

处理器800可以是中央处理器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

进一步地，所述处理器800执行所述程序时实现以下步骤：

在确定第一终端开启视频标记功能的情况下，通过收发机810接收第一终端发送的语音信息。

进一步地，所述处理器800执行所述程序时实现以下步骤：

对所述语音信息进行语音识别，获取文字内容；

进一步地，所述处理器800执行所述程序时实现以下步骤：

确定所述文字内容中是否包含所述第一对象的特征信息；

进一步地，所述处理器800执行所述程序时实现以下步骤：

在所述视频帧中进行所述第一对象的标记。

进一步地，所述处理器800执行所述程序时实现以下步骤的至少一项：

将所述视频帧中的所述第一对象的外轮廓添加线条；

其中，所述标记方式包括：线条样式和/或线条颜色。

进一步地，所述处理器800执行所述程序时还实现以下步骤：

通过收发机810将标记后的视频画面发送给所述第一终端和/或所述第二终端。

进一步地，所述处理器800执行所述程序时还实现以下步骤：

通过收发机810接收第一终端或第二终端发送的停止标记指令；

本申请的至少一个实施例还提供一种视频标记服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现应用于视频标记服务器的视频标记方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请的至少一个实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的应用于视频标记服务器的视频标记方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

对应于视频标记服务器侧的实现，如图9所示，本申请的至少一个实施例提供一种视频标记方法，应用于第一终端，包括：

步骤901，向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

接收所述视频标记服务器返回的标记后的视频画面；

将所述标记后的视频画面进行替换显示。

需要说明的是，上述实施例中所有关于第一终端侧的描述均适用于该视频标记方法的实施例中，也能达到与之相同的技术效果。

如图10所示，本申请的至少一个实施例还提供一种终端1000，所述终端为第一终端，包括：

第一发送模块1001，用于向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

可选地，在所述第一发送模块1001向视频标记服务器发送语音信息之后，还包括：

第三接收模块，用于接收所述视频标记服务器返回的标记后的视频画面；

替换模块，用于将所述标记后的视频画面进行替换显示。

第三发送模块，用于向所述视频标记服务器发送停止标记指令，使得所述视频标记服务器根据所述停止标记指令停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

需要说明的是，本申请的至少一个实施例提供的终端是能够执行上述视频标记方法的终端，则上述视频标记方法的所有实施例均适用于该终端实施例，且均能达到相同或相似的有益效果。

本申请的至少一个实施例还提供一种终端，所述终端为第一终端，所述终端包括收发机和处理器；

其中，所述语音信息用于指示进行视频标记。

可选地，所述收发机，还用于：

接收所述视频标记服务器返回的标记后的视频画面；

所述处理器，用于：将所述标记后的视频画面进行替换显示。

可选地，所述收发机，还用于：

如图11所示，本发明实施例还提供一种终端，所述终端为第一终端，包括处理器1100、收发机1110、存储器1120及存储在所述存储器1120上并可在所述处理器1100上运行的程序；其中，收发机1110通过总线接口与处理器1100和存储器1120连接，其中，所述处理器1100用于读取存储器中的程序，执行下列过程：

通过所述收发机1110向视频标记服务器发送语音信息，使得所述视频标记服务器根据所述语音信息对所述第一终端与第二终端的视频通话中的视频画面进行标记；

其中，所述语音信息用于指示进行视频标记。

收发机1110，用于在处理器1100的控制下接收和发送数据。

其中，在图11中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1100代表的一个或多个处理器和存储器1120代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1110可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。针对不同的用户设备，用户接口1130还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器1100负责管理总线架构和通常的处理，存储器1120可以存储处理器1100在执行操作时所使用的数据。

可选的，处理器1100可以是CPU(中央处理器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)，处理器也可以采用多核架构。

处理器通过调用存储器存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器与存储器也可以物理上分开布置。

进一步地，所述处理器1100执行所述程序时实现以下步骤：

通过所述收发机1110接收所述视频标记服务器返回的标记后的视频画面；

将所述标记后的视频画面进行替换显示。

进一步地，所述处理器1100执行所述程序时实现以下步骤：

通过所述收发机1110向所述视频标记服务器发送停止标记指令，使得所述视频标记服务器根据所述停止标记指令停止对所述第一终端与第二终端的视频通话中的视频画面进行标记。

本申请的至少一个实施例还提供一种终端，所述终端为第一终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现应用于第一终端的视频标记方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请的至少一个实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的应用于第一终端的视频标记方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频标记方法，应用于视频标记服务器，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述接收第一终端发送的语音信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记，包括：

对所述语音信息进行语音识别，获取文字内容；

4.根据权利要求3所述的方法，其特征在于，在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记，包括：

确定所述文字内容中是否包含所述第一对象的特征信息；

5.根据权利要求3所述的方法，其特征在于，所述在所述第一终端与第二终端的视频通话中的视频画面上进行所述第一对象的标记，包括：

在所述视频帧中进行所述第一对象的标记。

6.根据权利要求5所述的方法，其特征在于，所述在所述视频帧中进行所述第一对象的标记，包括以下至少一项：

将所述视频帧中的所述第一对象的外轮廓添加线条；

其中，所述标记方式包括：线条样式和/或线条颜色。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记之后，还包括：

8.根据权利要求1所述的方法，其特征在于，在所述根据所述语音信息，对所述第一终端与第二终端的视频通话中的视频画面进行标记之后，还包括：

接收第一终端或第二终端发送的停止标记指令；

9.一种视频标记方法，应用于第一终端，其特征在于，包括：

其中，所述语音信息用于指示进行视频标记。

10.根据权利要求9所述的方法，其特征在于，在所述向视频标记服务器发送语音信息之后，还包括：

接收所述视频标记服务器返回的标记后的视频画面；

将所述标记后的视频画面进行替换显示。

11.根据权利要求9所述的方法，其特征在于，在所述向视频标记服务器发送语音信息之后，还包括：

12.一种视频标记服务器，其特征在于，包括：

13.一种视频标记服务器，其特征在于，包括收发机和处理器；

14.一种视频标记服务器，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任一项所述的视频标记方法的步骤。

15.一种终端，所述终端为第一终端，其特征在于，包括：

其中，所述语音信息用于指示进行视频标记。

16.一种终端，所述终端为第一终端，其特征在于，包括收发机和处理器；

其中，所述语音信息用于指示进行视频标记。

17.一种终端，所述终端为第一终端，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求9-11任一项所述的视频标记方法的步骤。

18.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11任一项所述的视频标记方法中的步骤。