CN113824972B

CN113824972B - 直播视频的处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113824972B
Application number: CN202110602543.0A
Authority: CN
Inventors: 陈晓丹; 谢映雪
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-01-09
Anticipated expiration: 2041-05-31
Also published as: CN113824972A

Abstract

本申请提供了一种直播视频的处理方法、装置、设备及计算机可读存储介质；方法包括：获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；对所述直播片段的内容进行识别，得到内容识别结果；根据所述内容识别结果从所述直播片段中，自动剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；其中，所述目标直播片段，用于供观众端回放所述目标直播片段时，查看主播对相应推荐对象的讲解内容。通过本申请，能够自动剪辑出对应推荐对象的讲解内容，提升目标直播片段的生成效率。

Description

直播视频的处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种直播视频的处理方法、装置、设备及计算机可读存储介质。

背景技术

直播是一种以视频的形式实时触达大规模用户的技术，随着电商直播行业的快速发展，越来越多的用户加入到直播带货大军中。由于在电商直播过程中，主播会对多个推荐对象(如化妆品、食品)进行讲解，在观众进入直播间后，存在错过部分推荐对象的讲解的情况，需要回放感兴趣的推荐对象的讲解视频。

相关技术中，由于主播在对推荐对象进行讲解的过程中，存在被其他用户打断的情况，生成的讲解视频中会存在非讲解内容的片段，若要得到仅包含讲解内容的视频片段，则需要人工剪辑，过程复杂，导致视频生成效率低。

发明内容

本申请实施例提供一种直播视频的处理方法、装置及计算机可读存储介质，能够自动剪辑出对应所述推荐对象的讲解内容，提升目标直播片段的生成效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种直播视频的处理方法，包括：

获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；

对所述直播片段的内容进行识别，得到内容识别结果；

根据所述内容识别结果从所述直播片段中，自动剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；

其中，所述目标直播片段，用于供观众端回放所述目标直播片段时，查看主播对相应推荐对象的讲解内容。

本申请实施例提供一种直播视频的处理方法，包括：

通过直播界面播放对至少一个推荐对象进行讲解的直播视频；

当所述直播视频中针对目标推荐对象的讲解结束时，呈现对应所述目标推荐对象的回放功能项；

当接收到针对所述回放功能项的触发操作时，播放对应所述目标推荐对象的目标直播片段；

其中，所述目标直播片段为，从对所述目标推荐对象进行讲解的直播片段中，剪辑出对应所述推荐对象的讲解内容所得到。

本申请实施例提供一种直播视频的处理装置，包括：

获取模块，用于获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；

识别模块，用于对所述直播片段的内容进行识别，得到内容识别结果；

剪辑模块，用于根据所述内容识别结果从所述直播片段中，自动剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；

上述方案中，所述获取模块，用于当所述直播视频用于对至少两个推荐对象进行讲解时，对直播视频中讲解的推荐对象进行识别，得到各时间点对应的对象识别结果；

根据所述对象识别结果，确定推荐对象的切换时间点；

根据推荐对象的切换时间点，对所述直播视频进行截取处理，得到用于对各推荐对象进行讲解的直播片段。

上述方案中，所述获取模块，用于在直播的过程中，实时获取直播视频的语音内容所属的内容类别；

当所述语音内容所属的内容类别为讲解类别时，将所述语音内容与所述推荐对象的对象信息进行匹配，得到匹配结果；

当所述匹配结果表征所述语音内容包含所述推荐对象的对象信息时，对所述直播的内容进行录制，以得到用于对所述推荐对象进行讲解的直播片段。

上述方案中，所述获取模块，用于实时从直播视频的语音内容中，提取目标类型的语句；

将提取的语句与所述讲解类别对应的语料库中的语句进行相似度匹配，得到提取的语句与所述语料库中各语句之间的第一相似度；

当所述第一相似度达到第一相似度阈值时，确定所述语音内容所属的内容类别为讲解类别。

上述方案中，所述获取模块，用于提取所述语音内容中目标词性的关键词；

将提取的关键词与所述推荐对象的对象信息进行相似度匹配，得到所述关键词与对象信息之间的第二相似度，并将所述第二相似度作为所述匹配结果；

所述对所述直播的内容进行录制之前，还包括：

当所述第二相似度达到第二相似度阈值时，确定所述语音内容包含所述推荐对象的对象信息。

上述方案中，所述获取模块，用于在直播的过程中，实时对直播视频的画面内容进行图像识别，确定所述画面内容包含的对象；

将所述画面内容包含的对象与所述推荐对象进行匹配，得到匹配结果；

当所述匹配结果表征所述画面内容包含所述推荐对象时，对所述直播的内容进行录制，以得到用于对所述推荐对象进行讲解的直播片段。

上述方案中，所述获取模块，用于当所述匹配结果表征所述画面内容包含所述推荐对象时，获取所述推荐对象在所述直播视频中的停留时长；

当所述停留时长达到第一时长阈值时，对所述直播的内容进行录制。

上述方案中，所述获取模块，用于在对所述直播的内容进行录制的过程中，当所述推荐对象从所述画面内容中消失时，获取所述推荐对象从所述画面内容中消失的消失时长；

当所述消失时长达到第二时长阈值时，停止对所述直播的内容进行录制。

上述方案中，所述获取模块，用于在对所述直播的内容进行录制的过程中，对所述直播的内容中的语音内容进行语义识别，得到语义识别结果；

当所述语义识别结果表征停止对所述推荐对象进行讲解时，停止对所述直播的内容进行录制。

上述方案中，所述识别模块，还用于将所述直播片段的语音内容与互动类型语料库中的语句进行匹配，以识别得到直播片段中与所述互动类型语料库中的语句相匹配的语音内容；

其中，互动类型语料库中的语句，用于引导观众执行针对所述推荐对象的交互操作；

所述剪辑模块，还用于从所述直播片段中，自动剔除与所述互动类型语料库中的语句相匹配的语音内容、及与所述语音内容对应的画面内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段。

上述方案中，所述识别模块，还用于对所述直播片段的画面内容进行图像识别，得到不包含所述推荐对象的画面内容；

所述剪辑模块，还用于从所述直播片段中，自动剔除不包含所述推荐对象的画面内容、及所述画面内容对应的语音内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段。

本申请实施例提供一种直播视频的处理装置，包括：

第一播放模块，用于通过直播界面播放对至少一个推荐对象进行讲解的直播视频；

显示模块，用于当所述直播视频中针对目标推荐对象的讲解结束时，呈现对应所述目标推荐对象的回放功能项；

第二播放模块，用于当接收到针对所述回放功能项的触发操作时，播放对应所述目标推荐对象的目标直播片段；

上述方案中，第一播放模块，还用于在所述直播界面中呈现讲解开始功能项及相应的讲解结束功能项；

响应于针对所述讲解开始功能项的触发操作，对所述目标推荐对象所对应的直播内容进行录制；

响应于针对所述讲解结束功能项的触发操作，停止所述录制，得到对所述目标推荐对象进行讲解的直播片段。

上述方案中，第一播放模块，还用于呈现对应所述目标直播片段的特效，所述特效用于指示已将所述目标直播片段添加至推荐列表；

响应于针对所述推荐列表的展示指令，展示所述推荐列表，并在所述推荐列表中呈现目标推荐对象的对象信息、及对应所述目标推荐对象的回放功能项。

本申请实施例提供一种计算机设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的直播视频的处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的直播视频的处理方法。

本申请实施例具有以下有益效果：

通过获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；对所述直播片段的内容进行识别，得到内容识别结果；根据所述内容识别结果从所述直播片段中，自动剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；其中，所述目标直播片段，用于供观众端回放所述目标直播片段时，查看主播对相应推荐对象的讲解内容；如此，能够自动剪辑出对应推荐对象的讲解内容，而不需要人工剪辑，提高了目标直播片段的生成效率。

附图说明

图1是本申请实施例提供的直播视频的处理系统的一个可选的架构示意图；

图2是本申请实施例提供的计算机设备500的结构示意图；

图3是本申请实施例提供的直播视频的处理方法的一个可选的流程示意图；

图4是本申请实施例提供的直播视频的处理方法的一个可选的流程示意图；

图5是本申请实施例提供的直播界面示意图；

图6是本申请实施例提供的主播端的直播界面示意图；

图7是本申请实施例提供的直播界面示意图；

图8是本申请实施例提供的观众端的直播界面示意图；

图9是本申请实施例提供的直播视频的处理方法的流程示意图；

图10是本申请实施例提供的主播端的直播界面示意图，；

图11是本申请实施例提供的直播视频的处理方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)直播，在现场随着事件的发生、发展进程同步制作和发布信息，具有双向流通过程的信息网络发布方式。

2)直播带货：是指通过一些互联网平台，使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式，具体形式可由店铺自己开设直播间，或由职业主播在店铺或在直播平台开设直播间进行推介。

3)客户端，终端中运行的用于提供各种服务的应用程序，例如视频播放客户端、直播客户端、教育客户端等。

4)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

参见图1，图1是本申请实施例提供的直播视频的处理系统的一个可选的架构示意图，为实现支撑一个示例性应用，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。在实际实施时，终端上设置有客户端，如直播客户端，主播可以通过客户端进行直播；观众可以通过客户端观看直播。这里，终端可以位于主播端，也可以位于观众端。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在实际实施时，以终端400-1位于主播侧，终端400-2位于观众侧为例。主播通过终端400-1进行直播，终端400-1获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；对所述直播片段的内容进行识别，得到内容识别结果；根据所述内容识别结果从所述直播片段中，自动剪辑出对应推荐对象的讲解内容，得到目标直播片段；将目标直播片段发送给服务器200。

终端400-2在直播界面中呈现对应推荐对象的回放功能项，当接收到针对回放功能项的触发操作时，发送目标直播片段的获取请求至服务器200；服务器200基于该获取请求，将目标直播片段发送给终端400-2；终端400-2播放该目标直播片段，以使观众查看主播对相应推荐对象的讲解内容。

参见图2，图2是本申请实施例提供的计算机设备500的结构示意图，在实际应用中，计算机设备500可以为图1中的终端或服务器200，以计算机设备为图2所示的终端为例，对实施本申请实施例的直播中的音频播放方法的计算机设备进行说明。图2所示的计算机设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。计算机设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的直播视频的处理装置可以采用软件方式实现，图2示出了存储在存储器550中的直播视频的处理装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、识别模块5552及剪辑模块5553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的直播视频的处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的直播视频的处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的直播视频的处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

接下来对本申请实施例的提供的直播视频的处理方法进行说明，在实际实施时，本申请实施例提供的直播视频的处理方法可由服务器或终端单独实施，还可由服务器及终端协同实施。

参见图3，图3为本申请实施例提供的直播视频的处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤301：终端获取直播视频中用于对推荐对象进行讲解的直播片段。

这里，直播片段与推荐对象呈一一对应关系。在实际应用中，主播可以通过一场直播向观众讲解多个推荐对象，如老师(即主播)通过直播向学生(即观众)讲解多道试题(即推荐对象)，或者，主播通过直播向观众推荐如衣服、食物等推荐对象并号召用户下单购买，等等。

在实际实施时，终端上设置有客户端，如直播客户端，用户可以通过直播客户端进行直播，或者通过直播客户端观看直播。这里的终端可以是位于直播侧的终端，也可以是位于观众侧的终端。

以位于主播端为例，终端采集主播进行直播的直播视频，然后通过直播客户端，显示直播界面，在直播界面中播放采集到的直播内容，并将采集到的直播内容发送至服务器，以通过服务器将直播视频下发给观众端。在主播进行直播的过程中，或者直播结束之后，终端可以获取直播视频中用于对推荐对象进行讲解的直播片段。

在一些实施例中，终端可以对获取已经播放过的直播视频，如在直播结束后，获取这一场直播的完整直播视频；或者，在接收到直播视频获取指令时，获取当前时间点之前已播放过的直播视频；在获取到已播放过的直播视频后，可以对直播视频进行截取，以得到用于对各推荐对象进行讲解的直播片段。

在实际实施时，可以获取对各推荐对象进行讲解的开始时间点，基于开始时间点对直播视频进行切分，也即，对于每一推荐对象，从对该推荐对象进行讲解的开始时间点开始，到对下一推荐对象进行讲解的开始时间点结束，为该推荐对象对应的直播片段；或者，获取对各推荐对象进行讲解的结束时间点，基于结束时间点对直播视频进行切分；或者，获取对各推荐对象进行讲解的开始时间点和结束时间点，那么，处于该开始时间点和结束时间点之间的直播片段为对该推荐对象进行讲解的直播片段。

在实际应用中，可以通过对直播视频的每一时间点的内容进行识别，来确定对各推荐对象进行讲解的开始时间点和/或结束时间点，这里可以是对画面内容进行识别，也可以是对语音内容进行识别。

在一些实施例中，终端可以通过以下方式获取直播视频中用于对推荐对象进行讲解的直播片段：当直播视频用于对至少两个推荐对象进行讲解时，对直播视频中讲解的推荐对象进行识别，得到各时间点对应的对象识别结果；根据对象识别结果，确定推荐对象的切换时间点；根据推荐对象的切换时间点，对直播视频进行截取处理，得到用于对各推荐对象进行讲解的直播片段。

在实际实施时，还可以根据推荐对象的切换时间点，来对直播视频进行截取。这里对直播视频中讲解的推荐对象进行识别，可以得到每个时间点的直播视频中所包含的推荐对象，那么可以根据，如时间点1-10对应的推荐对象为A，11-20对应的推荐对象为B，那么，说明从时间点20开始，推荐对象由A切换为B，基于该时间点对直播片段进行截取。这里切换时间点的数量可以为多个，切换时间点的数量由推荐对象的数量确定，如此，便能够用于对各推荐对象进行讲解的直播片段。

需要说明的是，可能存在某一时间点的直播视频中未包含推荐对象，那么在判断推荐对象是否发生了切换时，不考虑该时间点。如，时间点1-7对应的推荐对象为A，11-20对应的推荐对象为B，时间点8-10没有对应的推荐对象，那么，说明从时间点20开始，推荐对象由A切换为B，基于该时间点对直播片段进行截取。

在实际应用中，在对直播视频中讲解的推荐对象进行识别时，可以是对直播视频的语音内容进行识别，如语音内容中包括推荐对象A的名称时，识别结果为推荐对象A；也可以是对直播视频的画面内容进行识别；还可以是结合语音内容和画面内容共同识别，以提升识别的准确性。

在一些实施例中，终端可以在直播过程中，实时对直播视频中的内容进行识别，以在确定在对某一推荐对象进行讲解时，对直播的内容进行录制，以得到用于对该推荐对象进行讲解的直播片段。如此，能够可以实时对相应推荐对象的直播内容进行录制，使观众能够即时回放相应的目标直播片段，提升目标直播片段生成的即时性。

在实际实施时，可以根据直播视频中的语音内容进行识别。在一些实施例中，终端可以通过以下方式获取直播视频中用于对推荐对象进行讲解的直播片段：在直播的过程中，实时获取直播视频的语音内容所属的内容类别；当语音内容所属的内容类别为讲解类别时，将语音内容与推荐对象的对象信息进行匹配，得到匹配结果；当匹配结果表征语音内容包含推荐对象的对象信息时，对直播的内容进行录制，以得到用于对推荐对象进行讲解的直播片段。

这里，语音内容所属的内容类别可以是讲解类别、互动类别等。在实际实施时，可以构建神经网络模型(如卷积神经网络模型)来对语音内容进行分类，采用标注有内容类别的语音内容对神经网络模型进行训练，在训练完成后，可以通过将语音内容输入该神经网络模型，通过神经网络模型预测该语音内容所属的内容类别。或者，可以构建对应各内容类别的语料库，将该语音内容分别与各语料库中的语句进行匹配，以确定与该语音内容相匹配的语料库，进而将与该语音内容相匹配的语料库所对应的内容类型作为该语音内容所属的内容类别。

在实际应用中，当语音内容所属的内容类别为讲解类别时，确定在对某个对象进行讲解，此时需要进一步验证，该讲解的对象是否为推荐对象，若是，则对直播的内容进行录制；否则，不执行任何操作，而是继续对直播视频中的语音内容所属的内容类别进行识别。

在一些实施例中，终端可以通过以下方式实时获取直播视频的语音内容所属的内容类别：实时从直播视频的语音内容中，提取目标类型的语句；将提取的语句与讲解类别对应的语料库中的语句进行相似度匹配，得到提取的语句与语料库中各语句之间的第一相似度；当第一相似度达到第一相似度阈值时，确定语音内容所属的内容类别为讲解类别。

在实际实施时，首先构建讲解类别对应的语料库，也即按不同的商品分类，收集不同主播讲解商品时的语音内容。比如，美妆类大多会讲“我跟大家演示下如何使用这款xx”，“拿到这款xx的时候，我们要怎么用呢？”等。这里，尽可能的将讲解类的语音内容穷举列入讲解类型的语料库里，由于这些语句汇总通常包含设问句，如“怎么用”、“怎么穿搭”、“如何正确用”等，基于此，将“怎么用”、“怎么穿搭”、“如何正确用”等关键词标记出来。

这里，为提升匹配效率和有效性，可以是仅提取目标类型的语句，也即设问句，从语音内容中提取“怎么用”“如何用”等设问句进行句向量分析，将抽取到的句向量与讲解类型的语料库的语句进行相似度计算，以得到提取的语句与讲解类别对应的语料库中各语句之间的第一相似度，若存在第一相似度达到第一相似度阈值时，确定语音内容所属的内容类别为讲解类别。其中，相似度计算可以采用有监督的相似度计算。

在一些实施例中，终端可以通过以下方式将语音内容与推荐对象的对象信息进行匹配，得到匹配结果：提取语音内容中目标词性的关键词；将提取的关键词与推荐对象的对象信息进行相似度匹配，得到关键词与对象信息之间的第二相似度，并将第二相似度作为匹配结果；对直播的内容进行录制之前，还当第二相似度达到第二相似度阈值时，确定语音内容包含推荐对象的对象信息。

在实际实施时，对于每一句语音内容，对该语音内容进行分词，并对每个词进行词性标注，从中筛除掉停用词，只保留目标词性的词，如名词、动词、形容词。这里可以将筛选得到的目标词性的词作为关键词，也可以进一步对目标词性的词进行筛选，以提取语音内容中目标词性的关键词。

作为示例，可以采用文本等级(TextRank)算法进行关键词提取，也即，将提取的目标词性的词作为候选关键词，然后构建候选关键词图G＝(V,E)，其中V为节点集，由生成的候选关键词组成，然后采用共现关系(Co-Occurrence)构造任两点之间的边，如，当两个节点对应的词在长度为K的窗口中共现时，这两个节点之间存在边，表示窗口大小，即最多共现K个词；根据TextRank的公式，迭代传播各节点的权重，直至收敛；对节点权重进行倒序排序，从而得到最重要的T个词，作为关键词；在原始文本中对得到的最重要的T个词进行标记，若标记的词形成相邻词组，则组合成多词关键词，如此，便得到了目标词性的关键词。

在实际应用中，获取关键词的词向量和推荐对象的对象信息的词向量，其中，推荐对象指的是推荐列表中的对象，对象信息可以为推荐对象的名称、厂家等，计算关键词的词向量与对象信息的词向量之间的第二相似度，这里，关键词的数量和对象信息的数量都可以为一个或者多个，当关键词的数量和对象信息的数量都为多个时，计算每个关键词的词向量与多个对象信息的词向量之间的第二相似度，当存在第二相似度达到第二相似度阈值时，确定语音内容包含推荐对象的对象信息。

在一些实施例中，终端可以通过以下方式获取直播视频中用于对推荐对象进行讲解的直播片段：在直播的过程中，实时对直播视频的画面内容进行图像识别，确定画面内容包含的对象；将画面内容包含的对象与推荐对象进行匹配，得到匹配结果；当匹配结果表征画面内容包含推荐对象时，对直播的内容进行录制，以得到用于对推荐对象进行讲解的直播片段。

这里，可以通过神经网络模型实现图像识别，如卷积神经网络。在实际应用中，图像识别的过程分以下几步：信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。

其中，信息的获取是指通过传感器，将光或声音等信息转化为电信息，也即，获取直播间场景的基本信息，并通过卷积神经网络将其转变为机器能够认识的信息。预处理主要是指图像处理中的去噪、平滑、变换等的操作，从而加强直播中商品图像的重要特征。特征抽取和选择是指在模式识别中，需要进行特征的抽取和选择。卷积神经网络在实施的过程中，实际上是分为两层，一个是卷积层，一个是汇聚层。卷积层将直播间的场景图片分散成一个一个或者3*3/5*5的小像素块，然后把这些输出值排列在图组中，用数字表示照片中各个区域的内容，数轴分别代表高度、宽度和颜色。那么，就得到了每一个图块的三维数值表达。汇聚层是将这个三维(或是四维)图组的空间维度与采样函数结合起来，输出一个仅包含了图像中相对重要的部分的联合数组。分类器设计是指通过训练而得到一种识别规则，通过此识别规则可以得到一种特征分类，使图像识别技术能够得到高识别率，从而形成相关的标签和类别，进而分类决策并识别出画面内容中的对象类别。在得到对象类别后，便会生成与该对象类别相关联的对象关键词，该对象关键词用于标识该对象。

作为示例，当画面内容中有放置跳绳物品时，如识别为跳绳，则会生成相关的对象关键词，例“电子跳绳”、“跳绳”等；当画面内容中有耳机等物品，则会生成相关的对象关键词，即“无线耳机”、“蓝牙耳机”等。

在得到对象关键词之后，可以将对象关键词与推荐列表中各推荐对象的关键词进行匹配，以实现画面内容包含的对象与推荐对象进行匹配；或者，可以根据对象关键词搜索该对象关键词对应的图像，将搜索到的图像与推荐列表中各推荐对象的图像进行匹配，以实现画面内容包含的对象与推荐对象进行匹配。当匹配结果为相匹配时，说明画面中的对象为推荐对象，那么对直播的内容进行录制。

在一些实施例中，终端可以通过以下方式当匹配结果表征画面内容包含推荐对象时，对直播的内容进行录制：当匹配结果表征画面内容包含推荐对象时，获取推荐对象在直播视频中的停留时长；当停留时长达到第一时长阈值时，对直播的内容进行录制。

在实际实施时，由于在直播中，存在只是展示一下推荐对象，而不是对该推荐对象进行解说的情况，这里可以根据停留时长来进一步验证是否是对该推荐对象进行讲解。这里预先设置第一时长阈值，当推荐对象在直播视频中的停留时长达到第一时长阈值时，对直播的内容进行录制；否则，不对直播的内容进行录制。

在一些实施例中，终端还可以在对直播的内容进行录制的过程中，当推荐对象从画面内容中消失时，获取推荐对象从画面内容中消失的消失时长；当消失时长达到第二时长阈值时，停止对直播的内容进行录制。

在实际实施时，在对直播的内容进行录制的过程中，需要判断何时停止对推荐对象进行讲解，以在对推荐对象的讲解结束时，即时停止对直播的内容进行录制，避免录入多余的内容，同时能够提升直播片段获取的实时性。这里，可以根据推荐对象从画面内容中消失的消失时长来判断对该推荐对象的讲解是否结束，也即预先设置第二时长阈值，当推荐对象从画面内容中消失时，开始对消失时长进行计时，当消失时长达到第二时长阈值时，确定对该推荐对象的讲解结束，停止对直播的内容进行录制，得到用于对该推荐对象进行讲解的直播片段。

在一些实施例中，还可以持续对直播视频的画面内容中的对象进行识别，当检测到推荐对象从画面内容中消失，且出现了其它推荐对象时，确定对该推荐对象的讲解结束，停止对直播的内容进行录制，以得到对应该推荐对象的，并重新开始新的录制，以录制得到用于讲解新出现的推荐对象的直播片段。

在一些实施例中，终端还可以在对直播的内容进行录制的过程中，对直播的内容中的语音内容进行语义识别，得到语义识别结果；当语义识别结果表征停止对推荐对象进行讲解时，停止对直播的内容进行录制。

在实际实施时，还可以通过语音内容进行语义识别，如识别到语音内容为“对xx的介绍就到这里”，“下面介绍下一件商品”等，表征停止对当前腿甲你对象进行讲解，那么停止对直播的内容进行录制。

步骤302：对直播片段的内容进行识别，得到内容识别结果。

这里，内容识别结果用于指示相应的内容是否为对应推荐对象的讲解内容，以基于内容识别结果获知直播片段中的对应推荐对象的讲解内容和非讲解内容，进而剪辑出对应推荐对象的讲解内容。在实际实施时，对直播片段的内容进行识别，可以是对直播片段的语音内容进行识别，也可以是对直播片段的画面内容进行识别，如当通过语音识别，识别到某部分语音内容为主播感谢观众赠送礼物时，可以将相应的直播内容确定为非讲解内容。

在实际应用中，对直播片段的内容进行识别的过程可以是在得到直播片段之后，也可以是在对直播片段进行录制的过程中，实时对该直播片段的内容进行识别的。

作为示例，终端可以是在直播过程中，实时对直播片段的内容进行录制，同时，实时对直播片段的内容进行识别，得到内容识别结果，并基于内容识别结果确定与推荐对象非讲解内容或讲解内容，对非讲解内容或讲解内容进行标记，以在录制得到直播片段后，可以直接根据标记，剪辑出与推荐对象对应的讲解内容，如此，进一步提升了目标直播片段生成效率。

步骤303：根据内容识别结果从直播片段中，自动剪辑出对应推荐对象的讲解内容，得到目标直播片段。

其中，目标直播片段，用于供观众端回放目标直播片段时，查看主播对相应推荐对象的讲解内容。这里的解说内容指的是对推荐对象进行解释说明的内容，如对推荐对象的功能、使用方法进行介绍的内容；在主播对推荐对象进行讲解的过程中，存在被其他事物打断的情况，如主播在对推荐对象进行讲解的过程中，会感谢观众赠送礼物、引导观众购买推荐对象、欢迎观众来到直播间等，这些均属于非讲解内容，导致获取的直播片段中会包含讲解内容和非讲解内容，为了使观众在回放时能够只查看主播对推荐对象的讲解内容，需要识别出推荐对象的讲解内容，以将讲解内容从直播片段中剪辑出来。在实际应用中，可以是识别出非讲解内容，将直播片段中剩余的内容作为讲解内容，或者直接识别出讲解内容。

在一些实施例中，终端可以通过以下方式对直播片段的内容进行识别，得到内容识别结果：将直播片段的语音内容与互动类型语料库中的语句进行匹配，以识别得到直播片段中与互动类型语料库中的语句相匹配的语音内容；其中，互动类型语料库中的语句，用于引导观众执行针对推荐对象的交互操作；相应的，可以通过以下方式根据内容识别结果从直播片段中，自动剪辑出对应推荐对象的讲解内容，得到目标直播片段：从直播片段中，自动剔除与互动类型语料库中的语句相匹配的语音内容、及与语音内容对应的画面内容，以剪辑出对应推荐对象的讲解内容，得到目标直播片段。

在实际应用中，互动类型语料库中的语句分为两种，一种是用于引导观众购买推荐对象的，如“快去下单”、“领优惠券”，一种是用于引导观众关注推荐对象的，如“欢迎xxx进入直播间”等。由于这些语音内容具有比较强的通用型，基于此，我们可以将通用性的语音内容存入相应的互动类型语料库，以得到互动类型语料库。

在实际实施时，在将直播片段的语音内容与互动类型语料库中的语句进行匹配时，可以将语音内容进行特征向量分类和特征词提取，然后将提取到的特征词与互动类型语料库中的语句进行匹配，如进行相似度匹配，若提取到的特征词与互动类型语料库中的语句相匹配，表示该语音内容为互动类型，其不是用于讲解推荐对象的，属于非讲解内容，那么需要将其从直播片段中剔除，在剔除语音内容时，需要同时剔除与语音内容对应的画面内容；若提取到的特征词与互动类型语料库中的语句不相匹配，表示该语音内容不为互动类型，那么认为该语音内容属于讲解内容。

在一些实施例中，对直播片段的内容进行识别，得到内容识别结果：对直播片段的画面内容进行图像识别，得到不包含推荐对象的画面内容；相应的，可以通过以下方式根据内容识别结果从直播片段中，自动剪辑出对应推荐对象的讲解内容，得到目标直播片段：从直播片段中，自动剔除不包含推荐对象的画面内容、及画面内容对应的语音内容，以剪辑出对应推荐对象的讲解内容，得到目标直播片段。

在实际实施时，若推荐对象短暂的离开了画面内容，说明在推荐对象离开画面内容的时间段内，未对该推荐对象进行讲解，基于此，获取不包含推荐对象的画面内容，然后将这部分画面内容从直播片段中自动剔除，同时剔除该画面内容对应的语音内容，以剪辑出对应推荐对象的讲解内容。

应用上述实施例，通过获取直播视频中用于对推荐对象进行讲解的直播片段，直播片段与推荐对象呈一一对应关系；对直播片段的内容进行识别，得到内容识别结果；根据内容识别结果从直播片段中，自动剪辑出对应推荐对象的讲解内，得到目标直播片段；其中，目标直播片段，用于供观众端回放目标直播片段时，查看主播对相应推荐对象的讲解内容；如此，能够剪辑出对应推荐对象的讲解内容，而不需要人工剪辑，提高了目标直播片段的生成效率。

接下来继续对本申请实施例的提供的直播视频的处理方法进行说明，在实际实施时，本申请实施例提供的直播视频的处理方法可由终端单独实施，还可由服务器及终端协同实施。

参见图4，图4是本申请实施例提供的直播视频的处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤401：终端通过直播界面播放对至少一个推荐对象进行讲解的直播视频。

在实际实施时，终端上设置有客户端，如直播客户端，用户可以通过直播客户端进行直播，或者通过直播客户端观看直播。这里的终端可以是位于直播侧的终端，也可以是位于观众侧的终端。用户通过客户端呈现直播界面并播放直播视频。

步骤402：当直播视频中针对目标推荐对象的讲解结束时，呈现对应目标推荐对象的回放功能项。

这里，当检测到直播视频中针对目标推荐对象的讲解结束时，可以即时的呈现对应目标推荐对象的回放功能项，使得用户能够通过该回放功能项即时的播放目标直播片段。

在实际实施时，终端可以直接在直播界面中呈现对应目标推荐对象的回放功能项，也可以是在推荐列表中呈现对应目标推荐对象的回放功能项，这里不对目标推荐对象的回放功能项的呈现位置以及呈现方式进行限定。

在一些实施例中，终端在呈现对应目标推荐对象的回放功能项之前，还可以在直播界面中呈现讲解开始功能项及相应的讲解结束功能项；响应于针对讲解开始功能项的触发操作，对目标推荐对象所对应的直播内容进行录制；响应于针对讲解结束功能项的触发操作，停止录制，得到对目标推荐对象进行讲解的直播片段。

在实际实施时，对目标推荐对象的直播片段的录制，可以是人为控制的，如由主播控制，终端可以在直播界面中呈现讲解开始功能项及相应的讲解结束功能项，以通过讲解开始功能项控制录制的开始，通过结束功能项控制录制的结束。

图5是本申请实施例提供的直播界面示意图，参见图5，在直播界面呈现讲解开始功能项501及相应的讲解结束功能项502，当对目标推荐对象的讲解开始时，用户点击讲解开始功能项，对目标推荐对象所对应的直播内容进行录制；在录制过程中在直播界面中呈现录制标识503，以指示正在对直播视频进行录制；当对该推荐对象的讲解结束时，用户点击讲解结束功能项，对录制得到的直播片段进行处理，并在直播界面中呈现处理标识504，以指示正在对直播片段进行处理，以得到目标直播片段。

在一些实施例中，对目标推荐对象的直播片段的录制可以是通过对直播的内容进行识别确定的，如通过语音识别或者图像识别来确定是否开始对目标推荐对象进行讲解，以及是否结束对目标推荐对象进行讲解。

在实际实施时，终端可以在直播的过程中，实时对直播视频的画面内容进行图像识别，确定画面内容包含的对象；将画面内容包含的对象与目标推荐对象进行匹配，得到匹配结果；当匹配结果表征画面内容包含目标推荐对象时，对直播的内容进行录制；当目标推荐对象从画面内容中消失时，获取目标推荐对象从画面内容中消失的消失时长；当消失时长达到第二时长阈值时，停止对直播的内容进行录制，以得到对目标推荐对象进行讲解的直播片段。

作为示例，图6是本申请实施例提供的主播端的直播界面示意图，参见图6，在对直播的画面内容进行图像识别时，会在识别到的对象所处位置呈现一个识别框601，以指示正在对该对象进行识别；后台根据识别结果，将其与推荐列表中的推荐对象进行关联后，开始录制对该推荐对象进行讲解的直播片段，这里，在录制过程中在直播界面中呈现录制标识602，以指示正在对直播视频进行录制；当对该推荐对象的讲解结束时，对录制得到的直播片段进行处理，并在直播界面中呈现处理标识603，以指示正在对直播片段进行处理，以得到目标直播片段。

在一些实施例中，终端可以通过以下方式呈现对应目标推荐对象的回放功能项：呈现对应目标直播片段的特效，特效用于指示已将目标直播片段添加至推荐列表；响应于针对推荐列表的展示指令，展示推荐列表，并在推荐列表中呈现目标推荐对象的对象信息、及对应目标推荐对象的回放功能项。

在实际实施时，终端还可以在获取目标直播片段后，呈现对应目标直播片段的特效，以引导用户展开推荐列表，以及触发对应目标推荐对象的回放功能项。

图7是本申请实施例提供的直播界面示意图，参见图7，在生成目标直播片段后，显示动态特效701，以指示已将目标直播片段添加至推荐列表；当用户点击推荐列表的展开按键702时，展示推荐列表，并在推荐列表中包括多个推荐对象，对于每个已讲解的推荐对象，在该推荐对象的对象信息展示区域中显示回放功能项，如对于目标推荐对象703，呈现该目标推荐对象的回放功能项704。

步骤403：当接收到针对回放功能项的触发操作时，播放对应目标推荐对象的目标直播片段。

其中，目标直播片段为，从对目标推荐对象进行讲解的直播片段中，剪辑出对应推荐对象的讲解内容所得到。这里的解说内容指的是对推荐对象进行解释说明的内容，如对推荐对象的功能、使用方法进行介绍的内容；在主播对推荐对象进行讲解的过程中，存在被其他事物打断的情况，如主播在对推荐对象进行讲解的过程中，会感谢观众赠送礼物、引导观众购买推荐对象、欢迎观众来到直播间等，这些均属于非讲解内容，导致获取的直播片段中会包含讲解内容和非讲解内容，为了使观众在回放时能够只查看主播对推荐对象的讲解内容，需要将讲解内容从直播片段中剪辑出来。

在实际实施时，对于目标推荐对象，可以有一个或者多个与其关联的目标直播片段；当与其关联的目标直播片段只有一个时，接收到对应该推荐对象的回放功能项的触发操作，可以直接播放该目标直播片段；当与其关联的目标直播片段存在多个时，接收到对应该推荐对象的回放功能项的触发操作，可以呈现多个目标直播片段的选择项，以使观众可以从中选择一个进行播放。

作为示例，图8是本申请实施例提供的观众端的直播界面示意图，参见图8，在直播界面中显示推荐列表，推荐列表中包括多个推荐对象，对于每个已讲解的推荐对象，在该推荐对象的对象信息展示区域中显示回放功能项，如对于推荐对象801，呈现该推荐对象的回放功能项802；当观众点击该回放功能项802时，呈现多个目标直播片段的选择项803，如“#如何使用粉底液”，观众可以从中选择一个进行播放。

应用上述实施例，提升了目标直播片段的生成效率和及时性，在针对目标推荐对象的讲解结束时，便呈现对应目标推荐对象的回放功能项，使得用户能够即时播放目标直播片段。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。图9是本申请实施例提供的直播视频的处理方法的流程示意图，参见图9，在主播对推荐对象(商品)进行讲解的过程中，对直播画面进行图像识别，以识别得到画面中推荐对象，同时提取讲解过程中语音内容的关键词，基于关键词进一步对推荐对象进行识别，将其与推荐列表中相应的推荐对象进行关联；然后，开始进行视频录制，直至针对该推荐对象的讲解结束；对录制得到的直播片段进行处理，也即剔除视频片段中的非讲解内容，如欢迎观众的部分内容，以将讲解内容从直播片段中剪辑出来；处理完成后，得到对应推荐对象的目标直播片段。

这里，对直播视频的处理过程中，主播端的直播界面的变化过程进行说明。图10是本申请实施例提供的主播端的直播界面示意图，参见图10，在对直播画面进行图像识别时，会在识别到的对象所处位置呈现一个识别框1001，以指示正在对该对象进行识别；后台根据识别结果，将其与推荐列表中的推荐对象进行关联后，开始录制对该推荐对象进行讲解的直播片段，这里，在录制过程中在直播界面中呈现录制标识1002，以指示正在对直播视频进行录制；当对该推荐对象的讲解结束时，对录制得到的直播片段进行处理，并在直播界面中呈现处理标识1003，以指示正在对直播片段进行处理；在处理完成后，显示动态特效1004，以告知已将处理得到的目标直播片段添加到推荐列表(商品列表)中。

在实际应用中，在得到目标直播片段后，会将其发送给服务器，再由服务器下发至观众端，观众端在直播界面中的推荐列表中显示对应推荐对象的回放功能项，以使观众可以通过触发相应的回放功能项，查看相应推荐对象的目标直播片段。需要说明的是，对于每个已讲解的推荐对象，在主播对该推荐对象的讲解结束后，都会生成对应该推荐对象的目标直播片段，以使观众可以通过播放该目标直播片段，来查看针对该推荐对象的讲解内容；这里，对于观众端，在推荐列表中与该推荐对象相关联的位置，显示对应该推荐对象的回放功能项，以用于播放对应该推荐对象的目标直播片段。

在实际实施时，对于一个推荐对象，可以有一个或者多个与其关联的目标直播片段；当与其关联的目标直播片段只有一个时，接收到对应该推荐对象的回放功能项的触发操作，可以直接播放该目标直播片段；当与其关联的目标直播片段有多个时，接收到对应该推荐对象的回放功能项的触发操作，可以呈现多个目标直播片段的选择项，以使观众可以从中选择一个进行播放。

作为示例，参见图8，在直播界面中显示推荐列表，推荐列表中包括多个推荐对象，对于每个已讲解的推荐对象，在该推荐对象的对象信息展示区域中显示回放功能项，如对于推荐对象801，呈现该推荐对象的回放功能项802；当观众点击该回放功能项802时，呈现多个目标直播片段的选择项803，如“#如何使用粉底液”，观众可以从中选择一个进行播放。

这里，以推荐对象为商品为例对本申请实施例提供的直播视频的处理方法进行说明。图11是本申请实施例提供的直播视频的处理方法的流程示意图，参见图11，本申请实施例提供的直播视频的处理方法包括：

步骤1101：图像识别到主播手中的商品。

在实际实施时，通过卷积神经网络实现主播手中的商品。这里，卷积神经网络的优势在于，它利用了“同一图像中相邻像素的强关联性和强相似度”这一原理。具体而言就是，在一张图像中的两个相邻像素，比图像中两个分开的像素更具有关联性。

在实际应用中，图像识别的过程分以下几步：信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。

其中，信息的获取是指通过传感器，将光或声音等信息转化为电信息，也即，获取直播间场景的基本信息，并通过卷积神经网络将其转变为机器能够认识的信息。

预处理主要是指图像处理中的去噪、平滑、变换等的操作，从而加强直播中商品图像的重要特征。

特征抽取和选择是指在模式识别中，需要进行特征的抽取和选择。

卷积神经网络在实施的过程中，实际上是分为两层，一个是卷积层，一个是汇聚层。卷积层将直播间的场景图片分散成一个一个或者3*3/5*5的小像素块，然后把这些输出值排列在图组中，用数字表示照片中各个区域的内容，数轴分别代表高度、宽度和颜色。那么，就得到了每一个图块的三维数值表达。汇聚层是将这个三维(或是四维)图组的空间维度与采样函数结合起来，输出一个仅包含了图像中相对重要的部分的联合数组。

分类器设计是指通过训练而得到一种识别规则，通过此识别规则可以得到一种特征分类，使图像识别技术能够得到高识别率，从而形成相关的标签和类别，进而分类决策并识别出直播间的商品类别。

在得到商品类别后，便会生成与该商品类别相关联的商品关键词。

作为示例，当直播间有放置跳绳物品时，如识别为跳绳，则会生成相关的商品关键词，例“电子跳绳”、“跳绳”等；当直播间背景有耳机等物品，则会生成相关的商品关键词，即“无线耳机”、“蓝牙耳机”等。

步骤1102：实时语义识别主播的语音内容。

这里，在识别到商品画面后，同时对主播的语音内容进行实时的监测识别。

在实际应用中，对主播的每段语音内容，进行关键词抽取。这里，基于Te xtRank算法进行关键词提取，TextRank算法的核心是将文本中的词看作图中的节点，通过边相互连接，不同的节点会有不同的权重，权重高的节点可以作为关键词。

这里，对基于TextRank进行关键词提取的过程进行说明。首先，把给定的文本T按照完整句子进行分割，即：T＝[S₁,S₂,S₃,…,S_m]；对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，其中，t_i,j是保留后的候选关键词；接着，构建候选关键词图G＝(V,E)，其中V为节点集，由生成的候选关键词组成，然后采用共现关系(Co-Occurrence)构造任两点之间的边，如，当两个节点对应的词在长度为K的窗口中共现时，这两个节点之间存在边，表示窗口大小，即最多共现K个词；根据TextRank的公式，迭代传播各节点的权重，直至收敛；对节点权重进行倒序排序，从而得到最重要的T个词，作为关键词；在原始文本中对得到的最重要的T个词进行标记，若标记的词形成相邻词组，则组合成多词关键词。

步骤1103：判断是否识别到商品名库中的商品，若是，执行步骤1104。

这里，将筛选出来的关键词与标记的商品名进行相似度比对，在实际实施时，可以通过skim-gram模型实现相似度比对。这里，通过相似度分析，辅助商品画面识别的步骤。

步骤1104：将识别到的商品与商品库里的商品进行匹配。

这里，在得到商品关键词后，后台会请求相关电商平台的服务器，通过服务器进行关键词的搜索本场直播的商品，并进行图片匹配；若匹配成功，后台将这些匹配成功的数据传回客户端，就可以确定用直播间所讲的产品具体是哪个。

步骤1105：判断是否匹配，若是，执行步骤1106。

步骤1106：判断停留时长是否超过第一时长阈值，若是，执行步骤1107。

步骤1107：继续识别主播的语音内容。

步骤1108：判断语音内容是否为讲解类型，若是，执行步骤1109。

在实际实施时，需要预先构建讲解类型的语料库。这里，按不同的商品分类，收集不同主播讲解商品时的语音内容。比如，美妆类大多会讲“我跟大家演示下如何使用这款xx”，“拿到这款xx的时候，我们要怎么用呢？”等。我们尽可能的将讲解类的语音内容穷举列入讲解类型的语料库里，并将“怎么用”、“怎么穿搭”、“如何正确用”等关键词标记出来。

在主播讲解过程中，对主播的语音内容进行简单的语句拆分，拆分的短语句是为了与讲解类型的语料库中的语句进行相似度分析。为了降低时间运算成本，我们只对语音内容中“怎么用”“如何用”等设问句进行句向量分析，将抽取到的句向量与讲解类型的语料库的语句进行有监督的相似度计算；若存在相似度超过第一相似度阈值的语音内容，认为主播开始讲解商品教程，那么开始进行视频录制。

步骤1109：开始录制。

步骤1110：识别到商品引导的语音内容。

步骤1111：识别到欢迎观众的语音内容。

在实际实施时，除了讲解类型的语音内容，主播在直播间主要讲两种类型的语音内容，一个是引导观众消费购买的语音内容，比如“快去下单”、“领优惠券”等；另一个是与粉丝互动的语音内容，比如“欢迎xxx进入直播间”等。而这些语音内容又具有比较强的通用性，基于此，我们可以将通用性的语音内容存入相应的语料库。在视频录制的过程中，利用卷神经网络对主播的语音内容进行特征向量分类和特征词提取，基于提取结果，将主播的语音内容与语料库中的语句进行相似度计算，这里还是利用有监督的相似度计算。当存在相似度达到第二相似度阈值的语音内容时，认为该语音内容为引导观众消费购买的语音内容或者与粉丝互动的语音内容，对该语音内容进行标注，方便后续视频删除。

步骤1112：对识别到的内容进行标记。

步骤1113：获取商品在画面中的消失时长。

步骤1114：判断消失时长是否达到第二时长阈值，若是执行步骤1116。

步骤1115：图像识别到另一件商品。

步骤1116：结束录制。

步骤1117：删除标记的内容。

当获取到带有标记的直播视频片段后，对标记了内容进行删除，并将处理后的所有片段进行合成，以得到一个仅包含讲解内容的目标直播片段。

步骤1118：合成目标直播片段。

应用上述实施例，对于主播侧，实现了智能的实时生成用于讲解推荐对象的目标直播片段的方法，无需主播人工操作。主播可以只专注在讲解推荐对象上。与异步剪辑生成的视频不同，实时生成视频的方式能够让生成的目标直播片段快速的被平台分发，吸引更多的观众进入直播间。并且，智能化的操作解决人工制作教程视频的难题。对于观众侧，观众可以在进入直播间后，能够通过生成的目标直播片段，快速的获取到所需信息。

下面继续说明本申请实施例提供的直播视频的处理装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的直播视频的处理装置555中的软件模块可以包括：

获取模块5551，用于获取直播视频中用于对推荐对象进行讲解的直播片段，所述直播片段与所述推荐对象呈一一对应关系；

识别模块5552，用于对所述直播片段的内容进行识别，得到内容识别结果；

剪辑模块5553，用于根据所述内容识别结果从所述直播片段中，自动剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；

在一些实施例中，所述获取模块5551，用于当所述直播视频用于对至少两个推荐对象进行讲解时，对直播视频中讲解的推荐对象进行识别，得到各时间点对应的对象识别结果；

根据所述对象识别结果，确定推荐对象的切换时间点；

在一些实施例中，所述获取模块5551，用于在直播的过程中，实时获取直播视频的语音内容所属的内容类别；

在一些实施例中，所述获取模块5551，用于实时从直播视频的语音内容中，提取目标类型的语句；

在一些实施例中，所述获取模块5551，用于提取所述语音内容中目标词性的关键词；

所述对所述直播的内容进行录制之前，还包括：

在一些实施例中，所述获取模块5551，用于在直播的过程中，实时对直播视频的画面内容进行图像识别，确定所述画面内容包含的对象；

在一些实施例中，所述获取模块5551，用于当所述匹配结果表征所述画面内容包含所述推荐对象时，获取所述推荐对象在所述直播视频中的停留时长；

在一些实施例中，所述获取模块，用于在对所述直播的内容进行录制的过程中，当所述推荐对象从所述画面内容中消失时，获取所述推荐对象从所述画面内容中消失的消失时长；

在一些实施例中，所述获取模块5551，用于在对所述直播的内容进行录制的过程中，对所述直播的内容中的语音内容进行语义识别，得到语义识别结果；

在一些实施例中，所述识别模块5552，还用于将所述直播片段的语音内容与互动类型语料库中的语句进行匹配，以识别得到直播片段中与所述互动类型语料库中的语句相匹配的语音内容；

所述剪辑模块5553，还用于从所述直播片段中，自动剔除与所述互动类型语料库中的语句相匹配的语音内容、及与所述语音内容对应的画面内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段。

在一些实施例中，所述识别模块5552，还用于对所述直播片段的画面内容进行图像识别，得到不包含所述推荐对象的画面内容；

所述剔除模块5553，还用于从所述直播片段中，自动剔除不包含所述推荐对象的画面内容、及所述画面内容对应的语音内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段。

本申请实施例提供一种直播视频的处理装置，包括：

在一些实施例中，第一播放模块，还用于在所述直播界面中呈现讲解开始功能项及相应的讲解结束功能项；

在一些实施例中，第一播放模块，还用于呈现对应所述目标直播片段的特效，所述特效用于指示已将所述目标直播片段添加至推荐列表；

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的直播视频的处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种直播视频的处理方法，其特征在于，包括：

将所述直播片段的语音内容与互动类型语料库中的语句进行匹配，以识别得到直播片段中与所述互动类型语料库中的语句相匹配的目标语音内容；以及对所述直播片段的画面内容进行图像识别，得到不包含所述推荐对象的目标画面内容；

从所述直播片段中，自动剔除所述目标语音内容、及与所述目标语音内容对应的画面内容，以及自动剔除所述目标画面内容、及所述目标画面内容对应的语音内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；

其中，所述互动类型语料库中的语句，用于引导观众执行针对所述推荐对象的交互操作；所述目标直播片段，用于供观众端回放所述目标直播片段时，查看主播对相应推荐对象的讲解内容。

2.如权利要求1所述的方法，其特征在于，所述获取直播视频中用于对推荐对象进行讲解的直播片段，包括：

当所述直播视频用于对至少两个推荐对象进行讲解时，对直播视频中讲解的推荐对象进行识别，得到各时间点对应的对象识别结果；

根据所述对象识别结果，确定推荐对象的切换时间点；

3.如权利要求1所述的方法，其特征在于，所述获取直播视频中用于对推荐对象进行讲解的直播片段，包括：

在直播的过程中，实时获取直播视频的语音内容所属的内容类别；

4.如权利要求3所述的方法，其特征在于，所述实时获取直播视频的语音内容所属的内容类别，包括：

实时从直播视频的语音内容中，提取目标类型的语句；

5.如权利要求3所述的方法，其特征在于，所述将所述语音内容与所述推荐对象的对象信息进行匹配，得到匹配结果，包括：

提取所述语音内容中目标词性的关键词；

所述对所述直播的内容进行录制之前，还包括：

6.如权利要求1所述的方法，其特征在于，所述获取直播视频中用于对推荐对象进行讲解的直播片段，包括：

在直播的过程中，实时对直播视频的画面内容进行图像识别，确定所述画面内容包含的对象；

7.如权利要求6所述的方法，其特征在于，所述当所述匹配结果表征所述画面内容包含所述推荐对象时，对所述直播的内容进行录制，包括：

当所述匹配结果表征所述画面内容包含所述推荐对象时，获取所述推荐对象在所述直播视频中的停留时长；

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

在对所述直播的内容进行录制的过程中，当所述推荐对象从所述画面内容中消失时，获取所述推荐对象从所述画面内容中消失的消失时长；

9.如权利要求3或6所述的方法，其特征在于，所述方法还包括：

在对所述直播的内容进行录制的过程中，对所述直播的内容中的语音内容进行语义识别，得到语义识别结果；

10.一种直播视频的处理方法，其特征在于，包括：

其中，所述目标直播片段为，从对所述目标推荐对象进行讲解的直播片段中，自动剔除与互动类型语料库中的语句相匹配的目标语音内容、及与所述目标语音内容对应的画面内容，以及自动剔除不包含所述目标推荐对象的目标画面内容、及所述目标画面内容对应的语音内容所得到；所述互动类型语料库中的语句，用于引导观众执行针对所述推荐对象的交互操作。

11.如权利要求10所述的方法，其特征在于，所述呈现对应所述目标推荐对象的回放功能项之前，还包括：

在所述直播界面中呈现讲解开始功能项及相应的讲解结束功能项；

12.如权利要求10所述的方法，其特征在于，所述呈现对应所述目标推荐对象的回放功能项，包括：

呈现对应所述目标直播片段的特效，所述特效用于指示已将所述目标直播片段添加至推荐列表；

13.一种直播视频的处理装置，其特征在于，包括：

识别模块，用于将所述直播片段的语音内容与互动类型语料库中的语句进行匹配，以识别得到直播片段中与所述互动类型语料库中的语句相匹配的目标语音内容；以及对所述直播片段的画面内容进行图像识别，得到不包含所述推荐对象的目标画面内容；

剪辑模块，用于从所述直播片段中，自动剔除所述目标语音内容、及与所述目标语音内容对应的画面内容，以及自动剔除所述目标画面内容、及所述目标画面内容对应的语音内容，以剪辑出对应所述推荐对象的讲解内容，得到目标直播片段；

14.一种直播视频的处理装置，其特征在于，包括：

15.一种计算机设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的直播视频的处理方法。

16.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的直播视频的处理方法。