CN111601145A

CN111601145A - 基于直播的内容展示方法、装置、设备及存储介质

Info

Publication number: CN111601145A
Application number: CN202010428607.5A
Authority: CN
Inventors: 张新磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-08-28

Abstract

本申请提供了一种基于直播的内容展示方法、装置、设备及存储介质；方法包括：接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容；其中，所述直播内容，基于对所述主播的直播语句进行语音识别得到。通过本申请，能够实时展示主播的直播内容，提升直播内容传达的效率及准确率。

Description

基于直播的内容展示方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域及人工智能技术领域，尤其涉及一种基于直播的内容展示方法、装置、设备及存储介质。

背景技术

在直播的过程中，主播通常采用口述的方式来传达所需传达的内容，对于一些需要观众准确获取的内容，即使主播重复多次，观众也很难确定获取该内容，导致信息传达效率及准确率都较低；虽然通过打字的方式能够准备传达直播内容，但会影响正常直播的过程，导致整体直播内容脱节，降低观众的观看体验。

发明内容

本申请实施例提供一种基于直播的内容展示方法、装置、设备及存储介质，能够实时展示主播的直播内容，提升直播内容传达的效率及准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于直播的内容展示方法，包括：

接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；

响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容；

其中，所述直播内容，基于对所述主播的直播语句进行语音识别得到。

本申请实施例提供一种基于直播的内容展示装置，包括：

接收模块，用于接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；

展示模块，用于响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容。

上述方案中，所述接收模块，还用于对所述主播在直播过程中的直播图像进行手势识别，得到手势识别结果；

当所述手势识别结果表征所述主播的手势为目标手势[说明书说明目标手势用于指示展示主播的直播内容,并给出至少两种手势]时，接收到基于所述目标手势触发的所述内容展示指令。

上述方案中，所述接收模块，还用于对所述主播在直播过程中的手势进行监测；

当监测结果表征所述主播的手势不为所述目标手势时，取消展示所述主播的直播内容。

上述方案中，所述接收模块，还用于在主播端的直播界面中，呈现内容展示功能项；

接收到基于所述内容展示功能项触发的所述内容展示指令。

上述方案中，所述接收模块，还用于对所述主播在直播的过程中的直播语句进行监测；

当监测结果表征所述直播语句中，包括用于指示展示所述直播内容的词句时，接收到基于所述直播语句触发的所述内容展示指令。

上述方案中，所述展示模块，还用于在直播界面中，伴随对主播的直播语句的语音识别过程，通过文本展示方式，同步展示所述主播的直播内容。

上述方案中，所述展示模块，还用于在直播界面中的评论区域内，以评论的形式实时展示所述主播的直播内容。

上述方案中，所述展示模块，还用于在直播界面中，以系统通知的形式实时展示所述主播的直播内容，以使所述直播内容悬浮呈现于所述直播界面之上。

上述方案中，所述展示模块，还用于获取所述直播内容中出现次数达到次数阈值的关键内容；

在直播界面中，以区别于其它直播内容的方式，展示所述关键内容。

上述方案中，所述展示模块，还用于在所述直播界面中呈现提示信息，所述提示信息，用于指示对所述主播的直播语句进行语音识别所对应的进度或状态。

当所述手势识别结果表征所述主播的手势为取消展示手势时，取消展示所述主播的直播内容；

其中，所述取消展示手势，用于指示取消展示所述主播的直播内容。

上述方案中，所述展示模块，还用于响应于接收到的取消展示指令，取消展示所述主播的直播内容，并在所述直播界面中展示以下至少之一：

所述语音识别得到的完整直播内容、用于指示语音识别已完成的提示信息。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于直播的内容展示方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于直播的内容展示方法。

本申请实施例具有以下有益效果：

接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容；其中，所述直播内容，通过对所述主播的直播语句进行语音识别得到；由于能够对主播的直播语句进行语音识别得到直播内容，再进行展示，如此，能够让观众准确快速地获知到主播所要传达的内容，提升主播及观众在直播过程中的体验。

附图说明

图1是相关技术提供的基于直播的内容展示的界面示意图；

图2是本申请实施例提供的基于直播的内容展示系统100的架构示意图；

图3是本申请实施例提供的终端的结构示意图；

图4是本申请实施例提供的基于直播的内容展示方法的流程示意图；

图5A-图5C是本发明实施例提供的目标手势的示意图；

图6是本申请实施例提供的MediaPipe示例的模型示意图；

图7是本申请实施例提供的直播界面的示意图；

图8是本申请实施例提供的语音识别系统的架构示意图；

图9是本申请实施例提供的主播端的直播界面示意图；

图10是本申请实施例提供的观众端的直播界面示意图；

图11是本申请实施例提供的直播界面的示意图；

图12是本发明实施例提供的直播界面的示意图；

图13是本申请实施例提供的直播界面的示意图；

图14是本申请实施例提供的直播界面的示意图；

图15是本申请实施例提供的直播界面的示意图；

图16是本申请实施例提供的主播端直播界面的示意图；

图17是本申请实施例提供的观众端的直播界面示意图；

图18是本申请实施例提供的直播界面示意图；

图19是本申请实施例提供的直播界面示意图；

图20是本申请实施例提供的基于直播的内容展示方法的流程示意图；

图21是本申请实施例提供的基于直播的内容展示装置的组成结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)直播，在现场随着事件的发生、发展进程同步制作和发布信息，具有双向流通过程的信息网络发布方式。

2)手势，手的姿势，指的是人在运用手臂时，所出现的具体动作与体位。

3)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

在直播过程中，为了让观众能够准确无误的获取主播想要传达的内容，主播通常需要一个助理，在摄像头可以拍摄到的地方举着写有该内容的牌子，以将该内容展示给观众，图1是相关技术提供的基于直播的内容展示的界面示意图，参见图1，在直播界面中呈现直播画面，直播画面中主播的助理举着一个具备写有“线上婚博会”的白纸，以将“线上婚博会”展示给用户。

由于白纸上的内容是需要助手根据主播口述的内容，手动书写的，如此会严重影响内容的传播效率，且需要助手一直在旁边辅助直播，增加了直播中的人力投入成本。

基于此，提出本申请实施例的基于直播的内容展示方法、装置、设备及计算机存储介质，以至少解决相关技术中的上述问题，接下来分别进行说明。

参见图2，图2是本申请实施例提供的基于直播的内容展示系统100的架构示意图，为实现支撑一个示例性应用，终端包括第一终端400和第二终端500(示例性示出了第二终端500-1及第二终端500-2)，其中，第一终端位于主播侧，第二终端位于观众侧；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

第一终端400，用于接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；采集主播的直播语句，并发送给服务器；

服务器200，用于基于对所述主播的直播语句进行语音识别，得到主播的直播内容；将直播内容发送给终端(包括第一终端400和第二终端500)；

终端(包括第一终端400和第二终端500)，用于在直播界面中，实时展示所述主播的直播内容。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为终端时示例性应用。

参见图3，图3是本申请实施例提供的终端的结构示意图，图3所示的终端包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的基于直播的内容展示装置可以采用软件方式实现，图2示出了存储在存储器450中的基于直播的内容展示装置455，其可以是程序和插件等形式的软件，包括以下软件模块：接收模块4551和展示模块4552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于直播的内容展示装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于直播的内容展示装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的。。基于直播的内容展示方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的基于直播的内容展示方法。

参见图4，图4是本申请实施例提供的基于直播的内容展示方法的流程示意图，将结合图4示出的步骤进行说明。

步骤401：终端接收到主播在直播过程中触发的内容展示指令。

这里，内容展示指令用于指示展示直播的直播内容。在实际实施时，终端上设置有直播平台客户端，主播可以通过直播平台客户端，登陆直播平台的主播端进行直播。在直播的过程中，当主播想要传达需要观众准确获知的内容时，可以通过直播平台客户端触发内容展示指令，以使终端接收到该内容展示指令。

在一些实施例中，终端可以通过以下方式接收到主播在直播过程中触发的内容展示指令：对主播在直播过程中的直播图像进行手势识别，得到手势识别结果；当手势识别结果表征主播的手势为目标手势时，接收到基于目标手势触发的内容展示指令。

在实际实施时，在主播直播的过程中，终端通过图像采集设备(如摄像头)实时采集主播的直播图像，并通过手势识别，判断该直播图像中是否包括主播的手势，以及主播的手势是否为目标手势。这里，目标手势用于指示展示主播的直播内容。

需要说明的是，目标手势是预先设定的，可以为单手手势，也可以为双手手势；以双手手势为例，图5A-图5C是本申请实施例提供的目标手势的示意图，参见图5A-图5C，目标手势可以是双手OK手势、双手握拳手势、双手V字手势。

本申请通过目标手势来触发内容展示指令，由于目标手势会被拍摄下来以直播画面的形式呈现给观众，能够提示观众，接下来会对主播的直播内容进行展示。另外，当目标手势为双手实现的手势时，能够降低主播在直播过程中，误触发的情况，降低了误操作的风险。

例如，相关技术提供一种继承于开源跨平台框架MediaPipe(一个开源的跨平台框架，主要用于构建处理不同模态感知数据的管道，如视频和音频)手势识别方法，通过机器学习从单帧推断出手部的21个3D关键点，从而提供高保真度的手部和手指追踪。且其不需要依赖台式机来计算，而是在手机上就能进行实时追踪，并且还能同时追踪多只手，可识别遮挡。该手势识别技术可形成对基础手语的理解，以及对手势操控的支持，还可用于AR。谷歌采用了一个由3个模型组成的框架，包括：手部识别模型BlazePalm(用于识别手的整体框架和方向)、标志模型(识别立体手部节点)、手势识别模型(将识别到的节点分类成一系列手势)。其中BlazePalm可为标志模型提供准确剪裁的手部图像，这大大降低了对旋转、转化和缩放等数据增强方式的依赖，让算法将更多计算能力用在提高预测准确性上。

图6是本申请实施例提供的MediaPipe示例的模型示意图，参见图6，图6由两个子图组成，一个用于手部检测，一个用于手部骨骼关键点(标志点)计算。其中，手部探测器仅在必要时运行，也即通过从当前帧中计算手部关键点推断后续视频帧中的手部位置来实现这一点，从而不必在每个帧上都运行手掌检测器，从而节省了大量的计算时间。为了得到稳定结果，手部探测器模型会输出一个额外的标量，用于表示手是否存在于输入图像中并姿态合理的置信度，只有当置信度低于某个阈值时，手部探测器模型才会重新检测整个帧。

在一些实施例中，终端接收到主播在直播过程中触发的内容展示指令之后，还可以对主播在直播过程中的手势进行监测；当监测结果表征主播的手势不为目标手势时，取消展示主播的直播内容。

在实际实施时，终端仅在监测到主播的手势，且该手势为目标手势的时候才展示主播的直播内容；当检测不到主播的手势或者主播的手势为其它手势的时候，取消展示主播的直播内容。

需要说明的是，终端对直播过程中的手势进行监测是持续性的，也即在直播过程中会一直监测主播的手势。

在一些实施例中，终端可以通过以下方式接收到主播在直播过程中触发的内容展示指令：在主播端的直播界面中，呈现内容展示功能项；接收到基于内容展示功能项触发的内容展示指令。

在实际实施时，终端可以通过内容展示功能项触发内容展示指令，也即设置一个用于触发内容展示指令的内容展示功能项，当终端接收到针对内容展示功能项的触发操作时，会接收到内容展示指令。

例如，图7是本申请实施例提供的直播界面的示意图，参见图7，在直播界面中呈现有内容展示功能项701，当用户点击内容展示功能项，终端接收到内容展示指令。

在一些实施例中，终端可以通过以下方式接收到主播在直播过程中触发的内容展示指令：对主播在直播的过程中的直播语句进行监测；当监测结果表征直播语句中，包括用于指示展示直播内容的词句时，接收到基于直播语句触发的内容展示指令。

这里，主播可以通过语音触发内容展示指令，也即预先设定用于指示展示直播内容的词语或句子，例如，可以将用于指示展示直播内容的词语或句子设定为“语音识别”、“我想识别直播语句”等。

在实际实施时，在主播直播的过程中，终端通过音频数据采集设备(如麦克风)实时采集主播的语音内容，并对语音内容进行语音识别，以得到语音内容所对应的文字内容，进而通过判断文字内容中是否包括预先设置的用于指示展示直播内容的词句，来判断是否接收到基于直播语句触发的内容展示指令。

图8是本申请实施例提供的语音识别系统的架构示意图，参见图8，该语音识别系统包括：声学前端(Acoustic Front-end)801、声学模型(AM，Acou stic Modle)802、解码器(Decoder)803、语言模型(Language Modle)804、字典805；其中，声学前端被视为声音的解码阶段，其中涉及到信号处理，将模拟信号进行数字化，并将其转换为特征向量序列；AM用于表示要识别的语音单位的声学特征，它通常是指为从语音波形计算出的特征向量序列建立统计表示的过程，AM会对语音识别系统的性能产生巨大的影响；LM代表一种语言的语法，该语法定义了可以在上下文中出现的可接受的单词或短语序列；解码器通过声学前端、AM和LM，将输入的语音特征适量序列转化为字符序列。

步骤402：响应于内容展示指令，在直播界面中，实时展示主播的直播内容。

其中，直播内容，基于对主播的直播语句进行语音识别得到。在实际实施时，终端会实时获取主播的直播语句，并实时地对获取到的直播语句进行识别，以得到主播的直播内容。

在实际应用中，对直播语句进行语音识别，得到对应直播语句的文本后，可以直接将文本作为直播内容；可以是获取与该文本相匹配的图像，将该图像信息作为直播内容；也可以是获取与该文本相匹配的商品信息(如图像信息、品牌信息、价格信息等)，将相匹配的商品信息作为直播内容，进行实时展示。

需要说明的是，在主播端的直播界面中，实时展示主播的直播内容的同时，会在观众端的直播界面中，也实时展示主播的直播内容。

在一些实施例中，终端可以通过以下方式展示主播的直播内容：在直播界面中，伴随对主播的直播语句的语音识别过程，通过文本展示方式，同步展示主播的直播内容。

在实际实施时，终端可以对主播所说的每一个字进行监测，并对监测到的每一个字进行语音识别，伴随对主播的直播语句的语音识别过程，同步展示识别得到的文本内容。也就是说，终端不是识别到完整的直播内容后在展示主播的直播内容，而是实时展示的。如此，主播可以即时获取到语音识别到的部分内容，同时获知到语音识别的进度。

例如，图9是本申请实施例提供的主播端的直播界面示意图，参见图9，在直播界面中实时展示语音识别的过程，即在主播端展示“识别内容：前50名…”，其中的“…”表示还未识别完，在对后面的内容进行语音识别。

在识别的过程中，主播端会将语音识别得到的文字内容同步至观众端，以使观众端能够与主播端同步展示相应的直播内容。

图10是本申请实施例提供的观众端的直播界面示意图，参见图10，在主播端直播界面中实时展示语音识别的过程的同时，在观众端的直播界面中展示与主播端相对应的内容，如在主播端展示“识别内容：前50名…”，在观众端展示“主播说：前50名…”。

在一些实施例中，终端还可以通过图像展示方式展示主播的直播内容：对主播的直播语句进行语音识别，得到语音识别结果，向服务器请求数据，以联动大数据，来获取语音识别结果所对应的图像，将该图像作为直播内容进行展示。

在实际实施时，终端得到语音识别结果之后，可以将语音识别得到的文字内容与大数据中的图像标签进行匹配，以将匹配度最高的图像作为直播内容进行展示。这里，可以对得到文字内容进行关键词提取后，再将关键词与图像标签进行匹配，其中关键词可以为文字内容中的命名实体，如地名、机构名、人名、商品名等；也可以是文字内容中重复出现的部分等。

例如，图11是本申请实施例提供的直播界面的示意图，参见图11，当文字内容为“今日火锅特价”，那么可以在直播界面中呈现火锅对应的图像1101。

在一些实施例中，当主播正在对某商品进行介绍时，终端可以对主播的直播语句进行语音识别，得到对应主播的直播语句所对应的文本，根据得到的文本确定相应的商品，并获取该商品的商品信息，在直播界面中实时展示该商品的商品信息。这里的商品信息可以是预先存储的，也可以是从服务器获取的。

例如，图12是本发明实施例提供的直播界面的示意图，参见图12，当识别到的文本是针对XX品牌XXX针织衫的介绍时，在直播界面中展示XX品牌XXX针织衫所对应的商品信息1201(包括图像信息、品牌信息及价格信息)。

在一些实施例中，终端可以通过以下方式实时展示主播的直播内容：在直播界面中的评论区域内，以评论的形式实时展示主播的直播内容。

在实际实施时，终端可以将主播的直播内容作为主播所发表的一条评论，在评论区域内展示该直播内容。例如，图13是本申请实施例提供的直播界面的示意图，参加图13，在评论区域1301内，呈现主播头像及对应直播内容的评论1302“前五十名用户打5折”。

在一些实施例中，终端可以通过以下方式展示主播的直播内容：在直播界面中，以系统通知的形式实时展示主播的直播内容，以使直播内容悬浮呈现于直播界面之上。

在实际实施时，终端可以将主播的直播内容作为一个系统通知进行下发，并在直播界面中呈现该系统通知，其中，该系统同时以悬浮的方式呈现。

例如，图14是本申请实施例提供的直播界面的示意图，参见图14，在直播界面中，以系统通知的方式呈现直播内容1401。

在一些实施例中，终端可以通过以下方式展示主播的直播内容：获取直播内容中出现次数达到次数阈值的关键内容；在直播界面中，以区别于其它直播内容的方式，展示关键内容。

在实际实施时，可以预设次数阈值(如三次)，当直播内容中有部分内容出现的次数达到了次数阈值，说明该内容是主播反复强调的，那么可以将该内容作为关键内容，以区别于其他直播内容的方式进行展示，以突出显示该内容。例如，可以加粗该关键内容所对应的文字，也可以采用放大显示该关键内容所对应的文字。

例如，图15是本申请实施例提供的直播界面的示意图，参见图15，当主播的直播内容1501为“现在购买打五折，打五折，打五折”，那么，对“打五折”进行放大显示。

在一些实施例中，实时展示主播的直播内容之前，终端还可以在直播界面中呈现提示信息，提示信息，用于指示对主播的直播语句进行语音识别所对应的进度或状态。

在实际实施时，在终端对主播的直播语句进行语音识别的过程中，可以呈现用于指示语音识别所对应的状态的提示信息，如呈现“语音识别中…”、“语音识别完成”等；或者，也可以呈现用于指示语音识别所对应的进度的提示信息，如呈现“语音识别完成30％”。

例如，图16是本申请实施例提供的主播端直播界面的示意图，参见图16，在主播端的直播界面中呈现“语音识别中”的提示信息1601，以告知主播正在对其所说的话进行语音识别。

这里，直播端会将对主播的直播语句进行语音识别所对应的进度或状态，同步至观众端，以使观众端也能够呈现对主播的直播语句进行语音识别所对应的进度或状态。

这里，图17是本申请实施例提供的观众端的直播界面示意图，参见图17，在观众端的直播界面中呈现“主播语音识别中”的提示信息1701，以告知观众接下来会对直播所说的话进行语音识别，也提示观众接下来的内容很重要，使用户具有期待感。

这里，当主播需要传达需要观众准确获知的内容时，可以在摄像头前摆出目标手势，并一直持续摆着手势，以使终端对主播的直播语句进行语音识别，并展示相应的直播内容；当所要传达的内容传达完成，就放下目标手势，以使终端监测到主播的手势不为目标手势，取消展示主播的直播内容。

在一些实施例中，接收到主播在直播过程中触发的内容展示指令之后，终端还可以对主播在直播过程中的直播图像进行手势识别，得到手势识别结果；当手势识别结果表征主播的手势为取消展示手势时，取消展示主播的直播内容；其中，取消展示手势，用于指示取消展示主播的直播内容。

在实际实施时，可以设定一个取消展示手势，以指示取消展示主播的直播内容，这里，当内容展示指令是由手势触发时，取消展示手势应该与触发内容展示指令的目标手势不同；当内容展示指令是由其他方式触发时，取消展示手势可以为任意手势。

在一些实施例中，终端还可以响应于接收到的取消展示指令，取消展示主播的直播内容，并在直播界面中展示以下至少之一：语音识别得到的完整直播内容、用于指示语音识别已完成的提示信息。

在实际实施时，取消展示指令可以由手势触发，可以由相应的功能按键触发，可以由语音触发，也可以由其它方式触发。这里，在接收到取消展示指令之后，可以展示在接收到内容展示指令、至接收到取消展示指令之间的时间段内，基于语音识别得到的全部直播内容；或者，也可以展示用于指示语音识别已完成的提示信息；或者，也可以同时展示完整直播内容和用于指示语音识别已完成的提示信息。

例如，图18是本申请实施例提供的直播界面示意图，参见图18，在直播界面中展示语音识别得到的完整文本1801，即在主播端展示“识别内容：前50名用户打5折”，同时呈现“语音识别已完成”的提示信息1802。

这里，在终端接收到取消展示指令后，会发送信息至观众端，以告知观众端取消展示指令，并在直播界面中展示以下至少之一：语音识别得到的完整直播内容、用于指示语音识别已完成的提示信息。

例如，图19是本申请实施例提供的直播界面示意图，参见图19，在直播界面中展示语音识别得到的完整文本1901，即在观众端展示“主播说：前50名用户打5折”，同时呈现“语音识别完成”的提示信息1902。

本申请，通过接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容；其中，所述直播内容，通过对所述主播的直播语句进行语音识别得到；由于能够对主播的直播语句进行语音识别得到直播内容，再进行展示，如此，能够让观众准确快速地获知到主播所要传达的内容，提升主播及观众在直播过程中的体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

图20是本申请实施例提供的基于直播的内容展示方法的流程示意图，参见图20，本申请实施例提供的基于直播的内容展示方法包括：

步骤2001：主播端将通过摄像头拍摄的直播图像实时传输至服务器。

这里，主播在直播过程中，实时通过摄像头拍摄直播图像，并将拍摄到的直播图像传输给服务器。当主播需要传达需要观众准确获知的内容时，可以在摄像头前摆出目标手势，以得到包含目标手势的直播图像，并传输给服务器。

步骤2002：服务器对当前接收到的直播图像进行手势识别，得到手势识别结果。

步骤2003：判断手势识别结果是否表征当前直播图像中包含目标手势，若是，执行步骤2004，否则，返回步骤2002。

这里，目标手势用于触发语音识别功能。在实际实施时，目标手势是预先设定的，可以为任意手势。例如，可以将举起OK的手势设定为目标手势，那么，当判断直播图像中包含目标手势时，则触发语音识别功能。

通过目标手势来触发语音识别功能，由于目标手势会被拍摄下来以直播画面的形式呈现给观众，能够提示观众，主播接下来说的内容会被转化为文本进行呈现。另外，这里可以将目标手势设置为双手实现的手势，如此，能够降低主播在直播过程中，误触发的情况，降低了误操作的风险。

在实际实施时，服务器需要先判断直播图像中是否包括手势(手部)，在直播图像中包括手势时，再将该手势与目标手势进行匹配，以判断该手势是否为目标手势。

这里对手势识别进行详细说明。手势识别具有感知手的形状和动作的能力，它可以构成手语理解和手势控制的基础，并且还可以在增强现实中将数字内容和信息覆盖在物理世界之上。

参见图6，图6由两个子图组成，一个用于手部检测，一个用于手部骨骼关键点(标志点)计算。其中，手部探测器仅在必要时运行，也即通过从当前帧中计算手部关键点推断后续视频帧中的手部位置来实现这一点，从而不必在每个帧上都运行手掌检测器，从而节省了大量的计算时间。为了得到稳定结果，手部探测器模型会输出一个额外的标量，用于表示手是否存在于输入图像中并姿态合理的置信度，只有当置信度低于某个阈值时，手部探测器模型才会重新检测整个帧。

在实际实施时，当服务器通过手势识别，确定当前直播图像中包括目标手势，会在发送提示信息至主播端及观众端，以在主播端及观众端中呈现该提示信息，告知主播手势已识别成功，正在进行语音识别；同时告知观众，正在对主播所说的话进行语音识别。

例如，参见图16，在主播端的直播界面中呈现“手势识别成功”、“语音识别中”的提示信息；参见图17，在观众端的直播界面中呈现“主播语音识别中”的提示信息。

步骤2004：服务器对主播的直播语音进行语音识别，得到直播语音所对应的文本。

这里，当主播开始说话时，服务器会监测主播所说出的每一个字，并对监测到的每一个字进行语音识别。随着语音识别的进行，同步将语音识别得到的文本发送至主播端及观众端。也就是说，并不是识别到完整的内容再进行发送，而是实时发送的。

这里对语音识别进行说明。当用户通过某种终端设备经过语音输入后，系统会进行特征提取，将提取的特征值放进模型库里，再不断地进行训练和匹配，最终解码得到结果。

参见图8，该语音识别系统包括：声学前端(Acoustic Front-end)801、声学模型(AM，Acoustic Modle)802、解码器(Decoder)803、语言模型(Lan guage Modle)804、字典805；其中，声学前端被视为声音的解码阶段，其中涉及到信号处理，将模拟信号进行数字化，并将其转换为特征向量序列；AM用于表示要识别的语音单位的声学特征，它通常是指为从语音波形计算出的特征向量序列建立统计表示的过程，AM会对语音识别系统的性能产生巨大的影响；LM代表一种语言的语法，该语法定义了可以在上下文中出现的可接受的单词或短语序列；解码器通过声学前端、AM和LM，将输入的语音特征适量序列转化为字符序列。

步骤2005：将得到的文本发送至主播端及观众端。

步骤2006a：主播端在直播界面中展示得到的文本。

步骤2006b：观众端在直播界面中展示得到的文本。

这里，随着语音识别的进行，在主播端及观众端的直播界面中，同步展示识别得到的文本，如此，主播及观众可以即时获取到语音识别到的部分内容，同时获知到语音识别的进度。例如，参见图9及图10，在主播端及观众端的直播界面中实时展示语音识别的过程，即在主播端展示“识别内容：前50名…”，在观众端展示“主播说：前50名…”，其中的“…”表示还未识别完，在对后面的内容进行语音识别。

步骤2007：主播端将通过摄像头拍摄的直播图像实时传输至服务器。

步骤2008：对当前接收到的直播图像进行手势识别，得到手势识别结果

步骤2009：服务器通过手势识别，判断直播图像中是否包含目标手势，若包含，重复执行步骤2004至步骤2008；否则，执行步骤2010。

这里，在进行语音识别的过程中，会不断对获取的直播图像进行手势识别，当直播图像中不包含目标手势时，就会关闭语音识别功能。

在实际实施时，当主播说完需要识别的内容后，可以放下目标手势，如此，拍摄到的直播图像中就不会包含目标手势，当服务器识别到当前直播图像中不包含目标手势，就会取消对主播的直播语音进行语音识别。

需要说明的是，取消对主播的直播语音进行语音识别后，服务器会向主播端及观众端发送提示信息，以告知主播及观众，语音识别已完成。

步骤2010：取消对主播的直播语音进行语音识别。

步骤2011a：主播端在直播界面中展示语音识别得到的完整文本。

步骤2011b：观众端在直播界面中展示语音识别得到的完整文本。

这里，主播端及观众端在直播界面中展示在语音识别功能开启的时间段内，语音识别得到的完整文本。例如，参见图18及图19，在主播端及观众端的直播界面中展示语音识别得到的完整文本，即在主播端展示“识别内容：前50名用户打5折”；在观众端展示“主播说：前50名用户打5折”；这里，还会展示服务器发送的提示信息，即“语音识别已完成”。

在实际实施时，该完整文本可以在直播界面中展示一段时间，然后自动取消展示。例如，可以在直播界面中展示十秒该完整文本，十秒后，取消展示。如此，观众能够有充分的时间获取该完整文本所对应的信息。

本申请核心是解决直播过程中(包括并不限于电商直播场景)，主播无法快速告知用户核心产品内容(或主播当前需要通过文字的方式告知的关键内容)的问题，所进行的发明创新。在直播中，主播通过摆出手势，系统通过对主播摆出的手势进行识别，若该手势是触发语音识别功能的目标手势，则开启语音识别功能，将此刻主播的直播语音转化为文本，并在观众端的直播界面中展示该文本，以实时展示主播当前所说的内容。

通过本申请实施例，能够大幅提升内容的传达效率，让观众快速得知主播希望传达的内容，主播可以快速传达自己想要告知用户的内容，提升直播过程中内容传达的效率及准确率，以为用户提供更加优质的直播体验。

下面继续说明本申请实施例提供的基于直播的内容展示装置455的实施为软件模块的示例性结构，图21是本申请实施例提供的基于直播的内容展示装置的组成结构示意图，参见图21，基于直播的内容展示装置455的软件模块可以包括：

接收模块4551，用于接收到主播在直播过程中触发的内容展示指令，所述内容展示指令用于指示展示所述主播的直播内容；

展示模块4552，用于响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容。

在一些实施例中，所述接收模块，还用于对所述主播在直播过程中的直播图像进行手势识别，得到手势识别结果；

当所述手势识别结果表征所述主播的手势为目标手势时，接收到基于所述目标手势触发的所述内容展示指令。

在一些实施例中，所述接收模块4551，还用于对所述主播在直播过程中的手势进行监测；

在一些实施例中，所述接收模块4551，还用于在主播端的直播界面中，呈现内容展示功能项；

接收到基于所述内容展示功能项触发的所述内容展示指令。

在一些实施例中，所述接收模块4551，还用于对所述主播在直播的过程中的直播语句进行监测；

在一些实施例中，所述展示模块4552，还用于在直播界面中，伴随对主播的直播语句的语音识别过程，通过文本展示方式，同步展示所述主播的直播内容。

在一些实施例中，所述展示模块4552，还用于在直播界面中的评论区域内，以评论的形式实时展示所述主播的直播内容。

在一些实施例中，所述展示模块4552，还用于在直播界面中，以系统通知的形式实时展示所述主播的直播内容，以使所述直播内容悬浮呈现于所述直播界面之上。

在一些实施例中，所述展示模块4552，还用于获取所述直播内容中出现次数达到次数阈值的关键内容；

在一些实施例中，所述展示模块4552，还用于在所述直播界面中呈现提示信息，所述提示信息，用于指示对所述主播的直播语句进行语音识别所对应的进度或状态。

在一些实施例中，所述展示模块4552，还用于对所述主播在直播过程中的直播图像进行手势识别，得到手势识别结果；

在一些实施例中，所述展示模块4552，还用于响应于接收到的取消展示指令，取消展示所述主播的直播内容，并在所述直播界面中展示以下至少之一：

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于直播的内容展示方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述接收到主播在直播过程中触发的内容展示指令，包括：

对所述主播在直播过程中的直播图像进行手势识别，得到手势识别结果；

3.如权利要求2所述的方法，其特征在于，所述接收到主播在直播过程中触发的内容展示指令之后，所述方法还包括：

对所述主播在直播过程中的手势进行监测；

4.如权利要求1所述的方法，其特征在于，所述接收到主播在直播过程中触发的内容展示指令，包括：

在主播端的直播界面中，呈现内容展示功能项；

接收到基于所述内容展示功能项触发的所述内容展示指令。

5.如权利要求1所述的方法，其特征在于，所述接收到主播在直播过程中触发的内容展示指令，包括：

对所述主播在直播的过程中的直播语句进行监测；

6.如权利要求1所述的方法，其特征在于，所述在直播界面中，实时展示所述主播的直播内容，包括：

在直播界面中，伴随对主播的直播语句的语音识别过程，通过文本展示方式，同步展示所述主播的直播内容。

7.如权利要求1所述的方法，其特征在于，所述在直播界面中，实时展示所述主播的直播内容，包括：

在直播界面中的评论区域内，以评论的形式实时展示所述主播的直播内容。

8.如权利要求1所述的方法，其特征在于，所述在直播界面中，实时展示所述主播的直播内容，包括：

在直播界面中，以系统通知的形式实时展示所述主播的直播内容，以使所述直播内容悬浮呈现于所述直播界面之上。

9.如权利要求1所述的方法，其特征在于，所述在直播界面中，实时展示所述主播的直播内容，包括：

获取所述直播内容中出现次数达到次数阈值的关键内容；

10.如权利要求1所述的方法，其特征在于，所述实时展示所述主播的直播内容之前，所述方法还包括：

在所述直播界面中呈现提示信息，所述提示信息，用于指示对所述主播的直播语句进行语音识别所对应的进度或状态。

11.如权利要求1所述的方法，其特征在于，所述接收到主播在直播过程中触发的内容展示指令之后，所述方法还包括：

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

响应于接收到的取消展示指令，取消展示所述主播的直播内容，并在所述直播界面中展示以下至少之一：

13.一种基于直播的内容展示装置，其特征在于，所述装置包括：

展示模块，用于响应于所述内容展示指令，在直播界面中，实时展示所述主播的直播内容；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于直播的内容展示方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于直播的内容展示方法。