CN110460872A

CN110460872A - 视频直播的信息显示方法、装置、设备和存储介质

Info

Publication number: CN110460872A
Application number: CN201910837961.0A
Authority: CN
Inventors: 陈春勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-11-15
Anticipated expiration: 2039-09-05
Also published as: CN110460872B

Abstract

本申请提供了一种视频直播的信息显示方法、装置、设备和存储介质，涉及直播技术领域。所述方法包括：显示直播界面；在直播界面中播放主播用户的直播视频；在播放直播视频的过程中，显示与第一语音数据对应的文本内容，第一语音数据是指所述主播用户发出的重复次数大于预设次数的语音数据。相比于相关技术中，主播客户端会通过服务器向观众客户端发送大量重复的语音数据，本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

Description

视频直播的信息显示方法、装置、设备和存储介质

技术领域

本申请实施例涉及直播技术领域，特别涉及一种视频直播的信息显示方法、装置、设备和存储介质。

背景技术

目前，用于直播的应用程序在直播过程中，主播可以向观众介绍商品，使观众了解商品的一些信息，以激发观众购买商品的欲望。

在相关技术中，主播用户为了引起观众的注意，经常多次重复同一句话。例如在电商直播间中，直播用户为了引起观众的注意，往往会重复描述一些内容，如：“抽奖将在20:20进行，喜欢的宝宝点个关注，扫码加群抽奖”；特别是在推销商品的时候，往往会反复说“原价998，现在只要99元”。

在上述相关技术中，由于主播客户端会通过服务器向观众客户端发送大量重复的语音数据，导致服务器处理开销较大，浪费较多网络资源。

发明内容

本申请实施例提供了一种视频直播的信息显示方法、装置、设备和存储介质，可用于解决相关技术中，服务器处理开销较大，浪费较多网络资源的问题。所述技术方案如下：

一方面，本申请实施例提供了一种视频直播的信息显示方法，所述方法包括：

显示直播界面；

在所述直播界面中播放主播用户的直播视频；

在播放所述直播视频的过程中，显示与第一语音数据对应的文本内容，所述第一语音数据是指所述主播用户发出的重复次数大于预设次数的语音数据。

另一方面，本申请实施例提供了一种视频直播的信息显示方法，所述方法包括：

接收主播客户端发送的第一语音数据；

检测所述第一语音数据的重复次数是否大于预设次数；

若所述第一语音数据的重复次数大于所述预设次数，则将所述第一语音数据转换为第一文本内容；

将所述第一文本内容发送给观众客户端，所述第一文本内容用于在播放所述主播客户端提供的直播视频时进行显示。

又一方面，本申请实施例提供了一种视频直播的信息显示装置，所述装置包括：

界面显示模块，用于显示直播界面；

视频播放模块，用于在所述直播界面中播放主播用户的直播视频；

内容显示模块，用于在播放所述直播视频的过程中，显示与第一语音数据对应的文本内容，所述第一语音数据是指所述主播用户发出的重复次数大于预设次数的语音数据。

还一方面，本申请实施例提供了一种视频直播的信息显示装置，所述装置包括：

数据接收模块，用于接收主播客户端发送的第一语音数据；

次数检测模块，用于检测所述第一语音数据的重复次数是否大于预设次数；

内容转换模块，用于当所述第一语音数据的重复次数大于所述预设次数时，将所述第一语音数据转换为第一文本内容；

内容发送模块，用于将所述第一文本内容发送给观众客户端，所述第一文本内容用于在播放所述主播客户端提供的直播视频时进行显示。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频直播的信息显示方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频直播的信息显示方法。

还一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行时，用于实现上述视频直播的信息显示方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过将主播用户发出的重复次数大于预设次数的语音数据，以文本内容的形式显示在观众客户端的直播界面中。相比于相关技术中，主播客户端会通过服务器向观众客户端发送大量重复的语音数据，本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的视频直播的信息显示方法的流程图；

图3示例性示出了本申请的一种直播界面的示意图；

图4示例性示出了本申请的另一种直播界面的示意图；

图5示例性示出了本申请的又一种直播界面的示意图；

图6是本申请另一个实施例提供的视频直播的信息显示方法的流程图；

图7示例性示出了本申请的又一种直播界面的示意图；

图8是本申请又一个实施例提供的视频直播的信息显示方法的流程图；

图9是本申请又一个实施例提供的视频直播的信息显示方法的流程图；

图10示例性示出了本申请中一种语音数据分帧的示意图；

图11是本申请一个实施例提供的视频直播的信息显示装置的框图；

图12是本申请另一个实施例提供的视频直播的信息显示装置的框图；

图13是本申请又一个实施例提供的视频直播的信息显示装置的框图；

图14是本申请又一个实施例提供的视频直播的信息显示装置的框图；

图15是本申请一个实施例提供的终端的结构框图；

图16是本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括：主播终端10、观众终端20和服务器30。

上述主播终端10中安装运行有主播客户端，观众终端20中安装运行有观众客户端。

上述主播客户端是具有视频采集能力的客户端，用于主播在直播间中录制直播视频，并将直播视频发送至服务器30。上述观众客户端是具有视频播放能力的客户端，用于播放主播在直播间中录制的直播视频。该观众客户端可以为社交类应用客户端、即时通信类应用客户端、直播类应用客户端等等。

每个直播间的主播客户端只有一个，观众客户端可以有一个，也可以有m个，m为大于或等于2的整数。上述主播终端10中的主播客户端与观众终端20中的观众客户端属于同一个直播间。

主播终端10和观众终端20可以是诸如手机、平板电脑、PC(Personal Computer，个人计算机)、MP3播放器(Moving Picture Experts Group Audio LayerⅢ，动态影像专家压缩标准音频层面3)、MP4播放器(Moving Picture Experts Group Audio LayerⅣ，动态影像专家压缩标准音频层面4)等电子设备。

服务器30可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。服务器30可以通过有线或者无线网络分别与主播终端10和观众终端20进行通信，用于对各个终端之间的信息进行处理和中转。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的视频直播的信息显示方法的流程图。在本实施例中，主要以该方法应用于图1所示实施环境的观众终端中运行的观众客户端中来举例说明。该方法可以包括如下几个步骤：

步骤201，显示直播界面。

上述直播界面是指显示在观众客户端中的直播界面。该观众客户端可以为社交类应用客户端、即时通信类应用客户端、直播类应用客户端等等。

步骤202，在直播界面中播放主播用户的直播视频。

观众可以在该直播界面中看到播放的主播用户的直播视频。主播用户是指在主播终端的主播客户端中进行视频直播录制的用户。观众用户是指观看主播录制的直播视频的用户。

步骤203，在播放直播视频的过程中，显示与第一语音数据对应的文本内容。

上述第一语音数据是指主播用户发出的重复次数大于预设次数的语音数据。上述预设次数可以根据用户需求进行设定，例如，预设次数为3次，也就是说，当主播用户发出的某一语音数据重复次数大于3次，则将该语音数据对应的文本内容显示在直播界面上。

上述与第一语音数据对应的文本内容是指该第一语音数据包含的内容的文本。例如，第一语音数据为“请大家点个赞”，则该第一语音数据对应的文本内容即为文字“请大家点个赞”。

需要说明的一点是，上述第一语音数据对应的文本内容可以显示在直播界面的右上角，也可以显示在直播界面的左上角，还可以显示在直播界面的右下角等等。本申请实施例对文本内容在直播界面中的显示位置不作限定。

示例性地，如图3所示，其示例性示出了一种直播界面的示意图。如图3中(a)部分，在刚开始播放直播视频的过程中，观众客户端中的直播界面30中显示有主播用户31、评论输入框32、视频分享控件33。其中，评论输入框32用于指示用户输入对于直播视频的评论；视频分享控件33是用于将直播视频分享给其它用户的控件。如图3中(b)部分，当检测到主播用户发出第一语音数据，如“关注加群，扫码抽奖”的重复次数大于预设次数(如3次)时，在直播界面中显示该第一语音数据对应的文本内容34。

可选地，上述显示与第一语音数据对应的文本内容，包括：在直播界面的上层显示浮动窗口，该浮动窗口中包含上述文本内容。

在一个示例中，上述浮动窗口与直播界面同一窗口层级，且该浮动窗口显示于直播界面的上层。

在另一个示例中，上述浮动窗口与直播界面属于同一视图层级，且该从浮动窗口显示于直播界面的上层。

可选地，上述文本内容的显示时长为预设时长。该预设时长可以是由服务器自动设定，也可以是由主播用户自行设定，本申请实施例对比不作限定。

可选地，在显示第一语音数据对应的文本内容之后，还可以执行以下步骤：

(1)接收对应于文本内容的第一触控操作信号。

(2)根据第一触控操作信号，调整文本内容的显示位置。

上述第一触控操作信号可以是长按操作。用户可以长按文本内容，相应地，观众客户端接收对应于该文本内容的长按操作信号，并根据该长按操作信号，调整文本内容在直播界面中的显示位置。

示例性地，如图4所示，其示例性示出了另一种直播界面的示意图。如图4中(a)部分，文本内容34刚开始显示与直播界面34的右上角，观众用户可以长按该文本内容34进行拖动，如图4中(b)部分，虚线为拖动轨迹，最终将该文本内容34拖动至直播界面的中间区域进行显示。

(1)接收对应于文本内容的第二触控操作信号。

(2)根据第二触控操作信号，删除文本内容。

上述第二触控操作可以是拖动操作，也可以是长按操作，也可以是点击操作，还可以是上述操作的组合操作。

示例性地，该第二触控操作可以是长按操作和拖动操作的组合。观众用户可以长按文本内容，相应地，观众客户端接收对应于该文本内容的长按操作信号，之后，将文本内容拖动至预设删除位置，相应地，观众客户端在检测到文本内容处于预设删除位置时，删除该文本内容。

示例性地，如图5所示，其示例性示出了又一种直播界面的示意图。如图5中(a)部分，文本内容34刚开始显示与直播界面34的右上角，用户可以长按该文本内容34进行拖动，如图5中(b)部分，当文本内容34拖动至预设删除位置35时，删除该文本内容。

示例性地，该第二触控操作也可以是长按操作和点击操作的组合，观众用户可以长按文本内容，相应地，观众客户端接收对应于该文本内容的长按操作信号，之后，在文本内容的右上角显示删除控件，观众用户可以点击该删除控件，相应地，观众客户端在接收对应于该删除控件的触发信号之后，删除该文本内容。

综上所述，本申请实施例提供的技术方案，通过将主播用户发出的重复次数大于预设次数的语音数据，以文本内容的形式显示在观众客户端的直播界面中。相比于相关技术中，主播客户端会通过服务器向观众客户端发送大量重复的语音数据，本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

另外，通过将重复多次的语音数据以文本形式显示，一方面，可以使晚进入直播间的观众也能获知主播用户之前强调的内容，另一方面，避免了多次重复导致的厌烦心理，提高观众体验感。

请参考图6，其示出了本申请另一个实施例提供的视频直播的信息显示方法的流程图。在本实施例中，主要以该方法应用于图1所示实施环境的主播终端中运行的主播客户端中来举例说明。该方法可以包括如下几个步骤：

步骤601，显示直播界面。

上述直播界面是指显示在主播客户端中的直播界面。该主播客户端可以为社交类应用客户端、即时通信类应用客户端、直播类应用客户端等等。

步骤602，在直播界面中播放主播用户的直播视频。

主播用户可以在直播界面中进行直播视频录制，直播客户端采集主播用户录入的语音数据和图像数据，并将采集到的语音数据和图像数据发送给服务器，通过服务器将直播视频发送给与主播客户端属于同一直播间的观众客户端。主播用户是指在主播终端的主播客户端中进行视频直播录制的用户。观众用户是指观看主播录制的直播视频的用户。

步骤603，在播放直播视频的过程中，显示与第一语音数据对应的文本内容。

示例性地，如图3所示，其示例性示出了一种直播界面的示意图。如图3中(a)部分，在刚开始播放直播视频的过程中，直播客户端中的直播界面30中显示有主播用户31、评论输入框32、视频分享控件33。其中，评论输入框32用于指示用户输入对于直播视频的评论；视频分享控件33是用于将直播视频分享给其它用户的控件。如图3中(b)部分，当检测到主播用户发出第一语音数据，如“关注加群，扫码抽奖”的重复次数大于预设次数(如3次)时，在直播界面中显示该第一语音数据对应的文本内容34。

(1)接收对应于文本内容的第一触控操作信号。

(2)根据第一触控操作信号，调整文本内容的显示位置。

上述第一触控操作信号可以是长按操作。主播用户可以长按文本内容，相应地，主播客户端接收对应于该文本内容的长按操作信号，并根据该长按操作信号，调整文本内容在直播界面中的显示位置。

示例性地，如图4所示，其示例性示出了另一种直播界面的示意图。如图4中(a)部分，文本内容34刚开始显示与直播界面34的右上角，主播用户可以长按该文本内容34进行拖动，如图4中(b)部分，虚线为拖动轨迹，最终将该文本内容34拖动至直播界面的中间区域进行显示。

(1)接收对应于文本内容的第二触控操作信号。

(2)根据第二触控操作信号，删除文本内容。

示例性地，该第二触控操作可以是长按操作和拖动操作的组合。主播用户可以长按文本内容，相应地，主播客户端接收对应于该文本内容的长按操作信号，之后，将文本内容拖动至预设删除位置，相应地，观众客户端在检测到文本内容处于预设删除位置时，删除该文本内容。

示例性地，如图5所示，其示例性示出了又一种直播界面的示意图。如图5中(a)部分，文本内容34刚开始显示与直播界面34的右上角，主播用户可以长按该文本内容34进行拖动，如图5中(b)部分，当文本内容34拖动至预设删除位置35时，删除该文本内容。

示例性地，该第二触控操作也可以是长按操作和点击操作的组合，主播用户可以长按文本内容，相应地，主播客户端接收对应于该文本内容的长按操作信号，之后，在文本内容的右上角显示删除控件，主播用户可以点击该删除控件，相应地，主播客户端在接收对应于该删除控件的触发信号之后，删除该文本内容。

可选地，如图6所示，在显示第一语音数据对应的文本内容之后，还可以执行以下步骤：

步骤604，接收对应于文本内容的第三触控操作。

步骤605，根据第三触发信号，显示文本编辑界面。

步骤606，获取在文本编辑界面中输入的修改后的文本内容。

步骤607，将文本内容替换显示为修改后的文本内容。

上述第三触控操作可以是长按操作，也可以是点击操作，还可以是双击操作等等，本申请实施例对此不作限定。

主播用户可以在文本编辑界面中对已经显示的文本内容进行修改，并将当前显示的文本内容替换显示为修改后的文本内容。

示例性地，如图7所示，其示例性是出了又一种直播界面的示意图。如图7中(a)部分，当前显示的文本内容34为“关注加群，扫码抽奖”。主播用户可以点击该文本内容34，对应地，主播客户端获取到对应于该文本内容34的点击操作之后，如图7中(b)部分，显示文本编辑界面36。主播用户可以在该文本编辑界面36的编辑框37中对文本内容进行修改；在修改完成后，可以点击修改确认控件38，完成对文本内容34的修改，将文本内容34替换显示为修改后的文本内容；主播用户还可以点击修改取消控件39，取消对文本内容34的修改，当前文本内容34保持不变。

综上所述，本申请实施例提供的技术方案，主播用户发出的重复次数大于预设次数的语音数据，以文本内容的形式显示在主播客户端的直播界面中。本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

另外，主播用户可以调整文本内容的显示位置、编辑文本内容、删除文本内容，从而实现主播用户的个性化定制。

请参考图8，其示出了本申请又一个实施例提供的视频直播的信息显示方法的流程图。在本实施例中，主要以该方法应用于图1所示实施环境的服务器中来举例说明。该方法可以包括如下几个步骤：

步骤801，接收主播客户端发送的第一语音数据。

主播客户端可以采集主播用户录入的第一语音数据，并将该第一语音数据发送给服务器。对应地，服务器可以接收该主播客户端发送的第一语音数据。

可选地，主播客户端在采集到上述第一语音数据之后，可以对该第一语音数据进行预处理，并将预处理之后的第一语音数据发送给服务器。关于预处理的介绍，请参考下文图9实施例，此处不再赘述。

步骤802，检测第一语音数据的重复次数是否大于预设次数。

服务器可以检测主播用户重复该第一语音数据的次数，并判断该第一语音数据的重复次数是否大于预设次数。

可选地，上述预设次数可以是服务器蛇形的，也可以是主播用户在主播客户端中自行设定后发送给服务器的。本申请实施例对此不作限定。

步骤803，若第一语音数据的重复次数大于预设次数，则将第一语音数据转换为第一文本内容。

当服务器检测到第一语音数据的重复次数大于预设次数时，可以将该第一语音数据转换成第一文本内容。该第一文本内容包含第一语音数据中的内容信息。

步骤804，将第一文本内容发送给观众客户端，第一文本内容用于在播放主播客户端提供的直播视频时进行显示。

服务器在得到第一文本内容之后，可以将该第一文本内容发送给观众客户端，以便观众客户端端在播放主播客户端提供的直播视频时显示该第一文本内容。

可选地，服务器在将第一文本内容发送给观众客户端的同时，还将第一文本内容在观众客户端的直播界面中的显示位置信息发送给观众客户端，以便观众客户端根据该显示位置信息显示第一文本内容。

可选地，服务器还可以将该第一文本内容发送给主播客户端，以便主播客户端在播放直播视频的过程中，显示与该第一文本内容。

综上所述，本申请实施例提供的技术方案，在接收到主播客户端发送的语音数据后，检测该语音数据的重复次数，并在重复次数大于预设次数时，将该语音数据转换成文本内容，发送给观众客户端，以便观众客户端在播放主播客户端提供的直播视频时显示该文本内容。本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

请参考图9，其示出了本申请又一个实施例提供的视频直播的信息显示方法的流程图。在本实施例中，主要以该方法应用于图1所示实施环境的服务器中来举例说明。该方法可以包括如下几个步骤：

步骤901，接收主播客户端发送的第一语音数据。

可选地，服务器可以接收主播客户端发送的第一语音数据的音频帧。该第一语音数据的音频帧是主播客户端对第一语音数据进行预处理后得到的；其中，预处理包括：采用移动窗函数将第一语音数据切分成至少一个音频帧；去除至少一个音频帧中的静音音频帧，得到第一语音数据的音频帧。

由于在直播视频录制过程中，会录入静音部分，为了降低对后续步骤造成的干扰，可以将语音数据中的静音部分进行切除。静音期初通常也称为VAD(Voice ActivityDetection，语音活动检测)，还可以称为语音端点检测。

在进行静音切除的过程中，首先需要将第一语音数据切分成至少一个音频帧。在进行分帧是，可以采用移动窗函数来实现，该移动窗函数包括但不限于以下任意一种：矩形窗、海宁(Hanning)窗和汉明(Hamming)窗。

示例性地，如图10所示，其示例性示出了一种语音数据分帧的示意图。图中每帧的长度为25毫秒(ms)，每两帧之间有15ms的重叠，通常称为以帧长25ms、帧移10ms的分帧。每两帧之间的重叠部分是为了保证帧移后的每一帧信号都有上一帧的成分，防止两帧之间的不连续。

可选地，上述预处理还可以包括预滤波、采样和量化、加窗等等，本申请实施例对此不作限定。

另外，由于语音数据在传输过程中以语音信号进行传输，而语音信号是一种非平稳信号。通过分帧，可以将语音数据切分成较短的音频帧，而较短的音频帧的频谱特征可以保持平稳，即具有短时平稳特性。

步骤902，对第一语音数据进行特征提取，得到第一语音数据的特征向量。

由于语音数据在波形上没有描述能力，因此，可以对该第一语音数据进行特征提取，得到第一语音数据的特征向量，采用该特征向量进行描述语音数据的特征。

在一个示例中，对第一语音数据提取的特征可以是MFCC(Mel-scaled CepstralCoefficient,梅尔倒谱系数)特征。该MFCC特征根据人耳的生理特性，将语音数据转换成变成多维向量，即特征向量。上述MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。

可选地，提取MFCC特征可以包括以下步骤：服务器首先对第一语音数据进行快速傅里叶变换，得到离散功率谱；离散功率谱通过三角滤波器，对频谱进行平滑化，并消除谐波的作用；计算每个滤波器输出的对数能量，经离散余弦变换得到MFCC特征。

在一些其它实施例中，上述特征还可以是LPC(Linear Prediction Coefficient，线性预测系数)特征、LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱系数)特征。

步骤903，确定第一语音数据的特征向量与历史语音数据的特征向量之间的相似度。

在获取到第一语音数据的特征向量后，可以将该第一语音数据的特征向量与历史语音数据的特征向量进行比对，确定两者之前的相似度。

可选地，上述确定第一语音数据的特征向量与历史语音数据的特征向量之间的相似度可以采用DTW(Dynamic Time Warping)算法。

步骤904，统计相似度大于预设相似度的历史语音数据的数量。

服务器可以统计相似度大于预设相似度的历史语音数据的数量。当相思度大于预设相似度时，表征该第一语音数据域该历史语音数据包含的内容基本相同，属于语音数据的重复。

上述预设相似度可以是服务器自行设定的，例如，该预设相似度可以是98％。

步骤905，根据数量确定第一语音数据的重复次数。

在获取到相似度大于预设相似度的历史语音数据的数量，可以根据该数量确定第一语音数据的重复次数。

在一个示例中，可以在该数量的基础上增加1，即包括第一语音数据，确定为第一语音数据的重复次数。

在另一个示例中，可以直接将该数量作为第一语音数据的重复次数。

步骤906，若第一语音数据的重复次数大于预设次数，则将第一语音数据转换为第一文本内容。

此步骤与上文图8实施例中步骤803的内容相同或类似，此处不再赘述。

可选地，服务器可以调用声学模型，将上述第一语音数据的特征向量转换为第一文本内容。

上述声学模型可以是HMM(Hidden Markov Model，隐马尔可夫模型)模型，也可以是DNN(Deep Neural Networks，深度神经网络)模型，还可以是DNN-HMM模型等等。此外，上述声学模型还可以是其它模型，本申请实施例对此不作限定。

可选地，服务器还可以将该第一语音数据与语言模型库中的文本内容进行相似度匹配。语言模型库中包含直播间中展示的至少一个商品的商品文案。当第一语音数据与语言模型库中的文本内容的相似度超过相似度阈值时，可以将该语言模型库中的文本内容作为第一文本内容。

步骤907，提取第一文本内容的关键词。

在获取到上述第一文本内容之后，服务器可以提取该第一文本内容的关键词，该关键词用于表征第一文本内容的核心内容。

示例性地，假设第一文本内容为“来来来，关注加群啦，扫描二维码抽奖啦”，该第一文本内容的关键词可以包括“关注加群”“扫描抽奖”。

步骤908，从数据库中拉取关键词对应的标准文本内容。

服务器在提取到第一文本内容的关键词之后，向云数据库中拉取与上述关键词对应的标准文本内容。该标准文本内容中不包括口语化字词、重复字词。

步骤909，根据标准文本内容去除第一文本内容中的目标字词，生成简化的第一文本内容。

服务器可以将第一语音文本与标准文本进行比对，以去除第一文本中的目标字词，生成简化的第一文本内容。其中，上述目标字词包括以下至少一项：口语化字词、重复字词。

示例性地，假设第一文本内容为“来来来，关注加群啦，扫描二维码抽奖啦”，该第一文本内容的关键词可以包括“关注加群”“扫描抽奖”，获取到的标准文本内容为“关注加群，扫描抽奖”；服务器可以将第一文本内容为与标准文本内容进行比对，去除第一文本内容中的口语化字词，如“啦”，以及重复字词，如“来来来”，得到最终的简化的第一文本内容“关注加群，扫描抽奖”。

步骤910，将简化的第一文本内容发送给观众客户端，简化的第一文本内容用于在播放主播客户端提供的直播视频时进行显示。

服务器在得到简化的第一文本内容之后，可以将该简化的第一文本内容发送给观众客户端，以便观众客户端端在播放主播客户端提供的直播视频时显示该第一文本内容。

需要说明的一点是，在获取到第一文本内容之后，也可以直接将该第一文本内容发送给观众客户端，第一文本内容用于在播放主播客户端提供的直播视频时进行显示。

步骤911，在检测到主播客户端发送的第二语音数据的重复次数大于预设次数时，比对第二语音数据的展示优先级与第一语音数据的展示优先级之间的关系。

在显示上述第一文本内容的时候，服务器继续检测是否存在主播客户端发送的，重复次数大于预设次数的语音数据。在检测到主播客户端发送的第二语音数据的重复次数大于预设次数时，服务器比对第二语音数据的展示优先级与第一语音数据的展示优先级之间的关系。

可选地，上述比对第二语音数据的展示优先级与第一语音数据的展示优先级之间的关系之前，还可以执行以下步骤：

(1)根据第二语音数据的评分项目，确定第二语音数据的评分。

上述评分项目包括以下至少一项：重复次数、内容质量。其中，重复次数是指在展示第一文本内容的时长内语音数据的重复次数；重复次数越多，评分越高。内容质量用于衡量语音数据中所包含的实质内容质量，当语音数据中包含有较多的口语化字词和重复字词时，表示该语音数据的内容质量较差，评分越低。

可选地，上述第二语音数据的评分可以是多个评分项目的加权评分。

上述评分与展示优先级呈正相关关系，即评分越高，表示展示优先级越高；评分越低，表示展示优先级越低。

(2)若第二语音数据的展示优先级高于第一语音数据的展示优先级，则将第二文本内容发送给观众客户端，第二文本内容用于替换掉第一文本内容。

当检测到第二语音数据的展示优先级高于第一语音数据的展示优先级时，表示需要在观众客户端中优先显示第二文本内容，该第二文本内容是与第二语音数据对应的文本内容。

服务器可以将第二文本内容发送给观众客户端，并将第二文本内容替换掉第一文本内容，显示在直播界面上。

综上所述，本申请实施例提供的技术方案，服务器将主播用户发出的重复次数大于预设次数的语音数据转换成文本内容，并对该文本内容进行去口语化字词和重复字词，得到简化的文本内容，将简化的文本内容发送给观众客户端用于在播放所述主播客户端提供的直播视频时进行显示。本申请实施例提供的技术的方案，由于重要信息已经转换成文本内容显示在客户端，因此主播用户就不再需要将上述重要信息进行重复地口播，这样就减少了主播客户端通过服务器向观众客户端发送的语音数据的数量，从而也就节省了服务器的处理开销，还节约了网络资源。

另外，本申请实施例提供的技术的方案，通过将重复多次的语音数据以文本形式显示，一方面，可以使晚进入直播间的观众也能获知主播用户之前强调的内容，另一方面，避免了多次重复导致的厌烦心理，提高观众体验感。

另外，对文本内容进行去口语化字词和重复字词，使得最终显示的文本内容更加简洁，吸引观众注意。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的视频直播的信息显示装置的框图。该装置具有实现上述终端侧的方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端，也可以设置在终端上。该装置1100可以包括：界面显示模块1110、视频播放模块1120和内容显示模块1130。

界面显示模块1110，用于显示直播界面。

视频播放模块1120，用于在所述直播界面中播放主播用户的直播视频。

内容显示模块1130，用于在播放所述直播视频的过程中，显示与第一语音数据对应的文本内容，所述第一语音数据是指所述主播用户发出的重复次数大于预设次数的语音数据。

在一些可能的设计中，所述内容显示模块1130，用于在所述直播界面的上层显示浮动窗口，所述浮动窗口中包括所述文本内容。

在一些可能的设计中，如图12所示，所述装置1100还包括：第一信号接收模块1140和显示位置调整模块1150。

第一信号接收模块1140，用于接收对应于所述文本内容的第一触控操作信号。

显示位置调整模块1150，用于根据所述第一触控操作信号，调整所述文本内容的显示位置。

在一些可能的设计中，如图12所示，所述装置1100还包括：第二信号接收模块1160和文本内容删除模块1170。

第二信号接收模块1160，用于接收对应于所述文本内容的第二触控操作信号。

文本内容删除模块1170，用于根据所述第二触控操作信号，删除所述文本内容。

在一些可能的设计中，当所述直播界面是主播客户端显示的界面时，如图12所示，所述装置1100还包括：第三信号接收模块1180、编辑界面显示模块1190、文本内容修改模块1191和文本内容替换模块1192。

第三信号接收模块1180，用于接收对应于所述文本内容的第三触控操作。

编辑界面显示模块1190，用于根据所述第三触发信号，显示文本编辑界面。

文本内容修改模块1191，用于获取在所述文本编辑界面中输入的修改后的文本内容。

文本内容替换模块1192，用于将所述文本内容替换显示为所述修改后的文本内容。

请参考图13，其示出了本申请又一个实施例提供的视频直播的信息显示装置的框图。该装置具有实现上述服务器侧的方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的服务器，也可以设置在服务器上。该装置1300可以包括：数据接收模块1310、次数检测模块1320、内容转换模块1330和内容发送模块1340。

数据接收模块1310，用于接收主播客户端发送的第一语音数据。

次数检测模块1320，用于检测所述第一语音数据的重复次数是否大于预设次数。

内容转换模块1330，用于当所述第一语音数据的重复次数大于所述预设次数时，将所述第一语音数据转换为第一文本内容。

内容发送模块1340，用于将所述第一文本内容发送给观众客户端，所述第一文本内容用于在播放所述主播客户端提供的直播视频时进行显示。

在一些可能的设计中，如图14所示，所述装置1300还包括特征提取模块1350、相似度确定模块1360、数量统计模块1370和次数确定模块1380。

特征提取模块1350，用于对所述第一语音数据进行特征提取，得到所述第一语音数据的特征向量。

相似度确定模块1360，用于确定所述第一语音数据的特征向量与历史语音数据的特征向量之间的相似度。

数量统计模块1370，用于统计所述相似度大于预设相似度的历史语音数据的数量。

次数确定模块1380，用于根据所述数量确定所述第一语音数据的重复次数。

在一些可能的设计中，如图14所示，所述装置1300还包括关键词提取模块1390、内容拉取模块1400和字词去除模块1410。

关键词提取模块1390，用于提取所述第一文本内容的关键词。

内容拉取模块1400，用于从数据库中拉取所述关键词对应的标准文本内容。

字词去除模块1410，用于根据所述标准文本内容去除所述第一文本内容中的目标字词，生成简化的第一文本内容，所述目标字词包括以下至少一项：口语化字词、重复字词；其中，所述简化的第一文本内容用于发送给所述观众客户端进行显示。

在一些可能的设计中，如图14所示，所述装置1300还包括优先级比对模块1420。

优先级比对模块1420，用于在检测到所述主播客户端发送的第二语音数据的重复次数大于所述预设次数时，比对所述第二语音数据的展示优先级与所述第一语音数据的展示优先级之间的关系。

内容发送模块1340，用于当所述第二语音数据的展示优先级高于所述第一语音数据的展示优先级时，将第二文本内容发送给观众客户端，所述第二文本内容用于替换掉所述第一文本内容，所述第二文本内容是与所述第二语音数据对应的文本内容。

在一些可能的设计中，如图14所示，所述装置1300还包括：评分确定模块1430。

评分确定模块1430，用于根据所述第二语音数据的评分项目，确定所述第二语音数据的评分，所述评分项目包括以下至少一项：重复次数、内容质量；其中，所述评分与所述展示优先级呈正相关关系。

在一些可能的设计中，所述数据接收模块1310，用于接收所述主播客户端发送的第一语音数据的音频帧，所述第一语音数据的音频帧是所述主播客户端对所述第一语音数据进行预处理后得到的；其中，所述预处理包括：采用移动窗函数将所述第一语音数据切分成至少一个音频帧；去除所述至少一个音频帧中的静音音频帧，得到所述第一语音数据的音频帧。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图15，其示出了本申请一个实施例提供的终端的结构框图。通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的终端侧的视频直播的信息显示方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备可以包括：通信接口1504、显示屏1505、音频电路1506、摄像头组件1507、定位组件1508和电源1509中的至少一种。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图16，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的服务器的视频直播的信息显示方法。例如，该服务器可以是图1所示实施环境中的服务器30。具体来讲：

所述服务器1600包括CPU 1601、包括RAM(Random Access Memory，随机存取存储器)1602和ROM(Read Only Memory，只读存储器)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述服务器1600还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output输入/输出)系统1606，和用于存储操作系统1613、应用程序1614和其他程序模块1612的大容量存储设备1607。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，所述服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在所述系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述服务器侧的视频直播的信息显示方法。

在示例性实施例中，还提供了一种计算机设备。该计算机设备可以是终端或服务器。所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述终端侧的视频直播的信息显示方法，或者实现上述服务器侧的视频直播的信息显示方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时实现上述终端侧的视频直播的信息显示方法，或者实现上述服务器侧的视频直播的信息显示方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被处理器执行时，其用于实现上述终端侧的视频直播的信息显示方法，或者实现上述服务器侧的视频直播的信息显示方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频直播的信息显示方法，其特征在于，所述方法包括：

显示直播界面；

在所述直播界面中播放主播用户的直播视频；

2.根据权利要求1所述的方法，其特征在于，所述显示与第一语音数据对应的文本内容，包括：

在所述直播界面的上层显示浮动窗口，所述浮动窗口中包括所述文本内容。

3.根据权利要求1所述的方法，其特征在于，所述显示与第一语音数据对应的文本内容之后，还包括：

接收对应于所述文本内容的第一触控操作信号；

根据所述第一触控操作信号，调整所述文本内容的显示位置。

4.根据权利要求1所述的方法，其特征在于，所述显示与第一语音数据对应的文本内容之后，还包括：

接收对应于所述文本内容的第二触控操作信号；

根据所述第二触控操作信号，删除所述文本内容。

5.根据权利要求1所述的方法，其特征在于，当所述直播界面是主播客户端显示的界面时，所述显示与第一语音数据对应的文本内容之后，还包括：

接收对应于所述文本内容的第三触控操作；

根据所述第三触发信号，显示文本编辑界面；

获取在所述文本编辑界面中输入的修改后的文本内容；

将所述文本内容替换显示为所述修改后的文本内容。

6.一种视频直播的信息显示方法，其特征在于，所述方法包括：

接收主播客户端发送的第一语音数据；

检测所述第一语音数据的重复次数是否大于预设次数；

7.根据权利要求6所述的方法，其特征在于，所述检测所述第一语音数据的重复次数是否大于预设次数之前，还包括：

对所述第一语音数据进行特征提取，得到所述第一语音数据的特征向量；

确定所述第一语音数据的特征向量与历史语音数据的特征向量之间的相似度；

统计所述相似度大于预设相似度的历史语音数据的数量；

根据所述数量确定所述第一语音数据的重复次数。

8.根据权利要求6所述的方法，其特征在于，所述将所述第一文本内容发送给观众客户端之前，还包括：

提取所述第一文本内容的关键词；

从数据库中拉取所述关键词对应的标准文本内容；

根据所述标准文本内容去除所述第一文本内容中的目标字词，生成简化的第一文本内容，所述目标字词包括以下至少一项：口语化字词、重复字词；

其中，所述简化的第一文本内容用于发送给所述观众客户端进行显示。

9.根据权利要求6所述的方法，其特征在于，将所述第一文本内容发送给观众客户端之后，还包括：

在检测到所述主播客户端发送的第二语音数据的重复次数大于所述预设次数时，比对所述第二语音数据的展示优先级与所述第一语音数据的展示优先级之间的关系；

若所述第二语音数据的展示优先级高于所述第一语音数据的展示优先级，则将第二文本内容发送给观众客户端，所述第二文本内容用于替换掉所述第一文本内容，所述第二文本内容是与所述第二语音数据对应的文本内容。

10.根据权利要求9所述的方法，其特征在于，所述比对所述第二语音数据的展示优先级与所述第一语音数据的展示优先级之间的关系之前，还包括：

根据所述第二语音数据的评分项目，确定所述第二语音数据的评分，所述评分项目包括以下至少一项：重复次数、内容质量；

其中，所述评分与所述展示优先级呈正相关关系。

11.根据权利要求6至10任一项所述的方法，其特征在于，所述接收主播客户端发送的第一语音数据，包括：

接收所述主播客户端发送的第一语音数据的音频帧，所述第一语音数据的音频帧是所述主播客户端对所述第一语音数据进行预处理后得到的；

其中，所述预处理包括：采用移动窗函数将所述第一语音数据切分成至少一个音频帧；去除所述至少一个音频帧中的静音音频帧，得到所述第一语音数据的音频帧。

12.一种视频直播的信息显示装置，其特征在于，所述装置包括：

界面显示模块，用于显示直播界面；

13.一种视频直播的信息显示装置，其特征在于，所述装置包括：

数据接收模块，用于接收主播客户端发送的第一语音数据；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的方法，或者实现如权利要求6至11任一项所述的方法。