CN112911324A

CN112911324A - 直播间的内容展示方法、装置、服务器以及存储介质

Info

Publication number: CN112911324A
Application number: CN202110129590.8A
Authority: CN
Inventors: 仲召来
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-04
Anticipated expiration: 2041-01-29
Also published as: CN112911324B

Abstract

本公开关于一种直播间的内容展示方法、装置、服务器以及存储介质，涉及网络直播技术领域，其中，该方法包括：对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；根据直播内容的特征，识别直播间所属的展示风格类型；响应于接收到的语音指令，搜索得到多个展示素材；从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材；向进入直播间的各用户对应的客户端发送目标素材的展示指令。由此，可以实现根据直播间的展示风格和语音指令，自动搜索并筛选待展示的素材，一方面，无需主播手动操作，可以改善主播的使用体验，另一方面，筛选后的素材是与直播间的展示风格类型匹配的，可以满足不同主播的个性化需求。

Description

直播间的内容展示方法、装置、服务器以及存储介质

技术领域

本公开涉及网络直播技术领域，尤其涉及一种直播间的内容展示方法、装置、服务器以及存储介质。

背景技术

随着网络直播交互技术的迅速发展，出现了越来越多具有直播功能的应用，比如直播类应用、短视频类应用等。目前，当主播使用具有直播功能的应用进行直播时，若主播想要调节直播间的氛围，则需要主播手动进行相应操作，比如选取并播放音乐、上架商品等，以调动观众的积极性。然而，上述直播方式，主播的操作较为繁琐。

发明内容

本公开提供一种直播间的内容展示方法、装置、服务器以及存储介质，以至少解决相关技术中，主播在直播时的操作较为繁琐的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播间的内容展示方法，包括：

对直播间内展示的直播内容进行特征提取，以得到所述直播内容的特征；

根据所述直播内容的特征，识别所述直播间所属的展示风格类型；

响应于接收到的语音指令，搜索得到多个展示素材；

从所述多个展示素材中筛选与所述直播间的展示风格类型匹配的目标素材；

向进入所述直播间的各用户对应的客户端发送所述目标素材的展示指令。

作为本公开实施例的第一种可能的情况，所述直播内容包括多个模态，各模态的直播内容具有对应模态的特征；所述根据所述直播内容的特征，识别所述直播间所属的展示风格类型，包括：

对任一模态，根据所述直播内容对应模态的特征与设定参考特征之间的差异，确定对应模态的目标权重；

根据所述各模态的目标权重，对所述多个模态的特征进行特征融合，以得到融合特征；

对所述融合特征进行分类，以确定所述融合特征所属的类别，其中，所述融合特征所属的类别，用于表征所述直播间所属的展示风格类型。

作为本公开实施例的第二种可能的情况，所述设定参考特征，是多个直播间在对应模态的特征均值；

其中，各模态的特征，用于表征对应模态的直播内容的展示风格，各模态的所述特征均值，用于表征对应模态的直播内容在所述多个直播间中共性的展示风格。

作为本公开实施例的第三种可能的情况，所述确定对应模态的目标权重，包括：

根据各模态的所述差异，确定对应模态的所述目标权重，其中，所述目标权重与所述差异正相关。

作为本公开实施例的第四种可能的情况，所述从所述多个展示素材中筛选与所述直播间的展示风格类型匹配的目标素材，包括：

所述多个展示素材分别标注有展示风格类型的标签；

从所述多个展示素材中，选取所述标签与所述直播间的展示风格类型匹配的目标素材。

作为本公开实施例的第五种可能的情况，多个模态的所述直播内容包括视频类型的直播内容、音频类型的直播内容、图片类型的直播内容、文本类型的直播内容和物体类型的直播内容中的一个或多个组合。

作为本公开实施例的第六种可能的情况，所述对直播间内展示的直播内容进行特征提取之前，还包括下列中的至少一个：

将所述直播间的视频流中的各视频帧作为所述视频类型的直播内容；

将所述直播间的音频流作为所述音频类型的直播内容；

对所述视频流中的各视频帧进行物体识别，以将展示有物体的图像区域作为所述图片类型的直播内容；

对所述视频流中的各视频帧进行物体识别，以将所述物体的名称作为所述物体类型的直播内容；

对所述视频流中的各视频帧进行文本识别，以将展示的文本作为所述文本类型的直播内容。

作为本公开实施例的第七种可能的情况，所述响应于接收到的语音指令，搜索得到多个展示素材，包括：

在探测到所述语音指令中包含有唤醒词的情况下，对所述语音指令中处于所述唤醒词之后的指令进行语义识别，以得到与所述指令语义匹配的搜索关键词；

采用所述搜索关键词进行搜索，得到匹配的多个展示素材。

本公开实施例的直播间的内容展示方法，通过对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；根据直播内容的特征，识别直播间所属的展示风格类型；响应于接收到的语音指令，搜索得到多个展示素材；从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材；向进入直播间的各用户对应的客户端发送目标素材的展示指令。由此，可以实现根据直播间的展示风格类型和主播触发的语音指令，自动搜索并筛选待展示的素材，一方面，无需主播手动操作，可以改善主播的使用体验，另一方面，筛选后的素材是与直播间的展示风格类型匹配的，可以满足不同主播的个性化需求。此外，向进入直播间的各用户对应的客户端发送目标素材的展示指令，当各客户端展示素材时，还可以调节直播间的气氛，对于用户活跃度较低的直播间而言，可以提升直播间的人气热度，有利于推广主播。

根据本公开实施例的第二方面，提供一种直播间的内容展示装置，包括：

提取模块，被配置为执行对直播间内展示的直播内容进行特征提取，以得到所述直播内容的特征；

识别模块，被配置为执行根据所述直播内容的特征，识别所述直播间所属的展示风格类型；

搜索模块，被配置为执行响应于接收到的语音指令，搜索得到多个展示素材；

筛选模块，被配置为执行从所述多个展示素材中筛选与所述直播间的展示风格类型匹配的目标素材；

发送模块，被配置为执行向进入所述直播间的各用户对应的客户端发送所述目标素材的展示指令。

作为本公开实施例的第一种可能的情况，所述直播内容包括多个模态，各模态的直播内容具有对应模态的特征；所述识别模块，包括：

确定单元，被配置为执行对任一模态，根据所述直播内容对应模态的特征与设定参考特征之间的差异，确定对应模态的目标权重；

融合单元，被配置为执行根据所述各模态的目标权重，对所述多个模态的特征进行特征融合，以得到融合特征；

分类单元，被配置为执行对所述融合特征进行分类，以确定所述融合特征所属的类别，其中，所述融合特征所属的类别，用于表征所述直播间所属的展示风格类型。

作为本公开实施例的第三种可能的情况，所述确定单元，具体被配置为执行：

作为本公开实施例的第四种可能的情况，所述筛选模块，具体被配置为执行：

所述多个展示素材分别标注有展示风格类型的标签；

作为本公开实施例的第六种可能的情况，所述装置还包括：

处理模块，被配置为执行下列中的至少一个：

将所述直播间的音频流作为所述音频类型的直播内容；

作为本公开实施例的第七种可能的情况，所述搜索模块，具体被配置为执行：

采用所述搜索关键词进行搜索，得到匹配的多个展示素材。

本公开实施例的直播间的内容展示装置，通过对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；根据直播内容的特征，识别直播间所属的展示风格类型；响应于接收到的语音指令，搜索得到多个展示素材；从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材；向进入直播间的各用户对应的客户端发送目标素材的展示指令。由此，可以实现根据直播间的展示风格类型和主播触发的语音指令，自动搜索并筛选待展示的素材，一方面，无需主播手动操作，可以改善主播的使用体验，另一方面，筛选后的素材是与直播间的展示风格类型匹配的，可以满足不同主播的个性化需求。此外，向进入直播间的各用户对应的客户端发送目标素材的展示指令，当各客户端展示素材时，还可以调节直播间的气氛，对于用户活跃度较低的直播间而言，可以提升直播间的人气热度，有利于推广主播。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本公开第一方面实施例提出的直播间的内容展示方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行本公开第一方面实施例提出的直播间的内容展示方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品中的指令被处理器执行时，实现如本公开第一方面实施例提出的直播间的内容展示方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例一所示出的直播间的内容展示方法的流程图；

图2是根据一示例性实施例二所示出的直播间的内容展示方法的流程图；

图3是根据一示例性实施例三所示出的直播间的内容展示方法的流程图；

图4是根据一示例性实施例四所示出的直播间的内容展示装置的框图；

图5是根据一示例性实施例示出的一种用于直播间的内容展示的服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开主要针对现有技术中，主播在直播时的操作较为繁琐的技术问题，提出一种直播间的内容展示方法。

本公开实施例的直播间的内容展示方法，通过对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；根据直播内容的特征，识别直播间所属的展示风格类型；响应于接收到的语音指令，搜索得到多个展示素材；从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材；向进入直播间的各用户对应的客户端发送目标素材的展示指令。由此，可以实现根据直播间的展示风格和语音指令，自动搜索并筛选待展示的素材，一方面，无需主播手动操作，可以改善主播的使用体验，另一方面，筛选后的素材是与直播间的展示风格类型匹配的，可以满足不同主播的个性化需求。此外，向进入直播间的各用户对应的客户端发送目标素材的展示指令，当各客户端展示素材时，还可以调节直播间的气氛，对于用户活跃度较低的直播间而言，可以提升直播间的人气热度，有利于推广主播。

图1是根据一示例性实施例一所示出的直播间的内容展示方法的流程图。

本公开实施例以该直播间的内容展示方法被配置于直播间的内容展示装置中来举例说明，该直播间的内容展示装置可以应用于服务器中，以使该服务器可以执行直播间的内容展示功能。

如图1所示，直播间的内容展示方法可以包括以下步骤：

在步骤S101中，对直播间内展示的直播内容进行特征提取，以得到直播内容的特征。

在本公开实施例中，可以基于计算机视觉(Computer Vision，简称CV)技术，对直播间内展示的直播内容进行特征提取，得到直播内容的特征。

在步骤S102中，根据直播内容的特征，识别直播间所属的展示风格类型。

在本公开实施例中，可以基于机器学习技术，对直播内容的特征进行分类，以确定直播间所属的展示风格类型。其中，不同直播间所属的展示风格类型可以相同，或者，也可以不同，对此不作限制。

举例而言，根据直播内容，确定主播的面部表情为开心、主播的语言风格为幽默，此时，直播间的气氛较为欢快，对直播内容的特征进行分类，可以确定直播间所属的展示风格类型为类型1；根据直播内容，确定主播的面部表情为伤心、主播的语言风格为抒情，此时，直播间的气氛较为抒情，对直播内容的特征进行分类，可以确定直播间所属的展示风格类型为类型2；根据直播内容，确定主播的面部表情为兴奋、主播的说话声音较大，此时，直播间的气氛较为激昂，对直播内容的特征进行分类，可以确定直播间所属的展示风格类型为类型3。

在步骤S103中，响应于接收到的语音指令，搜索得到多个展示素材。

在本公开实施例中，语音指令是主播端采集的语音指令，其中，主播端是指主播所登录的客户端。

其中，客户端是指运行在电子设备上，为用户提供服务的软件程序，例如直播类应用、短视频类应用等。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

在本公开实施例中，展示素材可以为音乐、链接、视频、图片、文本等素材。

在本公开实施例中，主播端在采集到语音指令后，可以将语音指令发送至服务器，相应的，服务器在接收到语音指令后，可以响应于该语音指令，搜索得到多个展示素材。

在本公开实施例的一种可能的实现方式中，服务器可以对语音指令进行语义识别，比如可以基于语音识别技术，将语音指令转化为文本信息，并基于自然语言处理(Natural Language Processing，简称NLP)技术中的语义分析技术，对文本信息进行语义识别，得到与语音指令语义匹配的搜索关键词，之后，可以采用搜索关键词进行搜索，得到与搜索关键词匹配的多个展示素材。其中，语义分析技术主要是理解词语、句子、篇章的意义、主题、类别等语义信息，属于自然语言处理技术中的一种。

举例而言，语音指令为“来点欢快音乐吧”，搜索关键词可以为欢快音乐，与搜索关键词匹配的展示素材可以为欢快类型的音乐素材。再例如，当主播推广商品时，语音指令为“搜索儿童防晒霜”，搜索关键词可以为儿童用品、儿童防晒、儿童防晒霜等，与搜索关键词匹配的展示素材可以为儿童用品的链接、视频、图片，儿童防晒霜的链接、视频、图片等素材。

应当理解的是，实际应用时，参与直播的用户可能为多个，语音指令可以为至少一个，为了满足主播的个性化需求，可以分别对每个语音指令进行语义识别，得到与各语音指令语义匹配的搜索关键词，并采用各搜索关键词进行搜索，得到与各搜索关键词匹配的多个展示素材。

需要说明的是，还可以对语音指令进行语言风格识别，得到与语音指令对应的语言风格匹配的搜索关键词。例如，可以基于深度学习模型，对主播触发的语音指令进行语言风格识别，得到与语音指令对应的语言风格匹配的搜索关键词。举例而言，当语音指令对应的语言风格为幽默时，搜索关键词可以为幽默、风趣、搞笑等，与搜索关键词匹配的展示素材可以为欢快音乐，搞笑故事，鼓励、赞扬、搞笑表情等素材。

此外，也可以对语音指令进行方言识别，得到与语音指令对应的方言匹配的搜索关键词。例如，识别得到语音指令对应的方言为地区A对应的方言时，搜索关键词可以为地区A、与地区A相关的关键词等，与搜索关键词匹配的展示素材可以为地区A的特产的链接、视频、图片，地区A的风景名胜的视频、图片，地区A的本土音乐、戏曲等素材。

在本公开实施例的另一种可能的实现方式中，服务器可以对语音指令进行识别，确定语音指令是否包含有唤醒词，在语音指令中包含有唤醒词的情况下，可以对语音指令中处于唤醒词之后的指令进行语义识别，得到与该指令语义匹配的搜索关键词。

其中，唤醒词可以预先设置的，例如可以为主播预先设置的，或者，也可以为客户端的内置程序预先设置的，以提升该方法的适用性。服务器可以通过与客户端进行交互，获取上述唤醒词。

例如，服务器可以基于语音识别技术，将该语音指令转化为文本信息，对该文本信息进行识别，确定文本信息是否包含唤醒词，在文本信息未包含唤醒词的情况下，可以不作任何处理，而在文本信息包含唤醒词的情况下，可以基于NLP技术中的语义分析技术，对文本信息中处于唤醒词之后的文字内容进行语义识别，得到与语音指令语义匹配的搜索关键词，之后，可以采用搜索关键词进行搜索，得到与搜索关键词匹配的多个展示素材。

由此，只有在语音指令中包含唤醒词的情况下，才进行素材搜索，一方面，可以避免无效搜索，降低服务器的处理负担，另一方面，只有在主播有需求的情况下，才触发搜索，可以满足主播的实际需求，避免在主播没有需求的情况下进行搜索，从而降低用户体验的情况。

举例而言，比如直播间的观众向主播提问“您最不喜欢什么类型的音乐呢？”主播回答“纯音乐”，此时，如果不进行唤醒词检测，而直接搜索纯音乐，可能会降低主播的使用体验。

在步骤S104中，从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材。

在本公开实施例中，在搜索得到多个展示素材后，可以将搜索得到的每个展示素材与直播间的展示风格类型进行匹配，将与直播间的展示风格类型匹配的展示素材作为目标素材，并保留该目标素材，并筛除与直播间的展示风格类型不匹配的展示素材。

举例而言，当展示风格类型为类型1时，可以筛选以保留欢快音乐、搞笑故事等素材；当展示风格类型为类型2时，可以筛选以保留抒情音乐、抒情类文章等素材；当展示风格类型为类型3时，可以筛选以保留激昂音乐、视频等素材。

在步骤S105中，向进入直播间的各用户对应的客户端发送目标素材的展示指令。

在本公开实施例中，在筛选得到与直播间的展示风格类型匹配的目标素材后，可以向进入直播间的各用户对应的客户端发送目标素材的展示指令。

作为一种可能的实现方式，各用户对应的客户端在接收到目标素材的展示指令后，可以响应于展示指令，展示目标素材。由此，通过在接收到展示指令后，自动展示目标素材，无需用户操作，可以改善用户的使用体验。

作为另一种可能的实现方式，各用户对应的客户端在接收到目标素材的展示指令后，可以根据用户需求，确定是否展示目标素材，以满足各用户的实际观看需求。例如，客户端1上登录的用户为用户1，客户端1在接收到目标素材的展示指令后，响应于用户1触发的操作，展示目标素材，则用户1可以在观看直播的过程中，观看服务器发送的目标素材；再例如，客户端2上登录的用户为用户2，客户端2在接收到目标素材的展示指令后，响应于用户2触发的操作，不展示目标素材，则用户2可以专心观看直播。由此，可以实现根据主播和/或观众的观看需求，确定是否展示目标素材，可以改善用户的使用体验。

举例而言，各用户对应的客户端在接收到展示指令后，可以在直播显示界面上显示提示信息，该提示信息用于提示是否展示搜索到的目标素材，比如可以通过弹窗提示，若用户点击确认，则响应于用户操作，展示目标素材，若用户点击取消，则响应于用户操作，不展示目标素材。

作为一种应用场景，当主播推广商品时，在直播间将展示各个商品，若商品为家用电器时，假设主播的语音指令为“来点激动人心的音乐吧”，则服务器根据主播的语音指令，可以自动搜索激昂音乐，并将搜索到的音乐素材发送给直播间的各用户对应的客户端，比如主播端和观众所登录的客户端(简称观众端)，由主播和观众根据自身需求确定是否展示对应的素材。

本公开实施例的直播间的内容展示方法，通过对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；根据直播内容的特征，识别直播间所属的展示风格类型；响应于接收到的语音指令，搜索得到多个展示素材；从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材；向进入直播间的各用户对应的客户端发送目标素材的展示指令。由此，可以实现根据直播间的展示风格类型和主播触发的语音指令，自动搜索并筛选待展示的素材，一方面，无需主播手动操作，可以改善主播的使用体验，另一方面，筛选后的素材是与直播间的展示风格类型匹配的，可以满足不同主播的个性化需求。

此外，根据直播间的展示风格类型和语音指令，自动搜索并筛选待展示的素材，当服务器向进入直播间的各用户对应的客户端发送目标素材的展示指令后，由主播和/或观众根据自身需求展示目标素材，比如，播放音乐、讲笑话、讲故事等，还可以调节直播间的气氛，对于用户活跃度较低的直播间而言，可以提升直播间的人气热度，有利于推广主播。

可以理解的是，为了丰富直播内容，以吸引观众观看直播，直播内容可以包括多个模态，在识别直播间所属的展示风格类型时，可以确定每个模态对应的目标权重，根据每个模态对应的目标权重，对各模态的特征进行特征融合，得到融合特征，识别融合特征所属的类型，以确定直播间所属的展示风格类型。下面结合实施例二，对上述过程进行详细说明。

图2是根据一示例性实施例二所示出的直播间交互方法的流程示意图。

如图2所示，该直播间交互方法可以包括以下步骤：

在步骤S201中，对直播间内展示的直播内容进行特征提取，以得到直播内容的特征；其中，直播内容包括多个模态。

在本公开实施例中，为了丰富直播内容，以吸引观众观看直播，多个模态的直播内容可以包括视频类型的直播内容、音频类型的直播内容、图片类型的直播内容、文本类型的直播内容和物体类型的直播内容中的一个或多个组合。

在本公开实施例中，当主播利用电子设备上安装的具有直播功能的客户端进行直播时，该客户端可以称为主播端，主播端可以采集视频流和音频流，并将采集的视频流和音频流发送至服务器，相应的，服务器可以根据主播端采集的视频流和音频流，确定直播间的多个模态的直播内容。

在本公开实施例的一种可能的实现方式中，可以将直播间的视频流中的各视频帧作为视频类型的直播内容，即，可以对视频流进行视频帧提取，将提取到的各视频帧作为视频类型的直播内容。针对视频类型的直播类型，可以采用图像处理技术中的图像特征提取算法，对该视频类型的直播内容进行特征提取，得到该视频类型的直播内容的特征。

在本公开实施例的一种可能的实现方式中，可以将直播间的视频流作为音频类型的直播内容。针对音频类型的直播内容，可以采用语音识别技术中的音频特征提取算法，对该音频类型的直播内容进行特征提取，得到该音频类型的直播内容的特征。

在本公开实施例的一种可能的实现方式中，可以对视频流中的各视频帧进行物体识别，比如，可以基于目标检测算法，例如单发多框检测(Single Shot MultiBoxDetector，简称SSD)、你只看一眼(You Only Look Once，简称YOLO)、Faster-RCNN等目标检测算法、感兴趣区域(Region of Interest，简称ROI)提取算法等，对各视频帧进行物体识别，确定物体在视频帧中的图像区域，从而可以将展示有物体的图像区域作为图片类型的直播内容。针对图片类型的直播内容，也可以采用图像处理技术中的图像特征提取算法，对该图片类型的直播内容进行特征提取，得到该图片类型的直播内容的特征。

在本公开实施例的一种可能的实现方式中，可以对视频流中的各视频帧进行物体识别，以将物体的名称作为物体类型的直播内容。例如，在确定物体在视频帧中的图像区域后，还可以对该图像区域中的物体进行名称识别，比如，可以基于对象识别模型，对图像区域进行识别，确定物体的名称，从而可以将物体的名称作为物体类型的直播内容。针对物体类型的直播内容，可以基于NLP技术中的文本特征提取算法，对该物体类型的直播内容进行特征提取，得到该物体类型的直播内容的特征，比如物体名称的语义向量或物体名称的字符向量。

在本公开实施例的一种可能的实现方式中，可以对视频流中的各视频帧进行文本识别，例如，可以对各视频帧进行光学字符识别(Optical Character Recognition，简称OCR)，确定各视频帧中展示的文本，从而可以将各视频帧展示的文本作为文本类型的直播内容。针对文本类型的直播内容，可以采用NLP技术中的文本特征提取算法，对该文本类型的直播内容进行特征提取，得到该文本类型的直播内容的特征，比如文本的语义向量或字符向量。

通过上述方式，可以准确识别各模态的直播内容，从而对各模态的直播内容进行特征提取，可以提升各模态对应的特征的提取结果的准确性。

在步骤S202中，对任一模态，根据直播内容对应模态的特征与设定参考特征之间的差异，确定对应模态的目标权重。

在本公开实施例中，每个模态均具有对应的设定参考特征，每个模态对应的设定参考特征可以为预先设定的。

在本公开实施例中，每个模态的目标权重，可以根据该模态对直播间的展示风格的贡献程度确定。具体的，针对每个模态，可以根据该模态的直播内容的特征，与该模态对应的设定参考特征之间的差异，确定该模态的目标权重。

例如，针对每个模态，可以基于相似度计算算法，计算该模态的直播内容的特征与该模态对应的设定参考特征之间的相似度，根据相似度，确定该模态的直播内容的特征，与该模态对应的设定参考特征之间的差异。其中，差异与相似度反相关，即相似度越高，差异越小，反之，相似度越低，差异越大。

在本公开实施例的一种可能的实现方式中，每个模态对应的设定参考特征，可以是多个直播间在该模态的特征均值，其中，每个模态的特征，用于表征该模态的直播内容的展示风格，每个模态的特征均值，用于表征该模态的直播内容在多个直播间中共性的展示风格。由此，针对每个模态，根据该模态的直播内容在多个直播间中共性的展示风格，确定设定参考特征，可以实现对设定参考特征进行动态调整，使得目标权重的设置更能突出直播间风格之间的差异部分，即个性化部分，从而满足不同主播的个性化需求。

应当理解的是，针对每个模态，在差异越大时，该模态的直播内容的特征，与该模态对应的设定参考特征之间的共性越少，越能表征该模态的直播内容的个性化的展示风格，因此，为了满足不同主播的个性化需求，在本公开实施例的一种可能的实现方式中，各模态对应的目标权重，可以与相应模态的差异正相关，即，针对每个模态，当该模态的差异越小时，该模态对应的目标权重越小，反之，当该模态的差异越大时，该模态对应的目标权重越大。由此，可以保留直播间的个性化展示风格，满足不同主播的个性化直播需求。

在步骤S203中，根据各模态的目标权重，对多个模态的特征进行特征融合，以得到融合特征。

在本公开实施例中，可以根据各模态的目标权重，对各模态的特征进行特征融合，得到融合特征。比如，可以将各模态的目标权重，与各模态的特征进行加权求和，得到融合特征。或者，为了提升后续展示风格类型确定结果的准确性，还可以将多个模态的特征映射到一个统一的向量空间中，将各模态的目标权重，与映射后的各模态的特征进行加权求和，得到融合特征。

在步骤S204中，对融合特征进行分类，以确定融合特征所属的类别，其中，融合特征所属的类别，用于表征直播间所属的展示风格类型。

在本公开实施例中，可以基于机器学习技术，对融合特征进行分类，以确定融合特征所属的类别。例如，融合特征可以表征多个模态的直播内容在高维空间上的共性，因此，可以基于分类器对融合特征进行分类，得到融合特征所属的类别，其中，融合特征所属的类别，用于表征直播间所属的展示风格类型。

在步骤S205中，响应于接收到的语音指令，搜索得到多个展示素材。

在步骤S206中，从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材。

在步骤S207中，向进入直播间的各用户对应的客户端发送目标素材的展示指令。

在本公开实施例中，步骤S205至S207可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

本公开实施例的直播间的内容展示方法，通过对任一模态，根据直播内容对应模态的特征与设定参考特征之间的差异，确定对应模态的目标权重；根据各模态的目标权重，对多个模态的特征进行特征融合，以得到融合特征；对融合特征进行分类，以确定融合特征所属的类别，其中，融合特征所属的类别，用于表征直播间所属的展示风格类型。由此，在直播内容包括多个模态时，对各模态的特征进行融合，得到融合特征，对融合特征进行分类，确定直播间所属的展示风格类型，可以提升展示风格类型识别结果的准确性。

在本公开实施例的一种可能的实现方式中，在将展示元素与直播间的展示风格类型进行匹配时，可以将展示元素标注的标签，与直播间的展示风格类型进行匹配。下面结合实施例三，对上述过程进行详细说明。

图3是根据一示例性实施例二所示出的直播间交互方法的流程示意图。

如图3所示，该直播间交互方法可以包括以下步骤：

在步骤S301中，对直播间内展示的直播内容进行特征提取，以得到直播内容的特征。

在步骤S302中，根据直播内容的特征，识别直播间所属的展示风格类型。

在步骤S303中，响应于接收到的语音指令，搜索得到多个展示素材；其中，多个展示素材分别标注有展示风格类型的标签。

在本公开实施例中，步骤S301至S303可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

在本公开实施例中，每个展示素材上可以标注有风格类型的标签，比如，当展示素材为音乐时，标签可以为欢快、抒情、激昂等标签，再比如，当展示素材为图片时，标签可以为幽默、搞笑、夸张等标签。

在步骤S304中，从多个展示素材中，选取标签与直播间的展示风格类型匹配的目标素材。

在本公开实施例中，在将展示素材与直播间的展示风格类型进行匹配时，可以将各展示素材标注的标签与直播间的展示风格类型进行匹配，将标签与直播间的展示风格类型匹配的展示素材作为目标素材，并保留该目标素材，并筛除标签与直播间的展示风格类型不匹配的展示素材。

在步骤S305中，向进入直播间的各用户对应的客户端发送目标素材的展示指令。

在本公开实施例中，步骤S305可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

本公开实施例的直播间的内容展示方法，通过多个展示素材分别标注有展示风格类型的标签；从多个展示素材中，选取标签与直播间的展示风格类型匹配的目标素材。由此，可以实现筛选与直播间的展示风格类型较为匹配的素材，从而可以满足不同主播的个性化需求，改善用户的使用体验。

为了实现上述实施例，本公开实施例提出了一种直播间的内容展示装置。

图4是根据一示例性实施例四所示出的直播间的内容展示装置的框图。

参照图4，该直播间的内容展示装置100，可以包括：提取模块110、识别模块120、搜索模块130、筛选模块140，以及发送模块150。

其中，提取模块110，被配置为执行对直播间内展示的直播内容进行特征提取，以得到直播内容的特征。

识别模块120，被配置为执行根据直播内容的特征，识别直播间所属的展示风格类型。

搜索模块130，被配置为执行响应于接收到的语音指令，搜索得到多个展示素材。

筛选模块140，被配置为执行从多个展示素材中筛选与直播间的展示风格类型匹配的目标素材。

发送模块150，被配置为执行向进入直播间的各用户对应的客户端发送目标素材的展示指令。

在本公开实施例的一种可能的实现形式中，直播内容包括多个模态，各模态的直播内容具有对应模态的特征；识别模块120，可以包括：

确定单元，被配置为执行对任一模态，根据直播内容对应模态的特征与设定参考特征之间的差异，确定对应模态的目标权重。

融合单元，被配置为执行根据各模态的目标权重，对多个模态的特征进行特征融合，以得到融合特征。

分类单元，被配置为执行对融合特征进行分类，以确定融合特征所属的类别，其中，融合特征所属的类别，用于表征直播间所属的展示风格类型。

在本公开实施例的一种可能的实现形式中，设定参考特征，是多个直播间在对应模态的特征均值；其中，各模态的特征，用于表征对应模态的直播内容的展示风格，各模态的特征均值，用于表征对应模态的直播内容在多个直播间中共性的展示风格。

在本公开实施例的一种可能的实现形式中，确定单元，具体被配置为执行：根据各模态的差异，确定对应模态的目标权重，其中，目标权重与差异正相关。

在本公开实施例的一种可能的实现形式中，筛选模块140，具体被配置为执行：多个展示素材分别标注有展示风格类型的标签；从多个展示素材中，选取标签与直播间的展示风格类型匹配的目标素材。

在本公开实施例的一种可能的实现形式中，多个模态的直播内容包括视频类型的直播内容、音频类型的直播内容、图片类型的直播内容、文本类型的直播内容和物体类型的直播内容中的一个或多个组合。

在本公开实施例的一种可能的实现形式中，该直播间的内容展示装置100还可以包括：

处理模块，被配置为执行下列中的至少一个：

将直播间的视频流中的各视频帧作为视频类型的直播内容；

将直播间的音频流作为音频类型的直播内容；

对视频流中的各视频帧进行物体识别，以将展示有物体的图像区域作为图片类型的直播内容；

对视频流中的各视频帧进行物体识别，以将物体的名称作为物体类型的直播内容；

对视频流中的各视频帧进行文本识别，以将展示的文本作为文本类型的直播内容。

在本公开实施例的一种可能的实现形式中，搜索模块130，具体被配置为执行：在探测到语音指令中包含有唤醒词的情况下，对语音指令中处于唤醒词之后的指令进行语义识别，以得到与指令语义匹配的搜索关键词；采用搜索关键词进行搜索，得到匹配的多个展示素材。

需要说明的是，关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

为了实现上述实施例，本公开实施例还提出了一种服务器。

其中，服务器包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如前所述的直播间的内容展示方法。

作为一种示例，图5是根据一示例性实施例示出的一种用于直播间的内容展示的服务器200的框图，如图5所示，上述服务器200，还可以包括：

存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本公开实施例所述的直播间的内容展示方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器200典型地包括多种服务器可读介质。这些介质可以是任何能够被服务器200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。服务器200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本公开所描述的实施例中的功能和/或方法。

服务器200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该服务器200交互的设备通信，和/或与使得该服务器200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，服务器200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与服务器200的其它模块通信。应当明白，尽管图中未示出，可以结合服务器200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的服务器的实施过程和技术原理参见前述对本公开实施例的直播间的内容展示方法的解释说明，此处不再赘述。

为了实现上述实施例，本公开实施例还提出了一种存储介质。

其中，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如前所述的直播间的内容展示方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品中的指令被处理器执行时，使得服务器能够执行如前所述的直播间的内容展示方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播间的内容展示方法，其特征在于，包括以下步骤：

响应于接收到的语音指令，搜索得到多个展示素材；

2.根据权利要求1所述的内容展示方法，其特征在于，所述直播内容包括多个模态，各模态的直播内容具有对应模态的特征；所述根据所述直播内容的特征，识别所述直播间所属的展示风格类型，包括：

3.根据权利要求2所述的内容展示方法，其特征在于，

所述设定参考特征，是多个直播间在对应模态的特征均值；

4.根据权利要求2所述的内容展示方法，其特征在于，所述确定对应模态的目标权重，包括：

5.根据权利要求1-4任一项所述的内容展示方法，其特征在于，所述从所述多个展示素材中筛选与所述直播间的展示风格类型匹配的目标素材，包括：

所述多个展示素材分别标注有展示风格类型的标签；

6.根据权利要求1-4任一项所述的内容展示方法，其特征在于，所述响应于接收到的语音指令，搜索得到多个展示素材，包括：

采用所述搜索关键词进行搜索，得到匹配的多个展示素材。

7.一种直播间的内容展示装置，其特征在于，包括以下步骤：

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的直播间的内容展示方法。

9.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1-6中任一项所述的直播间的内容展示方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令被处理器执行时，实现如权利要求1-6中任一项所述的直播间的内容展示方法。