CN114385853A

CN114385853A - 直播间搜索方法、装置、电子设备、存储介质及产品

Info

Publication number: CN114385853A
Application number: CN202111554950.5A
Authority: CN
Inventors: 张明渝
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-22

Abstract

本公开提供了一种直播间搜索方法、装置、电子设备、存储介质及产品，包括：获取各个直播间的直播图像，并基于预训练的搜索模型，提取直播图像对应的第一特征向量；响应于用户的搜索操作，获取用户的目标搜索词，并基于预训练的搜索模型提取目标搜索词对应的第二特征向量，并确定第二特征向量与各个第一特征向量之间的相似度；根据相似度确定与目标搜索词相匹配的至少一个目标直播间，并返回给用户。本公开实施例中通过获取直播间的直播图像并提取特征实现对各个直播间的实时刻画，再基于特征向量的相似度计算确定出与用户搜索词相匹配的目标直播间，能够实时、准确地刻画各个直播间当前的直播内容，提高了用户搜索的准确度。

Description

直播间搜索方法、装置、电子设备、存储介质及产品

技术领域

本公开涉及网络直播技术领域，尤其涉及一种直播间搜索方法、装置、电子设备、存储介质及产品。

背景技术

随着视频应用的日益普及，越来越多的用户在视频应用里观看直播，同时也促进更多的用户开启自己的直播间。直播已然成为视频应用消费的主要场景之一。

随着直播间数量的增加，用户经常需要通过搜索来获取想要观看的直播。现有技术中，对直播间的刻画往往是基于主播维度的文本统计信息，时效性较差；基于该文本统计信息来响应用户的搜索请求，对直播间当前直播内容的刻画能力较弱，导致用户搜索的准确度也不高。

发明内容

为克服相关技术中存在的问题，本公开提供一种直播间搜索方法、装置、电子设备、存储介质及产品。

根据本公开实施例的第一方面，提供一种直播间搜索方法，包括：

获取各个直播间的直播图像，并基于预训练的搜索模型，提取所述直播图像对应的第一特征向量；

响应于用户的搜索操作，获取所述用户的目标搜索词，并基于所述预训练的搜索模型提取所述目标搜索词对应的第二特征向量，并确定所述第二特征向量与各个所述第一特征向量之间的相似度；

根据所述相似度确定与所述目标搜索词相匹配的至少一个目标直播间，并返回给所述用户。

可选的，所述获取各个直播间的直播图像，包括：

对于任一所述直播间，在所述直播间已经开始直播的情况下，在每个预设时间周期内，实时获取所述直播间的视频帧，以作为所述直播图像；

在所述直播间未开始直播的情况下，获取所述直播间的封面图像，以作为所述直播图像。

可选的，所述在每个预设时间周期内，实时获取所述直播间的视频帧，以作为所述直播图像，包括：

获取所述直播间的封面图像，以及，每间隔一个所述预设时间周期获取一帧视频帧；

将所述封面图像以及所述视频帧确定为所述直播图像。

可选的，所述提取所述直播图像对应的第一特征向量，包括：

在存在多个直播图像的情况下，提取各所述直播图像对应的特征向量，得到多个第三特征向量；

将所述多个第三特征向量进行融合，得到所述第一特征向量。

可选的，所述预训练的搜索模型通过下述方式训练获取：

根据历史搜索日志确定历史搜索词所召回的N个历史直播间；

根据所述历史搜索词以及所述N个历史直播间，构建正样本对以及负样本对，以作为训练样本集；

根据所述训练样本集进行训练，以获取所述搜索模型。

可选的，所述根据所述历史搜索词以及所述N个历史直播间，构建正样本对以及负样本对，包括：

基于历史行为数据，确定所述N个历史直播间中被用户选择播放的历史直播间，以作为目标历史直播间；

根据所述历史搜索词以及所述目标历史直播间的历史播放片段，构建所述正样本对；

根据所述历史搜索词以及剩余的其他历史直播间的历史播放片段，构建所述负样本对。

根据本公开实施例的第二方面，提供一种直播间搜索装置，包括：

获取模块，被配置为获取各个直播间的直播图像，并基于预训练的搜索模型，提取所述直播图像对应的第一特征向量；

提取模块，被配置为响应于用户的搜索操作，获取所述用户的目标搜索词，并基于所述预训练的搜索模型提取所述目标搜索词对应的第二特征向量，并确定所述第二特征向量与各个所述第一特征向量之间的相似度；

返回模块，被配置为根据所述相似度确定与所述目标搜索词相匹配的至少一个目标直播间，并返回给所述用户。

可选的，所述获取模块，包括：

第一获取子模块，被配置为对于任一所述直播间，在所述直播间已经开始直播的情况下，在每个预设时间周期内，实时获取所述直播间的视频帧，以作为所述直播图像；

第二获取子模块，被配置为在所述直播间未开始直播的情况下，获取所述直播间的封面图像，以作为所述直播图像。

可选的，所述第一获取子模块，具体被配置为：

将所述封面图像以及所述视频帧确定为所述直播图像。

可选的，所述提取模块，具体被配置为：

可选的，所述装置还包括：

确定模块，被配置为根据历史搜索日志确定历史搜索词所召回的N个历史直播间；

构建模块，被配置为根据所述历史搜索词以及所述N个历史直播间，构建正样本对以及负样本对，以作为训练样本集；

训练模块，被配置为根据所述训练样本集进行训练，以获取所述搜索模型。

可选的，所述构建模块，具体被配置为：

依据本公开的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一项所述的直播间搜索方法。

依据本公开的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行实现如上述任一项所述的直播间搜索方法。

依据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括可读性程序指令，所述可读性程序指令由电子设备的处理器执行时，使得所述电子设备执行如上述任一项所述的直播间搜索方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，获取各个直播间的直播图像，并基于预训练的搜索模型，提取直播图像对应的第一特征向量；响应于用户的搜索操作，获取用户的目标搜索词，并基于预训练的搜索模型提取目标搜索词对应的第二特征向量，并确定第二特征向量与各个第一特征向量之间的相似度；根据相似度确定与目标搜索词相匹配的至少一个目标直播间，并返回给用户。本公开实施例中通过获取直播间的直播图像并提取特征实现对各个直播间的实时刻画，再基于特征向量的相似度计算确定出与用户搜索词相匹配的目标直播间，能够实时、准确地刻画各个直播间当前的直播内容，提高了用户搜索的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例的一种直播间搜索方法的步骤流程图；

图2是本公开实施例的一种直播间搜索模型的示意图；

图3是本公开实施例的一种直播间搜索装置的框图；

图4是本公开实施例的一种电子设备的框图；

图5是本公开实施例的另一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1本公开实施例的一种直播间搜索方法的步骤流程图。该方法的执行主体可以为电子设备，具体可以是智能手机、计算机、笔记本、平板电脑、车载电脑等，本公开实施例对此不作限定。如图1所示，该直播间搜索方法具体包括以下步骤：

步骤101、获取各个直播间的直播图像，并基于预训练的搜索模型，提取所述直播图像对应的第一特征向量。

本公开实施例中，直播图像可以是指表征直播间当前直播内容的图像，具体可以是指直播间的实时视频帧、封面图像等。搜索模型可以是指预先训练好的、用于确定目标搜索词与各个直播间的直播图像之间的相似度的模型。第一特征向量可以是指与直播图像相对应的、用于表征直播间直播图像的图像特征的向量。

具体的，本步骤中，电子设备可以通过直播平台来统一管理各个直播间。直播平台可以实时获取各个直播间的直播图像，同时基于训练好的搜索模型进行图像特征提取，得到各个直播间的直播图像对应的第一特征向量。这样，本公开实施例可以通过该第一特征向量实现对直播间的准确刻画。。

步骤102、响应于用户的搜索操作，获取所述用户的目标搜索词，并基于所述预训练的搜索模型提取所述目标搜索词对应的第二特征向量，并确定所述第二特征向量与各个所述第一特征向量之间的相似度。

本公开实施例中，用户可以是指电子设备的使用者。目标搜索词可以是指用户输入的、与搜索操作相对应的、用于搜索直播间的搜索文本。第二特征向量可以是指目标搜索词对应的、表征用户搜索文本的文本特征的向量。具体的，特征向量(embedding)是以一定维数的向量来表征对象的特征。直播图像对应的第一特征向量与目标搜索词对应的第二特征向量可以是相同的维度，这样能够方便进行相似度的计算。该相似度可以是指第一特征向量与第二特征向量之前的相似程度，具体可以用余弦距离等形式表示，本公开实施例对于相似度的具体表现形式不作限定。

本步骤中，用户打开电子设备中的直播视频类应用程序之后，当用户需要搜索直播间进行观看时，可以在应用程序的搜索栏中输入目标搜索词，之后电子设备获取该目标搜索词并提取出第二特征向量，并结合基于实时获取的当前各个直播间的直播图像提取的第一特征向量，来确定第二特征向量与各个第一特征向量之间的相似度。后续可以基于该相似度确定与用户的目标搜索词相匹配的目标直播间。

在一种实现方式中，电子设备中安装的直播平台往往是通过对直播维度的文本统计信息来刻画直播间，后续在接收到用户的搜索文本时，基于倒排索引召回的方式为用户返回直播间的标识号(Identity document，ID)。具体的，直播间的文本统计信息经过切词、泛化之后得到关键词，之后与用户的搜索文本进行匹配，基于倒排索引后，返回直播间的ID。这种搜索方式一方面由于文本统计信息属于历史信息，在主播重开直播间或者改变了直播内容时，文本统计信息失去了其时效性，无法准确刻画当前直播间的直播内容；另一方面由于直播间播放的内容变化较大，同一个主播在不同的时间会播放不同的内容，导致直播间的静态特征，如直播间标题、作者名等文本统计信息与当前直播间正在直播的内容并不相关。因此，基于文本统计信息刻画直播间的方式时效性不高，用户搜索准确度也较低，搜索召回能力较弱；没有泛化性，对新主播、新直播间的刻画能力弱。

而在本公开实施例中，获取各个直播间的直播图像，并提取直播图像对应的第一特征向量，该第一特征向量能够准确表征当前直播间正在直播的内容；之后基于用户输入的目标搜索词提取第二特征向量，再基于第一特征向量与第二特征向量进行相似度的计算匹配，后续可以基于相似度向用户返回目标直播间。这样，基于直播图像这一视觉表征来刻画直播间，时效性更高，能够准确、实时地反映当前直播内容，刻画新主播、新直播间的能力较强，提高了用户搜索的准确度，提高了针对用户搜索的召回能力。

步骤103、根据所述相似度确定与所述目标搜索词相匹配的至少一个目标直播间，并返回给所述用户。

本公开实施例中，目标直播间可以是指与目标搜索词相匹配的直播间。在确定出第一特征向量与第二特征向量的相似度之后，可以基于该相似度对各个直播间进行排序，将排序靠前的至少一个直播间作为目标直播间或者将相似度大于预设相似度阈值的至少一个直播间作为目标直播间展示给用户。该预设阈值可以基于实际需求进行设置，具体可以为90％、95％等，本公开实施例对此不作限定。

综上所述，本公开实施例提供的一种直播间搜索方法，获取各个直播间的直播图像，并基于预训练的搜索模型，提取直播图像对应的第一特征向量；响应于用户的搜索操作，获取用户的目标搜索词，并基于预训练的搜索模型提取目标搜索词对应的第二特征向量，并确定第二特征向量与各个第一特征向量之间的相似度；根据相似度确定与目标搜索词相匹配的至少一个目标直播间，并返回给用户。本公开实施例中通过获取直播间的直播图像并提取特征实现对各个直播间的实时刻画，再基于特征向量的相似度计算确定出与用户搜索词相匹配的目标直播间，能够实时、准确地刻画各个直播间当前的直播内容，提高了用户搜索的准确度。

可选的，本公开实施例中，步骤101具体可以包括以下步骤1011至步骤1012：

步骤1011、对于任一所述直播间，在所述直播间已经开始直播的情况下，在每个预设时间周期内，实时获取所述直播间的视频帧，以作为所述直播图像。

本公开实施例中，预设时间周期可以是指预先设置的时间周期，该预设时间周期可以是30秒或者1分钟等，具体可以基于电子设备的处理能力和实际需求进行确定，本公开实施例对此不作限定。视频帧可以是指直播间直播视频中的某一图像帧。

具体的，本步骤中，电子设备可以基于直播视频流来确定直播间是否开始直播，当检测到直播间的直播视频流时，可以确定该直播间已经开始直播。在直播间已经开始直播的情况下，电子设备可以在每个预设时间周期内，实时抽取直播间的直播视频帧，并将该直播视频帧作为直播图像。示例性地，对于开始直播的直播间，电子设备可以每隔1分钟抽取一个实时视频帧作为直播图像，这样能够基于直播图像的画面内容，能够准确反映当前直播间的直播内容。

步骤1012、在所述直播间未开始直播的情况下，获取所述直播间的封面图像，以作为所述直播图像。

本公开实施例中，封面图像可以是指直播间的预设封面图。各个主播可以为直播间设置个性化的封面图像，该封面图像一定程度上能够反映直播间的播放内容。当直播间未开播时，由于此时不存在该直播间的直播视频流，无法抽取直播视频的视频帧，电子设备可以将直播间的封面图像作为直播图像，基于封面图像内容，一定程度上也可以提高对于直播间刻画的准确度。

本公开实施例中，对于任一直播间，在直播间已经开始直播的情况下，在每个预设时间周期内，实时获取直播间的视频帧，以作为直播图像；在直播间未开始直播的情况下，获取直播间的封面图像，以作为直播图像。这样，通过实时抽取直播间的视频帧或者获取直播间的封面图像，基于视觉信息来实时刻画直播间直播内容，时效性更强，提高了后续搜索的准确度。

可选的，本公开实施例中，步骤1011具体可以包括以下步骤S21至步骤S22：

步骤S21、获取所述直播间的封面图像，以及，每间隔一个所述预设时间周期获取一帧视频帧。

本公开实施例中，在直播间已经开播的情况下，可以既获取直播间的封面图像，也每隔预设时间周期抽取视频帧，进一步提高对于直播间刻画的准确度。

步骤S22、将所述封面图像以及所述视频帧确定为所述直播图像。

本公开实施例中，对于已经开始直播的直播间，可以将该直播间的封面图像以及实时抽取的视频帧一同确定为直播图像，提高图像内容的全面性。

本公开实施例中，获取直播间的封面图像，以及，每间隔一个预设时间周期获取一帧视频帧；将封面图像以及视频帧确定为直播图像。这样，针对已经开播的直播间，结合封面图像以及实时视频帧来确定直播图像，能够进一步提高对直播间刻画的准确度和全面性，提高搜索匹配的准确度。

可选的，本公开实施例中，步骤102具体可以包括以下步骤1021至步骤1022：

步骤1021、在存在多个直播图像的情况下，提取各所述直播图像对应的特征向量，得到多个第三特征向量。

本公开实施例中，第三特征向量可以是指每个直播图像对应的特征向量。具体的，在抽取视频帧时，可以在每个预设时间周期内抽取两个、三个或者更多视频帧，这样能够进一步提高对直播间当前播放内容刻画的准确度。相应的，在将封面图像以及多个视频帧作为直播图像时，电子设备可以基于预训练的搜索模型，分别提取出各个直播图像的特征向量，得到多个直播图像分别对应的第三特征向量。

步骤1022、将所述多个第三特征向量进行融合，得到所述第一特征向量。

本公开实施例中，在基于多个直播图像提取出多个第三特征向量之后，电子设备可以基于预训练的搜索模型将该多个第三特征向量进行融合，得到直播图像对应的第一特征向量。

本公开实施例中，在存在多个直播图像的情况下，提取各直播图像对应的特征向量，得到多个第三特征向量；将多个第三特征向量进行融合，得到第二特征向量。这样，将多个直播图像分别提取到的第三特征向量进行融合来确定第一特征向量，能够综合多个直播图像的图像特征，保证了对当前直播间直播内容刻画的全面性和准确性，进而提高了后续用户搜索的准确度。

可选的，本公开实施例中，该直播间搜索方法可以通过以下步骤S31至步骤S33来获取预训练的搜索模型：

步骤S31、根据历史搜索日志确定历史搜索词所召回的N个历史直播间。

本公开实施例中，历史搜索日志可以是指电子设备中存储的、用户在历史时间内进行搜索的搜索记录。历史搜索词可以是指用户输入的历史搜索文本。N个历史直播间可以是指基于用户的历史搜索词，电子设备返回的直播间。该数量N可以是大于0的整数。当数字N为0时，表征用户的历史搜索词不存在搜索结果，此时仅有用户搜索词，没有相应的历史直播间，无法构成样本对，电子设备可以舍弃该条历史搜索记录。

步骤S32、根据所述历史搜索词以及所述N个历史直播间，构建正样本对以及负样本对，以作为训练样本集。

本公开实施例中，正样本对(正样本pair)可以是指由用户的历史搜索词以及与该历史搜索词相匹配的历史直播间组成的样本对。负样本对可以是指由用户的历史搜索词以及与该历史搜索词不匹配的历史直播间组成的样本对。训练样本集可以是指由正样本对以及负样本对组成的训练集。

本步骤中，在历史搜索日志中确定出历史搜索词以及N个历史直播间之后，可以基于用户行为来判断N个历史直播间中是否存在与历史搜索词匹配的直播间，若用户点击播放了某个历史直播间，则可以将该历史直播间与历史搜索词构建为正样本对，将N个历史直播间中其余的历史直播间与该历史搜索词构建为负样本对。当然，也可以采用其他确定依据来构建正负样本对，例如基于用户针对历史直播间的播放时长等，本公开实施例对此不作限定。

步骤S33、根据所述训练样本集进行训练，以获取所述搜索模型。

本公开实施例中，在确定出训练样本集之后，可以基于该训练样本集训练得到搜索模型。

本公开实施例中，根据历史搜索日志确定历史搜索词所召回的N个历史直播间；根据历史搜索词以及N个历史直播间，构建正样本对以及负样本对，以作为训练样本集；根据训练样本集进行训练，以获取搜索模型。这样，通过在搜索日志中获取搜索记录来构建训练样本，这种样本构造方式与用户实际搜索召回的场景更吻合，都是从全量样本空间中进行搜索，提高了样本的质量，进而也保证了后续模型训练的准确度和合理性；同时也无需进行人工标注，提高了训练样本获取的效率。

可选的，本公开实施例中，步骤S32具体可以包括以下步骤S321至步骤S323：

步骤S321、基于历史行为数据，确定所述N个历史直播间中被用户选择播放的历史直播间，以作为目标历史直播间。

本公开实施例中，历史行为数据可以是指历史搜索日志中记载的、记录有用户针对N个历史直播间的历史行为的数据。该历史行为数据可以是指点击、播放、收藏或者打赏等。目标历史直播间可以是指用户在N个历史直播间中选择播放、收藏或者打赏等行为对应的直播间。

具体的，当用户输入历史搜索词之后，电子设备向用户返回N个历史直播间，若这N个历史直播间中不存在与历史搜索词相匹配的直播间，用户的历史行为可以是退出当前搜索结果展示页面或者重新进行搜索，不会进行点击播放等操作；若这N个历史直播间中存在与历史搜索词相匹配的直播间，用户的历史行为可以是点击其中某个历史直播间并进行观看，此时用户点击并观看的该历史直播间则为目标历史直播间。

步骤S322、根据所述历史搜索词以及所述目标历史直播间的历史播放片段，构建所述正样本对。

本公开实施例中，基于用户的历史行为数据确定出目标历史直播间之后，可以确定目标历史直播间与历史搜索词相匹配，此时可以将该目标历史直播间的历史播放片段与历史搜索词组成正样本对，即历史搜索词(query)-目标历史直播间历史播放片段。

步骤S323、根据所述历史搜索词以及剩余的其他历史直播间的历史播放片段，构建所述负样本对。

本公开实施例中，在N个历史直播间中，在基于用户的历史行为数据确定出目标历史直播间之后，可以将N个历史直播间中除目标历史直播间之外的其他历史直播间与历史搜索词分别组成负样本对，即历史搜索词(query)-其余历史直播间历史播放片段。当然，为了提高负样本的数量，该负样本对中的历史播放片段也可以是指除目标历史直播间之外的、其他所有直播间的随机播放片段，本公开实施例对此不作限定。

本公开实施例中，基于历史行为数据，确定N个历史直播间中被用户选择播放的历史直播间，以作为目标历史直播间；根据历史搜索词以及目标历史直播间的历史播放片段，构建正样本对；根据历史搜索词以及剩余的其他历史直播间的历史播放片段，构建负样本对。这样，基于用户的历史交互行为确定目标历史直播间并构建正负样本对，通过搜索日志来构建训练样本，避免了人工大规模标注，节省了人工成本的同时提高了训练样本的质量。

示例性地，图2示出了本公开实施例的一种直播间搜索方法的搜索模型示意图。如图2所示出的，该搜索模型为双塔模型，双塔模型在计算相似度之间不进行交互，这样能够保证模型的实用性。一方面，搜索模型基于目标搜索词，通过语言表征模型(BidirectionalEncoder Representation from Transformers，BERT)从用户的目标搜索词中提取出第二特征向量，该第二特征向量可以为32维的向量。另一方面，搜索模型基于直播图像，即直播间封面图像以及直播实时视频帧，通过图像特征提取模型即残差网络(Resnet)来分别提取封边图像和视频帧的图像特征，得到两个32维的第三特征向量；之后通过融合模型，例如多层感知机融合模型(MLP-Mixs)等，将两个第三特征向量进行融合，得到直播图像对应的第一特征向量。

之后，搜索模型计算第一特征向量与第二特征向量的余弦距离，得到相似度，其中，余弦距离越小，则第一特征向量与第二特征向量的相似度越高。最后可以基于相似度对直播间进行排序，输出排序在前M位的目标直播间或者结合预设函数例如argmin cos输出相似度最高即余弦距离最小的目标直播间，本公开实施例对此不作限定。该argmin cos的含义为使余弦距离cos取最小值时对应的直播间。这样，后续搜索模型在实际使用时，每隔预设时间周期对对当前开播的所有直播间抽取直播图像，计算直播间的第一特征向量，用户输入目标搜索词之后，实时计算目标搜索词的第二特征向量，使用最近邻检索找到最相关的至少一个目标直播间。提高了搜索的准确度。

需要注意的是，为了提高特征提取的准确度，语言表征模型BERT可以替换为Roberta文本特征提取模型等，图像特征提取模型残差网络Resnet可以替换为视觉特征转换模型等(Vision Transformer，ViT)，本公开实施例对此不作限定。

以下结合图2详细说明关于搜索模型的预训练过程：

在基于历史搜索日志构建正负样本并基于该正负样本得到样本训练集之后，可以将该正负样本对中的历史搜索词输入至初始搜索模型的目标搜索词一侧，进行文本特征的提取，得到第二训练特征向量。同时，将正负样本对中的历史播放片段对应的直播图像输入至初始模型中的图像特征提取模型中进行特征提取、融合，得到第一训练特征向量。之后基于第一训练特征向量以及第二训练特征向量，得到余弦距离。

之后，基于该余弦距离与正负样本，通过预设损失函数例如infoNCE等计算损失值(loss)，在损失值不满足预设条件的情况下，可以调整搜索模型中的学习参数，并再次输入正负样本对进行迭代训练并计算损失值。在损失值满足预设条件的情况下，表明该模型已经训练完成。该预设条件可以是指损失值收敛至0等，本公开实施例对此不作具体限定。

在一种损失函数的计算方式中，通常是针对单次迭代的样本集(batch)中的每一条样本计算一个损失值，当单次迭代的样本集的大小(batch size)为n，则可以计算得到n个损失值，之后取平均值得到最终的损失值loss。而本公开实施例中采用了infoNCE损失函数，即针对单次迭代的样本集batch，将所有样本进行两两配对，计算损失值后求平均值，即当单次迭代的样本集的大小(batch size)为n时，计算了

次样本匹配的损失值，这样能够进一步提高损失值计算的准确度和计算效率，进而提高了搜索模型的准确度和训练效率。

图3是根据一示例性实施例示出的一种直播间搜索装置的框图，如图3所示，该直播间搜索装置30可以包括：

获取模块301，被配置为获取各个直播间的直播图像，并基于预训练的搜索模型，提取所述直播图像对应的第一特征向量；

提取模块302，被配置为响应于用户的搜索操作，获取所述用户的目标搜索词，并基于预训练的搜索模型提取所述目标搜索词对应的第二特征向量，并确定所述第二特征向量与各个所述第一特征向量之间的相似度；

返回模块303，被配置为根据所述相似度确定与所述目标搜索词相匹配的至少一个目标直播间，并返回给所述用户

本公开实施例提供的直播间搜索装置，获取各个直播间的直播图像，并基于预训练的搜索模型，提取直播图像对应的第一特征向量；响应于用户的搜索操作，获取用户的目标搜索词，并基于预训练的搜索模型提取目标搜索词对应的第二特征向量，并确定第二特征向量与各个第一特征向量之间的相似度；根据相似度确定与目标搜索词相匹配的至少一个目标直播间，并返回给用户。本公开实施例中通过获取直播间的直播图像并提取特征实现对各个直播间的实时刻画，再基于特征向量的相似度计算确定出与用户搜索词相匹配的目标直播间，能够实时、准确地刻画各个直播间当前的直播内容，提高了用户搜索的准确度。

可选的，所述获取模块301，包括：

可选的，所述第一获取子模块，具体被配置为：

将所述封面图像以及所述视频帧确定为所述直播图像。

可选的，所述提取模块302，具体被配置为：

可选的，所述装置30还包括：

可选的，所述构建模块，具体被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开的一个实施例，提供了一种电子设备，包括：处理器、用于存储处理器可执行指令的存储器，其中，处理器被配置为执行时实现如上述任一个实施例中的直播间搜索方法中的步骤。

根据本公开的一个实施例，还提供了一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的直播间搜索方法中的步骤。

根据本公开的一个实施例，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序指令，可读性程序指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的直播间搜索方法中的步骤。

图4是根据一示例性实施例示出的一种终端的框图。例如，终端400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的直播间搜索方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述直播间搜索方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述直播间搜索方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种直播间搜索装置的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述直播间搜索方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播间搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取各个直播间的直播图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述在每个预设时间周期内，实时获取所述直播间的视频帧，以作为所述直播图像，包括：

将所述封面图像以及所述视频帧确定为所述直播图像。

4.根据权利要求3所述的方法，其特征在于，所述提取所述直播图像对应的第一特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述预训练的搜索模型通过下述方式训练获取：

根据历史搜索日志确定历史搜索词所召回的N个历史直播间；

根据所述训练样本集进行训练，以获取所述搜索模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述历史搜索词以及所述N个历史直播间，构建正样本对以及负样本对，包括：

7.一种直播间搜索装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的直播间搜索方法。

9.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的直播间搜索方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括可读性程序指令，所述可读性程序指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的直播间搜索方法。