CN114077687A

CN114077687A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114077687A
Application number: CN202010814759.9A
Authority: CN
Inventors: 曹雅婷; 刘士博; 罗智凌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-02-22

Abstract

本公开实施例公开了一种数据处理方法、装置、电子设备及存储介质，所述方法包括：获取待处理的直播数据；在所述直播数据中提取关键信息，所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；将所述关键信息提供给数据需求方。该技术方案能够通过对直播数据进行处理获得直播过程中的关键信息，例如关键时刻以及关键时刻对应的直播互动信息，进而将关键信息提供给数据需求方，例如展示在主播的客户端，通过这种方式能够自动为数据需求方提供直播的复盘信息，降低复盘成本，并提升复盘效率。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

当前直播行业飞速发展，而主播为了提升自身的直播质量，通常会在直播结束后根据感觉或者运营给出的数据进行自我复盘，但是这种自我复盘较为主观和耗时，且对于数据敏感度较弱或者经验不足的主播，复盘和对应的提升是一个较高门槛的事情。因此，如何提高主播的复盘效率以及复盘质量是直播平台亟需解决的主要技术问题之一。

发明内容

本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种数据处理方法，包括：

获取待处理的直播数据；

在所述直播数据中提取关键信息，所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

将所述关键信息提供给数据需求方。

进一步地，所述直播数据包括预设核心指标对应的时序数据；在所述直播数据中提取关键信息，包括：

根据所述预设核心指标对应的时序数据确定所述预设核心指标对应的趋势数据以及所述趋势数据中的关键时刻。

进一步地，所述直播数据包括所述直播视频数据；在所述直播数据中提取关键信息，包括：

通过对所述直播视频数据中的音频数据、图像数据以及直播对象数据进行多模态识别处理，得到直播互动信息。

进一步地，在所述直播数据中提取关键信息，包括：

对所述直播数据进行预处理得到预处理数据；所述预处理数据包括预设核心指标在各时刻对应的数值、预设直播动作及其发生时间、视频流处理数据；所述视频流处理数据包括时间采样窗口内的图像帧序列、音频和所述时间采样窗口的开始时间戳；

根据所述预处理数据获取关键信息。

进一步地，根据所述预处理数据获取关键信息，包括：

确定所述预设核心指标在直播过程中的趋势数据以及所述趋势数据中的关键时刻；所述关键时刻包括所述趋势数据中的波峰、波谷、突变向上和/或突变向下关键点对应的时刻。

进一步地，根据所述预处理数据获取关键信息，包括：

分别对所述图像帧序列、所述音频和所述时间戳进行单模态特征处理，并得到单模态处理结果；

通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合。

进一步地，分别对所述图像帧序列、所述音频和所述时间戳进行单模态特征处理，并得到单模态处理结果，包括以下至少之一：

基于所述图像帧序列识别所述时间采样窗口内直播主体的人体关键点序列；

基于所述音频识别所述时间采样窗口内所述直播主体产生的语音对应的文本数据；

根据所述时间戳识别所述时间采样窗口内的直播对象元数据。

进一步地，通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合，包括：

根据所述人体关键点序列进行场景分类，得到所述视频流处理数据在预设场景下的第一场景概率；

根据所述文本数据进行场景分类，得到所述视频流处理数据在所述预设场景下的第二场景概率；

根据所述第一场景概率和第二场景概率确定所述视频流处理数据对应的场景数据。

进一步地，通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合，还包括：

从所述文本数据中识别第一命名实体关键词，得到所述文本数据对应的第一关键词集合；

从所述直播对象元数据识别第二命名实体关键词，得到所述时间戳对应的第二关键词集合。

进一步地，将所述关键信息提供给数据需求方，包括：

确定所述关键时刻对应的所述时间采样窗口；

根据所述时间采样窗口确定所述关键时刻对应的所述直播互动信息；所述直播互动信息包括所述时间采样窗口对应的场景数据以及所述关键词集合；

将所述趋势数据、所述趋势数据中的所述关键时刻以及所述关键时刻对应的所述直播互动信息提供给数据需求方。

第二方面，本发明实施例中提供了一种数据处理装置，包括：

获取模块，被配置为获取待处理的直播数据；

提取模块，被配置为在所述直播数据中提取关键信息，所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

提供模块，被配置为将所述关键信息提供给数据需求方。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例通过对直播数据进行处理获得直播过程中的关键信息，例如关键时刻以及关键时刻对应的直播互动信息，进而将关键信息提供给数据需求方，例如展示在主播的客户端，通过这种方式能够自动为数据需求方提供直播的复盘信息，降低复盘成本，并提升复盘效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的数据处理方法的流程图；

图2示出根据本公开一实施方式的数据处理方法的完整流程示意图；

图3示出根据本公开一实施方式在商品直播场景下展示直播复盘数据的整体方案实现流程示意图；

图4示出根据本公开一实施方式中多模态识别整体流程示意图；

图5示出根据本公开一实施方式中在预设核心指标趋势图上展示关键点以及关键点对应的场景数据的图形展示示意图；

图6示出根据本公开一实施方式中仅展示预设核心指标趋势图的图形展示示意图；

图7示出根据本公开一实施方式的数据处理装置的结构框图；

图8是适于用来实现根据本公开一实施方式的数据处理方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

下面通过具体实施例详细介绍本公开实施例的细节。

图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示，该数据处理方法包括以下步骤：

在步骤S101中，获取待处理的直播数据；

在步骤S102中，在所述直播数据中提取关键信息，所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

在步骤S103中，将所述关键信息提供给数据需求方。

本实施例中，直播数据可以包括但不限于直播过程中产生的直播视频数据、直播过程中随着时间顺序在不断产生以及变化的时序数据以及其他相关数据。时序数据例如可以包括直播过程中的用户流量数据(如在线人数、用户观看直播次数、新增粉丝数量、直播引导用户进店次数、直播间关联的订单数量等)；其他相关数据例如可以包括直播对象信息(例如直播商品的上架时间)、直播过程中的在线权益投放动作(比如红包发放动作、优惠券投放动作)等数据。

从数据接入层面，直播数据可以分为客户端埋点数据、服务端埋点数据、直播间关联订单数据和直播间推流数据等。客户端埋点数据例如可以包括但不限于用户流量数据例如直播间在线人数、商品引导进店人数等。服务端埋点数据可以包括但不限于直播商品上架时间、在线权益投放等(例如红包发放、优惠券发放等)。直播推流数据可以包括从云端保存的直播视频数据中拉流到本地的视频流。

关键信息可以包括但不限于直播过程中数据需求方比如主播需要关注的关键时刻以及该关键时刻的直播互动信息，该直播互动信息可以包括但不限于直播主体当时的身体动作、语言信息、直播对象信息等。关键信息可以通过对直播产生时序数据进行处理以及对直播视频数据进行处理获得。

在一些实施例中，可以针对直播过程中产生的时序数据生成随时间变化的趋势数据，例如趋势图；关键时刻可以通过该趋势数据呈现出来。例如，关键时刻可以是趋势数据中变化较大的点(比如趋势数据中的波峰、波谷和相对波动较大的点)对应的时刻。在一些实施例中，趋势数据可以包括但不限于流量波动趋势数据、粉丝转化趋势数据、成交转化趋势数据等。流量波动趋势数据可以包括但不限于用户观看直播次数趋势数据、在线人数趋势数据等。粉丝转化趋势数据可以但不限于粉丝增长趋势数据、直播引导用户进店次数变化趋势数据；成交转化趋势数据可以包括但不限于直播引导订单成交数量趋势数据、直播引导订单成交金额趋势数据等。

在另一些实施例中，还可以对直播视频数据进行处理以得到关键信息。例如可以从直播视频中提取出关键时刻直播主体如主播的动作等直播互动信息，并将其作为关键信息反馈给数据需求方如主播。

通过对直播数据进行处理得到关键信息之后，可以将该关键信息提供给数据需求方，例如提供给该直播数据的主播，并以可视化方式展示在主播的客户端上。

在一些实施例中，该数据处理方法在服务器上执行，服务器可以实时获取直播数据，并根据获取到的直播数据实时分析得到关键信息，进而推送给数据需求方，例如推送到主播客户端进行展示，服务器也可以在直播结束之后及时分析得到关键信息，进而推送给数据需求方，例如推送到到主播客户端进行展示，以协助主播对当前结束直播场次进行复盘。在另一些实施例中，该数据处理方法也可以在数据需求方例如主播的客户端上执行，数据需求方的客户端可以实时获取直播数据，并根据获取到的直播数据实时分析得到关键信息，进而实时展示在客户端上；客户端也可以在直播结束之后及时分析得到关键信息，进而展示在客户端上。在另一些实施例中，响应于直播结束时间，服务器或者主播客户端执行上述数据处理方法，以便能够在直播结束的复盘重要时段(例如下播1小时内)为主播提供复盘有效信息，也即上述关键信息。

在本实施例的一个可选实现方式中，所述直播数据包括预设核心指标对应的时序数据，步骤S102，即在所述直播数据中提取关键信息的步骤，进一步包括以下步骤：

该可选的实现方式中，可以针对直播过程中产生的时序数据预先设置一个或多个预设核心指标，并针对预设核心指标对应的时序数据生成随时间变化的趋势数据，例如趋势图。预设核心指标可以基于直播的实际应用场景而预先设定，例如在商品直播场景下，预设核心指标可以包括但不限于直播间用户在线人数、直播间用户观看次数、直播间新增粉丝数、直播间引导用户进店次数等。针对上述预设核心指标对应的时序数据进行处理，可以得到对应的趋势数据，例如直播间用户在线人数随着时间而变化的趋势图、直播间用户观看次数随着时间而变化的趋势图、直播间新增粉丝数随着时间而变化的趋势图、直播间引导用户进店次数随着时间而变化的趋势图等。关键时刻例如可以包括趋势数据中的波峰、波谷、突变向上、突变向下等时刻，在确定了趋势数据之后，可以从中确定出每种不同趋势数据对应的上述关键时刻。通过这种方式，可以在直播结束时刻即时呈现本场直播中时序数据对应的趋势图中的峰值、谷值和相对波动最大的点等信息，可以帮助直播主体例如主播快速定位一场耗时较长时间的直播中流量波动较大大的时刻，提高主播复盘效率。

在本实施例的一个可选实现方式中，所述直播数据包括直播视频数据；步骤S102，即在所述直播数据中提取关键信息的步骤，进一步包括以下步骤：

该可选的实现方式中，直播视频数据可以从云端获得。在视频处理过程中，可以利用预先定义好的时间采样窗口从视频数据采样得到视频流，并从时间采样窗口内的视频流中提取出图像帧序列、音频数据以及时间采样窗口对应的时间戳(也即该时间采样窗口在整个视频流中的位置)，通过分别对图像帧序列和音频进行视觉角度和音频角度的处理，并根据时间戳获取时间采样窗口对应的直播对象信息例如直播商品信息，进而通过多模态处理方式结合从视觉角度和音频角度得到的处理结果以及时间戳对应的直播对象信息，最终识别出直播互动信息后提供给数据需求方，例如展示在主播的终端上，以此来辅助主播快速了解自己在直播中的关键时刻在进行哪些互动内容，从而帮助主播复盘自己的表现对于直播间效果的影响。该直播互动信息可以包括但不限于直播主体(例如主播)的核心动作、直播主体的语音核心信息以及直播对象关键信息等。

在本实施例的一个可选实现方式中，步骤S102，即在所述直播数据中提取关键信息的步骤，进一步包括以下步骤：

根据所述预处理数据获取关键信息。

该可选的实现方式中，在获得直播数据之后，可以先对直播数据进行预处理，也即进行必要的数据清洗，得到直播间可用数据。预设核心指标可以是预先定义且待通过给数据需求方的关键性指标。可以针对直播过程中产生的时序数据预先设置一个或多个预设核心指标，并针对预设核心指标对应的时序数据生成随时间变化的趋势数据，例如趋势图。预设核心指标可以基于直播的实际应用场景而预先设定，例如在商品直播场景下，预设核心指标可以包括但不限于直播过程中用户在线人数、直播过程中用户观看次数、直播过程中新增粉丝数、直播过程中引导用户进店次数等。关键信息中的关键时刻则可以反映在预设核心指标的趋势数据上。预设核心指标在各时刻对应的数值可以根据直播间实时产生的数据统计得到，例如可以根据用户进入直播间的数据实时统计用户在线人数等。预设直播动作可以是预先定义的直播中发生的动作，例如可以包括但不限于商品上架、红包发放及优惠券发放等动作，预设直播间动作的发生时间可以精确到秒。

对于直播视频数据，可以先从云端拉取直播过程中产生的视频数据到本地，该过程中可以采用流式处理，因此也可以称之为拉流处理，拉流处理过程中可以先设定一个时间采用窗口的宽度，比如T＝10s，每次拉流都是按照该时间采用窗口的宽度，进行固定窗口采样。对于拉流得到的本地视频流可以进行如下预处理：本地视频流包含音频和视频，是一种混合的模态，为了更好地支持各种特征的处理，可采用多媒体处理工具例如FFmpeg将本地视频流拆解为三个组成部分：图像帧序列、音频和时间戳。其中，图像帧序列由一组图像帧组成，每个图像帧可以表示为一个H*W*C的张量，其中H是图像的高度像素数量，W是宽度像素数量，C是通道数，在采用RBG色彩通道时，C＝3。图像帧张量的每一个值都是一个[0，255]的整数。音频是该时间采用窗口内的视频流中嵌入的音频。时间戳可以是该时间采用窗口的开始时间戳，在实际使用中，该时间戳可以是每个时间采用窗口相对于整个视频数据的开始时间的偏移量。在对直播数据进行上述预处理之后，根据预处理结果得到关键信息。

在本实施例的一个可选实现方式中，即根据所述预处理数据获取关键信息的步骤，进一步包括以下步骤：

该可选的实现方式中，可以根据预设核心指标在各个时刻对应的数据得到该预设核心指标对应的趋势数据，例如趋势图，进而再根据该趋势数据中预设核心指标的数据变化确定时序关键点，该时序关键点对应于上述关键时刻，例如时序关键点可以包括但不限于波峰、波谷、突变向上和/或突变向下点等。

在一些实施例中，影响预设核心指标趋势数据的参数可以包括但不限于计算时序关键点的时间窗口以及每种时序关键点的输出个数。其中，该时间窗口选取越短，计算出的时序关键点可能就越多，例如可以选取趋势数据记录频率为5分钟(也即每5分钟统计一次核心指标对应的数据作为一个趋势数据，也即趋势图上的一个点)，而取2个趋势数据作为观察指标变化的时间窗口，则时间窗口的长度为10分钟。每种时序关键点的输出个数可以根据实际应用场景预先设定，例如在该输出个数取2时，而存在4种时序关键点(比如波峰、波谷、向上突变、向下突变)的情况下，可以在主播客户端上输出包括8个时序关键点的趋势数据。需要说明的是，此处时序关键点对应的时间窗口和对直播视频数据进行预处理的过程中的时间采样窗口可以不同。

该可选的实现方式中，针对从视频流中提取出的图像帧序列、音频和时间戳，可以先分别进行单模态特征处理。也即针对图像帧序列进行单独的特征处理，针对音频进行单独的特征处理，而针对时间戳进行单独的处理，并获得视频流对应的三种数据的三种单模态处理结果。进而再结合三种单模态处理结果进行多模态场景识别，得到时间采样窗口内视频流对应的场景数据，该场景数据可以包括对应的预设场景以及关键词集合。该关键词集合可以包括一个或多个关键词，该关键词可以包括从时间采样窗口内视频流对应的音频数据中提取出的关键词，以及从图像帧识别得到或者根据时间戳确定的直播对象相关的关键词。

在一些实施例中，视频流对应的预设场景与主播的行动动作以及语言动作等相关。预设场景可以预先定义，例如在商品直播过程中场景可以包括但不限于商品整体展示、商品细节展示、主播换衣服(先服饰类目)、主播打招呼互动、价格介绍和其他重要环节等。关键词集合可以包括场景下的一个或多个关键词，这些关键词可以是通过对图像帧序列、音频和时间戳进行特征处理得到的，可以用于标识该场景中的关键内容。

在本实施例的一个可选实现方式中，即分别对所述图像帧序列、所述音频和所述时间戳进行单模态特征处理，并得到单模态处理结果的步骤，进一步包括以下步骤中的至少之一：

该可选的实现方式中，针对预处理得到的图像帧序列进行人体关键点识别算法，得到图像帧序列中的人体关键点序列。

下面举例说明一种人体关键点序列的识别过程。

对于图像帧序列，可以采用姿态估计算法PoseEstimation进行处理，该算法读入一个图像帧后，对图像帧进行一次按比率采样，得到的采样结果同样为H*W*C的张量，其中H是图像的高度像素数量，W是宽度像素数量，C是通道数，在采用RBG色彩通道时，C＝3。在H(高度像素数量)和W(宽度像素数量)两个维度上，按照预定好的数量将整个张量进行分块，每个分块表示一个画面的局部。之后利用预训练好的卷积神经网络(CNN)对每一个分块进行分类，以判断该分块内的画面是否对应一个人体关键点。整个张量中的所有分块进行上述分类过程之后，可以确定其中的多个人体关键点，之后利用PAF算法对整个张量中的所有人体关键点进行处理，也即根据人体关键点对应的关节相对位置估计骨骼的方向，从而对上面的得到的人体关键点进行微调，以便得到更精确地人体关键点位置。在一些实施例中，通过这种方式可以获得一个人体关键点序列(例如18个人体关键点)相对于图像帧左上角的偏移向量。

对于音频，可以利用音频处理方法识别直播主体在直播过程中产生的语音对应的文本数据。例如，可以利用ASR算法处理预处理得到的音频，该ASR算法利用基本的音素切割，并且辅之以马尔科夫链等上下文关联模型，用来估计每个音素对应的文字，从而将整个音频识别为文本。

此外，还可以通过人工标定或者视觉识别算法等从图像帧序列中识别出当前时间戳对应的直播对象以及直播对象的元数据，直播对象可以是直播主体正在直播间为大家介绍的对象，例如商品等。直播元数据可以是直播对象的属性数据，例如名称、类别等。

在本实施例的一个可选实现方式中，通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合的步骤，进一步包括以下步骤：

该可选的实现方式中，由于上述单模态处理过程中得到的处理结果均不能完整的表示整个场景，因此可以利用多模态场景识别算法对单模态处理结果做进一步识别。该多模态识别算法的输入包括图像帧序列对应的人体关键点序列、文本和直播对象元数据，输出包括图像帧所属场景以及对应的标签关键词集合。

在一些实施例中，该多模态识别算法按照如下方式获得图像帧序列(也即该图像帧序列对应的时间窗口内的视频)所属场景以及标签关键词：

1、采用训练好的GCNN(图像卷积神经网络)算法对图像帧序列中识别得到的人体关键点序列进行分类，将人体关键点序列分类到预设场景中，得到图像帧序列也即时间窗口内的视频被分类到各个预设场景的第一场景概率(视觉角度)。

2、利用预训练好的NLU(自然语言理解)算法对图像帧序列对应的文本进行分类，将该文本分类到预设场景中，得到该视频被分类到各个预设场景的第二场景概率(音频角度)。

3、利用顶层决策算法或基于预设规则，将视觉角度和音频角度的场景分类概率汇总为多模态概率，并利用argmax函数确定多模态概率取最大值时的预设场景，进而将该预设场景确定为该时间采样窗口内的视频流对应的场景数据。

在一些实施例中，预设场景可以包括但不限于商品整体展示场景、商品细节展示场景、主播换衣服(限服饰类目)场景、主播打招呼互动场景、价格介绍场景和其他重要动作场景等。预设场景可以根据实际的应用而预先设定，在此不做具体限制。

在本实施例的一个可选实现方式中，通过对所述单模态处理结果进行多模态场景识别得到所述采样窗口内的视频流处理数据所处的场景以及关键词集合的步骤，进一步还包括以下步骤：

从所述文本中识别第一命名实体关键词，得到所述文本对应的第一关键词集合；

该可选的实现方式中，针对从音频识别出来的文本，可以从该文本中识别出第一命名实体关键词，形成第一关键词集合，而针对时间戳对应的直播对象元数据，可以从中识别出第二命名实体关键词，形成第二关键词集合，第一关键集合和第二关键词集合的并集可以作为该时间采样窗口内的视频处理数据对应的关键词集合。

在一些实施例中，命名实体可以包括但不限于三大类(即实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在一些实施例中，可以利用预训练好的NER(命名实体识别)算法从文本中抽取命名实体对应的第一命名实体关键词，以及利用预训练好的NER算法从直播对象元数据(例如商品元数据)中抽取第二命名实体关键词(例如商品关键词)，对第一命名实体关键词集合和第二命名实体关键词集合求并集，得到最终的关键词集合。

在本实施例的一个可选实现方式中，步骤S103，即将所述关键信息提供给数据需求方的步骤，进一步还包括以下步骤：

确定所述关键时刻对应的所述时间采样窗口；

该可选的实现方式中，根据预设核心指标的时序数据获得预设核心指标按照时间变化的值之后，得到预设核心指标对应的趋势数据，例如趋势图。关键信息提供给数据需求方之后，客户端上展示该关键信息的时候，可以图形化方式将关键信息展示在上述预设核心指标对应的趋势数据上。关键信息包括关键时刻以及关键时刻对应的直播互动信息。直播互动信息包括时间采样窗口内对应的场景数据以及关键词集合。场景数据可以对应于其中一个或多个预设场景，例如商品整体展示场景、商品细节展示场景、主播换衣服(限服饰类目)场景、主播打招呼互动场景、价格介绍场景和其他重要环节等。提供给需求方的展示信息可以包括预设核心指标的趋势数据、该趋势数据上对应的关键时刻、以及该关键时刻对应的直播互动信息。在一些实施例中，可以先根据关键时刻确定对应的时间采样窗口，进而再确定该时间采样窗口内的视频处理数据对应的场景数据和关键词集合，建立该关键时刻与该场景数据以及关键词集合之间的关联关系，将趋势数据、趋势数据中的关键时刻以及与该关键时刻关联的场景数据和关键词集合提供给数据需求方，例如返回至主播的客户端，进而在主播客户端上图形化展示上述数据。例如，可以在当前所展示的预设核心指标对应的趋势图上标识出关键时刻，进而在鼠标移动到趋势图上的关键时刻时，可以在弹出窗口或者预设窗口位置同步展示出场景数据以及关键词集合，此外在展示场景数据的同时，除了表明关键时刻的场景数据对应哪个预设场景之外，还可以展示出关键时刻主播的身体动作以及对应的回放视频等，具体可以根据实际情况设定。

需要说明的是，由于预设场景是预先定义并且提供给数据需求方，例如展示给主播，以引起主播注意的场景，因此在关键时刻对应的时间采样窗口并没有被分类到预设场景下时，可以不在趋势数据上展示该关键时刻以及关键时刻对应的直播互动信息。

图2示出根据本公开一实施方式的数据处理方法的完整流程示意图。如图2所示，数据处理服务器用于实现本公开实施例提出的直播数据处理方案，在一场直播结束后，数据处理服务器可以从云端视频服务器获取直播过程中产生的直播视频数据，并从直播服务器获取直播过程中的时序数据及其他数据等，例如用户流量数据、在播商品上架时间、在播权益投放(红包发放、优惠券发放)等，数据处理服务器通过对上述直播间时序数据进行预处理得到预设核心指标的趋势数据，并对直播间视频数据进行处理得到时间采样窗口内的图像帧序列、音频和时间戳等，对预设核心指标趋势数据进行时序关键点算法识别得到关键时刻，对图像帧序列、音频以及时间戳分别进行处理得到人体关键点序列、文本以及时间戳对应的商品元数据，进而再对人体关键点序列、文本以及商品元数据进行多模态场景识别得到时间采样窗口内的视频流对应的场景数据以及关键词集合。将场景数据、关键词集合、趋势图和趋势图上的关键时刻关联后，提供给数据需求方，例如主播客户端，以便在主播客户端上展示趋势图的同时，在关键时刻展示对应的场景数据、关键词集合以及其他相关信息。

下面针对商品直播间为例对本公开实施例进行详细说明。

图3示出根据本公开一实施方式在商品直播场景下展示直播复盘数据的整体方案实现流程示意图。如图3所示，该方案的实现流程可以大致分为数据接入、数据处理、算法处理和结果在前端展示四个阶段。数据接入阶段是基础的数据准备阶段，也即获取直播间产生的相关数据，图2中示出了四种接入数据：直播间前端埋点数据、直播间服务端埋点数据、直播间关联订单数据、直播间推流数据。直播间前端埋点数据主要包括直播流程中直播间实时在线人数、直播间商品引导进店人数等，直播间服务端埋点数据主要包括在播商品上架时间、在播权益投放(红包发放、优惠券发放)等；直播间关联订单数据可以是用户通过直播间下单的数据；直播间推流数据包括直播间的视频数据。

数据处理阶段用于对数据接入阶段获取的数据进行处理，比如对低层数据进行必要的清洗，最终产出的是直播间在开播时段中对应的可用数据，可以包括但不限于：预设核心指标的各时刻点对应数值；直播间预设动作及对应时间(商品上架时间，红包发放时间和优惠券内容及发放时间，其中时间可以精确到秒)；直播推流处理得到的数据。

直播推流处理可以包括拉流和预处理。直播间的数据保存于云端，可以先从云端拉取云端视频流到本地，变成本地视频流，该过程可以是流式处理：设定一个窗口宽度，比如T＝10s，每次拉流都是按照该窗口宽度，进行固定窗口采样。本地视频流包含音频和视频，是一种混合的模态，为了更好地支持各种特征的处理，可采用ffmpeg将视频流拆解为三个组成部分，分别是：图像帧列表、音频和时间戳。其中1)图像帧列表由一组图像帧组成，每个图像帧都表示为一个H*W*C的张量，其中H是画面的高度像素数量，W是宽度像素数量，C是通道数，此处采用RBG色彩通道，则C＝3。图像帧张量的每一个值都是一个[0,255]的整数。2)音频是该窗口的视频中嵌入的音频。3).时间戳是该窗口的开始时间戳，在实际使用中，该时间戳可以是每个窗口相对于整个视频的开始时间的偏移量。

算法处理阶段，可以针对直播间id，分场次实施算法处理，算法处理主要包括两大方面：一是时序关键点的识别，用以标识出该场次主播需要重点关注的时刻；二是多模态诊断识别，用来判断主播当前互动内容和相关商品。

一、时序关键点识别：时序关键点算法的识别整体流程主要包括调用实时趋势打点数据、时序关键点计算等，时序关键点可以包括时序极值点，具体包括：

1、当主播在推流端点击“结束直播”按钮后，前端传递参数请求数据，同时该直播场次对应的时序数据作为数据源开始时序关键点算法计算流程；

2、本方案中定义了四种关键点：波峰、波谷、突变向上和突变向下点。依据实际场景可以调整影响到输出结果的参数：

1)计算关键点所用的时间窗口，时间窗口选取越短，计算出的可能关键点数就会越多。在本场景中，趋势数据记录频率为5分钟，时间窗口取2，即以10分钟作为观察指标变化的时间窗口。

2)每种情况输出的个数，在本场景中此值取2，因此最终对于每个主播，会展示一场直播的8个关键点。

二、多模态诊断识别：

图4示出根据本公开一实施方式中多模态识别整体流程示意图。如图4所示，其中核心步骤是单模态特征处理和多模态场景识别，具体内容如下：

1、单模态特征处理：单模态的预处理按照上面得到的三个通道特征分别处理，可以采用如下三种处理方式：

1)图像帧采用姿态估计算法PoseEstimation进行处理，该算法读入一个图像帧，将图像帧进行一次按比率采样，然后对采样的结果，在H和W维度上，按照预定好的数量，将整个张量分块，每个分块表示一个图像帧的局部。然后利用一个预训练好的卷积神经网络(CNN)对每一个分块进行分类，判断该局部是否是一个人体关键点。然后利用PAF算法，利用图像帧中的关节相对位置，估计骨骼的方向，从而对上面的得到的关键点进行微调，从而得到精确的人体关键点位置。此环节的输出是一个18个关键点相对于图像帧左上角的偏移向量。

2)ASR算法用来处理上文得到的音频，ASR算法利用基本的音素切割，并且辅之以马尔科夫链等上下文关联模型，用来估计每个音素对应的文字，从而将整个音频改写为文本。

3)利用人工标定、视觉商品识别算法等方式获得每个时间戳对应的商品元数据，特别是商品的标题，类目信息等。

2、多模态场景识别：在上文得到的单个模态处理结果都不能完整的表示整个场景，所以需要一个多模态场景识别算法，该算法读入人体关键点序列、口播文本和商品元数据，按照如下方式获得场景和标签：

1)采用训练好的GCNN算法对关键点的序列进行分类，将关键点的序列分类到场景中，得到本视频被分类到各个场景的概率(视觉角度)。

2)利用预训练好的NLU算法对口播文本进行分类，将文本分类到场景中，得到本视频被分类到各个场景的概率(音频角度)。

3)利用一个顶层决策算法或基于规则，将视觉角度和音频角度的场景分类概率汇总为多模态概率，并argmax该概率，得到本段视频的场景

4)利用预训练好的NER算法从口播文本中抽取标签关键词。

5)利用预训练好的NER算法从商品元数据中抽取商品关键词。

6)对标签关键字和商品关键字求并集，得到标签列表。

在本方案中的实际上线场景中，针对动作识别已覆盖的场景有：商品整体展示、商品细节展示、主播换衣服(限服饰类目)、主播打招呼互动、价格介绍和其他重要动作。但本方案并不仅限于这些识别场景。

前端结果展示阶段，在主播点击“结束直播”按钮确认结束直播后，下播报告下播报告会即刻展示。当该主播在功能开启白名单中时，会开到报告中的“智能解读”开关。当开关开启，会调用算法结果，前端展示核心指标趋势图上的关键点(关键时刻对应的点)，以及每个关键点对应的回放视频、关键时刻识别出来的主播动作和当时对应的关键权益(如图5所示)。当开关关闭，或者该主播不具备开启本功能权限时，下播报告会展示默认版本，即核心指标趋势图(如图6所示)。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图7示出根据本公开一实施方式的数据处理装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示，该数据处理装置包括：

获取模块701，被配置为获取待处理的直播数据；

提取模块702，被配置为在所述直播数据中提取关键信息，所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

提供模块703，被配置为将所述关键信息提供给数据需求方。

关键信息可以包括但不限于直播过程中主播需要关注的关键时刻以及该关键时刻主播的互动信息，该互动信息可以包括但不限于主播当时的身体动作、语言信息、直播对象信息等。关键信息可以通过对直播产生时序数据进行处理以及对直播视频数据进行处理获得。

在本实施例的一个可选实现方式中，所述直播数据包括所述预设核心指标对应的时序数据；所述提取模块，包括：

第一确定子模块，被配置为根据所述预设核心指标对应的时序数据确定所述预设核心指标对应的趋势数据以及所述趋势数据中的关键时刻。

在本实施例的一个可选实现方式中，所述直播数据包括所述直播视频数据；所述提取模块，包括：

第一处理子模块，被配置为通过对所述直播视频数据中的音频数据、图像数据以及直播对象数据进行多模态识别处理，得到直播互动信息。

在本实施例的一个可选实现方式中，所述提取模块，包括：

预处理子模块，被配置为对所述直播数据进行预处理得到预处理数据；所述预处理数据包括预设核心指标在各时刻对应的数值、预设直播动作及其发生时间、视频流处理数据；所述视频流处理数据包括时间采样窗口内的图像帧序列、音频和所述时间采样窗口的开始时间戳；

第一获取子模块，被配置为根据所述预处理数据获取关键信息。

在本实施例的一个可选实现方式中，所述第一获取子模块，包括：

第二确定子模块，被配置为确定所述预设核心指标在直播过程中的趋势数据以及所述趋势数据中的关键时刻；所述关键时刻包括所述趋势数据中的波峰、波谷、突变向上和/或突变向下关键点对应的时刻。

第二处理子模块，被配置为分别对所述图像帧序列、所述音频和所述时间戳进行单模态特征处理，并得到单模态处理结果；

第一识别子模块，被配置为通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合。

在本实施例的一个可选实现方式中，所述第二处理子模块，包括以下至少之一：

第二识别子模块，被配置为基于所述图像帧序列识别所述时间采样窗口内直播主体的人体关键点序列；

第三识别子模块，被配置为基于所述音频识别所述时间采样窗口内所述直播主体产生的语音对应的文本数据；

第四识别子模块，被配置为根据所述时间戳识别所述时间采样窗口内的直播对象元数据。

在本实施例的一个可选实现方式中，所述第一识别子模块，包括：

第一分类子模块，被配置为根据所述人体关键点序列进行场景分类，得到所述视频流处理数据在预设场景下的第一场景概率；

第二分类子模块，被配置为根据所述文本数据进行场景分类，得到所述视频流处理数据在所述预设场景下的第二场景概率；

第三确定子模块，被配置为根据所述第一场景概率和第二场景概率确定所述视频流处理数据对应的场景数据。

在本实施例的一个可选实现方式中，所述第一识别子模块，还包括：

第五识别子模块，被配置为从所述文本数据中识别第一命名实体关键词，得到所述文本数据对应的第一关键词集合；

第六识别子模块，被配置为从所述直播对象元数据识别第二命名实体关键词，得到所述时间戳对应的第二关键词集合。

在本实施例的一个可选实现方式中，所述提供模块，包括：

第四确定子模块，被配置为确定所述关键时刻对应的所述时间采样窗口；

第五确定子模块，被配置为根据所述时间采样窗口确定所述关键时刻对应的所述直播互动信息；所述直播互动信息包括所述时间采样窗口对应的场景数据以及所述关键词集合；

返回子模块，被配置为将所述趋势数据、所述趋势数据中的所述关键时刻以及所述关键时刻对应的所述直播互动信息提供给数据需求方。

上述可选实现方式中的具体细节可以参见上述对数据处理方法的描述，在此不再赘述。

图8是适于用来实现根据本公开实施方式的数据处理方法的电子设备的结构示意图。

如图8所示，电子设备800包括处理单元801，其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM803中，还存储有电子设备800操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据处理方法，其中，包括：

获取待处理的直播数据；

在所述直播数据中提取关键信息；所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

将所述关键信息提供给数据需求方。

2.根据权利要求1所述的方法，其中，所述直播数据包括预设核心指标对应的时序数据；在所述直播数据中提取关键信息，包括：

3.根据权利要求1或2所述的方法，其中，所述直播数据包括所述直播视频数据；在所述直播数据中提取关键信息，包括：

4.根据权利要求1或2所述的方法，其中，在所述直播数据中提取关键信息，包括：

根据所述预处理数据获取关键信息。

5.根据权利要求4所述的方法，其中，根据所述预处理数据获取关键信息，包括：

6.根据权利要求5所述的方法，其中，根据所述预处理数据获取关键信息，包括：

7.根据权利要求6所述的方法，其中，分别对所述图像帧序列、所述音频和所述时间戳进行单模态特征处理，并得到单模态处理结果，包括以下至少之一：

8.根据权利要求6所述的方法，其中，通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合，包括：

9.根据权利要求6所述的方法，其中，通过对所述单模态处理结果进行多模态场景识别得到所述时间采样窗口内的所述视频流处理数据对应的场景数据以及所述场景数据对应的关键词集合，还包括：

10.根据权利要求6-9任一项所述的方法，其中，将所述关键信息提供给数据需求方，包括：

确定所述关键时刻对应的所述时间采样窗口；

11.一种数据处理装置，其中，包括：

获取模块，被配置为获取待处理的直播数据；

提取模块，被配置为在所述直播数据中提取关键信息；所述关键信息至少包括关键时刻以及所述关键时刻对应的直播互动信息；

提供模块，被配置为将所述关键信息提供给数据需求方。

12.一种电子设备，其中，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-10任一项所述的方法。