CN113470673A

CN113470673A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN113470673A
Application number: CN202010239792.3A
Authority: CN
Inventors: 郑庚辛; 朱艺; 张子豪; 房秀强; 陈龚; 韦兴华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-10-01

Abstract

本申请实施例提供了一种数据处理方法、装置、设备和存储介质，以提高所接收语音数据的质量。所述方法包括：在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。能够有效消除语音数据中所播放视频的声音，提高语音数据的质量。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据处理方法和装置、一种电子设备和一种存储介质。

背景技术

随着多媒体技术的发展，越来越多的用户基于视频进行交互，如直播、视频通信等。

这些交互均是在视频播放的同时进行语音交互，然而该过程中，麦克风通常会在接收到语音的同时，接收到背景中的其他噪声，特别是视频本身所播放的声音，使得所接收语音数据的质量受到影响。

发明内容

本申请实施例提供了一种数据处理方法，以提高所接收语音数据的质量。

相应的，本申请实施例还提供了一种数据处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种数据处理方法，包括：在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

本申请实施例还公开了一种数据处理方法，包括：在直播的过程中，通过播放组件的指定接口获取对应直播视频的播放音频数据，并通过音频输入单元获取第一语音数据；依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换；依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据；传输所述第二语音数据。

本申请实施例还公开了一种数据处理方法，包括：在基于互动剧的互动过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换；依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据；依据所述第二语音数据进行识别，以便进行互动。

本申请实施例还公开了一种数据处理方法，包括：在音频播放的过程中，通过播放组件的指定接口获取所播放的音频数据，并通过音频输入单元获取第一语音数据；依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换；依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据。

本申请实施例还公开了一种数据处理方法，包括：接收播放请求；依据所述播放请求确定视频，发送所述视频的视频数据；接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取；依据所述第二语音数据进行处理，得到处理结果；发送所述处理结果。

本申请实施例还公开了一种数据处理方法，包括：播放组件通过第一子线程渲染音频信号；检查是否有监听音频信号的调用方；如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

本申请实施例还公开了一种数据处理装置，包括：获取模块，用于在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；消除模块，用于依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

本申请实施例还公开了一种数据处理装置，包括：接收模块，用于接收播放请求；以及，接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取；发送模块，用于依据所述播放请求确定视频，发送所述视频的视频数据；以及，发送处理结果；语音处理模块，用于依据所述第二语音数据进行处理，得到处理结果。

本申请实施例还公开了一种数据处理装置，包括：渲染模块，用于播放组件通过第一子线程渲染音频信号；检查模块，用于检查是否有监听音频信号的调用方；回调模块，用于如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，在视频播放的过程中，可通过音频输入单元获取第一语音数据，同时，通过播放组件获取对应视频的播放音频数据，从而能够实时获取所播放视频对应的音频数据，然后采用该播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据，能够有效消除语音数据中所播放视频的声音，提高语音数据的质量。

附图说明

图1A是本申请实施例的一种互动剧的数据处理示例的示意图；

图1B是的一种数据处理方法实施例的步骤流程图；

图2是本申请实施例的一种数据处理示例的数据处理示意图；

图3是本申请的另一种数据处理方法实施例的步骤流程图；

图4是本申请的一种视频互动场景数据处理方法实施例的步骤流程图；

图5是本申请的另一种视频互动场景数据处理方法实施例的步骤流程图；

图6是本申请的一种基于音频的互动场景的数据处理方法实施例的步骤流程图；

图7是本申请的一种提供方侧的数据处理方法实施例的步骤流程图；

图8是本申请的一种播放组件的数据处理方法实施例的步骤流程图；

图9是本申请的一种数据处理装置实施例的结构框图；

图10是本申请的一种数据处理装置可选实施例的结构框图；

图11是本申请的另一种数据处理装置实施例的结构框图；

图12是本申请的又一种数据处理装置实施例的结构框图；

图13是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例中可应用于可以包含音频输入、输出的场景中。在音频输出的同时输入音频，往往会导致输入音频中存在干扰，本申请实施例针对这种问题，在音频的播放组件中设置接口，可以直接实时获取播放的音频，从而能够基于播放的音频消除输入音频中的噪声，提高输入音频的质量，进而能够提高输入音频的识别率等。

以基于视频的互动为例，例如直播、视频通话、互动剧等场景。其中，互动剧可以理解为一种用户能参与的交互式网络视频，可以看作一种游戏化的视频，或者说视频化的游戏。用户可扮演一个角色来参与互动剧，因此要依据情节进行互动，互动剧在播放的过程中会存在一些背景音，如音乐，与剧中场景相关的声音，其他剧中角色的话语等。为了增加用户的体验感，用户可以通过语音进行互动，因此在录入语音的过程中，往往这些背景音也会随着语音一起录入，使得语音中包含背景音等噪声。因此，本申请实施例可从互动剧等视频播放组件中获取所播放视频的音频数据(背景音)，然后该音频数据对录入的语音数据进行回声消除处理，来消除语音中录入的背景音，提高语音的质量。

以互动剧为例，如图1A所示，用户可通过手机、平板电脑等设备可通过播放组件解析并播放互动剧的视频，视频的图像通过设备的显示器等显示单元显示，且声音通过扬声器等音频输出单元输出，使得用户可以观看到视频图像并听到相应的声音作为背景音。在互动剧的播放过程中，对于用户的互动语音，可通过音频输入单元获取，所接收到语音数据中包括用户语音和所播放的视频中的声音(背景音)，会对语音的输入造成一定的影响。本申请实施例可在播放组件中添加一指定接口，通过该指定接口可实时获取播放的音频(背景音)，然后采用该音频数据对语音数据进行回声消除处理，抵消语音数据中录入的背景音，从而消除语音数据的噪声，提高语音的质量。而后可识别语音，进行剧情互动，从而进入相应的剧情分支。

参照图1B，示出了本申请的一种数据处理方法实施例的步骤流程图。

步骤102，在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据。

播放组件指的是设备中进行音、视频等多媒体数据解析和播放的组件，例如播放器应用等，设备通过播放组件可播放视频数据，其中，视频数据中的图像数据可通过显示器等显示单元进行显示，同时，音频数据可通过扬声器等音频输出单元输出，从而用户可以观看到画面并听到相应的声音。

在视频播放过程中，可以基于视频进行互动，用户可说话等进行基于语音的互动，则相应可通过音频输入单元获取语音数据，将该语音数据作为第一语音数据。由于此种情况下，设备还通过音频输出单元输出了音频，可将其称为背景音，而设备的音频输出单元和音频输入单元的距离也比较近，因此通常所接收的第一语音数据包括用户的语音和设备输出的背景音，背景音会影响第一语音数据的清晰度，因此可以看作为一种噪声。由于第一语音数据的质量受到背景音的影响，相应也会影响后续的语音分析过程。因此要针对该第一语音数据进行一定的噪声消除处理，来消除录入的背景音。

一种噪声消除方式是回声消除，将设备输出的音频数据作为回声进行消除。本申请实施例在播放组件中设置一指定接口，该指定接口可与播放同步、实时传输所播放的音频信号，从而能够通过指定接口获取到同步获取到视频中的所播放的音频信号，作为播放音频数据，来消除语音中的背景音。

其中，播放组件在渲染音频时，获取所渲染的音频数字信息，然后检查是否有监听视频声音的调用方，如果有，可执行回调处理，并传回音频信号给该调用方，也就是对语音数据进行处理的处理方。因此，一个可选实施例中，所述通过播放组件的指定接口，获取所播放视频对应的播放音频数据，包括：在播放组件渲染音频数据时，检查是否有监听音频数据的调用方；如果有监听音频数据的调用方，通过指定接口回传所述音频数据给调用方，作为播放音频数据。

步骤104，依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

可以采用该播放音频数据对第一语音数据进行回声消除处理，其中，可基于回声消除(Acoustic Echo Cancellation,AEC)技术去除第一语音数据中的回音噪声，提高语音数据的清晰度。其中，第一语音数据中的背景音来源于所播放视频的声音，因此通过播放组件的接口获取到视频对应的播放音频数据，可以采用该播放语音数据来自适应估计第一语音数据中的背景音，然后从第一语音数据中去除估计背景音以抵消回波，完成回声噪声的消除处理，其中，对于背景音等回声的消除可基于自适应滤波等方式实现。

其中，第一语音数据也是一种音频数据，而通过不同的方式所获取的音频数据通常属性参数的属性值可能存在一定的差别，比如音频数据的采样率不同，通道数不同等。而进行回声消除的两个音频数据在一些指定属性参数上需要保持一致，否则无法进行回声消除处理。

因此在一些可选实施例中，可对依据预设参数对所述播放音频数据和/或所述第一语音数据进行转换，使得转换后的音频数据的参数与预设参数一致，例如采样率的值一致，通道数量一致，位宽的值一致等。其中，一种示例中，可以判断所述播放音频数据的指定属性参数和第一语音数据对应的指定属性参数是否匹配，如采样率的值、通道数量、位宽的值等；在指定属性参数不匹配的情况下，按照依据预设参数对所述播放音频数据和/或所述第一语音数据进行转换。

在另外的一些示例中，由于第一语音数据是通过麦克风等语音输入单元所获取的，而播放音频数据是视频中的，通过播放该视频的播放组件的接口获取，播放组件所播放视频中的音频信号一般有一定的属性参数，音频输入单元所采集的语音也有相应的属性参数，例如播放的音频通常是双通道，而采集的语音通常是单通道的，单通道的数据和双通道的数据并不能直接进行回声消除处理。基于上述数据特征，可设置预设参数，通过预设参数来规定数据的属性参数，从而能够基于预设参数来统一音频、语音等数据的属性参数，便于进行回声消除处理。

可先确定回声消除处理所需的属性参数类型及其相应的属性值，将其作为预设参数。预设参数类型可包括：采样率、通道数和位宽等，其中，采样率也称为采样频率，其定义了每秒从连续信号中提取并组成离散信号的采样个数；通道数指的是音频数据的通道数量，如单通道、双通道等；位宽是用来衡量声音波动变化的参数，是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数。相应在预设参数中可规定采样率的值，通道数量以及位宽的值。

然后可依据预设参数对所述播放音频数据和/或所述第一语音数据进行转换，可按照预设参数确定音频所需要的各种类型的属性参数，从而针对属性参数不符合预设参数的情况，对相应的音频数据、第一语音数据进行转换，以便两者能够进行回声消除处理。

进一步的可选实施例中，所述依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换，包括：将所述播放音频数据和/或所述第一语音数据作为目标数据；按照参数类型，将所述目标数据的属性参数与预设参数进行匹配；依据匹配结果，对所述目标数据进行转换。其中，如果匹配结果为目标数据的属性参数与相应的预设参数不匹配，如为采样率的值不一致，通道数量不同，位宽的值不一致等结果，就需要对目标数据按照该预设参数进行转换，将目标数据的相应属性参数转换为与预设参数相一致。

可以将音频数据、第一语音数据作为目标数据，然后按照参数类型，将目标数据的属性参数与对应类型的预设参数进行匹配，例如采样率、通道数、位宽等，如果目标数据的采样率的值、通道数量、位宽的值中任一个与对应类型的预设参数不匹配，可以对目标数据进行转换，使得其采样率的值、通道数量、位宽的值均与预设参数一致。

其中，所述对所述目标数据进行转换，包括：对所述目标数据按照所述预设采样率进行重采样；对所述目标数据进行通道融合处理；按照所述预设位宽对所述目标数据进行调整。

针对预设采样率，如果目标数据的采样率与预设采样率不匹配，可以对所述目标数据按照所述预设采样率进行重采样，具体的重采样方式可以依据需求确定，例如通过差值、抽取等方式进行重采样等。

对于预设通道数，通常音频输入单元采集的语音是单通道，而通过播放组件所获取的音频是双通道，因此可设置预设通道数为单通道，如果目标数据的通道数大于1，则可对所述目标数据进行通道融合处理，使其变成单通道的音频。

对于预设位宽，如果目标数据的位宽和预设位宽不匹配，可以按照所述预设位宽对所述目标数据进行调整，可通过调整信息的宽度的方式使得位宽达到预设位宽的需求。

在一个示例中，通过麦克风实时采集声音数字信息作为第一语音数据，该第一语音数据的采样率为48K，通道数为1，即单通道，位宽为32float，其中，32float位宽指的是每个通道单次采样用32float范围的数据表示信号强度。

在播放组件上设置一指定接口，通过该指定接口可实时获取视频声音数字信息，得到对应的播放音频数据，其中，该播放音频数据的采样率为44.1K，通道数为2，即双通道，位宽为16int。

其中，麦克风所采集的第一语音数据，和通过播放组件的指定接口所获取的播放音频数据的采样率、位宽、通道数均不一致，在进行回声消除时两个数据无法对齐，也就无法进行噪声过滤。

并且，麦克风、播放组件对应音频数据的采样率较高，以麦克风所采集的第一语音数据为例，32float位宽的是数据需要2Bytes，1秒产生93K Bytes，则10秒语音识别交互，将会产生930KB，数据量较大，对网络要求相对较高，在网络不好的情况下，会影响上传的语音，进而影响识别率。

考虑到各种情况，可以将预设参数设置为：预设采样率为16，预设通道数为1(单通道)，预设位宽为16int。则可依据该预设参数对第一语音数据、播放音频数据进行转换。

其中，针对第一语音数据的转换，将采样率由48K转换为16K，由于第一语音数据本身是单通道的音频数据，因此无需其他处理，可以缩小信息宽度将32float位宽调整为16int。

针对播放音频数据，可将将采样率由44.1K转换为16K，将双通道的音频数据，通过通道求和取平均的方式转换为单通道，由于位宽为16int，因此无需其他处理。

然后可以依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。其中，可在播放组件所对应的应用程序中封装转换方法以及AEC方法，从而在视频互动启动后，如直播、视频通信、互动剧启动后，将转换方法、AEC方法加入到相应的处理队列中进行处理。其中，可以将第一语音数据和播放音频数据进行对齐，然后基于播放音频数据滤除第一语音数据中的回声噪声，得到干净、清晰的第二语音数据。

在获取到第二语音数据之后，可执行所需的操作，例如可以上传该第二语音数据，然后进行相应的互动处理，也可进行识别处理后执行所需的互动操作等，本申请实施例对此不作限制，可依据需求设定。

本申请实施例中，音频输入、输出单元可为设备内置的部件，也可为外部连接的部件，具体可依据实际需求确定。回声消除的处理单元可为播放组件的一部分，也可为其他应用的处理单元。从而针对外部的处理单元，播放组件可直接与外部调用方共享视频声音数字信息(音频数据)，进而过滤背景视频噪声，提高语音识别准确率的能力。

在上述实施例的基础上，本申请实施例还提供了一种数据处理方法，能够有效的消除噪声，提高语音质量。

如图2所示的一种处理示例的示意图中，播放组件通过设备的扬声器输出视频中的声音，也就是音频，麦克风在接收用户语音的过程中会同时接收扬声器所播放的音频数据，从而接收到有噪声的第一语音数据，为了消除第一语音数据中的噪声，可以在播放组件设置一指定接口，通过该指定接口可接收到所播放的音频数据，从而将第一语音数据、播放音频数据进行转换后，执行对齐处理，并执行回声消除处理，得到相应的第二语音数据。具体可通过如下步骤实现：

参照图3，示出了本申请的另一种数据处理方法实施例的步骤流程图。

步骤302，在视频播放的过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据。

其中，所述通过播放组件的指定接口，获取所播放视频对应的播放音频数据，包括：在播放组件渲染音频信号时，检查是否有监听音频信号的调用方；如果有监听音频信号的调用方，通过指定接口回传所述音频信号给调用方，作为播放音频数据。其中，调用方指的是执行回声消除处理的处理方，如可以为播放组件中互动功能的功能组件。

步骤304，依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

其中，所述依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换，包括：将所述播放音频数据和/或所述第一语音数据作为目标数据；按照参数类型，将所述目标数据的属性参数与预设参数进行匹配；依据匹配结果，对所述目标数据进行转换。

所述对所述目标数据进行转换，包括：对所述目标数据按照所述预设采样率进行重采样；对所述目标数据进行通道融合处理；按照所述预设位宽对所述目标数据进行调整。

步骤306，依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

步骤308，依据所述第二语音数据进行语音识别处理，依据识别结果执行对应的互动操作。

其中，视频播放过程中，通过麦克风等音频输入单元所获取的语音数据中，包含了用户语音和扬声器等音频输出单元的声音，由于扬声器通常距离设备较近，如在设备上，或者音量加到，因此可能会覆盖用户的声音，使得用户语音不清晰。

本申请实施例通过在播放组件设置指定接口，通过该指定接口直接实时回传所播放视频中的音频数据，从而能够消除第一语音数据中包含的扬声器等音频输出单元的声音，提高语音的清晰度。

本申请实施例可应用于各种基于语音进行输入输出的场景中，例如应用于直播场景，视频通话，互动剧场景等。

以直播、视频通话场景为例，如图4所示：

步骤402，在直播、视频通话的过程中，通过播放组件的指定接口获取对应直播视频的播放音频数据，并通过音频输入单元获取第一语音数据。

其中，所述通过播放组件的指定接口，获取所播放视频对应的播放音频数据，包括：在播放组件渲染音频信号时，检查是否有监听音频信号的调用方；如果有监听音频信号的调用方，通过指定接口回传所述音频信号给所述调用方，作为播放音频数据。

步骤404，依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

所述依据不匹配的属性参数和预设参数，对所述目标数据进行转换，包括：对所述目标数据按照所述预设采样率进行重采样；对所述目标数据进行通道融合处理；按照所述预设位宽对所述目标数据进行调整。

步骤406，依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据。

步骤408，传输所述第二语音数据。

在直播、视频通话的场景中，用户通过是基于视频进行直播互动、通话，通过观看、收听视频的信息，并说话来进行互动，因此在该场景下可实时获取所播放的音频，从而对所接收的语音数据中背景音进行消除，而后可传输该第二语音数据，提高语音的质量。

例如在一些直播唱歌的场景中，通过直播视频播放音乐，用户跟唱，因此可通过上述方式消除用户语音中的音乐，提高语音的清晰度，也提高直播唱歌场景的质量。

以互动剧场景为例，如图5所示：

步骤502，在基于互动剧的互动过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据。

步骤504，依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

其中，所述依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换，包括：将所述播放音频数据和/或所述第一语音数据作为目标数据；按照参数类型，将所述目标数据的属性参数与预设参数进行匹配；依据不匹配的属性参数和预设参数，对所述目标数据进行转换。

所述依据不匹配的属性参数和预设参数，对所述目标数据进行转换，包括：针对与预设采样率不匹配的采样参数，对所述目标数据按照所述预设采样率进行重采样；针对与预设通道数不匹配的通道参数，对所述目标数据进行通道融合处理；针对与预设位宽不匹配的位宽参数，按照所述预设位宽对所述目标数据进行调整。

步骤506，依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据。

步骤508，依据所述第二语音数据进行识别，以便进行互动。

在基于互动剧的互动场景中，用户通过语音进行互动剧中的剧情互动，观看并收听互动剧的剧情，并说话来进行剧情互动，因此在该场景下可实时获取互动剧播放的音频信号，从而基于该音频信号消除所接收的语音数据中的背景音，而后可基于该第二语音数据进行识别和互动，提高互动识别的质量和互动效果。

本申请实施例所应用的各种基于语音进行输入输出的场景，也可包括基于音频播放和输入语音的场景中，例如通过音乐应用来唱歌的场景等，如图6所示：

步骤602，在音频播放的过程中，通过播放组件的指定接口获取所播放的音频数据，并通过音频输入单元获取第一语音数据。

步骤604，依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

步骤606，依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据。

在通过设备的播放组件播放音频的过程中，例如播放音乐跟唱等，相应也会接收用户的语音数据，然后通过回声消除处理得到清晰的语音数据，可基于该语音数据执行所需的处理，例如语音识别、传输以及与相应的音频进行合成等，可以依据实际需求确定。

在上述实施例的基础上，本申请实施例还提供了一种数据处理方法，可应用于视频、音频等多媒体数据的提供方的服务端，可以提供所需的音视频等多媒体数据，并且基于语音给出相应的反馈。本实施例以视频数据为例进行论述，实际处理中该视频数据也可为音频数据等多媒体数据。

参照图7，示出了本申请的一种提供方侧的数据处理方法实施例的步骤流程图。

步骤702，接收播放请求。

步骤704，依据所述播放请求确定视频，发送所述视频的视频数据。

用户在终端侧可以通过播放请求来请求进行音视频的播放，其中，播放请求可携带请求播放的音视频的标识信息，相应提供方的服务端可接收播放请求，获取标识信息，依据该标识信息确定所需的视频以及视频数据，然后发送视频数据给用户终端等请求方。

步骤706，接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取。

用户端可通过播放组件视频数据，播放过程中可执行互动，从而可以得到第二语音数据并发送给提供方的服务端。其中，第二语音数据的确定过程可参见上述实施例的描述。

步骤708，依据所述第二语音数据进行处理，得到处理结果。

依据所述第二语音数据可执行相应的互动处理，例如对所述第二语音数据进行语音识别，包括语义识别、自然语言处理等，可根据需求确定，得到相应的识别结果之后，可依据识别结果执行相应的互动处理。

以应用于互动剧的场景为例，互动剧的视频播放到一定的剧情之后，用户选择相应的剧情节点，从而可通过语音指示选择的剧情节点，基于第二语音数据进行互动。

一个可选实施例中，所述依据所述第二语音数据进行处理，得到处理结果，包括：对所述第二语音数据进行识别，确定选择的剧情节点；依据所述剧情节点确定对应的视频数据，将所述视频数据作为处理结果。可以对第二语音数据进行语音识别处理，得到相应的识别结果，依据所述识别节点确定用户所选择的剧情节点，然后可获取该剧情节点对应的视频数据，也就是该互动剧中剧情节点所对应的支线剧情的视频数据，然后可将视频数据作为处理结果反馈给用户的终端。

步骤710，发送所述处理结果。

从而音视频等多媒体数据的提供方的服务端可提供音视频数据，并基于接收的第二语音数据，执行相应的互动处理，实现各种互动场景的需求。该第二语音数据在用户端侧已经由播放组件回流的音频信号消除了背景音，因此数据的清晰度较高，能够提高识别的准确性，提高互动效果。

在上述实施例的基础上，本申请实施例还提供了一种数据处理方法，在终端中播放音视频数据的过程中，可回调所播放的音频信号，从而消除所接收语音数据中的背景音，提高语音质量。其中，播放组件可执行如下处理步骤：

参照图8，示出了本申请的一种播放组件的数据处理方法实施例的步骤流程图。

步骤802，播放组件通过第一子线程渲染音频信号。

终端中的音频、视频等数据可通过播放组件进行播放，其中，播放组件可以启动用于渲染的第一子线程，通过该第一子线程可渲染音频信号，然后进行播放，其中，该音频信号可为播放组件所播放音频的信号，也可为播放组件所播放视频中的音频信号，具体可依据实际场景确定。其中，在播放视频的过程中，播放组件也具有渲染图像的子线程，该子线程与音频渲染的第一子线程可为相同或不同的线程，具体可依据播放组件确定。

步骤804，检查是否有监听音频信号的调用方。

在互动的场景下，可以在播放组件中设置一指定接口，该指定接口可提供给调用方来监听并获取音频信号，因此在采用第一子线程渲染音频信号的过程中，还可检测是否有监听音频信号的调用方。如果有，可执行步骤806；如果没有，可结束该流程，正常执行渲染、播放过程即可。

在一些场景中，对该指定接口的调用可与互动相结合，当终端启动麦克风等音频输入单元时，可以调用该指定接口，从而获取在输入语音过程中所播放的音频信号。

步骤806，如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

如果有监听音频数据的调用方，可以采用第二子线程进行数据的回调，通过该指定接口获取音频信号，作为音频播放数据发送给调用方，从而便于调用方基于音频信号消除所接收第一语音数据中的背景音。

通过在播放组件中设置指定接口，可回调所播放的音频信号，该过程不影响播放组件正常的渲染、播放过程，对播放组件的影响很小，还能够实时获取音频信号来消除语音数据中的背景音，提高语音质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种数据处理装置，应用于用户侧的终端设备等电子设备中。

参照图9，示出了本申请的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

获取模块902，用于在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据。

消除模块904，用于依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

其中，所述获取模块902，用于通过播放组件的指定接口，获取所播放视频对应的播放音频数据。

综上，在视频播放的过程中，可通过音频输入单元获取第一语音数据，同时，通过播放组件获取对应视频的播放音频数据，从而能够实时获取所播放视频对应的音频数据，然后采用该播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据，能够有效消除语音数据中所播放视频的声音，提高语音数据的质量。

参照图10，示出了本申请的一种数据处理装置可选实施例的结构框图，具体可以包括如下模块：

获取模块902，用于在视频播放的过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据。

转换模块906，用于依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

传输模块908，用于传输所述第二语音数据。

识别模块910，用于依据所述第二语音数据进行语音识别处理，依据识别结果执行对应的互动操作。

其中，所述获取模块902，用于在播放组件渲染音频信号时，检查是否有监听音频信号的调用方；如果有监听音频信号的调用方，通过指定接口回传所述音频信号给所述调用方，作为播放音频数据。

所述转换模块906，用于将所述播放音频数据和/或所述第一语音数据作为目标数据；按照参数类型，将所述目标数据的属性参数与预设参数进行匹配；依据匹配结果，对所述目标数据进行转换。

所述转换模块906，用于对所述目标数据按照所述预设采样率进行重采样；和/或，对所述目标数据进行通道融合处理；和/或，按照所述预设位宽对所述目标数据进行调整。

可以依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。其中，可在播放组件所对应的应用程序中封装转换方法以及AEC方法，从而在识别启动后，将转换方法、AEC方法加入到相应的处理队列中进行处理。其中，可以将第一语音数据和播放音频数据进行对齐，然后基于播放音频数据滤除第一语音数据中的回声噪声，得到干净、清晰的第二语音数据。

在上述实施例的基础上，应用于直播、视频通话场景中，所述数据处理装置可包括如下模块：

获取模块902，用于在直播、视频通话的过程中，通过播放组件的指定接口获取对应直播视频的播放音频数据，并通过音频输入单元获取第一语音数据。

传输模块908，用于传输所述第二语音数据。

在直播、视频通话的场景中，用户通过是基于视频进行直播互动、通话，通过观看、收听视频的信息，并说话来进行互动，因此在该场景下可实时获取所播放的音频，从而对所接收的语音数据中背景音进行消除，而后可传输该第二语音数据，提高语音的质量

在上述实施例的基础上，应用于互动剧场景中，所述数据处理装置可包括如下模块：

获取模块902，用于在基于互动剧的互动过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；

传输模块908，用于依据所述第二语音数据进行识别，以便进行互动。

在上述实施例的基础上，应用于音频播放场景中，所述数据处理装置可包括如下模块：

获取模块902，用于在音频播放的过程中，通过播放组件的指定接口获取所播放的音频数据，并通过音频输入单元获取第一语音数据；

在上述实施例的基础上，本实施例还提供了一种数据处理装置，应用于音视频数据的提供方的服务器等电子设备中。

参照图11，示出了本申请的另一种数据处理装置实施例的结构框图，具体可以包括如下模块：

接收模块1102，用于接收播放请求；以及，接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取。

发送模块1104，用于依据所述播放请求确定视频，发送所述视频的视频数据；以及，发送处理结果。

语音处理模块1106，用于依据所述第二语音数据进行处理，得到处理结果。

所述语音处理模块1106，用于对所述第二语音数据进行识别，确定选择的剧情节点；依据所述剧情节点确定对应的视频数据，将所述视频数据作为处理结果。

参照图12，示出了本申请的又一种数据处理装置实施例的结构框图，具体可以包括如下模块：

渲染模块1202，用于播放组件通过第一子线程渲染音频信号。

检查模块1204，用于检查是否有监听音频信号的调用方。

回调模块1206，用于如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图13示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。

对于一个实施例，图13示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，以及被耦合到控制模块1304的网络接口1312。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。

对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。

控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。

例如，NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。

(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据处理方法和装置，一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，包括：

在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；

依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

2.根据权利要求1所述的方法，其特征在于，其中，所述通过播放组件获取对应视频的播放音频数据，包括：

通过播放组件的指定接口，获取所播放视频对应的播放音频数据。

3.根据权利要求2所述的方法，其中，所述通过播放组件的指定接口，获取所播放视频对应的播放音频数据，包括：

在播放组件渲染音频信号时，检查是否有监听音频信号的调用方；

如果有监听音频数据的调用方，通过指定接口回传所述音频信号，作为播放音频数据。

4.根据权利要求1所述的方法，其中，所述依据所述音频数据对所述第一语音数据进行回声消除处理之前，还包括：

依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换。

5.根据权利要求4所述的方法，其中，所述依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换，包括：

将所述播放音频数据和/或所述第一语音数据作为目标数据；

按照参数类型，将所述目标数据的属性参数与预设参数进行匹配；

依据匹配结果，对所述目标数据进行转换。

6.根据权利要求5所述的方法，其中，所述对所述目标数据进行转换，包括：

对所述目标数据按照预设采样率进行重采样；

对所述目标数据进行通道融合处理；

按照预设位宽对所述目标数据进行调整。

7.根据权利要求1所述的方法，其中，还包括：

传输所述第二语音数据。

8.根据权利要求1所述的方法，其中，还包括：

依据所述第二语音数据进行语音识别处理，依据识别结果执行对应的互动操作。

9.一种数据处理方法，包括：

在直播的过程中，通过播放组件的指定接口获取对应直播视频的播放音频数据，并通过音频输入单元获取第一语音数据；

依据预设参数，对所述播放音频数据和/或所述第一语音数据进行转换；

依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据；

传输所述第二语音数据。

10.一种数据处理方法，包括：

在基于互动剧的互动过程中，通过播放组件的指定接口获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；

依据所述第二语音数据进行识别，以便进行互动。

11.一种数据处理方法，包括：

在音频播放的过程中，通过播放组件的指定接口获取所播放的音频数据，并通过音频输入单元获取第一语音数据；

依据转换结果，采用对应的播放音频数据对第一语音数据进行回声消除处理，得到对应的第二语音数据。

12.一种数据处理方法，包括：

接收播放请求；

依据所述播放请求确定视频，发送所述视频的视频数据；

接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取；

依据所述第二语音数据进行处理，得到处理结果；

发送所述处理结果。

13.根据权利要求12所述的方法，其特征在于，所述依据所述第二语音数据进行处理，得到处理结果，包括：

对所述第二语音数据进行识别，确定选择的剧情节点；

依据所述剧情节点确定对应的视频数据，将所述视频数据作为处理结果。

14.一种数据处理方法，包括：

播放组件通过第一子线程渲染音频信号；

检查是否有监听音频信号的调用方；

如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

15.一种数据处理装置，包括：

获取模块，用于在视频播放的过程中，通过播放组件获取对应视频的播放音频数据，并通过音频输入单元获取第一语音数据；

消除模块，用于依据所述播放音频数据对所述第一语音数据进行回声消除处理，得到对应的第二语音数据。

16.一种数据处理装置，包括：

接收模块，用于接收播放请求；以及，接收第二语音数据，所述第二语音数据为播放所述视频过程中接收的，所述第二语音数据依据播放音频数据对第一语音数据进行回声消除处理，所述播放音频数据通过播放组件从所述视频数据中获取；

发送模块，用于依据所述播放请求确定视频，发送所述视频的视频数据；以及，发送处理结果；

语音处理模块，用于依据所述第二语音数据进行处理，得到处理结果。

17.一种数据处理装置，包括：

渲染模块，用于播放组件通过第一子线程渲染音频信号；

检查模块，用于检查是否有监听音频信号的调用方；

回调模块，用于如果有监听音频数据的调用方，第二子线程通过指定接口回传所述音频信号给所述调用方，以便基于所述音频信号对接收的第一语音数据进行回声消除处理。

18.一种电子设备，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-11、14中一个或多个所述的方法。

19.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-11、14中一个或多个所述的方法。

20.一种电子设备，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求12-13中一个或多个所述的方法。

21.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求12-13中一个或多个所述的方法。