CN108196817A

CN108196817A - 音频识别方法、装置及存储介质

Info

Publication number: CN108196817A
Application number: CN201711487687.6A
Authority: CN
Inventors: 汤伯超
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108196817B

Abstract

本发明公开了一种音频识别方法、装置及存储介质，属于互联网领域。所述方法包括：获取通过WASAPI采集的直播终端的第一音频，并获取通过直播终端中的声卡采集的第二音频，以根据第一音频和第二音频确定麦克风采集的音频。由于第一音频包括直播终端本身播放的音频，因此，无论直播终端上是否存在其他播放器也在播放主播正在演唱的歌曲，通过第一音频和第二音频可以直接得到麦克风采集的音频，有效避免了出现无法从获取到的音频中确定出麦风采集的音频的情况。

Description

音频识别方法、装置及存储介质

技术领域

本发明涉及互联网领域，特别涉及一种音频识别方法、装置及存储介质。

背景技术

目前，当主播通过直播终端在直播间内演唱歌曲时，服务器将从获取到的音频中识别哪些音频是主播发出的音频，以根据识别出的音频对该主播演唱的歌曲进行打分，并将在该直播间内显示该打分结果，以便于该直播间内的观众根据该打分结果与该主播进行互动。

相关技术中，服务器从获取到的音频中识别哪些音频是主播发出的音频，也即，从获取到的音频中识别哪些音频是直播终端中的麦克风采集的音频。具体地，当主播在直播间内演唱歌曲时，服务器获取的音频包括两路音频，一路音频为直播终端中的声卡采集的声卡音频，另一路音频为直播间内播放的背景音乐的音频，其中，声卡音频包括麦克风采集到的音频和直播间内播放的背景音乐的音频，因此，服务器可以将获取到的声卡音频和直播间内播放的背景音乐的音频互相抵消，抵消之后即可得到直播终端中的麦克风采集的音频。

在上述音频识别方法中，若直播终端上安装的其他播放器也在播放主播正在演唱的歌曲，则声卡采集到的声卡音频包括麦克风采集的音频、直播间内播放的背景音乐的音频和其他播放器播放的音频，此时若将获取到的声卡音频和直播间内播放的背景音乐的音频互相抵消，得到的是麦风采集的音频和其他播放器播放的音频，也即，此时服务器将无法从获取到的音频中识别出哪些音频是麦克风采集的音频。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频识别方法、装置及存储介质。所述技术方案如下：

第一方面，提供了一种音频识别方法，该方法包括：

获取通过WASAPI(Windows Audio Session Application ProgrammingInterface，微软音频会话应用程序接口)采集的直播终端的第一音频，所述第一音频包括所述直播终端本身播放的音频；

获取通过所述直播终端中的声卡采集的第二音频，所述第二音频包括所述直播终端本身播放的音频和所述直播终端中的麦克风采集的音频；

根据所述第一音频和所述第二音频确定所述麦克风采集的音频。

可选地，所述获取通过WASAPI采集的直播终端的第一音频，包括：

每隔预设时长向所述直播终端发送使用所述WASAPI采集音频的提示信息；

当接收到确认使用所述WASAPI采集音频的指令后，获取所述第一音频。

获取直播间内的主播正在表演的多媒体文件的标识；

根据所述多媒体文件的标识，确定所述多媒体文件的表演次数，所述表演次数是指所述主播在当前时间之前连续重复表演所述多媒体文件的次数；

当所述表演次数大于预设次数时，获取所述第一音频。

可选地，针对所述直播终端中的安装的直播应用客户端设置有第一音频采集方式和第二音频采集方式，所述第一音频采集方式是指通过所述WASAPI采集音频的方式，所述第二音频采集方式是指采集自身播放的音频的方式；

所述获取通过WASAPI采集的直播终端的第一音频之前，还包括：

从所述第一音频采集方式和所述第二音频采集方式中选择所述第一音频采集方式作为所述直播应用客户端的音频采集方式；

所述获取通过WASAPI采集的直播终端的第一音频，包括：

按照所述直播应用客户端的音频采集方式，执行所述获取通过WASAPI采集的直播终端的第一音频步骤。

可选地，所述根据所述第一音频和所述第二音频确定所述麦克风采集的音频，包括：

将所述第一音频和所述第二音频相互抵消，并将抵消之后的音频确定为所述麦克风采集的音频。

第二方面，提供了一种音频识别装置，所述装置包括：

第一获取模块，用于获取通过WASAPI采集的直播终端的第一音频，所述第一音频包括所述直播终端本身播放的音频；

第二获取模块，用于获取通过所述直播终端中的声卡采集的第二音频，所述第二音频包括所述直播终端本身播放的音频和所述直播终端中的麦克风采集的音频；

确定模块，用于根据所述第一音频和所述第二音频确定所述麦克风采集的音频。

可选地，所述第一获取模块，具体用于：

获取直播间内的主播正在表演的多媒体文件的标识；

当所述表演次数大于预设次数时，获取所述第一音频。

所述装置还包括：

选择模块，用于从所述第一音频采集方式和所述第二音频采集方式中选择所述第一音频采集方式作为所述直播应用客户端的音频采集方式；

所述第一获取模块，具体用于：

可选地，所述确定模块，具体用于：

第三方面，提供了另一种音频识别装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述的任一项方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

在本发明实施例中，获取通过WASAPI采集的直播终端的第一音频，并获取通过直播终端中的声卡采集的第二音频，以根据第一音频和第二音频确定麦克风采集的音频。由于第一音频包括直播终端本身播放的音频，因此，无论直播终端上是否存在其他播放器也在播放主播正在演唱的歌曲，通过第一音频和第二音频可以直接得到麦克风采集的音频，有效避免了出现无法从获取到的音频中确定出麦风采集的音频的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频识别系统示意图；

图2是本发明实施例提供的另一种音频识别方法流程图；

图3A是本发明实施例提供的一种音频识别装置框图；

图3B是本发明实施例提供的另一种音频识别装置框图；

图4是本发明实施例提供的另一种音频识别装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细介绍之前，先对本发明实施例涉及的应用场景进行简单的介绍。目前，当主播在直播间内演唱歌曲时，服务器将对主播演唱的歌曲进行打分，由于服务器当前可能获取到多路音频，因此服务器在对主播演唱的歌曲进行打分之前，需先从获取到的音频中识别出麦克风采集的音频。而本发明实施例提供的音频识别方法就应用于服务器为主播演唱的歌曲进行打分的场景中。

接下来对本发明实施例涉及的技术名词进行解释说明。

WASAPI：WASAPI是微软公司继微软视窗(Windows Vista)系统之后引入的UAA(Universal Audio Architecture，通用音频架构)中的应用程序接口，安装于直播终端中各个应用程序对应的服务器可以分别调用该WASAPI以获取所需的音频。

需要说明的是，当主播端中存在多个应用程序分别播放音频时，该WASAPI可以采集到该多个应用程序播放的音频。因此，服务器能够通过该WASAP采集到该直播终端本身播放的音频，也即，采集到直播终端播放的所有音频。

比如，在主播在直播间内演唱歌曲时，若直播终端上安装的其他播放器也在播放主播正在演唱的歌曲，此时服务器通过该WASAP采集到的音频包括该直播间内播放的音频和该其他播放器播放的音频。

图1是本发明实施例提供的一种音频识别系统示意图，如图1所示，该音频识别系统100包括服务器101和直播终端102，服务器101和直播终端102之间通过无线或有线方式连接以进行通信。

其中，直播终端为主播当前使用的终端，服务器101用于从直播终端中获取多路音频，以根据获取的多路音频识别出哪些音频是直播终端中的麦克风采集的音频，也即，从获取的多路音频识别出哪些音频是主播发出的音频。

在实际应用场景中，该直播终端可以为诸如手机、平板电脑、计算机之类的设备，本发明实施例对此不做限定。

图2是本发明实施例提供的一种音频识别方法流程图，应用于图1所示的服务器中，如图2所示，该方法包括如下步骤。

步骤201：获取通过WASAPI采集的直播终端的第一音频，该第一音频包括直播终端本身播放的音频。

具体地，步骤201有以下两种可能的实现方式：

第一种可能的实现方式，每隔预设时长向直播终端发送使用该WASAPI采集音频的提示信息，当接收到确认使用该WASAPI采集音频的指令后，获取该第一音频。

相应地，若服务器没有接收到确认使用该WASAPI采集音频的指令，则不再获取该第一音频。

其中，预设时长为预先设置的时长，该预设时长可以为5分钟、10分钟或1小时等。

比如，预设时长为5分钟，当直播终端播放直播间内的直播视频时，服务器可以每隔5分钟向直播终端发送用该WASAPI采集音频的提示信息，该提示信息可以为“是否需要采用WASAPI采集音频”。当直播终端接收到该提示信息时，在当前显示界面中显示该提示信息，并显示针对该提示信息的两个选项“确认”选项和“取消”选项。

当直播终端检测到主播通过预设操作选择该“确认”选项时，确定接收到针对该提示信息的确认指令，此时向服务器发送确认使用该WASAPI采集音频的指令。当服务器接收到该确认使用该WASAPI采集音频的指令时，获取通过WASAPI接口采集的直播终端的第一音频。

相应地，当检测到主播通过预设操作选择该“取消”选项时，确定没有接收到针对该提示信息的确认指令，此时直播终端则不向服务器发送确认使用该WASAPI采集音频的指令，服务器也就不再获取该第一音频。

其中，预设操作可以为点击操作、滑动操作或语音操作等。

第二种可能的实现方式，获取直播间内的主播正在表演的多媒体文件的标识；根据该多媒体文件的标识，确定该多媒体文件的表演次数，该表演次数是指该主播在当前时间之前连续重复表演该多媒体文件的次数；当该表演次数大于预设次数时，获取该第一音频。

当直播间内的主播多次重复演唱同一首歌曲时，该主播通过其他播放器播放正在演唱的歌曲来实现高分的目的概率就越大，因此，当主播在该直播间内多次重复演唱同一首歌曲时，服务器可以通过WASAPI采集的直播终端的第一音频，以便于通过下述步骤202和步骤203确定直播终端中的麦克风采集的音频。

其中，多媒体文件的标识用于唯一标识该多媒体文件。比如，多媒体文件为歌曲，则该多媒体文件的标识可以为该歌曲的歌曲名称。

另外，服务器确定该多媒体文件的表演次数的实现方式可以为：当主播在直播间内首次表演多媒体文件时，获取该多媒体文件的标识，并设置该多媒体文件的标识对应的表演次数为1。在主播在完成该多媒体文件的表演之后，若主播开始下一个表演节目，则确定该下一个表演节目的多媒体文件的标识，若该下一个表演节目的多媒体文件的标识和前一个表演节目的多媒体文件的标识相同，则将前一个表演节目的多媒体文件的标识对应的表演次数加1。若该下一个表演节目的多媒体文件的标识和前一个表演节目的多媒体文件的标识不相同，则将前一个表演节目的多媒体文件的标识对应的表演次数更新为0，并设置该下一个表演节目的多媒体文件的标识对应的表演次数设置为1，依次类推。因此，服务器中记录的多媒体文件的标识对应的表演次数即为该主播在当前时间之前连续重复表演该多媒体文件的次数。也即，当直播间内的主播正在表演的多媒体文件时，服务器可以直接将记录与该多媒体文件的标识对应的表演次数确定为该多媒体文件的表演次数。

比如，预设次数为3，主播在直播间内表演的多媒体文件为歌曲。当该歌曲的表演次数大于3时，表明主播在当前时间之前连续重复演唱该歌曲的次数大于3次，此时，服务器可以通过WASAPI采集的直播终端的第一音频，以避免主播通过其他播放器播放正在演唱的歌曲来实现高分的目的。

比如，主播正在直播间内演唱歌曲，且直播终端上安装的××音乐播放器也在播放该歌曲，通过步骤201服务器获取到的第一音频包括该××音乐播放器播放的音频和直播间内播放的背景音乐的音频。

另外，需要说明的是，为了提高服务器通过直播终端采集音频的灵活性，针对直播终端中的安装的直播应用客户端设置有第一音频采集方式和第二音频采集方式，该第一音频采集方式是指通过该WASAPI采集音频的方式，该第二音频采集方式是指采集自身播放的音频的方式。

因此，服务器在获取通过WASAPI采集的直播终端的第一音频之前，还可以从该第一音频采集方式和该第二音频采集方式中选择该第一音频采集方式作为该直播应用客户端的音频采集方式，以便于后续按照该直播应用客户端的音频采集方式，执行该获取通过WASAPI采集的直播终端的第一音频步骤。

也即，在本发明实施例中，为了使服务器能够实现获取通过WASAPI采集的直播终端的第一音频，服务器可以预先将该直播应用客户端的音频设置方式设置为上述第一音频采集方式。

此时，针对上述第一种可能的实现方式，服务器可以在接收到确认使用该WASAPI采集音频的指令，从该第一音频采集方式和该第二音频采集方式中选择该第一音频采集方式作为该直播应用客户端的音频采集方式，并按照该直播应用客户端的音频采集方式，获取通过WASAPI采集的直播终端的第一音频。

针对上述第二种可能的实现方式，服务器可以在确定该表演次数大于预设次数时，从该第一音频采集方式和该第二音频采集方式中选择该第一音频采集方式作为该直播应用客户端的音频采集方式，并按照该直播应用客户端的音频采集方式，获取通过WASAPI采集的直播终端的第一音频。

步骤202：获取通过直播终端中的声卡采集的第二音频，该第二音频包括该直播终端本身播放的音频和该直播终端中的麦克风采集的音频。

由于直播终端中安装的声卡用于对所有音频信号进行处理，因此声卡采集的第二音频将不仅包括该直播终端本身播放的音频，还包括该直播终端中的麦克风采集的音频。

比如，主播正在直播间内演唱歌曲，且直播终端上安装的××音乐播放器也在播放该歌曲，服务器通过步骤203获取到的第二音频包括该××音乐播放器播放的音频、直播间内播放的背景音乐的音频和麦克风采集的该主播发出的音频。

步骤203：根据该第一音频和该第二音频确定麦克风采集的音频。

由于第一音频包括直播终端本身播放的音频，而第二音频包括该直播终端本身播放的音频和该直播终端中的麦克风采集的音频，因此，在步骤203中，服务器可以将该第一音频和该第二音频相互抵消，并将抵消之后的音频确定为该麦克风采集到的音频。

其中，将该第一音频和该第二音频相互抵消，也即，从第二音频中除去该第一音频，以得到麦克风采集的音频。

比如，主播正在直播间内演唱歌曲，由于该第一音频包括该××音乐播放器播放的音频和直播间内播放的背景音乐的音频，该第二音频包括该××音乐播放器播放的音频、直播间内播放的背景音乐的音频和麦克风采集的该主播发出的音频，因此，将第一音频和第二音频相互抵消之后，得到的音频即为麦克风采集的音频。

参见图3A，本发明实施例提供了一种音频识别装置300，，该装置300包括第一获取模块301、第二获取模块302和确定模块303：

第一获取模块301，用于获取通过微软音频会话应用程序接口WASAPI采集的直播终端的第一音频，该第一音频包括该直播终端本身播放的音频；

第二获取模块302，用于获取通过该直播终端中的声卡采集的第二音频，该第二音频包括该直播终端本身播放的音频和该直播终端中的麦克风采集的音频；

确定模块303，用于根据该第一音频和该第二音频确定该麦克风采集的音频。

可选地，该第一获取模块，具体用于：

每隔预设时长向该直播终端发送使用该WASAPI采集音频的提示信息；

当接收到确认使用该WASAPI采集音频的指令后，获取该第一音频。

可选地，该第一获取模块，具体用于：

获取直播间内的主播正在表演的多媒体文件的标识；

根据该多媒体文件的标识，确定该多媒体文件的表演次数，该表演次数是指该主播在当前时间之前连续重复表演该多媒体文件的次数；

当该表演次数大于预设次数时，获取该第一音频。

可选地，针对直播终端中的安装的直播应用客户端设置有第一音频采集方式和第二音频采集方式，该第一音频采集方式是指通过该WASAPI采集音频的方式，该第二音频采集方式是指采集自身播放的音频的方式；

参见图3B，该装置300还包括选择模块304：

选择模块304，用于从该第一音频采集方式和该第二音频采集方式中选择该第一音频采集方式作为该直播应用客户端的音频采集方式；

该第一获取模块，具体用于：

按照该直播应用客户端的音频采集方式，执行该获取通过WASAPI采集的直播终端的第一音频步骤。

可选地，该确定模块303，具体用于：

将该第一音频和该第二音频相互抵消，并将抵消之后的音频确定为该麦克风采集的音频。

需要说明的是：上述实施例提供的音频识别装置在进行音频识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种音频识别装置的结构示意图，该装置400可以为图1所示的系统中的服务器，该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器400包括中央处理单元(CPU)401、包括随机存取存储器(RAM)402和只读存储器(ROM)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本申请的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供音频识别方法的指令。

本发明实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的音频识别方法。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的音频识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取通过微软音频会话应用程序接口WASAPI采集的直播终端的第一音频，所述第一音频包括所述直播终端本身播放的音频；

2.如权利要求1所述的方法，其特征在于，所述获取通过WASAPI采集的直播终端的第一音频，包括：

3.如权利要求1所述的方法，其特征在于，所述获取通过WASAPI采集的直播终端的第一音频，包括：

获取直播间内的主播正在表演的多媒体文件的标识；

当所述表演次数大于预设次数时，获取所述第一音频。

4.如权利要求1至3任一所述的方法，其特征在于，针对所述直播终端中的安装的直播应用客户端设置有第一音频采集方式和第二音频采集方式，所述第一音频采集方式是指通过所述WASAPI采集音频的方式，所述第二音频采集方式是指采集自身播放的音频的方式；

所述获取通过WASAPI采集的直播终端的第一音频，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述第一音频和所述第二音频确定所述麦克风采集的音频，包括：

6.一种音频识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取通过微软音频会话应用程序接口WASAPI采集的直播终端的第一音频，所述第一音频包括所述直播终端本身播放的音频；

7.如权利要求6所述的装置，其特征在于，所述第一获取模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述第一获取模块，具体用于：

获取直播间内的主播正在表演的多媒体文件的标识；

当所述表演次数大于预设次数时，获取所述第一音频。

9.如权利要求6至8任一所述的装置，其特征在于，针对所述直播终端中的安装的直播应用客户端设置有第一音频采集方式和第二音频采集方式，所述第一音频采集方式是指通过所述WASAPI采集音频的方式，所述第二音频采集方式是指采集自身播放的音频的方式；

所述装置还包括：

所述第一获取模块，具体用于：

10.如权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

11.一种音频识别装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5所述的任一项方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5所述的任一项方法的步骤。