CN114220435A

CN114220435A - 音频文本提取方法、装置、终端和存储介质

Info

Publication number: CN114220435A
Application number: CN202111453660.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenzhen Huasheng Software Technology Co ltd
Current assignee: Shenzhen Huasheng Software Technology Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-22

Abstract

本申请实施例公开了音频文本提取方法、装置、终端和存储介质；本申请实施例包括获取待处理音频；获取待处理音频对应的频谱图；根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；确定待处理子音频的平均音频强度；根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；对目标子音频进行内容识别处理，得到目标子音频的音频文本。在本申请实施例中提供新的音频文本提取方法，由此，有利于减少用户通过收听音频来查询音频内容时所消耗的时间。由此，提升了查询音频内容的效率。

Description

音频文本提取方法、装置、终端和存储介质

技术领域

本申请涉及音频处理领域，具体涉及音频文本提取方法、装置、终端和存储介质。

背景技术

近年来，越来越多的公司选择音频会议来实现与会人员之间的沟通和讨论。为了追溯音频会议的内容，通常需要对音频会议中的音频进行存储，该方法也适用于存储网络直播的音频，以达到追溯网络直播内容的目的。

然而，音频并不能使用户直接得到音频片段对应的音频内容，导致用户在查询音频内容时，需要根据音频播放的节奏从头开始收听音频，因此，该方式导致用户查询音频内容的效率较低。

发明内容

本申请实施例提供音频文本提取方法、装置、终端和存储介质，可以提升查询音频内容的效率。

本申请实施例提供一种音频文本提取方法，包括：

获取待处理音频；

获取待处理音频对应的频谱图；

根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；

确定待处理子音频的平均音频强度；

根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；

对目标子音频进行内容识别处理，得到目标子音频的音频文本。

本申请实施例还提供一种音频文本提取装置，包括：

待处理视频获取单元，用于获取待处理视频，待处理视频包括待处理音频；

频谱图获取单元，用于获取待处理音频对应的频谱图；

待处理子音频获取单元，用于根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；

平均音频强度获取单元，用于确定待处理子音频的平均音频强度；

目标子音频确定单元，用于根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；

音频文本获取单元，用于对目标子音频进行内容识别处理，得到目标子音频的音频文本。

在一些实施例中，目标子音频确定单元，用于：

获取预设时间间隔；

根据预设时间间隔对待处理子音频进行切割处理，得到多个子音频片段；

获取待处理子音频中子音频片段的片段数量；

根据每个待处理子音频中子音频片段的片段数量和每个待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频。

在一些实施例中，根据每个待处理子音频的片段数量和每个待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频，包括：

当待处理子音频中子音频片段的片段数量大于预设片段数量时，根据每个待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频。

在一些实施例中，在多个待处理子音频中确定目标子音频，还包括：

对待处理子音频进行声纹识别，得到声纹信息；

获取预先录入的标准声纹信息；

在多个待处理子音频中确定目标子音频，所述目标子音频的声纹信息与所述标准声纹信息相同。

在一些实施例中，频谱图获取单元，用于：

获取预设的音频强度；

获取待处理音频的实际音频强度；

当实际音频强度大于预设的音频强度时，获取待处理音频对应的频谱图。

在一些实施例中，音频文本获取单元，包括：

确定目标子音频对应的语言种类；

对目标子音频进行内容识别处理，得到目标子音频的音频文本，音频文本由语言种类的文字构成。

在一些实施例中，在对目标子音频进行内容识别处理，得到目标子音频的音频文本之后，还包括：

获取待播放音频，待播放音频为待处理音频或目标子音频；

获取与所述待播放音频对应的待播放视频；

将待播放音频、待播放视频以及音频文本同步发送给流媒体服务器，以便客户端对流媒体服务器发送的待播放音频、待播放视频以及音频文本进行同步直播。

在一些实施例中，将待播放音频、待播放视频以及音频文本同步发送给流媒体服务器，以便客户端对流媒体服务器发送的待播放音频、待处理视频以及音频文本进行同步直播，包括：

对待播放音频进行音频强度加强，得到加强待播放音频；

将加强待播放音频、音频文本以及待播放视频发送给流媒体服务器，以便客户端对流媒体服务器发送的加强待播放音频、音频文本以及待播放视频进行同步直播。

本申请实施例还提供一种终端，包括处理器和存储器，存储器存储有多条指令；处理器从存储器中加载指令，以执行本申请实施例所提供的任一种音频文本提取方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种音频文本提取方法中的步骤。

本申请实施例可以获取待处理音频；获取待处理音频对应的频谱图；根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；确定待处理子音频的平均音频强度；根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；对目标子音频进行内容识别处理，得到目标子音频的音频文本。

由于用户需要查询音频中记载的内容，因此本申请从音频中提取了音频文本，用户无需根据音频播放的节奏从头收听音频，可以直接获取音频内容对应的音频文本，用户直接查看音频文本中对应的内容，有利于减少用户通过收听音频来查询音频内容时所消耗的时间。由此，提升了查询音频内容的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是现有的音频文本提取方式；

图1b是本申请实施例提供的音频文本提取方法的场景示意图；

图1c是本申请实施例提供的音频文本提取方法的流程示意图；

图1d是本申请实施例提供的音频文本提取方法的视频会议场景示意图；

图2是本申请实施例提供的音频文本提取装置的结构示意图；

图3是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供音频文本提取方法、装置、终端和存储介质。

其中，该音频文本提取装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该音频文本提取装置还可以集成在多个电子设备中，比如，音频文本提取装置可以集成在多个服务器中，由多个服务器来实现本申请的音频文本提取方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，目前在查询音频会议的会议内容时，由于用户并不知道音频中音频片段具体对应的会议内容，导致用户需要根据音频播放的节奏从头收听音频，以此达到查询会议内容的目的。

由于目前用户通过上述方式查询会议内容的效率较低，因此，本申请实施例提出一种音频文本提取方法，参考图1b，在本方案的一个实施例中，获取待处理音频；获取待处理音频对应的频谱图；根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；确定待处理子音频的平均音频强度；根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；对目标子音频进行内容识别处理，得到目标子音频的音频文本。

然后，待处理音频收录了发言人的声音和环境噪声，待处理音频经过频谱图分析，根据频谱图的频率区间获得待处理音频对应的多种待处理子音频，多种待处理子音频可以包含发言人音频和环境噪声音频，由于发言人声音的音量要大于周围的环境噪声，因此，发言人音频的音频强度要大于环境噪声音频的音频强度。从多种待处理子音频中选取平均音频强度大的待处理音频作为目标子音频，以避免了环境噪声音频影响对发言人音频的内容识别。目标子音频为发言人音频，对目标子音频进行内容识别，得到目标子音频的音频文本，如此，便于用户直接查看音频文本内记载发言人的发言内容，有利于用户快速找到音频文本中记载的有关会议内容。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种音频文本提取方法，如图1d所示，该音频文本提取方法的具体流程可以如下：

110、获取待处理音频。

其中，待处理音频可以是源自网络直播视频，网络直播视频包括视频流和音频流。待处理音频可以是网络直播视频中的音频流。

例如，获取待处理视频可以应用在网络直播视频中，网络直播视频具体可以应用在视频会议、教学直播、企业直播和直播带货中。

待处理视频的获取方法具有多种，例如，可以是从本地内存中读取，还可以是从其他终端的内存中读取到，或是用户录入获取，等等。

120、获取待处理音频对应的频谱图。

根据频谱变换，例如，傅里叶变换，将待处理音频的时频对应的频谱图转换为频域对应的频谱图，并将频谱图存储在本地内存，也可以将频谱图存储在异地服务器内。如此待处理音频对应的频谱图的获取方法具有多种，例如，可以从本地内存直接读取，还可以从其他中的内存中读取，等等。

在一些实施例中，为了起到对音频强度不达标的待处理音频不进行处理的效果，步骤120可以包括如下步骤：

获取预设的音频强度。

其中，音频强度可以称作声音强度，音频强度的等级单位是分贝，与音频的振幅有关，响度是音频强度的主观感知。

其中，预设的音频强度可以是人为录入的音频强度，用于判断待处理音频的音频强度是否达标。例如，预设的音频强度用于表征用户可以感知到的最低响度。

获取待处理音频的实际音频强度。

其中，待处理音频的实际音频强度可以由声压计算得到。

例如，音频强度可以由如下方式：

其中，L_p为音频强度，P_rms为待处理音频的振幅值，P_ref为表征参考声压值20微帕。

例如，音频强度的分贝还可以由如下方式获得：

用以下公式计算两个声音之间的动态范围，单位为分贝：

dB＝20*log(A₁/A₂)；

其中，A1和A2是两个声音的振幅，在程序中表示每个声音样本的大小。声音采样大小(也就是量化深度)为1bit时，动态范围为0，因为只可能有一个振幅。采样大小为8bit也就是一个字节时，最大振幅是最小振幅的256倍。因此，动态范围是48分贝。如果将声音采样大小增加一倍到16bit，产生的动态范围则为96分贝。

其中，频谱图可以称为时频图或语谱图，是以时间为横坐标，频率为纵坐标，颜色表示幅度的图像。

130、根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频。

其中，每个用户说话的响度不同，待处理音频在同一时间段可能由多个不同用户的声音组成，如此，待处理音频由多个不同频率区间的待处理子音频组成。

例如，待处理音频中在同一时间段同时包含了A用户说话的声音，B用户说话的声音和C用户说话的声音，由于每个人发出的声音频率有差异，因此，待处理音频可以包括三种频率区间，根据频率区间的划分，分为三种待处理子音频。

140、确定待处理子音频的平均音频强度。

其中，平均音频强度可以是待处理子音频在待处理音频对应的时间段内的平均音频强度。

其中，平均音频强度可以先获取待处理子音频对应的平均振幅，根据平均振幅获取平均音频强度。

150、根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频。

其中，目标子音频可以是多个待处理子音频中音频强度最大的待处理子音频。

例如，多个待处理子音频包括了A用户说话对应的音频，B用户说话对应的音频和C用户说话对应的音频，A用户为发言人，B用户和C用户为参会人员，在会议中，一般发言人的声音最大，参会人员的讨论声小于发言人的声音，因此，根据待处理子音频的平均音频强度，在多个待处理子音频中选出平均音频强度最大的待处理子音频作为目标子音频。

其中，为了减小环境音频对发言人音频的影响，可以根据环境音频和发言人音频的音频强度不同来提取出发言人音频，具体可以应用在视频会议、教学直播、企业直播和直播带货中。环境音频可以是与会人员的窃窃私语声、传入会议室的车声或是会议室内物品发出的声音，等等。

在一些实施例中，为了起到避免音频强度较高的突发音频影响对目标子音频的识别效果，步骤150可以包括如下步骤：

获取预设时间间隔。

其中，预设时间间隔可以是人为设置的时间间隔，用于将待处理音频分成多个片段。

例如，预设时间间隔可以是1秒、2秒等，在此不做特别限定。

根据预设时间间隔对待处理子音频进行切割处理，得到多个子音频片段。

其中，子音频片段可以是待处理子音频中的一段音频。

其中，多个子音频片段按时间顺序组成待处理子音频。

例如，待处理子音频是一段10秒的音频，预设时间间隔为1秒，如此，得到10个子音频片段，10个子音频片段按照时间先后顺序组成待处理子音频。

获取待处理子音频中子音频片段的片段数量。

其中，不同待处理子音频之间的音频长度不同，用片段数量来表明待处理子音频的长度。

例如，待处理音频由多种待处理子音频组成，待处理子音频可以包括发言人音频、突发音频以及环境音频，突发音频的音频强度可能高于发言人音频的音频强度，但由于突发音频的时间较短，如此，可以从多种待处理子音频中确定出发言人音频和环境音频，其中，发言人音频的平均音频强度大于环境音频的平均音频强度，因此，在多个待处理子音频中可以确定出发言人音频，发言人音频为目标子音频。

根据每个待处理子音频的片段数量和每个待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频，包括：

其中，预设片段数量可以是人为设置的子音频片段数量。其中，由于突发音频的时间较短，因此突发音频只由较少的片段数量组成。

例如，预设片段数量可以是1，突发音频由1个子音频片段组成，如此，通过将待处理音频的片段数量和预设片段数量进行比对，从而可以确定是突发音频的待处理音频。在根据待处理子音频的音频强度，从剩余的待处理子音频中确定出目标子音频。

为了起到精准识别目标子音频的效果，在多个待处理子音频中确定目标子音频，还包括：

在一些实施例中，对待处理子音频进行声纹识别，得到声纹信息。

其中，声纹信息可以是声音波形图或声音语谱图。其中，声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

其中，声纹识别的原理：人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣；

嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级；

平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉；

音域特征：音域的高低就是通常所说的声音饱满还是干瘪；

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

获取预先录入的标准声纹信息。

其中，标准声纹信息可以是发言人的声纹信息。发言人可以是参加视频会议的发言人，也可以是教学直播的发言人、企业直播的发言人和直播带货的发言人，等等。

其中，在视频会议，也可以是教学直播、企业直播和直播带货中，发言人可能不止一位，因此，预先录入的标准声纹信息可能有多个。

在一些实施例中，在多个待处理子音频中确定目标子音频，目标子音频的声纹信息与标准声纹信息相同。

其中，若标准声纹信息为发言人的声纹信息，将待处理子音频的声纹信息和标准声纹信息比对，选出和标准声纹信息相同的声音，从而在多个待处理子音频中选出了发言人的音频。

160、对目标子音频进行内容识别处理，得到目标子音频的音频文本。

其中，音频文本可以是目标子音频的音频内容。

其中，目标子音频可以是实时导入的音频，并对实时导入的音频进行音频内容识别，从而实时得到目标子音频的音频文本。

例如，目标子音频可以是网络直播时采集的音频，对目标子音频进行实时内容识别处理，从而得到和目标子音频的音频内容对应的音频文本。

在一些实施例中，为了起到将音频转换成文本的效果，步骤160可以包括如下步骤：

确定目标子音频对应的语言种类。

其中，语言种类可以是中文、英文、法文、德文等，在此不做特别限定。

其中，若目标子音频的内容是由中文构成，则将目标子音频转换成由中文构成的音频文本。若目标子音频的内容是由英文构成的，则将目标子音频转换成由英文构成的音频文本。

在一些实施例中，为了起到待播放音频、待处理视频以及音频文本同步直播的效果，在对目标子音频进行内容识别处理，得到目标子音频的音频文本之后，还包括：

获取待播放音频，待播放音频为待处理音频或目标子音频。

其中，待播放音频可以是等待被播放的音频。

获取与待播放音频对应的待播放视频；

其中，例如，待播放视频可以具体是视频会议中产生的视频，在视频会议时，除了视频会议开会时产生的画面，还有包括视频会议开会时产生的音频。

在一些实施例中，将待播放音频、待播放视频以及音频文本同步发送给流媒体服务器，以便客户端对流媒体服务器发送的待播放音频、待播放视频以及音频文本进行同步直播。

其中，流媒体服务器可以是流方式在网络中传送音频、视频和多媒体文件的媒体形式。相对于下载后观看的网络播放形式而言，流媒体的典型特征是把连续的音频和视频信息压缩后放到网络服务器上，用户边下载边观看，而不必等待整个文件下载完毕。

其中，客户端可以是参与网络直播的播放端，等等。

其中，客户端可以同时对带播放音频、待播放视频以及音频文本进行同步直播，如此，通过音频文本增加了和待播放音频对应的字幕，有利于用户观看。

在一些实施例中，为了起到对待带播放音频进行音频加强的效果，将待播放音频、待播放视频以及音频文本同步发送给流媒体服务器，以便客户端对流媒体服务器发送的待播放音频、待播放视频以及音频文本进行同步直播，包括：

对待播放音频进行音频强度加强，得到加强待播放音频。

其中，音频强度加强有利于提高音频在播放时的响度，加强待播放音频可以是音频强度加强了的待播放音频。

其中，客户端对加强待播放音频、音频文本以及待播放视频进行播放，如此，播放的加权待播放音频可以使用户听到更清楚的声音。

例如，在一些实施例中，为了起到对客户端便于存储音频文本的效果，在流媒体服务器内，将加强目标音频、音频文本以及待播放视频同步发送给流媒体服务器，还包括：

将音频文本临时存储在流媒体服务器内，以便客户端在同步直播后对流媒体服务器内的音频文本进行本地存储。

其中，在网络直播时，会产生大量的音频文本，若客户端逐句存储音频文本，不便于对客户端存储，因此，在客户端同步直播后，客户端从流媒体服务器内获取到网络直播产生的音频文本，并对其进行本地存储。

例如，在一些实施例中，为了起到不对掉线客户端发送待播放音频、视频数据以及音频文本的效果，在流媒体服务器内，还包括：

获取待播放音频、待播放视频以及音频文本。

接收客户端在预设时间间隔内发送的心跳请求。

根据心跳请求，将待播放音频、待播放视频以及音频文本同步发送给客户端，以便客户端对待播放音频、待播放视频以及音频文本进行同步直播。

其中，如果掉线用户重新登录进入视频会议，心跳机制会标注该用户为在线用户，同时会见视频流和音频流同步推送给该用户；而用户在掉线期间遗漏的会议信息，不会重复推送给该用户。

本申请实施例提供的音频文本提取方案可以应用在各种网络直播场景中。比如，以视频会议为例，获取待处理音频；获取待处理音频对应的频谱图；根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；确定待处理子音频的平均音频强度；根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；对目标子音频进行内容识别处理，得到目标子音频的音频文本。采用本申请实施例提供的方案能够减少用户通过收听音频所耗费的时间，从而通过音频文本，可以使用户快速查看音频所包含的音频内容。

由上可知，本申请实施例可以应用在视频会议中。由此本方案可以减少用户通过收听音频来查询会议内容时所消耗的时间。由此，提升了查询会议内容的效率。

根据上述实施例所描述的方法，以下将作进一步详细说明。

参考图1d，本提案中的视频会议系统包括流媒体服务器和普通会议系统组成；其中流媒体服务器负责视频会议过程中生成视频流和音频流的拉取和推送；从客户端产生视频流和音频流都需要推送到流媒体服务器，再经过流媒体服务器推送给其他视频会议客户端，从而实现视频和语音的同步；同时普通会议系统负责会议预定、会议室管理、人员管理、文件保存等业务逻辑功能。

1、用python语言搭建NLU语音处理系统，利用tensorflow深度学习框架构建模型，再利用开源套件SpeechRecogintion实现语音转文字；同时使用python的多线程模块mutilprocessing模块通过socket协议和视频会议服务器保持长连接，实现数据流的传输。

2、在视频会议进行过程中产生的待处理音频通过视频会议系统的流媒体服务推送给NLU系统，NLU系统接收到待处理音频后立即转交给语音降噪系统。

3、语音降噪系统是通过python构建的音频分析、处理系统，其接收到待处理音频后立即对其分析、过滤、修正，对噪音信号弱化降噪处理。

4、NLU语音降噪原理，降噪分析待处理音频中的音频信号，对音频强度强的进行增强，对音频强度弱的进行弱化，从而实现降噪能力。例如在会议主持人在发言的同时，会场还其他人员的说话声等音频信号，即待处理音频由多个待处理子音频构成，如果待处理子音频为会议主持人的音频，主持人的音频强度是70％，其他待处理子音频的音频强度分别为20％和10％等，系统将增强主持人对应音频的音频强度(如80％)，弱化其他待处理子音频的音频强度(如15％和5％)，最后系统将通过逻辑熵模块对输入的目标子音频清洗后再将音频流回传给NLU系统。

5、同时，为了准确将音频信号翻译成对应文字，在NLU语音降噪过程中，采用时间片段对进行分段分析、过滤、修改，例如：在几个连续的时间片段中，只有一个时间片段对应的子音频片段突然出现音频强度较强的异类音频时，此时模型会按照时间序列实现降噪，将该时间片段对应的异类音频的音频强度进行弱化处理，从而实现准确降噪，确保后续待处理音频能准确翻译成文字。

6、NLU系统接收到处理后的目标子音频立即调用语音转文字系统，该系统通过已经训练好的模型recognizeGoogle对音频流执行识别、计算，翻译成对应的音频文本输出并返回NUL系统。

7、同时NLU系统将转换后的音频文本推送给视频会议系统。

8、同时，语音转文字系统是采用训练完成的recognizeGoogle模型，能够根据用户说话的语种自动翻译成对应的语言，不需要做特殊其他处理,例如说的是英文语音，转换后的文字也是对应的英文；如果说的是中文语音，语音转换后也是中文文字。

9、视频会议系统接收到NLU回传的文字流后立即将音频文本传输给流媒体服务器，流媒体服务器将待处理视频、待播放音频和音频文本推送给在线的客户端。

10、流媒体服务器是用websocket建立的长连接机制的服务系统，并和视频会议客户端保持长连接，支持的客户端有手机移动端，如小程序、应用App，PC端浏览器端以及会议机等多种终端设备。

11、流媒体服务器接收到音频文本后并立即推流给在线的客户端群组，客户端接收到流媒体服务器推送过来的待处理视频、待播放音频以及音频文本，客户端将待处理视频以及音频文本显示在客户端，客户端对待播放音频进行播放，以此实现语音和字幕实时同步机制；同时流媒体服务器将音频文本临时存储在本地，并在视频会议结束后调用普通会系统的文件存储接口保存音频文本。

12、流媒体服务器内置心跳机制，所有视频会议客户端在规定的间隔时间内向流媒体发起心跳请求，心跳服务监控视频客户端运行情况；如果视频客户端出现异常没有在规定时间内发起心跳请求，如：掉线；流媒体服务会立即做出调整并将该客户端标注为离线状态且后续不会对该视频客户端执行推送数据动作。

13、如果掉线用户重新登录进入视频会议，心跳机制会标注该用户为在线用户，同时会见待处理视频、待播放音频以及音频文本同步推送给该用户的客户端；而用户在掉线期间遗漏的会议信息，不会重复推送给该用户(用户可在会议后查看语音转文字后保存的文件记录)。

14、如果在视频会议进行过程中参会人员持续保持相对安静没有声音发出，或者只有一些嘈杂的声音，音频流在NLU的语音降噪模块分析处理后，如果判定实际音频强度大于预设的音频强度时，将待处理音频直接丢弃；语音降噪系统对音频流的是否达标的判定标准由具体训练的模型决定。

15、本提案中的视频会议系统(包括流媒体服务器和普通会议系统)和NLU系统(包括语音转文字系统和语音降噪系统)都部署在相同的网络环境，服务之间采用内网请求访问以提高访问效率，减小语音和文字同步的时差。

综上所述，多端视频会议不能现实语音字幕同步显示，只能通过单一语音交流，但实际应用中，往往存在交流过程中没听清对方说的内容导致沟通信息不对称，或者网络原因出现卡顿，语音模糊丢失等情况导致视频会议质量下降，因此，通过本申请可以将视频会议过程中生成的待处理音频通过深度学习模型搭建的NLU系统翻译成音频文本后，再传输给流媒体服务器将音频文本推送到客户端，实现音频和字幕同步播放的效果。同时，将视频会议过程中生成的语音流通过NLU系统翻译成音频文本并以文件形式保存会议内容，实现会议内容溯源的效果，便于用户查看视频会议的内容。

为了更好地实施以上方法，本申请实施例还提供一种音频提取装置，该音频提取装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以音频提取装置具体集成在移动终端为例，对本申请实施例的方法进行详细说明。

例如，如图2所示，该音频文本提取装置可以包括：

(一)待处理视频获取单元210；

待处理视频获取单元210，用于获取待处理音频。

(二)频谱图获取单元220；

频谱图获取单元220，用于获取待处理音频对应的频谱图。

在一些实施例中，频谱图获取单元，用于：

获取预设的音频强度；

获取待处理音频的实际音频强度；

(三)待处理子音频获取单元230；

待处理子音频获取单元230，用于根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频。

(四)平均音频强度获取单元240；

平均音频强度获取单元240，用于确定待处理子音频的平均音频强度。

(五)目标子音频确定单元250；

目标子音频确定单元250，用于根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频。

在一些实施例中，目标子音频确定单元，用于：

获取预设时间间隔；

获取待处理子音频中子音频片段的片段数量；

对待处理子音频进行声纹识别，得到声纹信息；

获取预先录入的标准声纹信息；

(六)音频文本获取单元260；

音频文本获取单元260，用于对目标子音频进行内容识别处理，得到目标子音频的音频文本。

在一些实施例中，音频文本获取单元，包括：

确定目标子音频对应的语言种类；

获取待播放音频，待播放音频为待处理音频或目标子音频；

获取与待播放音频对应的待播放视频；

在一些实施例中，将待播放音频、待播放视频以及音频文本同步发送给流媒体服务器，以便客户端对流媒体服务器发送的待播放音频、待播放视频以及音频文本进行同步直播，包括：

对待播放音频进行音频强度加强，得到加强待播放音频；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的音频文本提取装置由待处理视频获取单元，获取待处理音频；由频谱图获取单元，获取待处理音频对应的频谱图；由待处理子音频获取单元，根据频谱图的频率区间对待处理音频进行音频提取，得到多种待处理子音频；由平均音频强度获取单元，确定待处理子音频的平均音频强度；由目标子音频确定单元，根据待处理子音频的平均音频强度，在多个待处理子音频中确定目标子音频；由音频文本获取单元，对目标子音频进行内容识别处理，得到目标子音频的音频文本。

由此，本申请实施例可以提升减少用户通过收听音频来查询会议内容时所消耗的时间。由此，提升了查询会议内容的效率。

在本实施例中，将以本实施例的电子设备是移动终端为例进行详细描述，比如，如图3所示，其示出了本申请实施例所涉及的移动终端的结构示意图，具体来讲：

该移动终端可以包括一个或者一个以上处理核心的处理器310、一个或一个以上计算机可读存储介质的存储器320、电源330、输入模块340以及通信模块350等部件。本领域技术人员可以理解，图3中示出的结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器310是该移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。在一些实施例中，处理器310可包括一个或多个处理核心；在一些实施例中，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

存储器320可用于存储软件程序以及模块，处理器310通过运行存储在存储器320的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器320还可以包括存储器控制器，以提供处理器310对存储器320的访问。

移动终端还包括给各个部件供电的电源330，在一些实施例中，电源330可以通过电源管理系统与处理器310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源330还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该移动终端还可包括输入模块340，该输入模块340可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、话筒、光学或者轨迹球信号输入。

该移动终端还可包括通信模块350，在一些实施例中通信模块350可以包括无线模块，移动终端可以通过该通信模块350的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块350可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，移动终端还可以包括显示单元等，在此不再赘述。具体在本实施例中，移动终端中的处理器310会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器320中，并由处理器310来运行存储在存储器320中的应用程序，从而实现各种功能，如下：

获取待处理音频；

获取待处理音频对应的频谱图；

确定待处理子音频的平均音频强度；

由上可知，本实施例提供的移动终端可以根据待处理视频中的待处理音频，将待处理子音频根据频谱图的频谱区间，将待处理音频分成多个待处理子音频，然后根据待处理子音频的平均音频强度，从多个待处理子音频中选出目标子音频，目标子音频为待处理视频中的发言人音频，对目标子音频进行内容识别，生成和发言人音频对应的音频文本，有利于用户查看音频文本，从而更加清楚的了解到发言人的发言内容。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种音频文本提取方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取待处理音频；

获取待处理音频对应的频谱图；

确定待处理子音频的平均音频强度；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种音频文本提取方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频文本提取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频文本提取方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频文本提取方法，其特征在于，包括：

获取待处理音频；

获取所述待处理音频对应的频谱图；

根据所述频谱图的频率区间对所述待处理音频进行音频提取，得到多种待处理子音频；

确定所述待处理子音频的平均音频强度；

根据所述待处理子音频的平均音频强度，在所述多个待处理子音频中确定目标子音频；

对所述目标子音频进行内容识别处理，得到所述目标子音频的音频文本。

2.如权利要求1所述的方法，其特征在于，所述根据所述待处理子音频的平均音频强度，在所述多个待处理子音频中确定目标子音频，包括：

获取预设时间间隔；

根据所述预设时间间隔对所述待处理子音频进行切割处理，得到多个子音频片段；

获取所述待处理子音频中所述子音频片段的片段数量；

根据每个所述待处理子音频中所述子音频片段的片段数量和每个所述待处理子音频的平均音频强度，在所述多个待处理子音频中确定目标子音频。

3.如权利要求2所述的方法，其特征在于，所述根据每个所述待处理子音频的所述片段数量和每个所述待处理子音频的所述平均音频强度，在所述多个待处理子音频中确定目标子音频，包括：

当所述待处理子音频中所述子音频片段的片段数量大于预设片段数量时，根据每个所述待处理子音频的平均音频强度，在所述多个待处理子音频中确定目标子音频。

4.如权利要求1所述的方法，其特征在于，所述在所述多个待处理子音频中确定目标子音频，还包括：

对所述待处理子音频进行声纹识别，得到声纹信息；

获取预先录入的标准声纹信息；

在所述多个待处理子音频中确定目标子音频，所述目标子音频的声纹信息与所述标准声纹信息相同。

5.如权利要求1所述的方法，其特征在于，所述获取所述待处理音频对应的频谱图，包括：

获取预设的音频强度；

获取所述待处理音频的实际音频强度；

当所述实际音频强度大于所述预设的音频强度时，获取所述待处理音频对应的频谱图。

6.如权利要求1所述的方法，其特征在于，所述对所述目标子音频进行内容识别处理，得到所述目标子音频的音频文本，包括：

确定所述目标子音频对应的语言种类；

对所述目标子音频进行内容识别处理，得到所述目标子音频的音频文本，所述音频文本由所述语言种类的文字构成。

7.如权利要求1所述的方法，其特征在于，在所述对所述目标子音频进行内容识别处理，得到所述目标子音频的音频文本之后，还包括：

获取待播放音频，所述待播放音频为所述待处理音频或所述目标子音频；

获取与所述待播放音频对应的待播放视频；

将所述待播放音频、所述待播放视频以及所述音频文本同步发送给流媒体服务器，以便客户端对所述流媒体服务器发送的所述待播放音频、所述待播放视频以及所述音频文本进行同步直播。

8.如权利要求7所述的方法，其特征在于，所述将所述待播放音频、所述待播放视频以及所述音频文本同步发送给流媒体服务器，以便客户端对所述流媒体服务器发送的所述待播放音频、所述待播放视频以及所述音频文本进行同步直播，包括：

对所述待播放音频进行音频强度加强，得到加强待播放音频；

将所述加强待播放音频、所述音频文本以及所述待播放视频发送给流媒体服务器，以便客户端对所述流媒体服务器发送的所述加强待播放音频、所述音频文本以及所述待播放视频进行同步直播。

9.一种音频文本提取装置，其特征在于，包括：

待处理视频获取单元，用于获取待处理音频；

频谱图获取单元，用于获取所述待处理音频对应的频谱图；

待处理子音频获取单元，用于根据所述频谱图的频率区间对所述待处理音频进行音频提取，得到多种待处理子音频；

平均音频强度获取单元，用于确定所述待处理子音频的平均音频强度；

目标子音频确定单元，用于根据所述待处理子音频的平均音频强度，在所述多个待处理子音频中确定目标子音频；

音频文本获取单元，用于对所述目标子音频进行内容识别处理，得到所述目标子音频的音频文本。

10.一种终端，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～8任一项所述的音频文本提取方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如权利要求1～8任一项所述的音频文本提取方法中的步骤。