CN110099332A

CN110099332A - 一种音频环境展示方法及装置

Info

Publication number: CN110099332A
Application number: CN201910424815.5A
Authority: CN
Inventors: 胡尹; 高建清; 王智国; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-06
Anticipated expiration: 2039-05-21
Also published as: CN110099332B

Abstract

本申请公开了一种音频环境展示方法及装置，该方法包括：在实时获取到每一待预测音频段后，可以先将当前获取的待预测音频段作为目标音频段，然后对目标音频段所属的环境类型进行预测，得到预测环境类型，接着，再展示出得到的目标音频段所属的预测环境类型。可见，本申请不仅能够预测出实时获取到的每一待预测音频段所属的环境类型，还能够将预测结果向用户进行实时展示，从而使得用户能够实时获知每一目标音频段所属的环境类型，进而可以根据该环境类型，从每一目标音频段中获取到其所关注的内容，提升了用户体验。

Description

一种音频环境展示方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频环境展示方法及装置。

背景技术

音频数据作为一种传播信息的媒介，广泛存在于各行各业中，如教育领域中，教育专家的演讲音频或课堂讲课音频等，能够帮助学生提升自己的学习水平和知识面，又如研究领域中，领域专家的演讲音频或会议音频等，能够帮助研究者开阔思路、扩展知识面，这些音频数据所传播的内容对于听众来说受益非浅。

然而，这些音频数据中往往包含着各种各样的信息，比如，在演讲音频中，该演讲音频包含不同说话人的演讲内容、互动环节内容、掌声、欢呼声、视频播放、中场休息等不同类型的环境信息，这些环境信息有些是有用信息，有些是无用信息，而且即使同样的信息对不同用户来说它的重要程度也是不一样的，不同用户的关注点也会不同。但如何有效的使用户知道当前的环境信息，是目前亟待解决的问题。

发明内容

本申请实施例的主要目的在于提供一种音频环境展示方法及装置，能够对音频的环境类型进行自动预测，并将预测结果实时展示给用户，以便用户能够基于当前的音频环境类型，从音频中获取其所关注的内容，提升了用户体验。

本申请实施例提供了一种音频环境展示方法，包括：

实时获取每一待预测音频段，并将当前获取的待预测音频段作为目标音频段；

对所述目标音频段所属的环境类型进行预测，得到预测环境类型；

展示所述目标音频段的预测环境类型。

可选的，所述对所述目标音频段所属的环境类型进行预测，包括：

根据所述目标音频段生成音频环境特征，所述音频环境特征用于描述所述目标音频段的形成过程中的环境状态信息；

根据所述音频环境特征，对所述目标音频段所属的环境类型进行预测。

可选的，所述方法还包括：

若所述目标音频段的预测环境类型为错误的预测结果、且接收到第一用户对所述目标音频段的预测环境类型的更正结果，则记录所述更正结果。

可选的，所述更正结果用于，当所述目标音频段之后的待预测音频段的预测环境类型与所述目标音频段的预测环境类型相同时、且所述目标音频段之后的待预测音频段的音频环境特征与所述目标音频段的音频环境特征之间的特征相似度大于预设阈值时，替换所述目标音频段之后的待预测音频段的预测环境类型。

可选的，所述方法还包括：

在对各个待预测音频段的预测过程中或预测结束后，若接收到第二用户触发的搜索请求，则根据所述搜索请求中携带的搜索信息，对各个待预测音频段进行搜索，得到与所述搜索信息匹配的各个待预测音频段；

其中，所述搜索信息包括环境类型信息、关键词信息和说话人信息中的至少一种。

可选的，所述方法还包括：

在对各个待预测音频段的预测过程中或预测结束后，将具有相同预测环境类型的相邻待预测音频段进行合并，形成各个最终音频段；

生成各个最终音频段的预测环境类型的目录。

可选的，所述将当前获取的待预测音频段作为目标音频段之后，还包括：

从所述目标音频段中提取关键词，并将提取到的关键词进行展示。

根据所述目标音频段中的说话人的声纹信息、以及预先构建的声纹注册库中存储的各个样本说话人的声纹信息和各个样本说话人的相关信息，确定所述目标音频段中的说话人的相关信息；

将所述目标音频段中的说话人的相关信息进行展示。

可选的，所述根据所述音频环境特征，对所述目标音频段所属的环境类型进行预测，包括：

将所述音频环境特征作为预先构建的环境预测模型的输入；

获取所述环境预测模型输出的所述目标音频段所属的环境类型。

本申请实施例还提供了一种音频环境展示装置，包括：

目标音频段获取单元，用于实时获取每一待预测音频段，并将当前获取的待预测音频段作为目标音频段；

环境类型预测单元，用于对所述目标音频段所属的环境类型进行预测，得到预测环境类型；

环境类型展示单元，用于展示所述目标音频段的预测环境类型。

可选的，所述环境类型预测单元包括：

音频环境特征生成子单元，用于根据所述目标音频段生成音频环境特征，所述音频环境特征用于描述所述目标音频段的形成过程中的环境状态信息；

环境类型预测子单元，用于根据所述音频环境特征，对所述目标音频段所属的环境类型进行预测。

可选的，所述环境类型预测单元还包括：

更正结果记录子单元，用于若所述目标音频段的预测环境类型为错误的预测结果、且接收到第一用户对所述目标音频段的预测环境类型的更正结果，则记录所述更正结果。

可选的，所述更正结果具体用于，当所述目标音频段之后的待预测音频段的预测环境类型与所述目标音频段的预测环境类型相同时、且所述目标音频段之后的待预测音频段的音频环境特征与所述目标音频段的音频环境特征之间的特征相似度大于预设阈值时，替换所述目标音频段之后的待预测音频段的预测环境类型。

可选的，所述装置还包括：

音频段搜索单元，用于在对各个待预测音频段的预测过程中或预测结束后，若接收到第二用户触发的搜索请求，则根据所述搜索请求中携带的搜索信息，对各个待预测音频段进行搜索，得到与所述搜索信息匹配的各个待预测音频段；

可选的，所述装置还包括：

音频段合并单元，用于在对各个待预测音频段的预测过程中或预测结束后，将具有相同预测环境类型的相邻待预测音频段进行合并，形成各个最终音频段；

目录生成单元，用于生成各个最终音频段的预测环境类型的目录。

可选的，所述装置还包括：

关键词展示单元，用于将当前获取的待预测音频段作为目标音频段之后，从所述目标音频段中提取关键词，并将提取到的关键词进行展示。

可选的，所述装置还包括：

说话人信息确定单元，用于将当前获取的待预测音频段作为目标音频段之后，根据所述目标音频段中的说话人的声纹信息、以及预先构建的声纹注册库中存储的各个样本说话人的声纹信息和各个样本说话人的相关信息，确定所述目标音频段中的说话人的相关信息；

说话人信息展示单元，用于将所述目标音频段中的说话人的相关信息进行展示。

可选的，所述环境类型预测子单元包括：

模型输入获得子单元，用于将所述音频环境特征作为预先构建的环境预测模型的输入；

环境类型输出子单元，用于获取所述环境预测模型输出的所述目标音频段所属的环境类型。

本申请实施例还提供了一种音频环境展示设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述音频环境展示方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述音频环境展示方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述音频环境展示方法中的任意一种实现方式。

本申请实施例提供的一种音频环境展示方法及装置，在实时获取到每一待预测音频段后，可以将当前获取的待预测音频段作为目标音频段，然后对目标音频段所属的环境类型进行预测，得到预测环境类型，接着，再展示出目标音频段所属的预测环境类型。可见，本申请实施例不仅能够预测出实时获取到的每一待预测音频段所属的环境类型，还能够将预测结果向用户进行实时展示，从而使得用户能够实时获知每一待预测音频段所属的环境类型，进而可以根据该环境类型，从每一待预测音频段中获取其所关注的内容，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频环境展示方法的流程示意图；

图2为本申请实施例提供的对目标音频段所属的环境类型进行预测的流程示意图；

图3为本申请实施例提供的环境类型的显示示意图；

图4为本申请实施例提供的根据音频环境特征对目标音频段所属的环境类型进行预测的流程示意图；

图5为本申请实施例提供的一种音频环境展示装置的组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种音频环境展示方法的流程示意图，该方法包括以下步骤：

S101：实时获取每一待预测音频段，并将当前获取的待预测音频段作为目标音频段。

在本实施例中，将采用本实施例进行环境预测的任一音频段定义为目标音频段，需要说明的是，本实施例是按照时间顺序，实时获取每一待预测音频段，即，本实施例是按照待预测音频的现场录制顺序、或按照待预测音频被录制后的播放顺序，实时获取到待预测音频中包含的每一待预测音频段，同时，将当前录制的、或当前播放的待预测音频段作为目标音频段。

并且，本实施例不限制目标音频段的语种类型，比如，目标音频段可以是中文音频段、或英文音频段等，同时，本实施例也不限制目标音频段的长度，比如，目标音频段可以是一句话、或多句话等。

下面对目标语音段的获取方式进行介绍。

具体来讲，为便于描述，将目标音频段所属的待预测音频定义为目标音频。从目标音频中获取目标音频段的方式，可以分为“在线”和“离线”两种方式。其中，“在线”获取目标音频段的方式指的是，在录制目标音频的过程中，实时地从中划分出每一待预测音频段，作为目标音频段，即，该目标音频段是当前正在录制的音频段；“离线”获取目标音频段的方式指的是，当通过现场录音得到目标音频后，将该目标音频进行存储，之后在用户播放该目标音频的过程中，实时的从中划分出每一待预测音频段，作为目标音频段，即，该目标音频段是当前正在播放的音频段。

对于“在线”获取目标音频段的方式，具体为在录制目标音频的过程中，从录制目标音频的起始时间开始，将实时录制到的预设音频长度的音频段作为一个目标音频段，比如，可以从录制目标音频的起始时间开始，将实时录制到的每10s长度的音频段依次作为一个目标音频段；或者，也可以利用语音端点检测模型(Voice Activity Detection，简称VAD)，从录制目标音频的起始时间开始，进行语音的起始时间点和结束时间点的端点检测，从而可以实时按序确定出各个待预测音频段，并依次作为一个目标音频段，即，目标音频段是有效语音段或非有效语音段，其中，有效语音段中包括语音、而非有效语音段中不包括任何语音。

类似的，对于“离线”获取目标音频段的方式，具体为当通过现场录音得到目标音频后，先将目标音频进行存储，之后在用户播放该目标音频的过程中，可以将目标音频按照预设的音频长度进行划分，并将划分出的每一待预测音频段作为目标音频段，比如，可以将目标音频中每10s长度的待预测音频段分别作为一个目标音频段；或者，也可以利用VAD方法对目标音频进行端点检测，以确定出目标音频中包含的各个待预测音频段，各个待预测音频段包括各个有效语音段和/或各个非有效语音段。

可以理解的是，目标音频可以根据实际需要，通过录音等方式获得，例如，演讲人在演讲过程中的演讲音频、会议录音中的音频、采访音频中的音频、或者课堂上产生的讲课音频等均可作为目标音频。实际应用中，在利用智能手机、麦克风、电脑等电子设备获取到目标音频后，可以按照上述方式获取到目标音频包含的每一待预测音频段，进而可以按照目标音频中的各个待预测音频段的播放顺序，分别将其中的每一待预测音频段作为目标音频段，再利用本实施例对该目标音频段进行环境预测。

需要说明的是，目标音频中可能包括各种各样的信息，例如，目标音频包含了说话人在一段时间内发出的语音数据以及在此过程中周围环境所产生的其他音频数据，比如，以说话人为演讲人为例，目标音频既包含了演讲人在演讲的一段时间内产生的语音数据，也包含了在此演讲过程中周围环境所产生的其他音频数据，如演讲人与观众进行互动时，观众产生的语音数据、或者观众发出的掌声及欢呼声等音频数据。

还需要说明的是，在后续内容中，本实施例将以目标音频中的某一目标音频段为准来介绍如何对目标音频段进行环境预测，而其它目标音频段的处理方式与之类似，不再一一赘述。

并且，在后续内容中，本实施例也将以目标音频段为中文音频段为例，来介绍如何对目标音频段进行环境预测，而其它语种(如英文)的目标音频段的处理方式与之类似，不再一一赘述。

S102：对目标音频段所属的环境类型进行预测，得到预测环境类型。

在本实施例中，通过步骤S101获取到目标音频段后，可以对目标音频段进行音频分析，得到分析结果，并根据该分析结果，对目标音频段所属的环境类型进行预测，得到预测环境类型，其中，环境类型指的是产生目标音频段时说话人所处周围环境的整体状态信息。比如，假设目标音频段包括演讲人在一段演讲过程中产生的语音数据，则目标音频段所属的环境类型可以为“正在演讲”，又比如，假设目标音频段包括演讲人在一段演讲后周围环境所产生的其他音频数据，则目标音频段所属的环境类型可以为“欢呼声”、“掌声”、以及“中场暂停”等。

接下来，本实施例将通过下述步骤S1021-S1022，对本步骤S102的具体实现过程进行介绍。

参见图2，其示出了本实施例提供的对目标音频段所属的环境类型进行预测的流程示意图，该流程包括以下步骤：

S1021：根据目标音频段生成音频环境特征，其中，音频环境特征用于描述目标音频段的形成过程中的环境状态信息。

在本实施例中，通过步骤S101获取到目标音频段后，可以对目标音频段进行音频分析，生成目标音频段的音频环境特征，该音频环境特征用于描述目标音频段在形成过程中所处的环境状态信息。其中，环境状态信息描述了在产生目标音频段时、说话人所处周围环境的状态信息，例如，以说话人为演讲人为例，则目标音频段的形成过程中的环境状态信息，可能包括了“正在演讲中”、“与观众互动”、“中场休息”等中的一种或多种环境类型下的状态描述信息。

在本实施例中，一种可选的实现方式是，音频环境特征可以包括声学环境特征和/或语义环境特征；其中，

声学环境特征是基于目标音频段的声学信息生成的；

语义环境特征是基于目标音频段的识别文本的文本信息生成的。

在本实现方式中，在获取到目标音频段后，可以利用特征提取方法，通过分析目标音频段的声学信息，提取出目标音频段的声学环境特征，该声学环境特征可以包括用于衡量目标音频段的语调的特征、目标音频段所包含的说话人个数、用于衡量第一变化信息的特征、用于衡量第二变化信息的特征、目标音频段的声学特征、目标音频段中的有效语音的持续时长、目标音频段中的非有效语音的持续时长、目标音频段之前的至少一个音频段所属的环境类型中的一项或多项特征，其中，第一变化信息为目标音频段与目标音频段的上一音频段中的说话人的变化信息，第二变化信息为目标音频段与目标音频段的下一音频段中的说话人的变化信息。

另外，在获取到目标音频段后，也可以先利用语音识别方法，对目标音频段进行语音识别，得到目标音频段对应的识别文本，即，可以先通过语音识别技术将目标音频段包含的语音数据转换为文本数据，然后，再利用特征提取方法，通过分析目标音频段的识别文本的文本信息，提取出目标音频段对应的语义环境特征，该语义环境特征可以包括用于衡量目标音频段的语速快慢的特征、用于衡量目标音频段的音频质量的特征、用于衡量目标音频段与各个预设环境类型的相关度的特征中的一项或多项特征。

需要说明的是，本实现方式中的声学环境特征和语义环境特征的具体介绍可参见第二实施例。

S1022：根据音频环境特征，对目标音频段所属的环境类型进行预测。

在本实施例中，通过步骤S1021生成目标音频段的音频环境特征后，可以对目标环境特征进行数据处理，并根据处理结果，对目标音频段所属的环境类型进行预测，并且，在具体实现过程中，可以利用预先构建的环境预测模型，对目标音频段所属的环境类型进行预测，即，可以将目标音频段的音频环境特征作为模型的输入数据，利用该环境预测模型输出目标音频段所属环境类型的预测结果，该具体实现方式将在第三实施例中介绍，而该环境预测模型的具体构建过程也可参见第三实施例。

S103：展示目标音频段的预测环境类型。

在本实施例中，通过步骤S102对目标音频段所属的环境类型进行预测，得到预测环境类型后，进一步的，可以将预测出的目标音频段所属的环境类型向用户进行实时展示，比如，可以通过文字显示的形式将预测环境类型展示在屏幕的指定区域等。

举例说明：在利用本实施例对演讲人进行演讲过程中的每一目标音频段所属的环境类型进行预测后，可以实时的将预测结果展示给用户，如图3所示，可以在演讲屏幕上设置一个固定的显示区域，用以实时显示演讲人在演讲过程中每一目标音频段所属的环境类型，如图3中演讲屏幕上方显示区域显示的“正在演讲”，该环境类型表明了产生目标音频段“大家好，我是XX，很高兴能够和大家在这里见面……”时，说话人所处周围环境的整体状态为“正在演讲”，而如果演讲过程中随着目标音频段发生变化，对应的环境类型也发生变化时，则可在该“环境类型”显示区域更新相对应的“环境类型”，如可以将“正在演讲”更新为“中场暂停”等。

需要说明的是，图3所示的“环境类型”的显示区域在显示设备中的显示位置、以及该显示区域内的文字显示方式仅是一种示例，也可以采取其他显示位置和显示方式，比如，可以将预测出的“环境类型”显示在对应目标音频段的下方或插入到演讲字幕中，或者，可以以彩色字体来显示预测出的“环境类型”等等，具体显示位置和显示方式可根据实际情况进行设置，本申请实施例对此不进行限制。

进一步的，在展示出目标音频段的预测环境类型后，一种可选的实现方式是，本实施还可以包括：若目标音频段的预测环境类型为错误的预测结果、且接收到第一用户对目标音频段的预测环境类型的更正结果，则记录该更正结果。

在本实现方式中，假设第一用户为展示设备的普通用户、或者是维护展示设备的工作人员或技术人员，那么，在通过步骤S103将目标音频段的预测环境类型进行展示(比如展示给演讲环境中的观众)之后，若第一用户发现所展示的预测环境类型为错误的预测结果，比如，将“正在欢呼”的实际环境类型错误展示成了“正在鼓掌”(即预测环境类型)，此时，如果接收到第一用户对该预测环境类型的更正结果(即实际环境类型)，即，将预测环境类型“正在鼓掌”更正为实际环境类型“正在欢呼”，则记录下该更正结果，以便利用该更正结果，对后续可能出现的该错误预测结果(如“正在鼓掌”)进行更正。

如上述步骤S101中所述，由于本实施是实时按序获取每一待预测音频段，并将每一待预测音频段的预测环境类型实时展示给用户，基于此，若目标音频段的预测环境类型为错误的预测结果、且已记录对应的更正结果，则当出现目标音频段之后的待预测音频段的预测环境类型与目标音频段的预测环境类型相同时、且目标音频段之后的该待预测音频段的音频环境特征与目标音频段的音频环境特征之间的特征相似度大于预设阈值时，可以利用上述记录的更正结果，替换目标音频段之后的该待预测音频段的预测环境类型。

为便于理解上述替换操作，现以演讲过程中的目标音频段为例进行说明：

假设在演讲过程中，将某一目标音频段的预测环境类型实时展示为“正在鼓掌”，但第一用户发现此目标音频段所属的实际环境类型为“正在欢呼”，即，此时演讲过程是处于“正在欢呼”的环境状态下，也就是说，实时展示出的该目标音频段对应的预测环境类型为错误的预测结果，此时，需要将该目标音频段对应的音频环境特征记录下来，并记录其实际环境类型“正在欢呼”、以及预测环境类型“正在鼓掌”。

在后续演讲过程中，当再次预测出某一待预测音频段的环境类型为“正在鼓掌”时，需要将该待预测音频段的音频环境特征与之前记录的目标音频段的音频环境特征进行相似度计算，当二者之间的相似度大于预设的相似度阈值时，则表明该待预测音频段对应的环境类型与目标音频段的环境类型应是一致的，均为“正在欢呼”，则在展示该待预测音频段的预测环境类型时，可以利用“正在欢呼”替换原来预测出的“正在鼓掌”，保证了在后续演讲过程中，不再出现这种展示错误预测环境类型“正在鼓掌”的情况，提高了预测环境类型的显示准确性，使用户实时获知准确的音频环境信息，提高了用户体验。

进一步地，一种可选的实现方式是，在通过步骤S101将当前获取的待预测音频段作为目标音频段之后，还可以从该目标音频段中提取关键词，并将提取的关键词进行展示。

具体来讲，为了便于人们(比如演讲现场的观众)快速、准确的了解目标音频段包含的内容，可以利用现有或未来出现的关键词提取方法，提取出目标音频段中包含的关键词，用以表征目标音频段中包含的主要语义信息，比如，可以先对目标音频段进行语音识别，得到识别文本，然后再利用基于词频-逆文本频率指数(term frequency–inversedocument frequency，简称TF-IDF)的方法，提取出该识别文本中的关键词，并将其在展示设备上实时的进行展示。

举例说明：以目标音频段为演讲人当前的一段演讲音频为例，假设这段演讲音频的内容较多，持续时间较长，为了便于听众能够快速、准确的了解这段演讲音频包含的内容，可在录制演讲人这段演讲音频过程中和/或之后在播放这段演讲音频时，将提取出的这段演讲音频的关键词实时进行展示，例如，假设这段演讲音频的内容是与“人工智能”相关的，则可从中提取出的“机器学习”、“神经网络”、“模式识别”等关键词显示在展示设备上，具体显示位置可根据实际情况进行设定，本实施例对此不进行限制。

这样，通过将“关键词”进行实时展示的方式，不仅有助于人们根据关键词快速了解各个待预测音频段的关键内容，也便于在对各个待预测音频段的预测结束后，不同用户能够根据每一待预测音频段各自对应的关键词，快速搜索出包含其所关注“关键词”的相关内容的待预测音频段。

进一步地，一种可选的实现方式是，在通过步骤S101将当前获取的待预测音频段作为目标音频段之后，本实施例还可以包括下述步骤A1-A2：

步骤A1：根据目标音频段中的说话人的声纹信息、以及预先构建的声纹注册库中存储的各个样本说话人的声纹信息和各个样本说话人的相关信息，确定目标音频段中的说话人的相关信息。

本实现方式中，预先构建了声纹注册库，该注册库中存储有各个样本说话人的声纹信息和各个样本说话人的相关信息，其中，每个样本说话人的声纹信息是不同的，即，不同声纹信息对应了不同的样本说话人。而每一样本说话人的相关信息则包括了该样本说话人的至少一方面信息，比如姓名、职业、兴趣爱好以及婚姻情况等个人相关的信息。

基于此，在实时获取到目标音频段后，为了便于用户更加直观、准确的了解目标音频段中说话人的信息，可以利用现有或未来出现的声纹提取方法，提取出目标音频段中说话人的声纹信息，并利用该声纹信息与声纹注册库中存储的各个样本说话人的声纹信息进行匹配，以便从中查询出与该声纹信息的相似度超过预设阈值的样本说话人的声纹信息，从而可以认定该样本说话人与目标音频段中的说话人为同一说话人，进而可以认定该样本说话人的相关信息即为目标音频段中的说话人的相关信息。

步骤A2：将目标音频段中的说话人的相关信息进行展示。

通过步骤A1确定出目标音频段中的说话人的相关信息后，进一步可以将该说话人的相关信息实时进行展示，以便人们能够直观、准确的了解目标音频段中说话人的信息，比如，以目标音频段为演讲人当前的一段演讲音频为例，通过将这段演讲音频中说话人的相关信息进行展示，可以有助于人们快速了解这段音频中包含的说话人的信息。此外，在对各个待预测音频段的预测结束后，不同用户也能够根据每一目标音频段各自对应的说话人的相关信息，快速搜索出包含其所关注的说话人的待预测音频段，提高了用户体验。

进一步的，一种可选的实现方式是，本实施例还可以包括：在对各个待预测音频段的预测过程中或预测结束后，若接收到第二用户触发的搜索请求，则根据该搜索请求中携带的搜索信息，对各个待预测音频段进行搜索，得到与搜索信息匹配的各个待预测音频段；其中，搜索信息包括环境类型信息、关键词信息和说话人信息中的至少一种。

在本实现方式中，为了能够快速、准确的搜索到第二用户所关注内容对应的待预测音频段，在如上述步骤所述的提取出目标音频段包含的关键词以及说话人的相关信息进行实时显示的同时，还可以同时将得到的目标音频段包含的关键词以及目标音频段中的说话人的相关信息进行存储；并且，将目标音频段对应的预测环境类型进行存储，需要说明的是，如果该预测环境类型没有对应的更正结果，则该预测环境类型为预测得到的环境类型，否则，该预测环境类型为对应的更正结果。

这样，在对各个待预测音频段的预测过程中，若接收到用户触发的携带有搜索信息的搜索请求，且该搜索信息包括了环境类型信息、关键词信息和说话人信息中的至少一种，则可以将接收到的这些搜索信息与预先存储的已预测过的待预测音频段和正在预测过程中的待预测音频的环境类型信息、关键词信息和说话人信息进行匹配，以便从中查询出与接收到的搜索信息的相似度超过预设阈值的待预测音频段，作为与搜索信息匹配的各个待预测音频段，进而可将其作为符合第二用户的搜索请求的待预测音频段。

此外，在对各个待预测音频段预测结束后，若接收到用户触发的携带有搜索信息的搜索请求，且该搜索信息包括了环境类型信息、关键词信息和说话人信息中的至少一种，则可以将接收到的这些搜索信息与预先存储的已预测过的所有待预测音频段的环境类型信息、关键词信息和说话人信息进行匹配，以便从中查询出与接收到的搜索信息的相似度超过预设阈值的待预测音频段，作为与搜索信息匹配的各个待预测音频段，进而可将其作为符合用户搜索请求的待预测音频段。

进一步的，一种可选的实现方式是，本实施例还可以包括下述步骤B1-B2：

步骤B1：在对各个待预测音频段的预测过程中或预测结束后，将具有相同预测环境类型的相邻待预测音频段进行合并，形成各个最终音频段。

需要说明的是，对于每一待预测音频段的预测环境类型，如果该预测环境类型没有对应的更正结果，则该预测环境类型为预测得到的环境类型，否则，该预测环境类型为对应的更正结果。

在本实现方式中，在对各个待预测音频段的预测过程中或预测结束后，可以将具有相同预测环境类型的相邻待预测音频段进行合并，以形成各个最终音频段，用以执行后续步骤B。

举例说明：假设实时获取的5个待预测音频段为从某一演讲音频中实时划分出的5个演讲音频段，且在对这5个待预测音频段预测结束后，得到这5个待预测音频段所属的环境类型依次为“正在演讲”、“正在演讲”、“掌声”、“欢呼声”、“中场暂停”，则可以将所属环境类型均为“正在演讲”的相邻的第1个演讲音频段和第2个演讲音频段进行合并，合成一个音频段，则形成了4个最终音频段，即，将原来的第1个演讲音频段和第2个演讲音频段合并为一个音频段，其他3个演讲音频段不变，且这4个最终音频段所属的环境类型依次为“正在演讲”、“掌声”、“欢呼声”、“中场暂停”。

步骤B2：生成各个最终音频段的预测环境类型的目录。

通过步骤B1形成各个最终音频段后，可以按照时间先后顺序，生成各个最终音频段的预测环境类型的目录。

举例说明：基于上述步骤B1中的举例，在形成了4个最终音频段，且这4个最终音频段所属的环境类型依次为“正在演讲”、“掌声”、“欢呼声”、“中场暂停”后，进而可以生成这4个最终音频段的预测环境类型的目录如下表1所示：

表1

这样，用户可以根据表1所示目录中各个最终音频段与预测环境类型的对应关系，快速、准确地搜索出属于其所关注的“环境类型”的待预测音频段，提高了用户体验。

需要说明的是，表1所示的各个最终音频段的预测环境类型的目录的显示格式仅是一种示例，也可以采取其他显示格式，比如，可以将“预测环境类型”显示在表格左侧，将“最终音频段序号”显示在表格右侧等，具体显示位置和显示方式可根据实际情况进行设置，本申请实施例对此不进行限制。

综上，本实施例提供的音频环境展示方法，在实时获取到每一待预测音频段后，可以将当前获取的待预测音频段作为目标音频段，然后对目标音频段所属的环境类型进行预测，得到预测环境类型，接着，再展示出目标音频段所属的预测环境类型。可见，本申请实施例不仅能够预测出实时获取到的每一待预测音频段所属的环境类型，还能够将预测结果向用户进行实时展示，从而使得用户能够实时获知每一待预测音频段所属的环境类型，进而可以根据该环境类型，从每一待预测音频段中获取其所关注的内容，提升了用户体验。

第二实施例

在本实施例中，通过上述第一实施例中的步骤S1021对目标音频段进行音频分析，即，利用特征提取方法，通过对目标音频段的声学信息进行分析，可以提取出目标音频段的声学环境特征，该声学环境特征可以包括以下特征数据中的一项或多项：

用于衡量目标音频段的语调的特征、目标音频段所包含的说话人个数、用于衡量第一变化信息的特征、用于衡量第二变化信息的特征、目标音频段的声学特征、目标音频段中的有效语音的持续时长、目标音频段中的非有效语音的持续时长、目标音频段之前的至少一个音频段所属的环境类型。

接下来，将对上述8项特征进行一一介绍：

1、用于衡量目标音频段的语调的特征

“用于衡量目标音频段的语调的特征”指的是用来衡量说话人在发出目标音频段时声音的抑扬顿挫程度的特征数据，可以理解的是，说话人发出的声音的不同抑扬顿挫程度，能够使得产生的目标音频段更有感染力、更加生动、精彩，进而更能够引起听众的共鸣。

具体来讲，首先可以计算出目标音频段中每一有效语音段的基频方差，然后，对目标音频段中的各个有效语音段的基频方差进行求平均计算，得到方差均值，并将得到的该方差均值作为衡量目标音频段的语调的特征。

其中，如上述第一实施例中所述，有效语音段指的是利用VAD等方法对目标音频进行端点检测后得到的目标音频中包含有效语音数据(比如说话人发出的真实语音数据)的音频段；而对于不包含有效语音数据的音频段，则可以称为非有效语音段(比如“静音”、“纯噪音”、“中场暂停”对应的音频段)。

2、目标音频段所包含的说话人个数

“目标音频段所包含的说话人个数”指的是目标音频段中所有说话人的个数。

具体来讲，可以利用现有或未来出现的角色分离技术，对目标音频段进行分析计算，得到整个目标音频段中所有说话人的个数。例如，假设检测出目标音频段中包含有讲师和学生A这两个角色，则该目标音频段所包含的说话人个数即为2。

3、用于衡量第一变化信息的特征

其中，第一变化信息指的是目标音频段与该目标音频段的上一音频段中的说话人的变化信息，则“用于衡量第一变化信息的特征”指的是用于衡量目标音频段中的说话人与其上一音频段中的说话人之间的变化信息的特征数据，具体地，这里的变化信息可以是上述两个音频段中的说话人的声纹变化信息。

具体来讲，首先可以利用现有或未来出现的声纹提取方法，提取出目标音频段及其上一音频段各自对应的声纹特征向量，比如，可以采用神经网络模型，提取出目标音频段及其上一音频段各自对应的声纹特征向量，然后，再计算出这两个声纹特征向量之间的距离，比如，可以计算出这两个声纹特征向量之间的余弦距离，作为目标音频段与其上一音频段之间的声纹相似度，并用以作为衡量第一变化信息的特征。

或者，在计算出目标音频段与其上一音频段之间的声纹相似度，即，计算出目标音频段与其上一音频段各自对应的声纹特征向量之间的距离后，进一步可以将该距离值与预设的距离阈值进行比较，若该距离值小于距离阈值，则表明目标音频段与其上一音频段中的说话人之间的声纹相似度较高，可以认定这两个音频段中的说话人为同一说话人，反之，若该距离值不小于距离阈值，则表明目标音频段与其上一音频段中的说话人之间的声纹相似度较低，可以认定这两个音频段中的说话人不是同一说话人。进而，可以将是否为同一说话人的结论作为衡量第一变化信息的特征，比如，1表示说话人相同、0表示说话人不同，将1或0作为衡量第一变化信息的特征。

4、用于衡量第二变化信息的特征

其中，第二变化信息指的是目标音频段与该目标音频段的下一音频段中的说话人的变化信息，则“用于衡量第二变化信息的特征”指的是用于衡量目标音频段中的说话人与其下一音频段中的说话人之间的变化信息的特征数据，具体地，这里的变化信息可以是上述两个音频段中的说话人的声纹变化信息。

具体来讲，首先可以利用现有或未来出现的声纹提取方法，提取出目标音频段及其下一音频段各自对应的声纹特征向量，比如，可以采用神经网络模型，提取出目标音频段及其下一音频段各自对应的声纹特征向量，然后，再计算出这两个声纹特征向量之间的距离，比如，可以计算出这两个声纹特征向量之间的余弦距离，作为目标音频段与其下一音频段之间的声纹相似度，并用以作为衡量第二变化信息的特征。

或者，在计算出目标音频段与其下一音频段之间的声纹相似度，即，计算出目标音频段与其下一音频段各自对应的声纹特征向量之间的距离后，进一步可以将该距离值与预设的距离阈值进行比较，若该距离值小于距离阈值，则表明目标音频段与其下一音频段中的说话人之间的声纹相似度较高，可以认定这两个音频段中的说话人为同一说话人，反之，若该距离值不小于距离阈值，则表明目标音频段与其下一音频段中的说话人之间的声纹相似度较低，可以认定这两个音频段中的说话人不是同一说话人。进而，可以将是否为同一说话人的结论作为衡量第二变化信息的特征，比如，1表示说话人相同、0表示说话人不同，将1或0作为衡量第二变化信息的特征。

需要说明的是，对于在线获取目标音频段的方式来说，由于目标音频段属于实时音频数据，因此，无法提前获取到目标音频段的下一音频段，此时，可以基于对环境类型预测的实时性要求，获取目标音频段的下一预设时间段内的音频数据，比如，可以获取到目标音频段后的5s或10s内的音频数据，用以作为目标音频段的下一音频段。而对于离线获取目标音频段的方式来说，可以将该目标音频段的下一目标音频段，直接作为该目标音频段的下一音频段。

5、目标音频段的声学特征

“目标音频段的声学特征”指的是目标音频段包含的通用的声学特征，比如，可以是目标音频段包含的短时能量、过零率、梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，简称MFCC)等特征中的一项或多项，且其中每一项特征的获取方式可以与现有方式一致，在此不再赘述。

6、目标音频段中的有效语音的持续时长

“目标音频段中的有效语音的持续时长”指的是目标音频段中包含的有效语音的总时长，用以从宏观上描述目标音频段所处的环境状态信息。

具体来讲，如上述第一实施例中所述，目标音频段可以按照两种方式来划分：一种方式是按照预设的音频长度来划分，另一种方式是利用VAD方法来划分。

若该目标音频段是通过将目标音频按照预设的音频长度进行划分得到的，比如，是通过将目标音频中每10s长度的音频段进行划分得到的，那么，可以利用VAD方法对该目标音频段进行端点检测，以确定该目标音频段中包含的各个有效语音段和/或各个非有效语音段，然后将其中的各个有效语音段的持续时长进行相加，得到该目标音频段中包含的所有有效语音段的总时长，作为该目标音频段中的有效语音的持续时长。

若该目标音频段是利用VAD方法从目标音频中检测出来的，那么，在检测出该目标音频段的同时，也确定出了该目标音频段是有效音频段或非有效音频段，当该目标音频段为有效音频段时，则可以将该目标音频段的总时长，作为该目标音频段中的有效语音的持续时长，当该目标音频段为非有效音频段时，则该目标音频段中的有效语音的持续时长为0。

7、目标音频段中的非有效语音的持续时长

“目标音频段中的非有效语音的持续时长”指的是目标音频段中包含的非有效语音的总时长，用以从宏观上描述目标音频段所处的环境状态信息。

若该目标音频段是通过将目标音频按照预设的音频长度进行划分得到的，比如，是通过将目标音频中每10s长度的音频段进行划分得到的，那么，可以利用VAD方法对该目标音频段进行端点检测，以确定该目标音频段中包含的各个有效语音段和/或各个非有效语音段，然后将其中的各个非有效语音段的持续时长进行相加，得到该目标音频段中包含的所有非有效语音段的总时长，作为该目标音频段中的非有效语音的持续时长。

若该目标音频段是利用VAD方法从目标音频中检测出来的，那么，在检测出该目标音频段的同时，也确定出了该目标音频段是有效音频段或非有效音频段，当该目标音频段为非有效音频段时，则可以将该目标音频段的总时长，作为该目标音频段中的非有效语音的持续时长，当该目标音频段为有效音频段时，则该目标音频段中的非有效语音的持续时长为0。

8、目标音频段之前的至少一个音频段所属的环境类型

“目标音频段之前的至少一个音频段所属的环境类型”指的是目标音频段之前的、已确定的至少一个音频段所属的环境类型。比如“正在演讲”、“掌声”等环境类型，用以辅助预测目标音频段所属的环境类型。例如，假设目标音频段之前的、已确定的最近两个音频段所属的环境类型为“欢呼声”和“掌声”，基于这两个音频段所属的环境类型，若目标音频段为有效语音段，则目标音频段所属的环境类型很可能为“正在演讲”，且正演讲到精彩的部分。

需要说明的是，关于目标音频段之前的音频段个数可根据实际情况(比如基于目标音频段的离线或在线获取方式)进行设定，本申请实施例对此不进行限制。

以上介绍了音频环境特征中的声学环境特征所可能包括的每一项特征。

以下将介绍音频环境特征中的语义环境特征所可能包括的每一项特征。

在本实施例中，通过上述第一实施例中的步骤S1021，可以先对目标音频段进行音频识别，得到目标音频段对应的识别文本，再利用特征提取方法，通过对目标音频段的识别文本的文本信息进行分析，提取出目标音频段对应的语义环境特征，该语义环境特征可以包括以下特征数据中的一项或多项：

用于衡量目标音频段的语速快慢的特征、用于衡量目标音频段的音频质量的特征、用于衡量目标音频段与各个预设环境类型的相关度的特征。

接下来，将对上述3项特征进行一一介绍：

1、用于衡量目标音频段的语速快慢的特征

一种可选的实现方式是，“用于衡量目标音频段的语速快慢的特征”可以是说话人在说话过程中每秒钟说出的字数。

具体来讲，需要统计出目标音频段对应的识别文本的总字数，将该总字数与目标音频段的总时长的比值，作为衡量目标音频段的语速快慢的特征。

2、用于衡量目标音频段的音频质量的特征

“用于衡量目标音频段的音频质量的特征”指的是表征目标音频段的音频质量高低的特征数据。

可以理解的是，目标音频段可以包括纯噪声、静音、有效语音中的至少一种。

实际应用中，可以直接通过VAD以及计算出的短时能量，从目标音频段中区分出纯噪声和静音，如果目标音频段中包含有纯噪声，则可以基于纯噪声的持续时长和/或噪声强度，设置用于衡量纯噪声的音频质量的参数值，作为表征纯噪声的音频质量高低的特征数据，同理，如果目标音频段中包含有静音，则可以基于静音的持续时长，设置用于衡量静音的音频质量的参数值，作为表征静音的音频质量高低的特征数据。

而对于从目标音频段中区分出的有效语音，“用于衡量目标音频段的音频质量的特征”可以包括用于衡量有效语音的可懂度的特征。或者，还可以将“有效语音”基于含噪程度做进一步划分，比如划分为干净音频、轻噪音音频、重噪音音频三类，这三类音频的含噪程度依次增高，基于此，一种可选的实现方式是，“用于衡量目标音频段的音频质量的特征”可以包括：用于衡量目标音频段中有效语音的含噪程度的特征。

具体地，“用于衡量该有效语音的含噪程度的特征”可以根据第一参数和第二参数来确定，其中，第一参数为目标音频段的识别文本的文本置信度，第二参数为目标音频段的每一帧音频为各个预设发音类型时的概率得分。

在本实现方式中，首先，可以利用置信度计算方法，计算出目标音频段的识别文本包含的每一词语的词语置信度，然后，将得到的所有词语的词语置信度进行取平均计算，将计算得到的平均置信度作为目标音频段的识别文本的文本置信度，并将其定义为第一参数。

同时，还可以对目标音频段中的每一帧音频进行声学计算，得到每一帧音频为各个预设发音类型时的概率得分，并将其定义为第二参数。其中，预设发音类型，可以是目标音频段所属语种的不同音素或者该不同音素中包含的各个状态(比如，通常每个音素包含3个状态)。

具体的，可以基于上述第一参数和第二参数，按照下述公式计算特征值F：

其中，F为表征目标音频段中有效语音的含噪程度的特征值；a表示加权求和因子，可以根据实验数据调参得到，一般可取为0.5；CM_sent表示目标音频段的识别文本的文本置信度(即第一参数)；N表示目标音频段中包含的音频总帧数；M表示预设发音类型的总数；表示目标音频段中的第i帧音频为确定发音类型时的概率得分，其中，该确定发音类型指的是从所有预设发音类型中确定出的第i帧音频的实际发音类型；S_ij表示目标音频段中的第i帧音频为第j个预设发音类型时的概率得分。

基于此，可以利用一个三维向量[a,b,c]作为衡量目标音频段的音频质量的特征，其中，每一维向量值分别对应表征了纯噪声、静音、有效语音的音频质量，比如，可以利用a来表征目标音频段中纯噪声的音频质量；利用b来表征目标音频段中静音的音频质量；利用c来表征目标音频段中有效语音的音频质量。

举例说明：假设目标音频段包括纯噪声、静音、有效语音这三者，并假设通过公式(1)得到的F值为0.5，即表征目标音频段中有效语音的含噪程度的特征值为0.5，且利用预设的衡量静音以及纯噪声的音频质量的参数值，确定出表征纯噪声和静音的音频质量的特征值分别为0和1，则可以利用特征向量[0,1,0.5]作为衡量目标音频段的音频质量的特征，其中，第一维向量值1表征了目标音频段中纯噪声对应的音频质量，第二维向量值0表征了目标音频段中静音对应的音频质量，第三维向量值0.5表征了目标音频段中有效语音对应的音频质量。

3、用于衡量目标音频段与各个预设环境类型的相关度的特征

“用于衡量目标音频段与各个预设环境类型的相关度的特征”指的是表征目标音频段对应的识别文本与各个预先设定的环境类型的相关度的特征数据。

在本实施例中，一种可选的实现方式是，“用于衡量目标音频段与各个预设环境类型的相关度的特征”包括：目标音频段的识别文本与关键词集合中的每一关键词之间的相似度，其中，关键词集合包括各个预设环境类型分别对应的至少一个环境关键词。

具体来讲，在本实现方式中，首先，可以构建一个关键词集合，该集合包括了每一预设环境类型分别对应的至少一个环境关键词，比如，以预设环境类型为“掌声”为例，该环境类型对应的环境关键词可以包括“鼓掌”、“掌声”、“谢谢大家的掌声”、“掌声有请”等中的至少一个；然后，将目标音频段的识别文本与关键词集合中每一环境关键词进行相似度计算，比如，先利用Word2Vec技术计算出目标音频段的识别文本的语义向量，以及计算出每一环境关键词对应的语义向量，进而可以计算出识别文本的语义向量与关键词集合中每一环境关键词对应的语义向量之间的余弦距离，用以作为衡量目标音频段与各个预设环境类型的相关度的特征。

综上，本实施例在获取到待预测的目标音频段后，可以先基于目标音频段的声学信息生成目标音频段的声学环境特征，和/或，基于目标音频段的识别文本的文本信息生成目标音频段的语义环境特征，然后，利用生成的声学环境特征和/或语义环境特征，构成目标音频段对应的音频环境特征，用以描述目标音频段的形成过程中的环境状态信息，进而可在后续预测过程中，将其作为预测依据，来更方便、准确地对目标音频段在形成过程中所处的环境类型进行自动预测，而无需人工预测，从而节省了人工成本，也提升了用户体验。

第三实施例

本实施例将对第一实施例中步骤S1022“根据音频环境特征，对目标音频段所属的环境类型进行预测”的具体实现过程进行介绍。

参见图4，其示出了本实施例提供的根据音频环境特征，预测目标音频段所属的环境类型的流程示意图，该流程包括以下步骤S401-S402：

S401：将音频环境特征作为预先构建的环境预测模型的输入。

在本实施例中，通过步骤S1021生成目标音频段的音频环境特征后，可以将该音频环境特征作为输入数据，输入至预先构建的环境预测模型中，利用该环境预测模型，通过后续步骤S402对目标音频段所属的环境类型进行预测。

S402：获取环境预测模型输出的目标音频段所属的环境类型。

通过步骤S401将目标音频段的音频环境特征输入至预先构建的环境预测模型后，可以通过该环境预测模型，输出一个预测向量，该预测向量中的维度个数(即元素个数)与预设环境类型的个数相同，该预测向量中每一维度的值可以为区间[0,1]中的一个数值，不同维度的值分别代表了目标音频段属于不同预设环境类型的概率值，该概率值越大，表明目标音频段所属的实际环境类型，越可能是该概率值对应的预设环境类型。

需要说明的是，上述预先构建的环境预测模型，可以由一个预测模型构成，也可以由多个预测模型构成，接下来，将根据环境预测模型的这两种不同的构成方式，分别对环境预测模型如何预测目标音频段所属的环境类型进行介绍：

在第一种构成方式中，即，当预先构建的环境预测模型由一个预测模型构成时，该预测模型输出的预测向量中包括目标音频段属于各个预设环境类型时的概率值，可以选择最大概率值对应的一个预设环境类型，作为目标音频段所属的环境类型。

举例说明：假设存在“正在演讲、掌声、欢呼声、中场暂停”这4种预设环境类型，并假设环境预测模型输出的预测向量为[0.9,0.1,0.02,0.13]，可见，第一维度的值0.9最高，因此，该维度对应的环境类型即为该目标音频段所属的环境类型，即目标音频段所属的环境类型为“正在演讲”。

在第二种构成方式中，即，当预先构建的环境预测模型由多个预测模型构成时，可以采用不同的实现方式，下面举例说明。

一种实现方式是，预先构建的环境预测模型由预先训练好的多个特定环境预测模型构成，比如“正在演讲预测模型”、“掌声预测模型”、“欢呼声预测模型”、“中场暂停预测模型”这四个特定环境预测模型，则在步骤S401中，可以将目标音频段的音频环境特征分别输入至“正在演讲预测模型”、“掌声预测模型”、“欢呼声预测模型”、“中场暂停预测模型”这四个特定环境预测模型，并由这四个模型分别输出目标音频段属于环境类型“正在演讲”、“掌声”、“欢呼声”、“中场暂停”的概率值，进一步的，可以从这四个输出概率值中的选择出最大概率值，并将该最大概率值对应的环境类型作为目标音频段所属的环境类型。

举例说明：假设预先构建的环境预测模型由预先训练好的“正在演讲预测模型”、“掌声预测模型”、“欢呼声预测模型”、“中场暂停预测模型”这四个特定环境预测模型构成，并假设这四个模型分别输出目标音频段属于环境模型为“正在演讲”、“掌声”、“欢呼声”、“中场暂停”的概率值依次为0.92、0.13、0.08、0.11，可见，这四个输出概率值中的最大概率值为0.92，因此，可选择该最大概率值对应的环境类型，作为该目标音频段所属的环境类型，即目标音频段所属的环境类型为“正在演讲”。

另一种实现方式是，预先构建的环境预测模型由预先训练好的有效语音模型和非有效语音模型构成。其中，有效语音模型对应于与有效语音相关的至少一种预设环境类型，这里将每一预设环境类型定义为第一环境类型，比如，各个第一环境类型包括“正在演讲”、“正在互动”；同样地，非有效语音模型对应于与非有效语音相关的至少一种预设环境类型，这里将每一预设环境类型定义为第二环境类型，比如，各个第二环境类型包括“掌声”、“欢呼声”、“中场暂停”。

在执行步骤S401之前，如果目标音频段是按照上述第一实施例介绍的采用VAD方法从目标音频中划分出来的，那么，目标音频段是有效音频段或非有效音频段。在执行步骤S401时，若目标音频段为有效语音段，则将目标音频段的音频环境特征输入至有效语音模型，并由该有效语音模型输出目标音频段所属的环境类型为各个第一环境类型时的概率值，然后，从这些概率值中选择出最大概率值，并将该最大概率值对应的第一环境类型，作为目标音频段所属的环境类型；同理，若目标音频段为非有效语音段，则将目标音频段的音频环境特征输入至非有效语音模型，并由该非有效语音模型输出目标音频段所属的环境类型为各个第二环境类型时的概率值，然后，从这些概率值中选择出最大概率值，并将该最大概率值对应的第二环境类型，作为目标音频段所属的环境类型。

当然，也可以不区分目标语音段是否为有效音频段或非有效音频段，而是将目标音频段的音频环境特征同时输入至有效语音模型和非有效语音模型，并由该有效语音模型输出目标音频段所属的环境类型为各个第一环境类型时的概率值、由该非有效语音模型输出目标音频段所属的环境类型为各个第二环境类型时的概率值，然后，从这些概率值中选择出最大概率值，并将该最大概率值对应的预设环境类型(可能是第一环境类型或第二环境类型)，作为目标音频段所属的环境类型。

接下来，本实施例将对环境预测模型的构建过程进行介绍。

第一种情况是，当预先构建的环境预测模型是由一个预测模型构成时，则该环境预测模型的构建过程具体可以包括以下步骤A-C：

步骤A：收集大量的样本音频段。

在本实施例中，为了构建环境预测模型，需要预先收集大量的音频数据，并对每一音频数据进行音频划分，以获取到每一音频数据包含的各个音频段，并将每个音频段作为样本音频段。需要说明的是，从音频数据中获取每一样本音频段的方式，可以按照第一实施例中S101中介绍的从目标音频中划分目标音频段的方式进行获取。

在收集到大量的样本音频段后，可以由人工根据具体的实际情况，对各个样本音频段所属的实际环境类型进行标注，即，人工标注出每一个样本音频段所属的实际环境类型，比如，某一个样本音频段所属的实际环境类型为“正在演讲”。

步骤B：构建环境预测模型。

可以构建一个初始的环境预测模型，并初始化模型参数。

需要说明的是，本实施例不限制步骤A与步骤B的执行顺序。

步骤C：利用预先收集的大量样本音频段，对环境预测模型进行训练。

在本实施例中，通过步骤A收集大量的样本音频段后，可以利用这些样本音频段对通过步骤B构建的环境预测模型进行训练，通过多轮模型训练，直到满足训练结束条件为止，此时，即训练得到环境预测模型。

具体地，在进行本轮训练时，需要选择一个样本音频段进行模型训练，可以将上述实施例中的目标音频段替换为本轮使用的这一样本音频段，按照第二实施例中的执行过程，生成该样本音频段对应的音频环境特征(包括声学环境特征和/或语义环境特征)，然后，通过当前的环境预测模型，按照上述步骤S401-S402的执行过程，便可以实现对该样本音频段所属环境类型的预测。接着，根据对该样本音频段进行预测得到的环境类型与预先标注的实际环境类型之间的差异，对模型参数进行更新，即完成了环境预测模型的本轮训练。

第二种情况是，当预先构建的环境预测模型是由多个预测模型构成时，则需要通过上步骤A-C，分别单独训练出这多个预测模型，用以构成环境预测模型。例如，以“掌声预测模型”为例，在构建“掌声预测模型”时，首先需要预先收集大量的属于“掌声”环境类型的样本音频段、以及属于其他环境类型的样本音频段，然后再按照步骤A-C的执行过程，训练得到“掌声预测模型”，同理，可以训练得到其他环境类型对应的预测模型，比如“正在演讲预测模型”、“欢呼声预测模型”等，用以构成环境预测模型，具体训练过程可参见上述步骤A-C，在此不再赘述。

综上，本实施例是利用预先构建的环境预测模型，基于目标音频段的音频环境特征对目标音频段进行自动预测，即，利用环境预测模型，基于目标音频段的形成过程中的环境状态信息对目标音频段所属的环境类型进行自动预测，而无需人工进行预测，并进一步通过对模型输出结果的比较分析，准确预测出目标音频段所属的环境类型，从而不仅可以提高目标音频段所属环境类型的预测结果的准确性，也能够节省人工成本、提升了用户体验。

第四实施例

本实施例将对一种音频环境展示装置进行介绍，相关内容请参见上述方法实施例。

参见图5，为本实施例提供的一种音频环境展示装置的组成示意图，该装置500包括：

目标音频段获取单元501，用于实时获取每一待预测音频段，并将当前获取的待预测音频段作为目标音频段；

环境类型预测单元502，用于对所述目标音频段所属的环境类型进行预测，得到预测环境类型；

环境类型展示单元503，用于展示所述目标音频段的预测环境类型。

在本实施例的一种实现方式中，所述环境类型预测单元502包括：

在本实施例的一种实现方式中，所述环境类型预测单元502还包括：

在本实施例的一种实现方式中，所述更正结果具体用于，当所述目标音频段之后的待预测音频段的预测环境类型与所述目标音频段的预测环境类型相同时、且所述目标音频段之后的待预测音频段的音频环境特征与所述目标音频段的音频环境特征之间的特征相似度大于预设阈值时，替换所述目标音频段之后的待预测音频段的预测环境类型。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述环境类型预测子单元包括：

进一步地，本申请实施例还提供了一种音频环境展示设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述音频环境展示方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述音频环境展示方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述音频环境展示方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频环境展示方法，其特征在于，包括：

展示所述目标音频段的预测环境类型。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标音频段所属的环境类型进行预测，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述更正结果用于，当所述目标音频段之后的待预测音频段的预测环境类型与所述目标音频段的预测环境类型相同时、且所述目标音频段之后的待预测音频段的音频环境特征与所述目标音频段的音频环境特征之间的特征相似度大于预设阈值时，替换所述目标音频段之后的待预测音频段的预测环境类型。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

生成各个最终音频段的预测环境类型的目录。

7.根据权利要求1所述的方法，其特征在于，所述将当前获取的待预测音频段作为目标音频段之后，还包括：

8.根据权利要求2至7任一项所述的方法，其特征在于，所述根据所述音频环境特征，对所述目标音频段所属的环境类型进行预测，包括：

将所述音频环境特征作为预先构建的环境预测模型的输入；

9.一种音频环境展示装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述环境类型预测单元包括：

11.根据权利要求9至10任一项所述的装置，其特征在于，所述装置还包括：

12.根据权利要求9至10任一项所述的装置，其特征在于，所述装置还包括：