CN110992984B

CN110992984B - 音频处理方法及装置、存储介质

Info

Publication number: CN110992984B
Application number: CN201911215165.XA
Authority: CN
Inventors: 杨文谨; 周玎; 徐常亮
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2022-12-06
Anticipated expiration: 2039-12-02
Also published as: CN110992984A

Abstract

本申请实施例公开了一种音频处理方法及装置、存储介质。所述音频处理方法，包括：获取原始音频；基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件；获得所述原始音频的文本数据，提取所述文本数据的关键词；根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签。

Description

音频处理方法及装置、存储介质

技术领域

本申请涉及音频技术领域，尤其涉及一种音频处理方法及装置、存储介质。

背景技术

音频是被播放后，用户能够听到播放产生的声音。在录制或者获取了一个原始音频之后，用户可能需要加工原始音频的需求。但是现有方案完全依赖人工听取和合成重点语音片段：用户听到音频中的重点片段，手动选取时间范围，打上有关标签。例如，现有的音频标注需要用户反复拖动音频播放条，对音频内容反复查看，操作繁琐特别是在直播型报道中，操作极其不便；用户不能在第一时间将多段标注的素材输出成一段音频。

发明内容

有鉴于此，本申请实施例期望提供一种音频处理方法及装置、存储介质。

本申请的技术方案是这样实现的：

本申请实施例第一方面提供一种音频处理方法，包括：

获取原始音频；

基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件；

获得所述原始音频的文本数据，提取所述文本数据的关键词；

根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签。

基于上述方案，所述方法还包括：

将所述原始音频中不同语者的音频数据，分离到不同音轨中得到分轨语音数据；

为每一个所述分轨语音数据分配语者标签；其中，所述语者标签为所述音频标签的一种。

基于上述方案，所述方法还包括：

根据所述音频标签，得到所述原始音频的结构化音频；

合成多个所述结构化音频得到目标音频。

基于上述方案，所述合成多个所述结构化音频得到目标音频，包括：

根据音频模板，合成多个所述结构化音频得到目标音频。

基于上述方案，所述音频模板包括：音频获取配置和/或音频合成配置；

所述音频获取配置，用于选择待合成所述目标音频的所述结构化音频；

所述音频合成配置，用于将选择的多个所述结构化音频合成所述目标音频。

基于上述方案，所述音频获取配置包括：音频来源配置、标签命中规则及音频过滤规则的至少其中之一；

所述音频合成配置包括：触发规则、特殊事件预测规则、背景音乐BGM配置及音效配置的至少其中之一。

基于上述方案，所述基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件，包括：

根据所述声学特征进行异常音分类及对异常音进行打分获得打分值；

得到所述打分值最高的K个所述异常音的分类，其中，K为正整数；

确定K个所述异常音的分类为所述特殊事件。

基于上述方案，所述获得所述原始音频的文本数据，提取所述文本数据的关键词，包括：

根据所述文本数据的词频，选择词频满足预定条件的字词确定为所述关键词。

基于上述方案，所述方法还包括：

按照音频预处理规则，对所述原始音频进行预处理得到满足符合标注条件的原始音频。

本申请实施例第二方面提供一种音频处理装置，包括：

获取模块，用于获取原始音频；

识别模块，用于基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件；

获得模块，用于获得所述原始音频的文本数据，提取所述文本数据的关键词；

标注模块，用于根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签。

本申请实施例第三方面提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于实现前述一个或多个技术方案提供的音频处理方法。

本申请实施例提供的音频处理方法及装置、存储介质，获得原始音频之后，设备采用音频处理技术，识别原始音频中包含的声学特征，基于声学特征得到原始音频中包含的特殊事件，通过将原始音频转换为文本数据，得到原始音频中的关键词；基于特殊事件及关键词，标注原始音频得到音频标签。如此，设备就可以在无需人工操作的情况下，对原始音频进行自动标注，而设备的自动标注相对于人工标注，具有效率高及操作简单的特点；与此同时，由于设备标注，减少了标注人员的业务不熟练或者标注疲劳引入的标注错误现象，提升了音频标注的精确度。

附图说明

图1为本申请实施例提供的一种音频处理方法的流程示意图；

图2为本申请实施例提供的一种音频处理方法的流程示意图；

图3为本申请实施例提供的一种音频处理装置的结构示意图；

图4为本申请实施例提供的一种音频处理方法的流程示意图；

图5为本申请实施例提供的结构化音频的音频信息的显示示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例提供一种音频处理方法，包括：

S110：获取原始音频；

S120：基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件；

S130：获得所述原始音频的文本数据，提取所述文本数据的关键词；

S140：根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签。

该音频处理方法可应用于音频处理终端或者音频服务器中。

S110中获取的原始音频可包括：离线音频流和/或直播音频流。此处的音频流可为从视频流中分离出的音频流，例如，从离线视频流中分离出的离线音频流，直播音频流可为从直播音频流中剥离出的音频流。

在一些实施例中，所述方法还包括：

在获取到原始音频之后，确定原始音频是否为预定格式的音频；

若原始音频不是预定格式的音频，则进行音频转码，将原始音频转码称预定格式的音频之后，再对转码后的原始音频进行S120至S140等步骤处理。

若原始音频是预定格式的音频，则直接进入到步骤S120至S`40。

如此，可以通过音频转码，将不同格式的音频转换为统一格式的音频之后进行音频标注和合并，从而减少不同格式音频所引入的误差和报错现象。

利用各种声学特征提取模型可以从原始音频的音频数据中提取出声学特征。该声学特征包括但不限于声纹特征。在一些实施例中，该声学特征还可包括：音调特征、音色特征和/或声音频率特征等。

通过声学特征的提取，可以定位出原始音频中特殊事件所包含的特殊声音。例如，将提取的声学特征与掌声的声学特征进行匹配，确定出特殊事件中的掌声事件。

再例如，将提取的声学特征与评书音频中惊堂木拍打桌面的声学特征进行匹配，确定出特殊事件中的惊堂木拍击事件。

再例如，将提取出的声学特征与喝彩声的声学特征进行匹配，确定出特殊事件中的喝彩事件。

例如，针对户外采集的音频，将提取出的声学特征与枪声的声学特征进行匹配，确定出特殊事件中的枪声事件。

再例如，针对户外采集的音频，将从原始音频中提取的声学特征与户外的车辆碰撞声音的声学特征、车辆刹车声音的声学特征进行匹配，得到特殊事件中车辆事故事件。

又例如，将原始音频中提取的声学特征与笑声或哭声等表征强烈情绪声音的声学特征进行匹配，得到特殊事件中的笑声事件和/或哭声事件。

还例如，将原始音频中提取的声纹特征与各种爆破音的声学特征进行匹配，得到爆破事件。该爆破事件可为烟花爆破的烟花燃放事件、炸弹爆破的炸弹爆破事件等。

在一些实施例中，上述特殊事件的提取方式是通过声学特征匹配的方式，此时各种特殊事件的特殊音频的声学特征都可以存档在一个特殊音频的声学特征库中。

在另一些实施例中，可以利用神经网络等直接对原始音频进行处理，从而得到原始音频是否包含该神经网络可识别的特殊事件的判定结果及事件信息。该判定结果可至少指示是否包含特殊事件。事件信息可包括：特殊事件在原始音频中的位置。

提取声学特征的方式有很多种，在本申请中可以利用机器学习模型以所述原始音频为输入提取出一个原始音频中包含的一个或多个特殊事件。例如，该机器学习模型可包括：各种神经网络。例如，该神经网络可包括：Kaldi的DNN。

与此同时，将原始音频中的语音数据转换为文本数据，例如，通过语音识别技术(ASR)文本数据。再利用文本数据处理技术，例如，分词等方式对文本数据进行处理，得到该文本数据的关键字词，并基于关键字词得到关键词。例如，将文本数据中出现频次排在前N位的字词确定为关键字词，包含该关键字词的语句为关键语句。

在一些实施例中，所述关键词可包括：被转换得到的文本数据中出现频次较高的字词，也可以包括利用主旨大意提取算法提取的表达该文本数据主旨大意的主旨词。

在另一些实施例中，所述关键词还可包括：预设词库中的预设词，该预设词可为具有特定含义的词。例如，在预设词库中预设词可包括：名词，该名词可包括：人名、地名和/或节目名称等。例如，在一台晚会中可能会邀请一个特别受欢迎的明星，主持人在报幕时自然会说道该明星的名字，此时，该明星的名称、昵称、该明星可能表演节目的节目名都可以收纳到所述预设词库中。后续，在进行关键词提取时，将文本数据中的词字与预设词库中的预设词进行匹配，如果匹配命中，则可生成作为音频标签的关键词标签。若后续，用户想要截取该明星的音频段时，可以直接根据该关键词标签在原始音频中定位出所需截取音频段即可。

在S140中会进行对原始音频进行打标，从而生成原始音频的音频标签。

例如，所述音频标签可包括：

根据特殊事件生成的事件标签；

根据关键词生成的关键词标签。

所述特殊事件标签可包括：事件类型信息和/或特殊事件在原始音频中的位置信息等。

所述关键词标签可包括：关键词和/或关键词在原始音频中的位置信息。

此处，在原始音频中的位置信息可包括：特殊事件所对应音频数据在原始音频中的时间位置，和/或关键词所对应音频数据在原始音频中的时间位置等。

当然以上是对音频标签进行举例说明，具体的实现过程中，可根据需要设置标签内容。

通过音频标签的生成，则完成了对原始音频的设备自动标注。

在一些实施例中，所述方法还包括：

为每一个所述分轨语音数据分配语者标签。

例如，基于声纹特征识别可以将不同语者音频数据划分到不同的音轨中。

例如，在会议场景，通过不同语者的音频数据的分离，可以实现会议主持人和发言人的音频数据的分离，不同发言人的音频数据的分离。例如，在晚会场景，可以将晚会主持人和晚会的音乐和观众发出声音的音频数据进行分离。

具体如，将同一个语者所发出声音的音频数据划分到同一个音轨中，得到分轨语音数据。再为每一个分轨语音数据分配一个语者标签。此处的语者标签可为前述音频标签的一种。

例如，设备识别到了5个语者，然后为这5个语者发出语音的音频数据分别编号，该编号就为前述语者标签的一种。

在一些实施例中，所述语者标签还可包括对应分轨语音数据的语者特征，例如，该语者特征包括：性别特征、年龄特征、地域特征和/或语言特征。

不同语者可能出生成长于不同的地域，说话时就有一定地域特点，该地域特征可以体现该地域特点。

例如，不同的语者可能使用了不同的语言，例如，在多国人参与的场合，有人使用汉语说话、有人使用英语说话、有人使用法语说话。此处，语言特征至少可以指示语言种类。

通过不同语者的音频数据的分轨，可以满足截取一个或多个语者说话的目标音频合成的合成需求，或者，对每一个语者进行分语者标注的标注需求。

在一些实施例中，如图2所述，所述方法还包括：

S150：根据所述音频标签，得到所述原始音频的结构化音频；

S160：合成多个所述结构化音频得到目标音频。

该结构化音频为前述原始音频的处理结果。

在一些实施例中，该结构化音频可包括：原始音频和该原始音频的音频标签。例如，若原始音频为一个歌曲的音频，则该结构化音频可包括：该原始音频本身和该原始音频的歌曲标签。此处的歌曲标签为前述音频标签的一种。

在另一些实施例中，该结构化音频可包括：原始音频的一个或多个处理过的音频数据和对应的音频标签。若该原始音频包含语音数据时，则此处处理过的音频数据可包括前述分轨语音数据；此时，所述音频标签可包括：前述语者标签。

若该原始音频包含特殊事件，则处理过的音频数据可包括：从原始音频中截取的包含特殊事件的音频段，此时，该结构化音频所包含的标签至少包含事件标签。

在还有一些实施例中，若该原始音频包含语音数据，则该原始音频对应的结构化音频中还可包括：关键词标签。

在一些实施例中，所述S160可包括：根据音频模板，合成多个所述结构化音频得到目标音频。

例如，按照合成规则合成多个结构化音频，得到目标音频。

该音频模板可为音频设备预先配置的或者动态配置的。该音频模板中包含了合成目标音频的各种配置信息。

例如，所述音频模板包括：音频获取配置和/或音频合成配置；

该音频获取配置为设备选取待合成的目标音频的结构化音频提供参考。

该音频合成配置可用于在选择出多个结构化音频之后，指导设备具体如何将多个结构化音频合成目标音频。

例如，所述音频获取配置包括：音频来源配置、标签命中规则及音频过滤规则的至少其中之一。

音频来源配置确定了结构化音频的产生来源，该结构化音频的产生来源可包括：结构化音频的存储位置来源，和/或结构化音频的原始音频数据的来源等。

标签命中规则可限定了被选择的结构化音频应该具有的音频标签。例如，将备选的结构化音频的音频标签与标签命中规则中指定的音频标签进行匹配，若匹配一致，可认为音频标签命中，音频标签命中的备选结构化音频被选择出来作为待合成目标音频的音频素材。

音频过滤规则，在备选结构化音频不多的场景下，就可以过滤掉不想要的结构化音频即可。或者，音频过滤标签仅标注过滤哪一些音频，剩余音频可以随机合成或者按照预定的合成策略进行合成即可。

音频获取配置限定了合成目标音频的结构化音频的选择方式和选择途径。

音频合成配置用在已选择出需要合成的结构化音频之后，参照音频合成配置，将多个结构化音频所包含的音频数据进行合成。

例如，触发规则为指示触发音频合成，一般限定了音频合成的时机。

例如，所述触发规则可包括：

手动触发规则，即在检测到用户输入时，触发目标音频的合成；

定时触发规则，按照预定的时间间隔，在前一次和音频合成间隔预定的时间间隔后，设备自动启动再次音频合成；

事件规则，即在识别出音频中包含到特定事件时，触发目标音频的合成。例如，在一台晚会的音频流中，检测到播放某一个歌曲，或者，检测到某一个演员登台表演等特定事件，就启动目标音频的合成。具体，确定是否有出现事件规则中的特定事件，可以根据前述的音频标签来简便实现。

BGM配置可用于指示是否在目标音频中引入背景音乐或旁白等背景音频；

BGM配置还可用于指示在目标音频中引入背景音频时，引入的背景音频的类型/或背景音参数。背景音频的类型可包括：背景音乐、旁白或环境音等。该环境音可包括：风声、水声、树叶摇曳声、马蹄声、车辆驶过的声音。旁白包括：他人旁白和/或内心旁白。

此处的背景音参数可包括：背景音的音量、背景音出现的起止时间、背景音的播放规则。

背景音的播放规则可包括以下至少之一：

循环播放规则；

自动切换规则，该自动切换规则可包括：顺序切换、随机切换或者逆序切换等。

音效配置可包括：目标音频的整体音效配置和/或目标音频中某一个声音的音效配置。例如，背景音的音效配置，或者，主发言人的音效配置。

该音效配置可包括：声音的出场方式配置、声音的离场方式配置及音量配置等。

声音的出场方式配置可包括：淡入出场方式配置或者插入出场方式配置。淡入出场方式配置会使得某一个声音从小到大慢慢引入。插入出场方式配置会使得一个声音突然以较大的音量突兀的出现。

声音离场方式配置可包括：淡入离场方式配置或者插入出场方式配置。淡入离场方式配置会使得某一个声音从大到小慢慢离开。插入出场方式配置会使得一个声音突然以较大的音量终止。

在一些实施例中，所述S120可包括：

确定K个所述异常音的分类为所述特殊事件。

例如，使用前述的DNN进行音频分类的，提取出所述异常音和异常音的打分中。

该K个为可配置值，可以任意调整。

不同的特殊事件可以对应于不同的音频截取规则。此处的音频截取规则可为前述特殊事件预测规则的一种。特殊事件预测规则可以基于特殊事件预测出有用户感兴趣内容的音频段或音频数据，从而用于辅助确定目标音频。

例如，以掌声事件为例，则可能需要截取掌声前N秒的音频输数据作为截取音频段。再例如，以枪声事件为例，则需要截取枪声前后M秒的音频数据作为截取音频段。再例如，以电话事件为例，则可能需要截取电话铃响后的S秒的音频数据作为截取音频段。某一个特殊事件在原始音频中的发生位置一旦确定之后，接可以根据音频截取规则截取到目标音频段。

此处，音频截取规则包括：截取方向，例如，向前截取，则是在特殊事件发生位置之前截取一段音频数据；再例如，向后姐却，则在特殊事件发射位置之后截取一段音频数据。一个特殊事件对应的截取方向可仅包括：向后截取或向前截取，也可以同时包括向前截取和向后截取。

所述音频截取规则还可包括：截取时长，此处的截取时长可为前述的N秒、M秒或者S秒等。

在还有一些实施例中，所述音频截取规则还可包括：截取方式，截取方式可以包括直接截取和分离截取。所述直接截取为直接从原始音频中截取音频段，而分离截取，是对原始音频处理得到的音频数据进行截取，例如，对前述的分轨音频数据进行截取，再例如，在过滤掉环境背景音之后的原始音频进行截取。

例如，在一些场景中，环境背景音影响了一个语者的说话，导致原始音频并非说话效果。使用分离截取方式，将原始音频的背景音分离之后，从分离了背景音的原始音频中将说话者说话的音频段截取出来。若需要合成目标音频，还可以选择一个能够凸显某一种说话效果的背景音，与截取出的音频段进行合成，得到目标音频。需要煽情的效果，可能在去掉噪声的原始音频中截取的演讲者的音频数据的片段之后，将截取的片段与煽情的背景音乐进行合并，从而生成目标音频。

在一些实施例中，所述获得所述原始音频的文本数据，提取所述文本数据的关键词，包括：

例如，选择词频排序前P个的字词作为所述关键词；再例如，选择词频大于预设阈值的字词作为所述关键词。

在一些实施例中，所述方法还包括：按照音频预处理规则，对所述原始音频进行预处理得到满足符合标注条件的原始音频。

所述按照音频预处理规则，对所述原始音频进行预处理得到满足符合标注条件的原始音频，包括：

按照音频过滤规则，过滤掉不符合标注规则的所述原始音频或去除所述原始音频中不符合标注规则的音频段。例如，有一些原始音频中的音频段是没有含义的，无需标注，例如，原始音频的静默时段，由于没有声音或者仅含有白噪声，无需进行标注。再例如，有一些原始音频中的音频段虽然有声音，但是无需标注，例如，一些无规律的环境噪音，同样无需标注，可以通过过滤规则过滤掉这些原始音频或者去除这些音频段。

例如，所述按照音频预处理规则，对所述原始音频进行预处理得到满足符合标注条件的原始音频，包括：

对所述原始音频进行音量调整，获得音量处于人耳的舒适区的所述原始音频；

和/或，

对所述原始音频进行频率调整，获得频率处于人耳的舒适区的所述原始音频。

人耳的音量是有一定的舒适区的，可以利用音频过滤规则将舒适区以外的音频都过滤掉。该舒适区可为20分布到85分贝之间，当然此处仅是举例。

例如，有些尖锐声音，人耳听到非常不舒服，可以通过频率调整去除掉。例如，通过声音的频率变化或者干脆将舒服区外的频率成分去掉，就可以得到人耳处于舒服区的原始音频。

如图3所示，本实施例提供一种音频处理装置，其特征在于，包括：

获取模块110，用于获取原始音频；

识别模块120，用于基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件；

获得模块130，用于获得所述原始音频的文本数据，提取所述文本数据的关键词；

标注模块140，用于根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签。

在一些实施例中，所述获取模块110、识别模块120、获得模块130及标注模块140可为程序模块，所述程序模块被处理器执行后能够实现上述音频处理。所述处理器可为各种类型的处理器，例如，微处理器、中央处理器、数字信号处理器、图像处理器等。

在另一些实施例中，所述获取模块110、识别模块120、获得模块130及标注模块140，可对应于软件和硬件的结合模块，例如，各种类型的可编程阵列；所述可编程阵列可包括：现场可编程阵列或者复杂可编程阵列。

在还有一些实施例，所述获取模块110、识别模块120、获得模块130及标注模块140，可对应于纯硬件模块；所述纯硬件模块可包括专用集成电路等。

在一些实施例中，所述装置还包括：

分离模块，用于将所述原始音频中不同语者的音频数据，分离到不同音轨中得到分轨语音数据；

分配模块，用于为每一个所述分轨语音数据分配语者标签，其中，所述语者标签为所述音频标签的一种。

在一些实施例中，所述装置还包括：

结构化模块，用于根据所述音频标签，得到所述原始音频的结构化音频；

合成模块，用于合成多个所述结构化音频得到目标音频。

在一些实施例中，所述合成模块，具体用于根据音频模板，合成多个所述结构化音频得到目标音频。

在一些实施例中，所述音频模板包括：音频获取配置和/或音频合成配置；

在一些实施例中，所述音频获取配置包括：音频来源配置、标签命中规则及音频过滤规则的至少其中之一；

在一些实施例中，所述识别模块120，具体用于根据所述声学特征进行异常音分类及对异常音进行打分获得打分值；得到所述打分值最高的K个所述异常音的分类，其中，K为正整数；确定K个所述异常音的分类为所述特殊事件。

在一些实施例中，所述获得模块130，具体用于根据所述文本数据的词频，选择词频满足预定条件的字词确定为所述关键词。

在一些实施例中，所述装置还包括：

过滤模块，用于按照音频过滤规则，过滤掉不符合标注规则的所述原始音频。

本实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于实现前述一个或多个技术方案提供的音频处理方法，例如，图1、图2和/或图4所示的音频处理方法。本实施例提供的计算机存储介质可为非瞬间存储介质。

以下结合上述任意实施例提供一个具体示例：

示例1

参考图4所示，本示例提供一个音频处理方法，可包括：

步骤1：获取音频数据，获取的来源包括离线或者直播流

步骤2：对音频进行转码，方便后续进行识别以及切分

步骤3：识别不同语者，并生成到对应的音轨中：利用高斯混合GMM模型，对音频中出现的多个或者单个语者进行分离，用户可以在一轨中听到对应语者的所有发声。

步骤4：对特殊的事件进行声纹识别：使用kaldi的DNN做音频分类，异常声音检测对每次预测出来的异常声音进行打分以及归类，并提取分数最高的TopK分类作为展示结果。(K是一个参数，可以根据需要进行调整)。

如果是演讲类的音频数据，利用特殊声纹识别，可以识别出一场演讲中的n次掌声，从而可以帮助用户预测在掌声之前会是一个小高潮。

如果音频来自于户外，可以识别出枪声，掌声等，帮助用户在最短的时间定为到音频关键点。

步骤5：语音转文本：利用语音识别技术(ASR)，将输入的音频转化成文字，并将重复出现的词语和句子进行标记。

步骤6：配置音频模板，模板配置中包括：

音频获取方式：包括音频的来源、标签命中规则、音频过滤规则(比如音频的创建时间范围、所属文件目录、音频类型、音时长范围等)

音频合成配置：

触发规则——手动触发、定时触发、事件触发(识别出规定标签，识别出规定短语)

特殊事件预测规则——基于事件类型分类，不同的事件给出不懂的参考重点音频范围，例如掌声为前N秒，尖叫声为前N后N秒等。

BGM配置——BGM来源(其他音频素材)、BGM的循环规则、BGM的切换规则等

效果配置——包括声音的淡入、淡出、各分段音频音量调整等

步骤7：调用音频模板，结合已结构化好的音频(即结构化音频)，生成新的音频

音频标注通常完全依赖于人工，由于缺乏文字参考，或者其他特殊声音事件的参照使得标注异常复杂，再加入多重智能能力后，对语音进行结构整理，会极大的提高音频标注效率。

再直播等场景中，标注后往往不能直接分发，所以在标注过程中配合使用音频生产模板，可以实现批量生产音频的效果，从而实现了无需人工值守，快速、批量生产的目标。

图5为一种结构化音频的音频信息的显示示意图。

在图5中可看到声音分为了左声道和右声道；左声道和右声道可为不同语者的分轨音频数据。

通过音频预处理可以截取掉原始音频中让人不舒服的音区，例如，通过过大声音的调小或者过小声音的放大，使得原始音频中的声音进入到一个另人耳舒服的音区内。

通过语音转文本文字，可以得到文本数据。然后通过文本文字的段落分析和/或语境分析等得到各个关键词，在图5中显示有关键词10、关键词9等，其他关键词未显示。

通过特殊事件识别，则可以看到在该结构化音频中包括：特殊事件a10、特殊事件b8、特殊事件c8等特殊事件。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，包括：

获取原始音频；

根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签；

根据所述音频标签，得到所述原始音频的结构化音频；

根据音频模板，合成多个所述结构化音频得到目标音频；

在时间轴上显示音频的声音分贝且显示所述音频标签；

当一个所述音频标签被选中时，所述时间轴上高亮音频片段与被选中所述音频标签对应的声音分贝区间；

所述音频模板包括：音频获取配置和/或音频合成配置；所述音频获取配置，用于选择待合成所述目标音频的所述结构化音频；所述音频合成配置，用于将选择的多个所述结构化音频合成所述目标音频；所述音频获取配置包括：音频来源配置、标签命中规则及音频过滤规则的至少其中之一；所述音频合成配置成包括：触发规则、特殊事件预测规则、背景音乐BGM配置及音效配置的至少其中之一。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

为每一个所述分轨语音数据分配语者标签，其中，所述语者标签为所述音频标签的一种。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述原始音频的声学特征，识别出所述原始音频中包含的特殊事件，包括：

得到打分值最高的K个异常音的分类，其中，K为正整数；

确定所述K个所述异常音的分类为所述特殊事件。

4.根据权利要求1或2所述的方法，其特征在于，所述获得所述原始音频的文本数据，提取所述文本数据的关键词，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

6.一种音频处理装置，其特征在于，包括：

获取模块，用于获取原始音频；

标注模块，用于根据所述特殊事件及所述关键词，标注所述原始音频生成音频标签；

合成模块，用于根据音频模板，合成多个所述结构化音频得到目标音频；在时间轴上显示音频的声音分贝且显示所述音频标签；当一个所述音频标签被选中时，所述时间轴上高亮音频片段与被选中所述音频标签对应的声音分贝区间；

7.一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于实现权利要求1至5任一项提供的音频处理方法。