CN111986657A

CN111986657A - 音频识别方法和装置、录音终端及服务器、存储介质

Info

Publication number: CN111986657A
Application number: CN202010852414.2A
Authority: CN
Inventors: 沈忱; 梁志婷; 李健; 王玉好
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-11-24
Anticipated expiration: 2040-08-21
Also published as: CN111986657B

Abstract

本发明公开了一种音频识别方法和装置、录音终端及服务器、存储介质。其中，该方法包括：获取原始音频数据；基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，语音标记数据用于指示参考音频文件中的语音片段；将至少两个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。本发明解决了相关技术提供的音频识别方法存在识别处理操作较为复杂的技术问题。

Description

音频识别方法和装置、录音终端及服务器、存储介质

技术领域

本发明涉及语音处理和识别技术领域，具体而言，涉及一种音频识别方法和装置、录音终端及服务器、存储介质。

背景技术

在对语音采用自动语音识别技术(Automatic Speech Recognition,简称ASR)进行转录前，需要对同一段音频文件中不同人的声音进行分离。但当录音设备有多个时，就需要对多个录音设备各自的音轨进行噪音处理，也就需要对多路音轨同时进行语音和噪声分离才能完成ASR的转录工作。

也就是说，目前相关技术提供的音频识别方法存在识别处理操作较为复杂的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频识别方法和装置、录音终端及服务器、存储介质，以至少解决相关技术提供的音频识别方法存在识别处理操作较为复杂的技术问题。

根据本发明实施例的一个方面，提供了一种音频识别方法，包括：获取原始音频数据；基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；对上述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，上述语音标记数据用于指示上述参考音频文件中的语音片段；将上述至少两个参考音频文件和各自对应的上述语音标记数据发送至服务器，以使上述服务器从上述至少两个参考音频文件中确定出目标音频文件，并分离出上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的另一方面，还提供了一种音频识别方法，包括：接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据；其中，上述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，上述语音标记数据用于指示上述参考音频文件中的语音片段；基于自动语音识别ASR从至少两个上述参考音频文件中，确定出目标音频文件；根据上述目标音频文件对应的语音标记数据以及上述目标音频文件中噪音的强度值，分离上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的又一方面，还提供了一种音频识别装置，包括：第一获取单元，用于获取原始音频数据；第一处理单元，用于基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；第一标记单元，用于将上述至少两个参考音频文件分别进行识别标记，得到每组参考音频文件对应的语音标记数据；其中，上述语音标记数据用于指示上述参考音频文件中的语音片段；第一发送单元，用于将上述至少两个参考音频文件和各自对应的上述语音标记数据发送至服务器，以使上述服务器从上述至少两个参考音频文件中确定出目标音频文件，并分离出上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的又一方面，还提供了一种音频识别装置，包括：第一接收单元，用于接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据，其中，上述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，上述语音标记数据用于指示上述参考音频文件中的语音片段；第一确定单元，用于基于自动语音识别ASR从至少两个上述参考音频文件中，确定出目标音频文件；第一分离单元，用于根据上述目标音频文件对应的语音标记数据以及上述目标音频文件中噪音的强度值，分离上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的又一方面，还提供了一种录音终端，上述录音终端包括：语音采集部件，第一通信总线、第一存储器和第一处理器，其中：上述语音采集部件，用于获取原始语音数据；上述第一通信总线，用于实现上述语音采集部件、上述第一处理器和上述第一存储器之间的通信连接；上述第一存储器，用于存储可执行指令；上述第一处理器，用于执行上述存储器中的音频预处理及识别程序，以实现以下步骤：获取原始音频数据；基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；对上述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，上述语音标记数据用于指示上述参考音频文件中的语音片段；将上述至少两个参考音频文件和各自对应的上述语音标记数据发送至服务器，以使上述服务器从上述至少两个参考音频文件中确定出目标音频文件，并分离出上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的又一方面，还提供了一种服务器，上述服务器包括：第二通信总线、第二存储器和第二处理器，其中：上述第二通信总线，用于实现上述第二处理器和上述第二存储器之间的通信连接；上述第二存储器，用于存储可执行指令；上述第二处理器，用于执行上述存储器中的音频预处理及识别程序，以实现以下步骤：接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据，其中，上述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，上述语音标记数据用于指示上述参考音频文件中的语音片段；基于自动语音识别ASR从至少两个上述参考音频文件中，确定出目标音频文件；根据上述目标音频文件对应的语音标记数据以及上述目标音频文件中噪音的强度值，分离上述目标音频文件中的语音片段和噪音片段。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频识别方法。

在本发明实施例中，通过语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，将所述至少两个参考音频文件发送至服务器，以使所述服务器从所述至少两个参考音频文件中确定出目标音频文件，并分离出所述目标音频文件中的语音片段和噪音片段。基于VAD生成多个语音强度参考音频文件，并从中筛选到供自动语音识别ASR识别的更加精准的目标语音文件，可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到提高音频识别效率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频识别方法的流程示意图；

图2是根据本发明实施例的另一种可选的音频识别方法的流程示意图；

图3是根据本发明实施例的又一种可选的音频识别方法的流程示意图；

图4是根据本发明实施例的又一种可选的音频识别方法的流程示意图；

图5是根据本发明实施例的一种可选的第一音频识别装置的示意图；

图6是根据本发明实施例的另一种可选的第二音频识别装置的示意图；

图7是根据本发明实施例的一种可选的录音终端的结构示意图；

图8是根据本发明实施例的一种可选的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本发明实施前，先对本发明实施例中的一些名词进行解释说明：语音活动检测(Voice Activity Detection，VAD)，能够区分传输语音信号中的语音信号和背景噪音，可以从带有背景噪音的语音中准确定位出语音的开始和结束点。还能在通信中区分语音和静默段，通常情况下语音中含有很长的静音，通过VAD可以把静音和实际语音分离开来。自动语音识别技术(Automatic Speech Recognition，ASR)，是一种将人的语音转换为文本的技术，其目标是让计算机能够“听写”出不同人所说出的连续语音，也称之为的“语音听写机”，是实现“声音”到“文字”转换的技术。

本发明实施例提供一种音频识别方法，该方法应用于录音终端，如图1所示，该方法包括但不限于以下步骤：

S102：获取原始音频数据。

S104：基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件。

S106：对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据。

其中，语音标记数据用于指示参考音频文件中的语音片段。

S108：将至少两个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。

在步骤S102中，实际应用时，上述录音终端可以是麦克风或麦克风阵列，也可以是配置有麦克风的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、IOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。原始音频数据可以为录音终端获取到的各种音频格式的数据文件，包括但不限于：ACT、REC、MP3、WAV、WMA、VY1、VY2、DVF、MSC、AIFF等。

在步骤S104中，实际应用时，原始音频文件经过VAD处理后，按照多种语音强度生成每种语音强度下的参考音频文件。例如，按照40分贝、50分贝和60分贝三个强度等级生成该三个声音强度等级的参考音频文件。

在步骤S106中，实际应用时，对多个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据，也就是说对多个声音强度等级的参考音频文件进行标记，生成的语音标记数据指示参考音频文件中的语音片段，由于声音强度值不同，因此每个声音强度等级的参考音频文件中的语音标记数据也各不相同。

在步骤S108中，实际应用时，将多个考音频文件和各自对应的语音标记数据发送至服务器，服务器从多个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。目标音频文件为服务器从多个参考音频文件中筛选出的非语音片段中文字部分最少的音频参考文件。因此，对于基于ASR的语音识别提供了更精准的语音片段。

在一应用实施例中，利用录音终端(例如麦克风)对声音进行时长为1分钟的录制，录制后的音频数据格式为WAV格式。然后将该WAV格式的原始音频文件基于语音活动检测VAD按照三种语音强度，生成40分贝、50分贝和60分贝的三个参考音频文件。然后将对上述三个语音强度的参考音频文件分别进行识别标记，标记出上述三个语音强度的参考文件中的语音片段，从而得到上述三个参考音频文件中的语音标记数据。最后将上述三个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从三个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。

本发明实施例提供的音频识别方法，通过语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，将至少两个参考音频文件发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。

在一实施例中，步骤S106可以包括如下步骤：对至少两个参考音频文件依次执行以下标记处理：识别当前参考音频文件中包含的语音片段；将语音片段的发音起始点标记为第一时间标签，并将语音片段的发音结束点标记为第二时间标签；利用第一时间标签和第二时间标签生成当前参考音频文件对应的语音标记数据。

例如，40分贝声音强度的参考音频文件在第10秒至第50秒为语音片段，然后将第10秒标记为第一时间标签，即40分贝声音强度的参考音频文件的发音起始点，第50秒标记为第二时间标签，即40分贝声音强度的参考音频文件的发音结束点，那么0至10秒以及50至60秒为背景噪音部分；50分贝声音强度的参考音频文件在第12秒至第52秒为语音片段，然后将第12秒标记为第一时间标签，即50分贝声音强度参考音频文件的发音起始点，第52秒标记为第二时间标签，即50分贝声音强度参考音频文件的发音结束点。通过添加时间标签的方式可以将参考音频文件中的语音片段进行标识，可以快速分别出语音部分和背景噪音部分。

在一实施例中，上述方法还可以包括：在原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于VAD按照至少两种语音强度分别生成每段音频数据对应的至少两个参考音频文件。也就是说，原始语音数据中可以包含多个录音终端或语音输入设备，多个语音输入设备可以录制不同位置的多个用户的语音数据，对该多个用户的分别进行音频数据采集，并基于VAD将不同用户的语音数据按照多种语音强度分别生成每段音频数据对应的多个参考音频文件。

例如，由多个麦克风分别同时录制位于不同位置的用户的声音数据，因此原始声音数据就包含多段原始音频数据，基于VAD按照多种语音强度可以分别生成每段音频数据对应的多个参考音频文件。因此可以提高语音识别设备的扩展性以及用户体验度。

基于前述实施例，本发明实施例提供一种音频识别方法，该方法应用于服务器，如图2所示，该方法包括但不限于以下步骤：

S202：接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据。

其中，至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，语音标记数据用于指示参考音频文件中的语音片段。

S204：基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件。

S206：根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段。

可选地，在本实施例中，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

在步骤S202中，实际应用时，服务器通过有线或无线网络接收录音终端发送的多个参考音频文件以及各自对应的语音标记数据，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述仅是一种示例，本实施例中对此不作任何限定。该多个参考音频文件是基于语音活动检测VAD按照多种语音强度生成的，语音标记数据用于指示参考音频文件中的语音片段。

在步骤S204中，实际应用时，基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件。目标音频文件为服务器从多个参考音频文件中筛选出的非语音片段中文字部分最少的音频参考文件。

在步骤S206中，实际应用时，根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段。具体地，基于ASR从多个参考音频文件中筛选出非语音片段中文字部分最少的音频参考文件，将非语音片段中的能转义出文字部分的声音强度值作为目标阈值，然后将非语音片段中分贝值的大于或等于目标阈值的部分确定为语音片段，非语音片段中分贝值的小于目标阈值的部分确定为噪音片段。因此，对于基于ASR的语音识别提供了更精准的语音片段。

在一应用实施例中，服务器接收录音终端发送的多个参考音频文件以及各自对应的语音标记数据，例如，基于语音活动检测VAD按照三种语音强度生成40分贝、50分贝和60分贝的三个参考音频文件。然后将对上述三个语音强度的参考音频文件分别进行识别标记，标记出上述三个语音强度的参考文件中的语音片段，从而得到上述三个参考音频文件中的语音标记数据。服务器接收上述三个参考音频文件和各自对应的语音标记数据发送至服务器。然后基于自动语音识别ASR从上述三个参考音频文件中，确定出目标音频文件，也就是说选择出适合ASR识别的最优音频参考文件，例如50分贝语音强度的参考文件为目标音频文件。最后，服务器根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段，例如50分贝语音强度中背景噪音的声音强度为45分贝，然后服务器基于45分贝作为噪音的参考值将50分贝语音强度的音频文件中的语音部分和噪音部分进一步分离。

本发明实施例提供音频识别方法，通过接收语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。

在一实施例中，步骤S204中，基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件包括：确定出每个参考音频文件中的未标记语音数据；基于ASR获取未标记语音数据中的转义结果，其中，转义结果用于指示语音转化为文字的结果；将转义结果中文字数最少的参考音频文件作为目标音频文件。

在一实施例中，步骤S204中，确定出每个参考音频文件中的未标记语音数据包括：从参考音频文件对应的语音标记数据中确定出参考音频文件中包含的语音片段的第一时间标签和第二时间标签，其中，第一时间标签用于指示语音片段的发音起始点，第二时间标签用于指示语音片段的发音结束点；根据第一时间标签和第二时间标签，确定出参考音频文件对应的未标记语音数据。也就是说，在每个参考音频文件中，基于VAD确定出语音片段的第一时间标签和第二时间标签，然后在整个参考音频文件中，剩余的时间段就是未标记语音数据。例如，其中一个参考音频文件总时长为20秒，第一时间标签在第8秒，第二时间标签在第16秒，那么，0至7秒和16至20秒就是未标记语音部分，在相关技术中，这部分被认定为背景噪音部分或静音部分。

在一实施例中，步骤S206中，根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段包括：根据目标音频文件对应的语音标记数据，确定出目标音频文件对应的目标未标记语音数据；将目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将分贝值大于目标阈值的音频片段确定为语音片段。具体地，服务器将目标音频文件中，非语音片段能转义出文字部分的声音强度值作为目标阈值，然后将非语音片段中分贝值的大于或等于目标阈值的部分确定为语音片段，非语音片段中分贝值的小于目标阈值的部分确定为噪音片段。因此，对于基于ASR的语音识别提供了更精准的语音片段。

基于前述实施例，本发明实施例提供一种音频识别方法，如图3所示，该方法包括但不限于以下步骤：

S301：录音终端获取原始音频数据。

S302：录音终端基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件。

S303：录音终端对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；语音标记数据用于指示参考音频文件中的语音片段。

S304：录音终端发送至少两个参考音频文件和各自对应的语音标记数据至服务器。

S305：服务器接收录音终端发送的至少两个参考音频文件和各自对应的语音标记数据。

S306：服务器基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件。

S307：服务器根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段。

本发明实施例提供音频识别方法，通过录音终端接收语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。

基于前述实施例，本发明实施例提供一种音频识别方法，如图4所示，该方法包括但不限于以下步骤：

S401：录音终端获取原始音频数据。

S402：录音终端在原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于VAD按照至少两种语音强度分别生成每段音频数据对应的至少两个参考音频文件。

录音终端对至少两个参考音频文件依次执行以下标记处理：

S403：录音终端识别当前参考音频文件中包含的语音片段。

S404：录音终端将语音片段的发音起始点标记为第一时间标签，并将语音片段的发音结束点标记为第二时间标签。

S405：录音终端利用第一时间标签和第二时间标签生成得到当前参考音频文件对应的语音标记数据。

S406：录音终端发送至少两个参考音频文件和各自对应的语音标记数据至服务器。

S407：服务器接收录音终端发送的至少两个参考音频文件和各自对应的语音标记数据。

S408：服务器从参考音频文件对应的语音标记数据中确定出参考音频文件中包含的语音片段的第一时间标签和第二时间标签；服务器根据第一时间标签和第二时间标签，确定出参考音频文件对应的未标记语音数据。

S409：服务器基于ASR获取未标记语音数据中的转义结果。

S410：服务器将转义结果中文字数最少的参考音频文件作为目标音频文件。

S411：服务器根据目标音频文件对应的语音标记数据，确定出目标音频文件对应的目标未标记语音数据。

S412：服务器将目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将分贝值大于目标阈值的音频片段确定为语音片段。

基于前述实施例，本发明实施例提供一种音频识别方法的应用实施例；首先用户开启录音设备进行录音，录制语音数据。录音设备对语音数据进行实时VAD检测得到不同语音强度的标记数据。在标记数据中，确定语音数据中的发音部分(即录制的用户说话段)，并按照三种以上的不同语音强度，对语音数据中的发音部分添加说话开始点、说话结束点的时间标记。然后录音设备将语音数据和三种以上不同语音强度的标记数据上传至服务器。

服务器接收到语音数据和三种以上不同语音强度的标记数据后，根据语音数据中未标记部分计算噪音强度，并根据噪音部分的转义结果，判断标记级别。具体为通过ASR将语音数据中未标记部分能转义出文字部分最少的一个声音强度的标记数据作为目标参考语音数据，并将目标参考语音数据中能转义出文字部分的声音强度值作为目标阈值，并将目标阈值作为最终的强度级别，例如目标参考语音数据中能转义出文字部分的语音强度值为40分贝，那么40分贝就是目标阈值；小于40分贝的语音数据部分就可以认定为背景噪音，大于等于40分贝的语音数据部分就可以认定为语音部分。

服务器使用最终的强度级别，按音轨标记数据中的标记段切分语音数据。也就是说将语音数据中的未标记的语音片段和标记数据的语音片段中的语音部分和噪音部分进行分离。

通过录音设备接收语音活动检测VAD按照至少两种语音强度生成三种以上参考音频文件，服务器从三种以上参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

基于前述实施例，本发明实施还提供了一种音频识别装置，该装置为第一音频识别装置500。如图5所示，该装置包括：

第一获取单元510，用于获取原始音频数据。

第一处理单元520，用于基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件。

第一标记单元530，对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，语音标记数据用于指示参考音频文件中的语音片段。

第一发送单元540，用于将至少两个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。

在一实施例中，第一标记单元530，具体用于对至少两个参考音频文件依次执行以下标记处理：

识别当前参考音频文件中包含的语音片段；

将语音片段的发音起始点标记为第一时间标签，并将语音片段的发音结束点标记为第二时间标签；

利用第一时间标签和第二时间标签生成当前参考音频文件对应的语音标记数据。

在一实施例中，第一音频识别装置500还包括：

第二处理单元，用于在原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于VAD按照至少两种语音强度分别生成每段音频数据对应的至少两个参考音频文件。

基于前述实施例，本发明实施还提供了一种音频识别装置，该装置为第二音频识别装置600，如图6所示，第二音频识别装置600包括：

第一接收单元610，用于接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据；其中，至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，语音标记数据用于指示参考音频文件中的语音片段。

第一确定单元620，用于基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件。

第一分离单元630，用于根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段。

在一实施例中，第一确定单元610，具体用于确定出每个参考音频文件中的未标记语音数据；

基于ASR获取未标记语音数据中的转义结果，其中，转义结果用于指示语音转化为文字的结果；

将转义结果中文字数最少的参考音频文件作为目标音频文件。

在一实施例中，第一确定单元610，还具体用于从参考音频文件对应的语音标记数据中确定出参考音频文件中包含的语音片段的第一时间标签和第二时间标签，其中，第一时间标签用于指示语音片段的发音起始点，第二时间标签用于指示语音片段的发音结束点；

以及用于根据第一时间标签和第二时间标签，确定出参考音频文件对应的未标记语音数据。

第一确定单元610，还具体用于根据目标音频文件对应的语音标记数据，确定出目标音频文件对应的目标未标记语音数据；

以及用于将目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将分贝值大于目标阈值的音频片段确定为语音片段。

基于前述实施例，如图7所示，本发明实施例还提供一种录音终端700，录音终端700可以包括：采集部件710、第一存储器720、第一处理器730和第一通信总线740；其中：

采集部件710，和第一通信总线740相连，用于获取原始音频数据。

第一通信总线740，用于实现第一存储器720和第一处理器730之间的通信连接；

第一存储器720，用于存储可执行指令；

第一处理器730，用于执行第一存储器720中存储的音频识别程序，以实现以下步骤：

基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件。

对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据。其中，语音标记数据用于指示参考音频文件中的语音片段。

将至少两个参考音频文件和各自对应的语音标记数据发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。

在一实施例中，第一处理器730在执行步骤对至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据时，具体可以通过以下步骤来实现：

对至少两个参考音频文件依次执行以下标记处理：

识别当前参考音频文件中包含的语音片段；

基于前述实施例，在一实施例中，第一处理器730执行步骤还包括：

在原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于VAD按照至少两种语音强度分别生成每段音频数据对应的至少两个参考音频文件。

在其他实施例中，上述录音终端可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

本发明实施例提供的录音终端，通过语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，将至少两个参考音频文件发送至服务器，以使服务器从至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。

基于前述实施例，如图8所示，本发明实施例还提供一种服务器800，录音终端800可以包括：第一存储器820、第一处理器830和第一通信总线840；其中：

第一通信总线840，用于实现第一存储器820和第一处理器830之间的通信连接；

第一存储器820，用于存储可执行指令；

第一处理器830，用于执行第一存储器820中存储的音频识别程序，以实现以下步骤：

接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据；其中，至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，语音标记数据用于指示参考音频文件中的语音片段；

基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件；

根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段。

在一实施例中，第二处理器830在执行步骤基于自动语音识别ASR从至少两个参考音频文件中，确定出目标音频文件时，具体可以通过以下步骤来实现：

确定出每个参考音频文件中的未标记语音数据；

在一实施例中，第二处理器830在执行步骤确定出每个参考音频文件中的未标记语音数据时，具体可以通过以下步骤来实现：

从参考音频文件对应的语音标记数据中确定出参考音频文件中包含的语音片段的第一时间标签和第二时间标签；其中，第一时间标签用于指示语音片段的发音起始点，第二时间标签用于指示语音片段的发音结束点；

根据第一时间标签和第二时间标签，确定出参考音频文件对应的未标记语音数据。

在一实施例中，第二处理器830在执行步骤根据目标音频文件对应的语音标记数据以及目标音频文件中噪音的强度值，分离目标音频文件中的语音片段和噪音片段时，具体可以通过以下步骤来实现：

根据目标音频文件对应的语音标记数据，确定出目标音频文件对应的目标未标记语音数据；

将目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将分贝值大于目标阈值的音频片段确定为语音片段。

在其他实施例中，上述服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

本发明实施例提供的服务器，通过接收语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件，从所述至少两个参考音频文件中确定出目标音频文件，并分离出目标音频文件中的语音片段和噪音片段。可以解决相关技术提供的音频识别方法存在识别处理操作较为复杂的问题，进而达到对音频识别高效准确的技术效果。

基于上述实施例，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述一个或多个技术方案提供的音频识别方法。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取原始音频数据；

基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；

对所述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据；其中，所述语音标记数据用于指示所述参考音频文件中的语音片段；

将所述至少两个参考音频文件和各自对应的所述语音标记数据发送至服务器，以使所述服务器从所述至少两个参考音频文件中确定出目标音频文件，并分离出所述目标音频文件中的语音片段和噪音片段。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少两个参考音频文件分别进行识别标记，得到每个参考音频文件中的语音标记数据包括：

对所述至少两个参考音频文件依次执行以下标记处理：

识别当前参考音频文件中包含的语音片段；

将所述语音片段的发音起始点标记为第一时间标签，并将所述语音片段的发音结束点标记为第二时间标签；

利用所述第一时间标签和所述第二时间标签生成所述当前参考音频文件对应的所述语音标记数据。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述原始音频数据中包括多个语音输入设备分别采集到的多段音频数据的情况下，基于所述VAD按照至少两种语音强度分别生成每段所述音频数据对应的至少两个参考音频文件。

4.一种音频识别方法，其特征在于，所述方法包括：

接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据；其中，所述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，所述语音标记数据用于指示所述参考音频文件中的语音片段；

基于自动语音识别ASR从至少两个所述参考音频文件中，确定出目标音频文件；

根据所述目标音频文件对应的语音标记数据以及所述目标音频文件中噪音的强度值，分离所述目标音频文件中的语音片段和噪音片段。

5.根据权利要求4所述的方法，其特征在于，所述基于自动语音识别ASR从至少两个所述参考音频文件中，确定出目标音频文件包括：

确定出每个所述参考音频文件中的未标记语音数据；

基于所述ASR获取所述未标记语音数据中的转义结果，其中，所述转义结果用于指示语音转化为文字的结果；

将所述转义结果中文字数最少的参考音频文件作为所述目标音频文件。

6.根据权利要求5所述的方法，其特征在于，所述确定出每个所述参考音频文件中的未标记语音数据包括：

从所述参考音频文件对应的语音标记数据中确定出所述参考音频文件中包含的语音片段的第一时间标签和第二时间标签；其中，所述第一时间标签用于指示所述语音片段的发音起始点，所述第二时间标签用于指示所述语音片段的发音结束点；

根据所述第一时间标签和所述第二时间标签，确定出所述参考音频文件对应的未标记语音数据。

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标音频文件对应的语音标记数据以及所述目标音频文件中噪音的强度值，分离所述目标音频文件中的语音片段和噪音片段包括：

根据所述目标音频文件对应的语音标记数据，确定出所述目标音频文件对应的目标未标记语音数据；

将所述目标未标记语音数据中噪音的分贝值小于等于目标阈值的音频片段确定为噪音片段，将所述分贝值大于所述目标阈值的音频片段确定为所述语音片段。

8.一种音频识别装置，其特征在于，包括：

第一获取单元，用于获取原始音频数据；

第一处理单元，用于基于语音活动检测VAD按照至少两种语音强度生成至少两个参考音频文件；

第一标记单元，用于将所述至少两个参考音频文件分别进行识别标记，得到每组参考音频文件对应的语音标记数据；其中，所述语音标记数据用于指示所述参考音频文件中的语音片段；

第一发送单元，用于将所述至少两个参考音频文件和各自对应的所述语音标记数据发送至服务器，以使所述服务器从所述至少两个参考音频文件中确定出目标音频文件，并分离出所述目标音频文件中的语音片段和噪音片段。

9.一种音频识别装置，其特征在于，包括：

第一接收单元，用于接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据，其中，所述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，所述语音标记数据用于指示所述参考音频文件中的语音片段；

第一确定单元，用于基于自动语音识别ASR从至少两个所述参考音频文件中，确定出目标音频文件；

第一分离单元，用于根据所述目标音频文件对应的语音标记数据以及所述目标音频文件中噪音的强度值，分离所述目标音频文件中的语音片段和噪音片段。

10.一种录音终端，其特征在于，所述录音终端包括：语音采集部件，第一通信总线、第一存储器和第一处理器，其中：

所述语音采集部件，用于获取原始语音数据；

所述第一通信总线，用于实现所述语音采集部件、所述第一处理器和所述第一存储器之间的通信连接；

所述第一存储器，用于存储可执行指令；

所述第一处理器，用于执行所述存储器中的音频预处理及识别程序，以实现以下步骤：

获取原始音频数据；

11.一种服务器，其特征在于，所述服务器包括：第二通信总线、第二存储器和第二处理器，其中：

所述第二通信总线，用于实现所述第二处理器和所述第二存储器之间的通信连接；

所述第二存储器，用于存储可执行指令；

所述第二处理器，用于执行所述存储器中的音频预处理及识别程序，以实现以下步骤：

接收录音终端发送的至少两个参考音频文件以及各自对应的语音标记数据，其中，所述至少两个参考音频文件是基于语音活动检测VAD按照至少两种语音强度生成的，所述语音标记数据用于指示所述参考音频文件中的语音片段；

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质存储有一个或多个程序，所述一个或多个程序被一个或多个处理器执行，以实现权利要求1至3或4至7中任一项所述的音频识别方法的步骤。