CN116665707A

CN116665707A - 音频识别方法和音频识别装置

Info

Publication number: CN116665707A
Application number: CN202210152610.8A
Authority: CN
Inventors: 陆彩霞
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2023-08-29
Also published as: EP4258264A4; WO2023155572A1; EP4258264A1

Abstract

本申请提供了一种音频识别方法和音频识别装置，可以提高声事件检测的准确率。该方法包括：获取待测音频信号；根据待测音频信号，确定待测音频信号的采集场景为第一场景；使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的、用于基于音频信号识别第一场景中的声事件的神经网络模型。

Description

音频识别方法和音频识别装置

技术领域

本申请涉及音频领域，尤其涉及一种音频识别方法和音频识别装置。

背景技术

音频信号携带了大量有关日常环境和其中发生的物理事件的信息，具有丰富的信息量，在很多视觉、触觉、嗅觉不合适的场合下，具有独特的优势。基于音频的声事件检测技术应用于终端设备，可以识别警报器、烟雾探测器、家用电器、汽车音箱、门铃、敲打声、流水声、婴儿哭以及大喊等声事件，以作为辅助信息帮助用户特别是残障人士了解周围环境。

但因为环境声音种种复杂的特性，导致声事件检测技术的平均准确率仅仅可以达到百分之四十，导致用户体验不佳。

因此，亟需一种音频识别方法，可以提高声事件检测的准确率。

发明内容

本申请提供了一种音频识别方法和音频识别装置，可以提高声事件检测的准确率。

第一方面，本申请提供了一种音频识别方法，该方法包括：获取待测音频信号；根据待测音频信号，确定待测音频信号的采集场景为第一场景；使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的、用于基于音频信号识别第一场景中的声事件的神经网络模型。

音频识别设备获取待测音频信号，可以存在多种可能的实现方式。

在一种可能的实现方式中，音频识别设备可以实时获取待测音频信号。

在另一种可能的实现方式中，音频识别设备可以接收来自其他设备的音频信号，得到待测音频信号。

在又一种可能的实现方式中，音频识别设备可以将采集的历史音频信号作为待测音频信号。

本申请可以采用现有的场景检测算法，根据待测音频信号，确定待测音频信号的采集场景为第一场景，通过第一场景对待测音频信号进行初步分类后再进行声事件检测。

第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的。其中，第一场景中的音频信号为在第一场景中可能出现的任意一个或者多个音频信号。

当第一场景中的音频信号为一个时，该一个音频信号对应一个声事件，根据该一个音频信号可以训练一个声事件识别模型，即音频信号、声事件以及声事件识别模型是一一对应的，训练好的声事件识别模型可以用于基于待测音频信号确定待测音频信号对应的声事件是否为声事件识别模型对应的声事件。

当第一场景中的音频信号为多个时，该多个音频信号中的每一个音频信号均对应一个声事件，根据该多个音频信号可以训练多个声事件识别模型，即音频信号、声事件以及声事件识别模型是一一对应的，训练好的多个声事件识别模型中每一个训练好的多个声事件识别模型均可以用于基于待测音频信号确定待测音频信号对应的声事件是否为声事件识别模型对应的声事件。

本申请提供的音频识别方法，先根据场景检测算法将待测音频信号进行初步分类，确定待测音频信号的采集场景为第一场景，然后利用第一场景对应的声事件识别模型对待测音频信号进行声事件检测，这样相比于直接利用不同场景对应的声事件识别模型对待测音频信号进行声事件检测，可以节省计算量，同时，可以减少不同场景下的声事件的干扰，可以更加准确地识别待测音频信号对应的声事件，提高声事件检测的准确率。

结合第一方面，在第一方面的某些实现方式中，待测音频信号包括多个音频帧；根据待测音频信号，确定待测音频信号的采集场景为第一场景，包括：将多个音频帧中的每个音频帧分别输入至场景识别模型，得到每个音频帧的场景信息，场景识别模型是使用多种场景中的音频帧训练得到的、用于基于音频帧确定音频帧的采集场景的神经网络模型，每个音频帧的场景信息用于指示每个音频帧的采集场景为多个场景中每个场景的概率；根据每个音频帧的场景信息，确定待测音频信号的采集场景为多个场景中的第一场景。

音频识别设备获取待测音频信号后，可以将待测音频信号分为多个音频帧，并将该多个音频帧中的每个音频帧分别输入至场景识别模型，得到每个音频帧的场景信息。其中，每个音频帧的场景信息用于表示每个音频帧的采集场景在多种场景中每一种场景的概率。音频识别设备可以根据每个音频帧的场景信息确定待测音频信号的采集场景为多个场景中的第一场景。

应理解，每个音频帧属于多种场景中每一种场景的概率之和为1。

本申请提供的音频识别方法，基于场景识别模型确定待测音频信号的采集场景为第一场景，该方法识别的场景准确率较高，进而可以更加准确地识别待测音频信号对应的声事件，提高声事件检测的准确率。

结合第一方面，在第一方面的某些实现方式中，根据每个音频帧的场景信息确定待测音频信号的采集场景为多个场景中的第一场景，包括：统计多个音频帧中属于多个场景中每个场景的音频帧的数量；多个音频帧中属于多个场景中的第一场景的音频帧的数量满足第一预设条件，且多个音频帧中属于第一场景的音频帧对应的场景信息所指示的概率满足第二预设条件时，将第一场景确定为待测音频信号的采集场景。

结合第一方面，在第一方面的某些实现方式中，场景识别模型是基于马路场景、地铁场景、家居场景或者办公室场景中至少一个场景中的音频帧训练得到的。

结合第一方面，在第一方面的某些实现方式中，待测音频信号包括多个音频帧，第一场景对应的声事件识别模型包括至少一个声事件识别模型，至少一个声事件识别模型包括第一声事件识别模型，第一声事件识别模型是使用在第一场景中标识第一声事件的音频帧训练得到的；使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，包括：将多个音频帧分别输入至第一声事件识别模型，得到多个音频帧标识的声事件信息，多个音频帧的声事件信息中的每个音频帧的声事件信息用于指示每个音频帧标识第一声事件的概率；当多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将第一声事件确定为待测音频信号标识的声事件。

一般，常用的声事件识别模型为基于卷积循环神经网络(convolutionalrecurrent neural network，CRNN)架构的神经网络模型，本申请对此不作限定。

第一声事件识别模型可以是至少一个声事件识别模型中的任意一个，本申请对此不作限定。应理解，第一声事件识别模型是提前训练好，可以识别第一声事件，且预设在音频识别设备中。

第三预设条件可以根据实际的应用场景调整，本申请对此不作限定。

音频识别设备可以将多个音频帧分别输入至第一声事件识别模型，得到多个音频帧标识的声事件信息，若多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将第一声事件确定为待测音频信号标识的声事件。

本申请提供的音频识别方法，基于声事件识别模型确定待测音频信号对应的声事件，该方法识别的声事件准确率较高，可以提高声事件检测的准确率。

结合第一方面，在第一方面的某些实现方式中，第一音频帧标识的声事件信息满足第三预设条件，第一音频帧之前预设帧数中存在第二音频帧标识的声事件信息满足第四预设条件，则第二音频帧对应的时间点为第一声事件的开始时间点。

结合第一方面，在第一方面的某些实现方式中，第一场景为马路场景，第一场景对应的声事件识别模型包括以下至少一个：鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型或者车行驶而过的声音的声事件识别模型。

结合第一方面，在第一方面的某些实现方式中，第一场景为地铁场景，第一场景对应的声事件识别模型包括以下至少一个：列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型或者地铁报站的声音的声事件识别模型。

结合第一方面，在第一方面的某些实现方式中，第一场景为家居场景，第一场景对应的声事件识别模型包括以下至少一个：吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型或者水龙头滴水声的声事件识别模型。

结合第一方面，在第一方面的某些实现方式中，第一场景为办公室场景，第一场景对应的声事件识别模型包括以下至少一个：电话铃声的声事件识别模型、敲击键盘声的声事件识别模型或者会议邀请声的声事件识别模型。

第二方面，本申请提供了一种音频识别装置，包括：获取模块和处理模块。获取模块用于：获取待测音频信号；处理模块：用于根据待测音频信号，确定待测音频信号的采集场景为第一场景；以及，使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的、用于基于音频信号识别第一场景中的声事件的神经网络模型。

结合第二方面，在第二方面的某些实现方式中，待测音频信号包括多个音频帧；处理模块还用于：将多个音频帧中的每个音频帧分别输入至场景识别模型，得到每个音频帧的场景信息，场景识别模型是使用多种场景中的音频帧训练得到的、用于基于音频帧确定音频帧的采集场景的神经网络模型，每个音频帧的场景信息用于指示每个音频帧的采集场景为多个场景中每个场景的概率；根据每个音频帧的场景信息，确定待测音频信号的采集场景为多个场景中的第一场景。

结合第二方面，在第二方面的某些实现方式中，处理模块还用于：统计多个音频帧中属于多个场景中每个场景的音频帧的数量；多个音频帧中属于多个场景中的第一场景的音频帧的数量满足第一预设条件，且多个音频帧中属于第一场景的音频帧对应的场景信息所指示的概率满足第二预设条件时，将第一场景确定为待测音频信号的采集场景。

结合第二方面，在第二方面的某些实现方式中，场景识别模型是基于马路场景、地铁场景、家居场景或者办公室场景中至少一个场景中的音频帧训练得到的。

结合第二方面，在第二方面的某些实现方式中，待测音频信号包括多个音频帧，第一场景对应的声事件识别模型包括至少一个声事件识别模型，至少一个声事件识别模型包括第一声事件识别模型，第一声事件识别模型是使用在第一场景中标识第一声事件的音频帧训练得到的；处理模块还用于：将多个音频帧分别输入至第一声事件识别模型，得到多个音频帧标识的声事件信息，多个音频帧的声事件信息中的每个音频帧的声事件信息用于指示每个音频帧标识第一声事件的概率；当多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将第一声事件确定为待测音频信号标识的声事件。

结合第二方面，在第二方面的某些实现方式中，第一音频帧标识的声事件信息满足第三预设条件，第一音频帧之前预设帧数中存在第二音频帧标识的声事件信息满足第四预设条件，则第二音频帧对应的时间点为第一声事件的开始时间点。

结合第二方面，在第二方面的某些实现方式中，第一场景为马路场景，第一场景对应的声事件识别模型包括以下至少一个：鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型或者车行驶而过的声音的声事件识别模型。

结合第二方面，在第二方面的某些实现方式中，第一场景为地铁场景，第一场景对应的声事件识别模型包括以下至少一个：列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型或者地铁报站的声音的声事件识别模型。

结合第二方面，在第二方面的某些实现方式中，第一场景为家居场景，第一场景对应的声事件识别模型包括以下至少一个：吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型或者水龙头滴水声的声事件识别模型。

结合第二方面，在第二方面的某些实现方式中，第一场景为办公室场景，第一场景对应的声事件识别模型包括以下至少一个：电话铃声的声事件识别模型、敲击键盘声的声事件识别模型或者会议邀请声的声事件识别模型。

第三方面，本申请提供了一种音频识别装置，包括处理器，该处理器与存储器耦合，可用于执行存储器中的指令，以实现上述第一方面中任一种可能实现方式中的方法。可选地，该终端设备还包括存储器。可选地，该终端设备还包括通信接口，处理器与通信接口耦合。

第四方面，本申请提供了一种处理器，包括：输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号，并通过输出电路发射信号，使得处理器执行上述第一方面中任一种可能实现方式中的方法。

在具体实现过程中，上述处理器可以为芯片，输入电路可以为输入管脚，输出电路可以为输出管脚，处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的，输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的，且输入电路和输出电路可以是同一电路，该电路在不同的时刻分别用作输入电路和输出电路。本申请对处理器及各种电路的具体实现方式不做限定。

第五方面，本申请提供了一种处理装置，包括处理器和存储器。该处理器用于读取存储器中存储的指令，并可通过接收器接收信号，通过发射器发射信号，以执行上述第一方面中任一种可能实现方式中的方法。

可选地，处理器为一个或多个，存储器为一个或多个。

可选地，存储器可以与处理器集成在一起，或者存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请对存储器的类型以及存储器与处理器的设置方式不做限定。

应理解，相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程，接收能力信息可以为处理器接收输入能力信息的过程。具体地，处理输出的数据可以输出给发射器，处理器接收的输入数据可以来自接收器。其中，发射器和接收器可以统称为收发器。

上述第五方面中的处理装置可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第六方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面中任一种可能实现方式中的方法。

第七方面，本申请提供了一种计算机程序产品，计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当计算机程序被运行时，使得计算机执行上述第一方面中任一种可能实现方式中的方法。

附图说明

图1为本申请实施例使用的一种声事件检测的场景示意图；

图2为本申请实施例提供的一种音频识别方法的示意性流程图；

图3为本申请实施例提供的一种场景识别方法的示意性流程图；

图4为本申请实施例提供的一种声事件识别方法的示意性流程图；

图5为本申请实施例提供的一种第一场景对应的声事件识别模型的示意性框图；

图6为本申请实施例提供的另一种第一场景对应的声事件识别模型的示意性框图；

图7为本申请实施例提供的又一种第一场景对应的声事件识别模型的示意性框图；

图8为本申请实施例提供的另一种第一场景对应的声事件识别模型的示意性框图；

图9为本申请实施例提供的一种音频识别装置的示意性框图；

图10为本申请实施例提供的另一种音频识别装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一预设条件和第二预设条件是为了区分不同的预设条件，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

此外，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b和c中的至少一项(个)，可以表示：a，或b，或c，或a和b，或a和c，或b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

音频信号携带了大量有关日常环境和其中发生的物理事件的信息，具有丰富的信息量，在很多视觉、触觉、嗅觉不合适的场合下，具有独特的优势。音频信号通常被认为与振动信号具有较大的相关性，但音频信号具有非接触性，避免了振动信号数据采集的困难。基于一般音频/环境声的计算机听觉(computer audition，CA)技术属于人工智能(artificial intelligence，AI)在音频领域的分支，直接面向社会经济生活的各个方面，在医疗卫生、制造业、交通运输、安防、仓储、农林牧渔业、水利、环境和公共设施管理业、建筑业、采矿业、日常生活、身份识别、军事等数十个领域具有众多应用，是一门非常实用的技术。

示例性地，在医疗领域，人的身体本身和许多疾病，都会产生各种各样的声音。借助CA进行辅助诊断与治疗，既可部分减轻医生的负担，又可普惠广大消费者，是智慧医疗的重要方面。

示例性地，在机器人制造领域，机器人需要对周围环境的声音具有听觉感知能力。声事件检测(sound event detection，AED)在技术角度也属于CA，可以应用于机器人的各种应用场景。例如，面向消费者的服务消费机器人，在室内环境中识别日常声事件；面向灾难响应的特殊作业机器人，识别噪声环境中的某些声事件，并执行给定的操作；面向阀厅智能巡检的工业机器人，对设备进行智能检测和状态识别。

上述声事件检测，也可以称为“声音事件检测”或者“音频事件检测(audio eventsdetection)”，本申请实施例对此不作限定。

但因为环境声音种种复杂的特性，导致CA技术在实际应用中，识别准确率较低，发展速度较慢。目前，CA技术中的声事件检测技术可以应用于终端设备，例如，终端设备可以识别警报器、烟雾探测器、家用电器、汽车音箱、门铃、敲打声、流水声、婴儿哭以及大喊等声事件，以作为辅助信息帮助用户特别是残障人士了解周围环境，但其平均准确率仅仅可以达到百分之四十，导致用户体验不佳。因此，亟需一种音频识别方法，可以提高声事件检测的准确率。

为了更好的理解本申请实施例，首先对本申请实施例适用的场景进行介绍。

图1示出了一种声事件检测的场景图。如图1所示，用户101在乘坐地铁，且手持手机102，手机102具有声事件检测的功能，可以以“声音识别”功能提供给用户作辅助功能。用户101开启了该“声音识别”功能，且可以检测警报器、动物叫声、门铃声、敲门声、婴儿哭以及叫喊声等各种声音。

在图1所示的场景中，手机102检测到婴儿哭的声音，以消息通知的方式提醒用户101，通知消息可以显示为“识别到声音，可能是婴儿在哭”。

可选地，手机102在显示通知消息时，还可以通过震动或者铃声提醒用户101，本申请实施例对此不作限定。

上述手机102进行声事件检测的过程可以为：获取音频信号，并将音频信号输入至声事件识别模型，得到音频信号对应的声事件为婴儿在哭。

其中，声事件识别模型的数量为多个，每一个声事件识别模型对应一种声事件。当手机102识别音频信号对应的声事件时，需要将音频信号输入至每一个声事件识别模型进行识别，声事件检测的准确率较低，计算量较大，还会增加手机102的功耗，导致声事件检测效率降低。

有鉴于此，本申请实施例提供一种音频识别方法和音频识别装置，可以提高声事件检测的准确率，减小计算量。

图2示出了本申请实施例提供的一种音频识别方法200的示意图，该方法可以由音频识别设备执行，例如，终端设备。该终端设备可以为手机、平板电脑、个人计算机(personal computer，PC)、智能手表等可穿戴设备，还可以是各种教学辅助工具(例如学习机、早教机)、智能玩具、便携式机器人、个人数字助理(personal digital assistant，PDA)、增强现实技术(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备等。该方法200可以应用于检测声事件的任意场景，例如，上述图1所示的场景，本申请实施例对此不作限定。

如图2所示，该方法200可以包括以下步骤：

S201、获取待测音频信号。

待测音频信号可以理解为用于检测声事件的任意音频信号，本申请实施例对此不作限定。待测音频信号，也可以称为待测声音信号、待测声信号或者音频流，本申请实施例对此不作限定。

在该实现方式中，待测音频信号可以为音频识别设备所处场景中的任意音频信号。

示例性地，音频识别设备为手机，手机处于办公室，手机可以实时获取办公室发生的任意音频信号，例如，电话铃声和键盘声。

在该实现方式中，音频识别设备实时获取待测音频信号，可以及时对其所处的场景进行声事件检测，有利于提高用户体验。

其他设备是指除音频识别设备之外的，具有采集音频信号功能的任意设备。

其他设备可以实时采集其所处场景中的音频信号，并将该音频信号发送至音频识别设备，该音频识别设备接收该音频信号后，将其作为待测音频信号进行声事件检测。在该情况下，其他设备与音频识别设备处于同一场景。

其他设备也可以将采集的其所处场景中的历史音频信号发送至音频识别设备，该音频识别设备接收该历史音频信号后，将其作为待测音频信号进行声事件检测。在该情况下，其他设备可以与音频识别设备处于同一场景，也可以不与音频识别设备处于同一场景，本申请实施例对此不作限定。

历史音频信号可以理解为：在当前时间并未出现，且是在当前时间之前出现的音频信号。

在该实现方式中，音频识别设备可以仅仅具有检测声事件的功能，可以不包括采集音频信号的功能，降低对音频识别设备的要求，功能简单，较少成本。

音频识别设备可以将保存的历史音频信号作为待测音频信号进行声事件检测。

在该实现方式中，音频识别设备无需实时采集音频信号，可以节省音频识别设备的功耗。

S202、根据待测音频信号，确定待测音频信号的采集场景为第一场景。

第一场景可以为待测音频信号被采集的场景。第一场景，例如可以为马路、地铁、家居或者办公室。

示例性地，在第一场景为马路的情况下，待测音频信号可以为鸣笛的音频信号、警报的音频信号、撞击的音频信号或者车行驶而过的音频信号等等。在第一场景为地铁的情况下，待测音频信号可以为列车行驶而过的音频信号或者车厢撞击的音频信号等等。在第一场景为家居的情况下，待测音频信号可以为吸尘器吸尘声的音频信号、洗衣机洗衣声的音频信号、碗碟碰撞声的音频信号、婴儿哭的信号或者水龙头滴水的信号等等。在第一场景为办公室的情况下，待测音频信号可以为电话铃声的音频信号、键盘声的音频信号或者会议邀请声的音频信号等等。

根据待测音频信号，确定待测音频信号的采集场景的方法可以称为“场景检测算法”，也可以称为“声音场景识别”或者“声场景识别”，本申请实施例对此不作限定。

现有的场景检测算法，正确率较高，本申请实施例可以采用现有的场景检测算法，根据待测音频信号，确定待测音频信号的采集场景为第一场景，通过第一场景对待测音频信号进行初步分类后再进行声事件检测。

其中，初步分类也可以称为预分类或者初分类，本申请实施例对此不作限定。

S203、使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的、用于基于音频信号识别第一场景中的声事件的神经网络模型。

第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的。其中，第一场景中的音频信号为在第一场景中可能出现的任意一个或者多个音频信号。其中，声事件识别模型也可以称为音频识别模型，本申请实施例对此不作限定。

本申请实施例提供的音频识别方法，先根据场景检测算法将待测音频信号进行初步分类，确定待测音频信号的采集场景为第一场景，然后利用第一场景对应的声事件识别模型对待测音频信号进行声事件检测，这样相比于直接利用不同场景对应的声事件识别模型对待测音频信号进行声事件检测，可以节省计算量，同时，可以减少不同场景下的声事件的干扰，可以更加准确地识别待测音频信号对应的声事件，提高声事件检测的准确率。另外，若本申请实施例提供的音频识别方法由终端设备执行，节省计算量可以降低终端设备的功耗，进一步提高声事件检测的效率。

作为一个可选的实施例，上述待测音频信号可以包括多个音频帧；S202、根据待测音频信号，确定待测音频信号的采集场景为第一场景，可以包括：将多个音频帧中的每个音频帧分别输入至场景识别模型，得到每个音频帧的场景信息，场景识别模型是使用多种场景中的音频帧训练得到的、用于基于音频帧确定音频帧的采集场景的神经网络模型，每个音频帧的场景信息用于指示每个音频帧的采集场景为多个场景中每个场景的概率；根据每个音频帧的场景信息，确定待测音频信号的采集场景为多个场景中的第一场景。

场景识别模型是使用多种场景中的音频帧训练得到的。其中，本申请实施例对多个场景不作限定。另外，场景识别模型也可以称为场景分类模型或者场景分类器，本申请实施例对名称不作限定。

例如，场景识别模型可以是基于马路场景、地铁场景、家具场景以及办公室场景中至少一个场景的音频帧训练得到。

场景识别模型可以基于音频帧确定音频帧的采集场景。例如，场景识别模型可以根据待测音频信号中的音频帧，确定该音频帧属于多种场景中的哪一种场景。

示例性地，待测音频信号可以包括5个音频帧，分别为音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5。音频识别设备可以将音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5分别输入至场景识别模型，得到音频帧1的场景信息、音频帧2的场景信息、音频帧3的场景信息、音频帧4的场景信息以及音频帧5的场景信息。若场景识别模型是基于马路场景、地铁场景、家具场景以及办公室场景中的音频帧训练得到的，则音频帧1的场景信息可以包括音频帧1的采集场景为马路场景的概率、音频帧1的采集场景为地铁场景的概率、音频帧1的采集场景为家具场景的概率以及音频帧1的采集场景为家具场景的概率，其他音频帧的场景信息同理，此处不再赘述。音频识别设备可以根据频帧1的场景信息、音频帧2的场景信息、音频帧3的场景信息、音频帧4的场景信息以及音频帧5的场景信息，确定待测音频信号的采集场景。

可选地，上述根据每个音频帧的场景信息确定待测音频信号的采集场景为多个场景中的第一场景，可以包括：统计多个音频帧中属于多个场景中每个场景的音频帧的数量；多个音频帧中属于多个场景中的第一场景的音频帧的数量满足第一预设条件，且多个音频帧中属于第一场景的音频帧对应的场景信息所指示的概率满足第二预设条件时，将第一场景确定为待测音频信号的采集场景。

第一预设条件和第一预设条件可以根据实际的应用场景调整，本申请实施例对此不作限定。

示例性地，若多个音频帧的数量为N，第一预设条件可以是大于或等于N/2。第二预设条件可以为大于或等于70％或者0.7。在上述示例中，待测音频信号包括5个音频帧，分别为音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5。若该5个音频帧中存在3个音频帧对应的场景信息所指示的在第一场景的概率大于或等于0.7，则音频识别设备可以确定待测音频信号的采集场景为第一场景。

本申请实施例提供的音频识别方法，基于场景识别模型确定待测音频信号的采集场景为第一场景，该方法识别的场景准确率较高，进而可以更加准确地识别待测音频信号对应的声事件，提高声事件检测的准确率。

可选地，音频识别设备在将待测音频信号分为多个音频帧后，可以提取该多个音频帧的第一声学特征，将音频信号从时域转换到变换域表示。例如，该多个音频帧的第一声学特征可以是长短时小波特征，其可以兼顾长时背景信息和短时瞬态信息，有利于提高场景识别的准确性。

场景识别模型一般可以是基于深度卷积神经网络(deep convolutional neuralnetworks，DCNN)架构的神经网络模型，可以使用多种场景中的音频帧对应的第一声学特征训练得到的。

应理解，场景识别模型是提前训练好，可以识别多种场景的，且预设在音频识别设备中。

示例性地，图3示出了一种场景识别方法300的示意性流程图，如图3所示，该方法300可以包括以下步骤：

S301、获取待测音频信号。

该步骤的具体实现可以参考上述S201，此处不再赘述。

S302、对待测音频信号进行分帧处理，得到多个音频帧。

音频识别设备可以采用现有的音频信号分帧方法对待测音频信号进行分帧处理，此处将不进行详细描述。

S303、提取该多个音频帧的第一声学特征，得到多个第一声学特征，第一声学特征与音频帧是一一对应的。

第一声学特征可以是长短时小波特征。

S304、将多个第一声学特征分第一声学特征输入至基于DCNN架构的神经网络模型，也可以将多个第一声学特征依次输入至基于DCNN架构的神经网络模型，本申请实施例对此不作限定。

音频识别设备可以将多个第一声学特征分别输入至基于DCNN架构的神经网络模型，得到输出结果，并使用逻辑回归模型(softmax)对输出结果进行归一化，得到多个第一声学特征对应的场景信息。

S305、根据多个第一声学特征对应的场景信息，确定待测音频信号的采集场景。

音频识别设备确定待测音频信号的采集场景的方法可以使用第一预设条件和第二预设条件，根据上述提及的方法确定，此处不再赘述。

本申请实施例提供的音频识别方法，先提取待测音频信号的第一声学特征，再基于场景识别模型确定待测音频信号的采集场景，通过第一声学特征可以更好的体现待测音频信号的特点，可以提高识别的第一场景的准确率。

作为一个可选的实施例，待测音频信号包括多个音频帧，第一场景对应的声事件识别模型包括至少一个声事件识别模型，至少一个声事件识别模型包括第一声事件识别模型，第一声事件识别模型是使用在第一场景中标识第一声事件的音频帧训练得到的；上述S203，使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，包括：将多个音频帧分别输入至第一声事件识别模型，得到多个音频帧标识的声事件信息，多个音频帧的声事件信息中的每个音频帧的声事件信息用于指示每个音频帧标识第一声事件的概率；当多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将第一声事件确定为待测音频信号标识的声事件。

声事件识别模型也可以称为事件检测网络模型，本申请实施例对此不作限定。

一般，常用的声事件识别模型为基于卷积循环神经网络(convolutionalrecurrent neural network，CRNN)架构的神经网络模型，本申请实施例对此不作限定。

第一声事件识别模型可以是至少一个声事件识别模型中的任意一个，本申请实施例对此不作限定。应理解，第一声事件识别模型是提前训练好，可以识别第一声事件，且预设在音频识别设备中。

第三预设条件可以根据实际的应用场景调整，本申请实施例对此不作限定。

示例性地，若待测音频信号包括5个音频帧，分别为音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5。音频识别设备可以将音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5分别输入至第一声事件识别模型，得到音频帧1标识第一声事件的概率、音频帧2标识第一声事件的概率、音频帧3标识第一声事件的概率、音频帧4标识第一声事件的概率以及音频帧5标识第一声事件的概率。若第三预设条件为大于或等于80％或者0.8，且5个音频帧中存在一个音频帧标识第一声事件的概率大于或等于0.8，则音频识别设备可以确定待测音频信号标识的声事件为第一声事件。

可选地，第一音频帧标识的声事件信息满足第三预设条件，第一音频帧之前预设帧数的音频帧中存在第二音频帧标识的声事件信息满足第四预设条件，则第二音频帧对应的时间点为第一声事件的开始时间点。

预设帧数可以是大于0的整数，例如，50帧，本申请实施例对预设帧数的具体数值不作限定。不同的声事件可以对应不同的预设帧数，本申请实施例对此不作限定。

第四预设条件可以根据实际的应用场景调整，本申请实施例对此不作限定。例如，第四预设条件可以为大于或等于50％或者0.5。

示例性地，第一音频帧标识的声事件信息满足第三预设条件，且第一音频帧为多个音频帧中的200帧，音频识别设备可以将该200帧往前推50帧，即150帧到200帧中若存在第二音频帧标识的声事件信息满足第四预设条件，则第二音频帧对应的时间点为第一声事件的开始时间点。

音频识别设备确定第一声事件的开始时间点后，可以用于显示或者通知用户，还可以配合其他应用程序使用，本申请实施例对此不作限定。

本申请实施例提供的音频识别方法，基于声事件识别模型确定待测音频信号对应的声事件，该方法识别的声事件准确率较高，可以提高声事件检测的准确率。

可选地，音频识别设备在将待测音频信号分为多个音频帧后，可以提取该多个音频帧的第二声学特征，例如，梅尔倒谱特征(mel frequency cepstrum coefficient，MFCC)，或者对数频谱特征，并将该多个音频帧的第二声学特征输入至第一声事件识别模型，进行声事件检测。其中，梅尔倒谱特征考虑了人类的听觉曲线，对高频部分压缩，更多的关注待测音频信号中的低频成分，可以使声事件检测结果更加准确。

示例性地，图4示出了一种声事件识别方法400的示意性流程图，如图4所示，该方法400可以包括以下步骤：

S401、获取待测音频信号中的多个音频帧。

音频识别设备可以先获取待测音频设备，并对待测音频信号进行分帧处理，得到多个音频帧。具体可以参考上述S302，此处不再赘述。

S402、提取该多个音频帧的第二声学特征，得到多个第二声学特征，第二声学特征与音频帧是一一对应的。

需要说明的是，第二声学特征与上述S303中的第一声学特征不同，上述第一声学特征用于识别音频帧的采集场景，该处的第二声学特征用于识别音频帧的声事件。

S403、将多个第二声学特征分别输入至第一场景对应的至少一个声事件识别模型，确定待测音频信号对应的声事件。

示例性地，第一场景对应的至少一个声事件识别模型可以包括3个声事件识别模型，该3个声事件识别模型可以分别为声事件识别模型1、声事件识别模型2以及声事件识别模型3。音频识别设备可以将多个第二声学特征分别输入至声事件识别模型1、声事件识别模型2以及声事件识别模型3，确定待测音频信号对应的声事件是声事件识别模型1对应的声事件，声事件识别模型2对应的声事件，还是声事件识别模型3对应的声事件，具体的判断方式可以参考上述第三预设条件的方法，此处不再赘述。

本申请实施例提供的音频识别方法，先提取待测音频信号的第二声学特征，再基于声事件识别模型确定待测音频信号对应的声事件，通过第二声学特征可以更好的体现待测音频信号的特点，可以提高声事件检测的准确率。

作为一个可选的实施例，上述第一场景可以为马路场景，第一场景中可能出现的音频信号可以包括鸣笛的音频信号、警报的音频信号、撞击的音频信号或者车行驶而过的音频信号中的至少一个。相应的，第一场景对应的声事件识别模型可以包括以下至少一个：鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型或者车行驶而过的声音的声事件识别模型。

其中，鸣笛声的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为鸣笛声；警报声的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为警报声，撞击声的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为撞击声；车行驶而过的声音的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为车行驶而过的声音。

示例性地，图5示出了第一场景对应的声事件识别模型的示意性框图。如图5所示。第一场景可以为马路场景，第一场景对应的声事件识别模型包括：鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型以及车行驶而过的声音的声事件识别模型共4个声事件识别模型。音频识别设备可以将待测音频信号分别输入至该4个声事件识别模型，确定待测音频信号对应的声事件为该4个声事件识别模型对应的哪一个声事件。

作为一个可选的实施例，上述第一场景可以为地铁场景，第一场景中可能出现的音频信号可以包括列车行驶而过的声音、车厢撞击的声音或者地铁报站的声音中的至少一个。相应地，第一场景对应的声事件识别模型包括以下至少一个：列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型或者地铁报站的声音的声事件识别模型。

其中，列车行驶而过的声音的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为列车行驶而过的声音；车厢撞击的声音的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为车厢撞击的声音；地铁报站的声音的声事件识别模型用于基于音频信号识别该音频信号的声事件是否为地铁报站的声音。

示例性地，图6示出了第一场景对应的声事件识别模型的示意性框图。如图3所示。第一场景可以为地铁场景，第一场景对应的声事件识别模型包括：列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型以及地铁报站的声音的声事件识别模型共3个声事件识别模型。音频识别设备可以将待测音频信号分别输入至该3个声事件识别模型，确定待测音频信号对应的声事件为该3个声事件识别模型对应的哪一个声事件。

作为一个可选的实施例，第一场景可以为家居场景，第一场景中可能出现的音频信号可以包括吸尘器吸尘的声音、洗衣机洗衣服的声音、碗碟碰撞的声音、婴儿的哭声或者水龙头滴水的声音中的至少一个。相应地，第一场景对应的声事件识别模型包括以下至少一个：吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型或者水龙头滴水声的声事件识别模型。

示例性地，图7示出了第一场景对应的声事件识别模型的示意性框图。如图4所示。第一场景可以为家居场景，第一场景对应的声事件识别模型包括：吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型以及水龙头滴水声的声事件识别模型共5个声事件识别模型。音频识别设备可以将待测音频信号分别输入至该5个声事件识别模型，确定待测音频信号对应的声事件为该5个声事件识别模型对应的哪一个声事件。

可选地，第一场景对应的声事件识别模型还可以包括碎玻璃的声音的声事件识别模型或者敲门声的声事件识别模型中的至少一个。

作为一个可选的实施例，第一场景可以为办公室场景，第一场景中可能出现的音频信号可以包括电话铃声、敲击键盘的声音或者会议邀请的声音中的至少一个，相应地，第一场景对应的声事件识别模型包括以下至少一个：电话铃声的声事件识别模型、键盘声的声事件识别模型或者会议邀请声的声事件识别模型。

示例性地，图8示出了第一场景对应的声事件识别模型的示意性框图。如图5所示。第一场景可以为办公室场景，第一场景对应的声事件识别模型包括：电话铃声的声事件识别模型、键盘声的声事件识别模型以及会议邀请声的声事件识别模型共3个声事件识别模型。音频识别设备可以将待测音频信号分别输入至该3个声事件识别模型，确定待测音频信号对应的声事件为该3个声事件识别模型对应的哪一个声事件。

可选地，上述第一场景可以为公园场景，第一场景对应的声事件识别模型可以包括以下至少一个：狗叫声的声事件识别模型、猫叫声的声事件识别模型或者广播声的声事件识别模型中的至少一个。

需要说明的是，上述第一场景的示例仅仅为可能的实现方式，本申请实施例对此不作限定。

上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文中结合图1至图8，详细描述了本申请实施例提供的音频识别方法，下面将结合图9和图10，详细描述本申请实施例提供的音频识别装置。

图9示出了本申请实施例提供的一种音频识别装置900，该音频识别装置900包括：获取模块910和处理模块920。其中，获取模块910用于：获取待测音频信号；处理模块920用于：根据待测音频信号，确定待测音频信号的采集场景为第一场景；以及，使用第一场景对应的声事件识别模型基于待测音频信号确定待测音频信号标识的声事件，第一场景对应的声事件识别模型是使用第一场景中的音频信号训练得到的、用于基于音频信号识别第一场景中的声事件的神经网络模型。

可选地，待测音频信号包括多个音频帧；处理模块920还用于：将多个音频帧中的每个音频帧分别输入至场景识别模型，得到每个音频帧的场景信息，场景识别模型是使用多种场景中的音频帧训练得到的、用于基于音频帧确定音频帧的采集场景的神经网络模型，每个音频帧的场景信息用于指示每个音频帧的采集场景为多个场景中每个场景的概率；根据每个音频帧的场景信息，确定待测音频信号的采集场景为多个场景中的第一场景。

可选地，处理模块920还用于：统计多个音频帧中属于多个场景中每个场景的音频帧的数量；多个音频帧中属于多个场景中的第一场景的音频帧的数量满足第一预设条件，且多个音频帧中属于第一场景的音频帧对应的场景信息所指示的概率满足第二预设条件时，将第一场景确定为待测音频信号的采集场景。

可选地，场景识别模型是基于马路场景、地铁场景、家居场景或者办公室场景中至少一个场景中的音频帧训练得到的。

可选地，待测音频信号包括多个音频帧，第一场景对应的声事件识别模型包括至少一个声事件识别模型，至少一个声事件识别模型包括第一声事件识别模型，第一声事件识别模型是使用在第一场景中标识第一声事件的音频帧训练得到的；处理模块920还用于：将多个音频帧分别输入至第一声事件识别模型，得到多个音频帧标识的声事件信息，多个音频帧的声事件信息中的每个音频帧的声事件信息用于指示每个音频帧标识第一声事件的概率；当多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将第一声事件确定为待测音频信号标识的声事件。

可选地，第一音频帧标识的声事件信息满足第三预设条件，第一音频帧之前预设帧数中存在第二音频帧标识的声事件信息满足第四预设条件，则第二音频帧对应的时间点为第一声事件的开始时间点。

可选地，第一场景为马路场景，第一场景对应的声事件识别模型包括以下至少一个：鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型或者车行驶而过的声音的声事件识别模型。

可选地，第一场景为地铁场景，第一场景对应的声事件识别模型包括以下至少一个：列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型或者地铁报站的声音的声事件识别模型。

可选地，第一场景为家居场景，第一场景对应的声事件识别模型包括以下至少一个：吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型或者水龙头滴水声的声事件识别模型。

可选地，第一场景为办公室场景，第一场景对应的声事件识别模型包括以下至少一个：电话铃声的声事件识别模型、敲击键盘声的声事件识别模型或者会议邀请声的声事件识别模型。

应理解，这里的音频识别装置900以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选的例子中，本领域技术人员可以理解，音频识别装置900可以具体为上述方法实施例中的音频识别设备，或者，上述方法实施例中音频识别设备的功能可以集成在音频识别装置900中，音频识别装置900可以用于执行上述方法实施例中与音频识别设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述音频识别装置900具有实现上述方法实施例中音频识别设备执行的相应步骤的功能；上述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在本申请的实施例中，图9中的音频识别装置900也可以是芯片或者芯片系统，例如：片上系统(system on chip，SoC)。

图10是本申请实施例提供的另一种音频识别装置1000的示意性框图。该音频识别装置1000包括处理器1010、通信接口1020和存储器1030。其中，处理器1010、通信接口1020和存储器1030通过内部连接通路互相通信，该存储器1030用于存储指令，该处理器1010用于执行该存储器1030存储的指令，以控制该通信接口1020发送信号和/或接收信号。

应理解，音频识别装置1000可以具体为上述方法实施例中的音频识别设备，或者，上述方法实施例中音频识别设备的功能可以集成在音频识别装置1000中，音频识别装置1000可以用于执行上述方法实施例中与音频识别设备对应的各个步骤和/或流程。可选地，该存储器1030可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器1010可以用于执行存储器中存储的指令，并且该处理器执行该指令时，该处理器可以执行上述方法实施例中与音频识别设备对应的各个步骤和/或流程。

应理解，在本申请实施例中，该处理器1010可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，该计算机程序用于实现上述方法实施例中音频识别设备对应的方法。

本申请还提供了一种芯片系统，该芯片系统用于支持上述方法实施例中音频识别设备实现本申请实施例所示的功能。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序(也可以称为代码，或指令)，当该计算机程序在计算机上运行时，该计算机可以执行上述方法实施例所示的音频识别设备对应的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频识别方法，其特征在于，包括：

获取待测音频信号；

根据所述待测音频信号，确定所述待测音频信号的采集场景为第一场景；

使用所述第一场景对应的声事件识别模型基于所述待测音频信号确定所述待测音频信号标识的声事件，所述第一场景对应的声事件识别模型是使用所述第一场景中的音频信号训练得到的、用于基于音频信号识别所述第一场景中的声事件的神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述待测音频信号包括多个音频帧；

所述根据所述待测音频信号，确定所述待测音频信号的采集场景为第一场景，包括：

将所述多个音频帧中的每个音频帧分别输入至场景识别模型，得到所述每个音频帧的场景信息，所述场景识别模型是使用多种场景中的音频帧训练得到的、用于基于音频帧确定音频帧的采集场景的神经网络模型，所述每个音频帧的场景信息用于指示所述每个音频帧的采集场景为所述多个场景中每个场景的概率；

根据所述每个音频帧的场景信息，确定所述待测音频信号的采集场景为所述多个场景中的第一场景。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个音频帧的场景信息确定所述待测音频信号的采集场景为所述多个场景中的第一场景，包括：

统计所述多个音频帧中属于所述多个场景中每个场景的音频帧的数量；

所述多个音频帧中属于所述多个场景中的所述第一场景的音频帧的数量满足第一预设条件，且所述多个音频帧中属于所述第一场景的音频帧对应的场景信息所指示的概率满足第二预设条件时，将所述第一场景确定为所述待测音频信号的采集场景。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述场景识别模型是基于马路场景、地铁场景、家居场景或者办公室场景中至少一个场景中的音频帧训练得到的。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述待测音频信号包括多个音频帧，所述第一场景对应的声事件识别模型包括至少一个声事件识别模型，所述至少一个声事件识别模型包括第一声事件识别模型，所述第一声事件识别模型是使用在所述第一场景中标识第一声事件的音频帧训练得到的；

所述使用所述第一场景对应的声事件识别模型基于所述待测音频信号确定所述待测音频信号标识的声事件，包括：

将所述多个音频帧分别输入至所述第一声事件识别模型，得到所述多个音频帧标识的声事件信息，所述多个音频帧的声事件信息中的每个音频帧的声事件信息用于指示所述每个音频帧标识所述第一声事件的概率；

当所述多个音频帧中存在第一音频帧标识的声事件信息满足第三预设条件时，将所述第一声事件确定为所述待测音频信号标识的声事件。

6.根据权利要求5所述的方法，其特征在于，所述第一音频帧标识的声事件信息满足第三预设条件，所述第一音频帧之前预设帧数中存在第二音频帧标识的声事件信息满足第四预设条件，则所述第二音频帧对应的时间点为所述第一声事件的开始时间点。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一场景为马路场景，所述第一场景对应的声事件识别模型包括以下至少一个：

鸣笛声的声事件识别模型、警报声的声事件识别模型、撞击声的声事件识别模型或者车行驶而过的声音的声事件识别模型。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一场景为地铁场景，所述第一场景对应的声事件识别模型包括以下至少一个：

列车行驶而过的声音的声事件识别模型、车厢撞击的声音的声事件识别模型或者地铁报站的声音的声事件识别模型。

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一场景为家居场景，所述第一场景对应的声事件识别模型包括以下至少一个：

吸尘器吸尘声的声事件识别模型、洗衣机洗衣声的声事件识别模型、碗碟碰撞声的声事件识别模型、婴儿哭声的声事件识别模型或者水龙头滴水声的声事件识别模型。

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一场景为办公室场景，所述第一场景对应的声事件识别模型包括以下至少一个：

电话铃声的声事件识别模型、敲击键盘声的声事件识别模型或者会议邀请声的声事件识别模型。

11.一种音频识别装置，其特征在于，包括：

获取模块，用于获取待测音频信号；

处理模块，用于根据所述待测音频信号，确定所述待测音频信号的采集场景为第一场景；以及，

12.根据权利要求11所述的装置，其特征在于，所述待测音频信号包括多个音频帧；

所述处理模块还用于：

13.根据权利要求12所述的装置，其特征在于，所述处理模块还用于：

14.根据权利要求11至13中任一项所述的装置，其特征在于，所述场景识别模型是基于马路场景、地铁场景、家居场景或者办公室场景中至少一个场景中的音频帧训练得到的。

15.根据权利要求11至14中任一项所述的装置，其特征在于，所述待测音频信号包括多个音频帧，所述第一场景对应的声事件识别模型包括至少一个声事件识别模型，所述至少一个声事件识别模型包括第一声事件识别模型，所述第一声事件识别模型是使用在所述第一场景中标识第一声事件的音频帧训练得到的；

所述处理模块还用于：

16.根据权利要求15所述的装置，其特征在于，所述第一音频帧标识的声事件信息满足第三预设条件，所述第一音频帧之前预设帧数中存在第二音频帧标识的声事件信息满足第四预设条件，则所述第二音频帧对应的时间点为所述第一声事件的开始时间点。

17.根据权利要求11至16中任一项所述的装置，其特征在于，所述第一场景为马路场景，所述第一场景对应的声事件识别模型包括以下至少一个：

18.根据权利要求11至16中任一项所述的装置，其特征在于，所述第一场景为地铁场景，所述第一场景对应的声事件识别模型包括以下至少一个：

19.根据权利要求11至16中任一项所述的装置，其特征在于，所述第一场景为家居场景，所述第一场景对应的声事件识别模型包括以下至少一个：

20.根据权利要求11至16中任一项所述的装置，其特征在于，所述第一场景为办公室场景，所述第一场景对应的声事件识别模型包括以下至少一个：

21.一种音频识别装置，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，当所述处理器调用所述计算机程序时，使得所述装置执行如权利要求1至10中任一项所述的方法。

22.一种芯片系统，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片系统的设备实现如权利要求1至10中任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至10中任一项所述的方法的指令。

24.一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机实现如权利要求1至10中任一项所述的方法。