CN114220447B

CN114220447B - 音频信号处理方法、装置、电子设备以及存储介质

Info

Publication number: CN114220447B
Application number: CN202111519032.9A
Authority: CN
Inventors: 耿雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-03-17
Anticipated expiration: 2041-12-13
Also published as: CN114220447A

Abstract

本公开提供了音频信号处理方法、装置、电子设备以及存储介质，涉及计算机、人工智能技术领域，尤其涉及物联网、智能交通、语音技术等领域。具体实现方案为：响应于要利用音频信号处理模型对音频信号进行处理，存储音频信号；以及利用存储的音频信号对音频信号处理模型进行调试。

Description

音频信号处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机、人工智能技术领域，尤其涉及物联网、智能交通、语音技术等领域，具体地，涉及一种音频信号处理方法、装置、电子设备以及存储介质。

背景技术

音频信号处理模型是应用在远场语音交互、音视频通信等场景中的技术。通过回声消除、声音增强、降噪、波束形成等基础信号处理能力，对语音数据进行前置处理，优化接收端的听觉体验以及去除对于语音识别的噪声和回声干扰。

发明内容

本公开提供了一种音频信号处理方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种音频信号处理方法，包括：响应于要利用音频信号处理模型对音频信号进行处理，存储所述音频信号；以及利用存储的所述音频信号对所述音频信号处理模型进行调试。

根据本公开的另一方面，提供了一种音频信号处理装置，包括：第一存储模块，用于响应于要利用音频信号处理模型对音频信号进行处理，存储所述音频信号；以及利用存储的所述音频信号对所述音频信号处理模型进行调试。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开的音频信号处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的音频信号处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开的音频信号处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用音频信号处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的音频信号处理方法的流程图；

图3示意性示出了根据本公开一个实施例的终端设备的音频数字信号处理芯片的示例性结构图；

图4示意性示出了根据本公开另一实施例的终端设备的音频数字信号处理芯片的示例性结构图；

图5示意性示出了根据本公开一个实施例的终端设备中部分组件的示例性结构图；

图6示意性示出了根据本公开另一实施例的终端设备中部分组件的示例性结构图；

图7示意性示出了根据本公开实施例的音频信号处理装置的框图；以及

图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

音频信号处理模型可以应用于各种带有音频数字信号处理芯片的终端设备中，如可以应用于智能手机、智能音箱、智能电视、智能家居以及车载终端等应用当中。

例如，随着智能汽车的快速普及，车载系统也实现了智能化、网络化、个性化的发展，以及具备从互联网获得多媒体信息内容，并通过车载大屏进行展现的功能。与传统车载系统相比，智能汽车的车载系统需要服务于车内各个座位的乘客，以实现网络搜索、音视频点播、信息查询、视频通话和车辆控制等等各种互联网服务。

智能汽车的车载系统中包括大量的音视频内容、信息资讯等等多媒体信息。因此，语音交互和通话应用是车载系统非常重要且常用的功能，而在车内进行语音识别和通话，需要对各座位区域的语音信号进行采集并做降噪处理，提升音质，以提高语音识别率和通话质量，进而提升用户的语音交互和通话体验。

而如何进行车载多路语音交互和通话性能的在线调试，越来越受到车载产品人员以及语音和通讯开发人员的关注。

车载语音前端主要基于音频数字信号处理芯片实现。

发明人在实现本公开构思的过程中发现，基于音频数字信号处理芯片的音频信号处理模型的工作方式主要是单线程的工作方式，使得芯片上电后只能工作在一种模式下，即降噪模式或调试模式。两种模式不能共存，不能在语音识别的时候进行录音，只能拿到模型处理后的音频或原始的音频数据。工作在降噪模式下的后端应用，无论是语音识别，通信应用，还是语音唤醒，都很难同时获得最原始的麦克风信号和参考信号，导致无法进行在线调试、数据离线回归，无法进行针对性的优化调试。例如，在进行语音识别的同时，查看最原始的语音数据，如果识别效果差，会不容易知道是原始音频数据本身存在的问题，还是音频信号处理模型处理效果差的问题。其次，无法在线调试，就不能进行针对性的、有效的性能优化调试。不能进行有的放矢，无目的的调试浪费人力及时间成本，性能不能及时迭代，造成不好的产品体验。例如，通信应用更注重用户的听觉感官，对经由回声消除算法处理后的回声残留要求很高，需要做到没有回声；而语音识别对回声残留没有那么苛刻，该种应用上的差异可能会引起调试效果上的差异。此外，相应的调试方案的实现，还需要在芯片上预留额外的专门用于测试的硬件接口，并拆车机通过外接线的方式进行调试，非常不方便。

本公开提供了一种音频信号处理方法、装置、电子设备以及存储介质。该方法包括：响应于要利用音频信号处理模型对音频信号进行处理，存储音频信号；以及利用存储的音频信号对音频信号处理模型进行调试。

图1示意性示出了根据本公开实施例的可以应用音频信号处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用音频信号处理方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的音频信号处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通信客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是支持语音交互的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、车载终端、智能音箱、智能电视及其他智能家居等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual PrivateServer″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的音频信号处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的音频信号处理装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的音频信号处理方法一般也可以由服务器105执行，也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行，只需将相应的数据发送或拷贝至服务器端即可。

例如，在需要处理音频信号时，终端设备101、102、103可以获取音频信号，并响应于要利用音频信号处理模型对音频信号进行处理，存储该音频信号，并利用存储的该音频信号对音频信号处理模型进行调试。也可以将终端设备101、102、103获取的音频信号及设备中所包括的音频信号处理模型发送或拷贝至给服务器105，由服务器105利用存储的该音频信号对相应的音频信号处理模型进行调试。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群获取终端设备101、102、103所获取的音频信号及设备中所包括的音频信号处理模型，并实现利用存储的该音频信号对相应的音频信号处理模型进行调试。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的音频信号处理方法的流程图。

如图2所示，该方法包括操作S210～S220。

在操作S210，响应于要利用音频信号处理模型对音频信号进行处理，存储音频信号。

在操作S220，利用存储的音频信号对音频信号处理模型进行调试。

根据本公开的实施例，音频信号可以包括唤醒语音信号、语音识别信号和通信信号等其中至少之一。唤醒语音信号可以包括字段为预定义字段的语句，可以表征用于唤醒设备的音频信号。语音识别信号可以具有灵活的语音字段，可以表征在设备被唤醒之后，用于与设备本身进行交互的音频信号。通信信号可以包括具有预定义字段的语句，可以表征用于通过设备与设备中的应用或与设备所能访问的外部应用进行通信的音频信号。音频信号处理模型可以包括被配置为对唤醒语音信号进行处理的唤醒识别信号处理模型、被配置为对语音识别信号进行处理的语音识别信号处理模型以及被配置为对通信信号进行处理的通信信号处理模型等其中至少之一。

图3示意性示出了根据本公开一个实施例的终端设备的音频数字信号处理芯片的示例性结构图。

如图3所示，终端设备的音频数字信号处理芯片300可以包括麦克风阵列310、ADC(模数转换器)320、DSP(数字信号处理器)330。DSP 330中可以包括VAD(Voice ActivityDetection，语音活动检测)311，还可以预设有唤醒识别信号处理模型332、语音识别信号处理模型334和通信信号处理模型336。唤醒识别引擎333、语音识别引擎335和通信应用337可以分别接收经由唤醒识别信号处理模型332、语音识别信号处理模型334和通信信号处理模型336处理后的音频处理信号，以控制终端设备进行相应的响应。DSP 330中还预设有音频信号的直通模式338，可以实现对麦克风阵列310接收到的原始的mic(麦克风)信号的实时存储。

根据本公开的实施例，终端设备300可以为待机模式，且终端设备300所处的外界环境中没有多余的音频信号。在该种情况下，通过在音频数字信号处理芯片300中集成多线程的音频信号处理模型和音频信号的直通模式338，可以基于一个或多个线程，利用某一类或某多类音频信号处理模型对音频信号进行处理，然后，基于又一线程，存储音频信号。如图3所示，可以使得要利用唤醒识别信号处理模型332对唤醒语音信号进行处理处理的过程，要利用语音识别信号处理模型334对语音识别信号进行处理的过程，要利用通信信号处理模型336对通信信号进行处理的过程，以及存储唤醒语音信号、语音识别信号和通信信号其中至少之一的过程，以及利用存储的音频信号对音频信号处理模型进行调试的过程并行执行，实现响应于要利用音频信号处理模型对音频信号进行处理，存储音频信号，并利用存储的音频信号对音频信号处理模型进行调试。

通过本公开的上述实施例，同时进行的要利用音频信号处理模型对音频信号进行处理和存储音频信号等多个过程可以对应至多个线程，基于多线程处理模式，可以在利用音频信号处理模型对音频信号进行处理的同时存储原始的音频信号，可以实现基于原始音频信号进行模型调试，有利于提高调试效率及模型性能。

下面结合具体实施例，对图2所示的方法做进一步说明。

根据本公开的实施例，终端设备300还可以为开机运行模式，终端设备300所处的外界环境中可以有额外的音频信号。在该种情况下，音频信号处理方法可以包括：响应于接收到音频信号，获取与该音频信号相对应的参考信号。相关联地存储该音频信号和该参考信号。

根据本公开的实施例，参考信号可以包括与唤醒语音信号相对应的第一参考信号、与语音识别信号相对应的第二参考信号以及与通信信号相对应的第三参考信号等其中至少之一，且在此不进行限定。

图4示意性示出了根据本公开另一实施例的终端设备的音频数字信号处理芯片的示例性结构图。

如图4所示，终端设备的音频数字信号处理芯片400中还可以包括AEC(AcousticEcho Canceller，声学回声消除)439。在每次接收到音频信号的情况下，可以获取相应的参考信号。输入音频信号处理模型的信号可以是基于AEC 439，根据音频信号和参考信号，进行回声消除之后的信号。图4中所示的DSP 430中可以预设有音频信号和参考信号的直通模式438，可以实现对麦克风阵列410接收到的原始mic信号以及与该mic信号相对应的原始参考信号的实时存储。

图5示意性示出了根据本公开一个实施例的终端设备中部分组件的示例性结构图。

如图5所示，终端设备500中用于处理和存储音频信号的相关组件可以包括麦克风阵列510、ADC 520、DSP 530、主控芯片540、功率放大器550等。DSP 530可以作为处理器，可以内置各类音频信号处理模型532、534、536，以及音频信号的直通模式539等。主控芯片540可以作为存储器，可以内置各类应用引擎，如可以包括语音识别引擎535和通信应用537等。DSP 530和主控芯片540之间可以进行信息交互。

根据本公开的实施例，参见图5所示。在终端设备上电后默认的状态中，主控芯片540进入待机模式，数字信号处理芯片处于待唤醒的模式。在麦克风阵列510接收到唤醒语音信号的情况下，唤醒语音信号可以经ADC 520传输至DSP 530进行处理，在经由DSP 530中的唤醒识别信号处理模型532检测到唤醒词后，数字信号处理芯片可以触发唤醒Wakeup输出中断信号给主控芯片540，使主控芯片540进入正常工作模式。DSP 530中的语音识别信号处理模型534，通信信号处理模型536，以及将直通模式的原始mic和参考信号输入至主控芯片540进行存储或是上传到云端服务器进行存储等流程，可以同时工作，并通过相应的输出接口输出对应的音频信号至主控芯片540。主控芯片540可以通过相应的输入接口接收到的音频信号启动相应的应用。输出、输出接口例如可以包括USB(Universal Serial Bus，通用串行总线)、SPI(Serial Peripheral Interface，串行外设接口)、TDM(Testing DataManagement/Technical Data Management，时分复用模式)、I2S(Inter-IC Sound，集成电路内置音频总线)等。

需要说明的是，也可以在启动VAD或唤醒语音识别应用的情况下才对音频信号进行保存或上传。基于该方法，可以降低芯片功耗。

通过本公开的上述实施例，同时进行的接收到音频信号、获取与该音频信号相对应的参考信号以及存储音频信号和参考信号等多个过程可以对应至多个线程，基于多线程处理模式，可以在接收到音频信号的同时获取与音频信号相对应的参考信号，并存储音频信号和参考信号，可以实现基于原始的音频信号和参考信号进行模型调试，有利于提高调试效率及模型性能。

根据本公开的实施例，在存储的信号仅包括音频信号的情况下，存储音频信号可以包括：确定被配置为接收音频信号的第一硬件组件。经由第一硬件组件，将音频信号发送至第一存储组件进行存储。

根据本公开的实施例，可以通过扩展硬件组件的方式，既有该硬件组件提供一条用于将数据存储至存储器的存储通道，实现将要利用音频信号处理模型处理的音频信号进行存储。

根据本公开的实施例，第一硬件组件可以包括处理器、I/O接口等组件。第一存储组件可以包括存储器等。

通过本公开的上述实施例，可以基于硬件组件实现多个过程并行处理，实现在利用音频信号处理模型处理音频信号的同时，存储原始的音频信号。从而可以基于原始的音频信号，实现对模型的在线调试和离线回归调试，有利于提高调试效率及模型性能。

根据本公开的实施例，在存储的信号包括音频信号和参考信号的情况下，存储音频信号和参考信号可以包括：确定被配置为接收音频信号和参考信号的第二硬件组件。经由所述第二硬件组件，将音频信号和参考信号发送至第二存储组件进行存储。

图6示意性示出了根据本公开另一实施例的终端设备中部分组件的示例性结构图。

如图6所示，可以在终端设备600中以直通模式存在的原始mic和参考信号，配置独立的硬件组件660。基于硬件组件660和DSP 630相互独立的关系，可以实现在利用DSP 630中的音频信号处理模型对音频信号进行处理的同时，经由硬件组件660将音频信号发送至主控芯片640进行存储或上传到云端服务器进行存储。

通过本公开的上述实施例，可以基于硬件组件实现多个过程并行处理，实现在利用音频信号处理模型处理音频信号的同时，存储原始的音频信号和相应的参考信号。从而可以基于原始的音频信号和参考信号，实现对模型的在线调试和离线回归调试，有利于提高调试效率及模型性能。

需要说明的是，终端设备300、400、500、600可以表示相同的终端设备，也可以表示不同的终端设备。麦克风阵列310、410、510、610可以表示相同的麦克风阵列，也可以表示不同的麦克风阵列。ADC 320、420、520、620可以表示相同的模数转换器，也可以表示不同的模数转换器。DSP 330、430、530、630可以表示相同的数字信号处理器，也可以表示不同的数字信号处理器。主控芯片540、640可以表示相同的主控芯片，也可以表示不同的主控芯片。功率放大器550、650可以表示相同的功率放大器，也可以表示不同的功率放大器。VAD 331、431可以表示相同的语音活动检测单元，也可以表示不同的语音活动检测单元。唤醒识别信号处理模型332、432、532、632可以表示相同的模型，也可以表示不同的模型。唤醒识别引擎333、433可以表示相同的引擎，也可以表示不同的具有唤醒识别功能的引擎。语音识别信号处理模型334、434、534、634可以表示相同的模型，也可以表示不同的模型。语音识别引擎335、435、535、635可以表示相同的引擎，也可以表示不同的具有语音识别功能的引擎。通信信号处理模型336、436、536、636可以表示相同的模型，也可以表示不同的模型。通信应用337、437、537、637可以表示相同的应用，也可以表示不同的应用。直通模式338、438可以表示相同的模式，也可以表示不同的模式。

根据本公开的实施例，在音频信号包括多路音频信号，且存储的信号仅包括音频信号的情况下，存储音频信号可以包括：对多路音频信号进行加密处理或交织处理，得到经处理的第一目标音频信号。存储经处理的第一目标音频信号。

根据本公开的实施例，例如，车载音频数据硬件的标准音频接口只支持两路音频信号的输入，而实时获取的音频信号包括多路(大于两路)。在该种情况下，需要对多路音频信号进行交织。例如，可以将多路音频信号交织为两路，再通过标准音频接口将交织后的音频信号输入相应的音频数据硬件。在需要对音频信号进行处理时，可以首先执行相应的解交织操作，来获取各路音频信号。

根据本公开的实施例，可以对多路音频信号进行编码，交织成离线回归的格式，如TDM8、TDM16格式，或是8路PCM((Pulse Code Modulation，脉冲编码调制)、16路PCM、8路WAV(波形声音文件)、16路WAV等编码格式。

通过本公开的上述实施例，可以通过加密或交织的操作，对多路信号进行处理，使得多路信号能够实时且正常的上传至具有标准音频接口的硬件组件中，提高处理效率。

根据本公开的实施例，在音频信号和参考信号均包括多路信号，且存储的信号包括音频信号和参考信号的情况下，存储音频信号和参考信号可以包括：对多路音频信号和与多路音频信号相对应的多路参考信号进行加密处理或交织处理，得到经处理的第二目标音频信号。存储经处理的第二目标音频信号。

根据本公开的实施例，对多路音频信号相对应的多路参考信号进行交织处理的方式例如可以包括：首先确定与每路音频信号相对应的参考信号，然后，将各路音频信号以及与其相对应的参考信号作为一组，与其他组合并、实现交织。

例如，L表示mic信号，R表示参考信号，非交织和交织的数据可以分别表示如下。

非交织的数据：

L1

L2

L3

L4

…

R1

R2

R3

R4

…

交织的数据：

L1

R1

L2

R2

L3

R3

L4

R4

…

根据本公开的实施例，利用存储的音频信号对音频信号处理模型进行调试包括：利用存储的音频信号对音频信号处理模型进行在线调试和离线调试其中至少之一。

根据本公开的实施例，在线调试可以表征在实时获取到将要被存储的音频信号的情况下，在该音频数字信号处理芯片300中，利用实时获取的音频信号对相应的音频信号处理模型进行在线调试。离线调试可以表征获取存储的音频信号，在相应的模拟模型中进行离线回归调试。

通过本公开的上述实施例，可以根据实时存储的音频数据，对相应的音频信号处理模型进行在线和离线调试，有利于提高音频信号处理模型的性能。

根据本公开的实施例，音频信号可以包括时间戳信息和位置信息。时间戳信息可以表征音频信号的生成时间，位置信息可以表征用于采集音频信号的音频采集装置的位置。

根据本公开的实施例，例如，车辆中包括主驾、副驾、后排左侧、后排右侧等位置。位置信息可以表征用于采集音频信号的音频采集装置是安装于在车辆中的哪个座位处的音频采集装置。例如，在较为宽阔的环境中，也可以通过在环境范围内的不同位置分布式设置音频采集装置，来采集身处各位置的用户的语音信息，并可在采集到的音频信号中标记相应的位置信息和时间戳信息等。

需要说明的是，在音频信号中标记的信息可以不仅限于位置和时间戳两者，还可以根据实际场景标记有实际意义的其他属性信息，在此不进行限定。

通过本公开的上述实施例，基于标记有时间戳及位置信息的音频信号进行在线调试或离线回归调试，使得调试过程可以更优针对性，可以实现针对识别不好或是通话质量不好的时间点的录音进行专门的分析和优化。

通过本公开的上述实施例，可以在进行现场调试的情况下，大大提高在线调试效率，可以有的放矢，专门针对效果差的识别语句进行优化，还可以在复杂的测试环境进行有效调试。在进行算法调试的情况下，可以给算法提供原始的音频数据，可以有效进行问题追溯，并进行专项优化。此外，基于上述音频信号处理方法，可以无需额外预留专门的测试硬件接口，不用拆车机通过外接线的方式进行调试，可有效提升用户体验。

图7示意性示出了根据本公开实施例的音频信号处理装置的框图。

如图7所示，音频信号处理装置700包括第一存储模块710和调试模块720。

第一存储模块710，用于响应于要利用音频信号处理模型对音频信号进行处理，存储音频信号。

调试模块720，用于利用存储的音频信号对音频信号处理模型进行调试。

根据本公开的实施例，第一存储模块包括第一确定单元和第一发送单元。

第一确定单元，用于确定被配置为接收音频信号的第一硬件组件。

第一发送单元，用于经由第一硬件组件，将音频信号发送至第一存储组件进行存储。

根据本公开的实施例，音频信号包括多路音频信号。第一存储模块包括第一处理单元和第一存储单元。

第一处理单元，用于对多路音频信号进行加密处理或交织处理，得到经处理的第一目标音频信号。

第一存储单元，用于存储经处理的第一目标音频信号。

根据本公开的实施例，音频信号处理装置还包括获取模块和第二存储模块。

获取模块，用于响应于接收到音频信号，获取与音频信号相对应的参考信号。

第二存储模块，用于相关联地存储音频信号和参考信号。

根据本公开的实施例，第二存储模块包括第二确定单元和第二发送单元。

第二确定单元，用于确定被配置为接收音频信号和参考信号的第二硬件组件。

第二发送单元，用于经由第二硬件组件，将音频信号和参考信号发送至第二存储组件进行存储。

根据本公开的实施例，音频信号和参考信号均包括多路信号。第二存储模块包括第二处理单元和第二存储单元。

第二处理单元，用于对多路音频信号和与多路音频信号相对应的多路参考信号进行加密处理或交织处理，得到经处理的第二目标音频信号。

第二存储单元，用于存储经处理的第二目标音频信号。

根据本公开的实施例，调试模块包括调试单元。

调试单元，用于利用存储的音频信号对音频信号处理模型进行在线调试和离线调试其中至少之一。

根据本公开的实施例，音频信号包括时间戳信息和位置信息，时间戳信息表征音频信号的生成时间，位置信息表征用于采集音频信号的音频采集装置的位置。

根据本公开的实施例，参考信号包括如下中的至少之一：与唤醒语音信号相对应的第一参考信号、与语音识别信号相对应的第二参考信号以及与通信信号相对应的第三参考信号。

根据本公开的实施例，音频信号包括如下中的至少之一：唤醒语音信号、语音识别信号和通信信号。

根据本公开的实施例，音频信号处理模型包括如下中的至少之一：被配置为对唤醒语音信号进行处理的唤醒识别信号处理模型、被配置为对语音识别信号进行处理的语音识别信号处理模型以及被配置为对通信信号进行处理的通信信号处理模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开实施例的音频信号处理方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据本公开实施例的音频信号处理方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开实施例的音频信号处理方法。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如音频信号处理方法。例如，在一些实施例中，音频信号处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的音频信号处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频信号处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种车载音频信号处理方法，包括：

响应于要利用音频信号处理模型对音频信号进行处理，基于第一线程存储所述音频信号，其中，

所述基于第一线程存储所述音频信号包括：

响应于接收到所述音频信号，获取与所述音频信号相对应的参考信号；以及

基于所述第一线程，相关联地存储所述音频信号和所述参考信号；

所述要利用音频信号处理模型对音频信号进行处理的过程包括：

基于第二线程，将所述音频信号和所述参考信号输入回声消除模块，得到回声消除之后的信号；

将所述回声消除之后的信号输入所述音频信号处理模型；以及

利用所述音频信号处理模型对所述回声消除之后的信号进行处理；

利用存储的所述音频信号对所述音频信号处理模型进行调试，其中，所述基于第一线程存储所述音频信号的过程、所述要利用音频信号处理模型对音频信号进行处理的过程以及所述利用存储的所述音频信号对所述音频信号处理模型进行调试的过程并行执行，所述利用存储的所述音频信号对所述音频信号处理模型进行调试包括：利用存储的所述音频信号和所述参考信号对所述音频信号处理模型进行调试。

2.根据权利要求1所述的方法，其中，所述存储所述音频信号包括：

确定被配置为接收所述音频信号的第一硬件组件；以及

经由所述第一硬件组件，将所述音频信号发送至第一存储组件进行存储。

3.根据权利要求1或2所述的方法，其中，所述音频信号包括多路音频信号；

所述存储所述音频信号包括：

对所述多路音频信号进行加密处理或交织处理，得到经处理的第一目标音频信号；以及

存储所述经处理的第一目标音频信号。

4.根据权利要求1所述的方法，其中，所述存储所述音频信号和所述参考信号包括：

确定被配置为接收所述音频信号和所述参考信号的第二硬件组件；以及

经由所述第二硬件组件，将所述音频信号和所述参考信号发送至第二存储组件进行存储。

5.根据权利要求1或4所述的方法，其中，所述音频信号和所述参考信号均包括多路信号；

所述存储所述音频信号和所述参考信号包括：

对多路音频信号和与所述多路音频信号相对应的多路参考信号进行加密处理或交织处理，得到经处理的第二目标音频信号；以及

存储所述经处理的第二目标音频信号。

6.根据权利要求1所述的方法，其中，所述利用存储的所述音频信号对所述音频信号处理模型进行调试包括：

利用存储的所述音频信号对所述音频信号处理模型进行在线调试和离线调试其中至少之一。

7.根据权利要求1所述的方法，其中，所述音频信号包括时间戳信息和位置信息，其中，所述时间戳信息表征所述音频信号的生成时间，所述位置信息表征用于采集所述音频信号的音频采集装置的位置。

8.根据权利要求1所述的方法，其中，所述参考信号包括如下中的至少之一：

与唤醒语音信号相对应的第一参考信号、与语音识别信号相对应的第二参考信号以及与通信信号相对应的第三参考信号。

9.根据权利要求1所述的方法，其中，所述音频信号包括如下中的至少之一：

唤醒语音信号、语音识别信号和通信信号。

10.根据权利要求1所述的方法，其中，所述音频信号处理模型包括如下中的至少之一：

被配置为对唤醒语音信号进行处理的唤醒识别信号处理模型、被配置为对语音识别信号进行处理的语音识别信号处理模型以及被配置为对通信信号进行处理的通信信号处理模型。

11.一种车载音频信号处理装置，包括：

第一存储模块，用于响应于要利用音频信号处理模型对音频信号进行处理，基于第一线程存储所述音频信号，其中，

所述基于第一线程存储所述音频信号包括：

基于第二线程执行，将所述音频信号和所述参考信号输入回声消除模块，得到回声消除之后的信号；

利用所述音频信号处理模型对所述回声消除之后的信号进行处理；以及

调试模块，用于利用存储的所述音频信号对所述音频信号处理模型进行调试，其中，所述基于第一线程存储所述音频信号的过程、所述要利用音频信号处理模型对音频信号进行处理的过程以及所述利用存储的所述音频信号对所述音频信号处理模型进行调试的过程并行执行，所述利用存储的所述音频信号对所述音频信号处理模型进行调试包括：利用存储的所述音频信号和所述参考信号对所述音频信号处理模型进行调试。

12.根据权利要求11所述的装置，其中，所述第一存储模块包括：

第一确定单元，用于确定被配置为接收所述音频信号的第一硬件组件；以及

第一发送单元，用于经由所述第一硬件组件，将所述音频信号发送至第一存储组件进行存储。

13.根据权利要求11或12所述的装置，其中，所述音频信号包括多路音频信号；

所述第一存储模块包括：

第一处理单元，用于对所述多路音频信号进行加密处理或交织处理，得到经处理的第一目标音频信号；以及

第一存储单元，用于存储所述经处理的第一目标音频信号。

14.根据权利要求11所述的装置，其中，所述第二存储模块包括：

第二确定单元，用于确定被配置为接收所述音频信号和所述参考信号的第二硬件组件；以及

第二发送单元，用于经由所述第二硬件组件，将所述音频信号和所述参考信号发送至第二存储组件进行存储。

15.根据权利要求11或14所述的装置，其中，所述音频信号和所述参考信号均包括多路信号；

所述第二存储模块包括：

第二处理单元，用于对多路音频信号和与所述多路音频信号相对应的多路参考信号进行加密处理或交织处理，得到经处理的第二目标音频信号；以及

第二存储单元，用于存储所述经处理的第二目标音频信号。

16.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。