CN109669663B

CN109669663B - 音区幅值获取方法、装置、电子设备及存储介质

Info

Publication number: CN109669663B
Application number: CN201811628633.1A
Authority: CN
Inventors: 彭汉迎; 欧阳能钧
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-10-12
Anticipated expiration: 2038-12-28
Also published as: US20200211582A1; CN109669663A; US10811031B2; CN113986187A

Abstract

本发明实施例公开了一种音区幅值获取方法、装置、电子设备及存储介质，其中，所述方法包括：实时采集目标音区的语音数据，所述语音数据包括多个采样点对应的音频信号；通过如下方式对所述音频信号进行存储：将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号；根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值。本发明实施例可以准确获取音区幅值，从而根据该音区幅值准确地定位语音数据的来源音区，进而解决四音区隔离度不足导致的误唤醒问题，并为纠正语音引擎误唤醒提供幅值数据依据，而且计算量小，节约了系统资源。

Description

音区幅值获取方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及车载系统技术领域，尤其涉及一种音区幅值获取方法、装置、电子设备及存储介质。

背景技术

传统的车载语音识别技术方案都是围绕司机一个人服务的，前端麦克风的角度是对准主驾驶位来设计的，传统的车载导航、音乐、电话等应用功能也都是围绕司机来展开设计的，只需获取并识别司机的语音信号。随着应用需求的增多，车载四音区方案逐渐走入人们的视野。车载四音区方案是一款满足车内全员使用的车载语音系统。全车分为前后左右四个音区，能够对四个音区进行独立拾音，因此，只需识别出语音信号是来自哪个音区，即可实现针对不同的音区实现不同功能的语音控制。

由于汽车内的四个音区的麦克风所在的位置是处于同一个空间内，虽然可以通过麦克风模组算法对四个位置的语音制造一定的声音隔离度，但是四个位置说话的声音还是会有一部分传到其它位置的麦克风，从而影响对不同音区的语音信号的识别，例如，一个位置上通过语音唤醒某种功能，车辆上的语音引擎会误识别为其他三个位置同时唤醒。

现有技术中，通常会依据车载四音区幅值等参数，并利用特定算法来识别获取到的语音信号是来自于哪个音区，其中，音区幅值可以用来评估四个麦克风说话声音的大小，从而作为纠正语音引擎误唤醒的数据依据。然而，对于音区幅值的获取，现有技术通常是利用一段时间内的全部语音信号并通过计算处理得到。这种方法不仅会因计算量大而导致系统性能损耗较大，而且计算结果不准确，无法满足准确识别语音信号所属音区的需求。

发明内容

本发明实施例提供了一种音区幅值获取方法、装置、电子设备及存储介质，以解决现有技术中利用全部语音信号来确定音区幅值时，存在幅值计算结果不准确且计算量大的技术问题。

第一方面，本发明实施例提供了一种音区幅值获取方法，包括：

实时采集目标音区的语音数据，所述语音数据包括多个采样点对应的音频信号；

通过如下方式对所述音频信号进行存储：将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号；

根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值。

第二方面，本发明实施例还提供了一种音区幅值获取装置，包括：

采集模块，用于实时采集目标音区的语音数据，所述语音数据包括多个采样点对应的音频信号；

存储模块，用于通过如下方式对所述音频信号进行存储：将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号；

音区幅值计算模块，用于根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值。

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的音区幅值获取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的音区幅值获取方法。

本发明实施例提供的一种音区幅值获取方法、装置、电子设备及存储介质，在将实时采集的目标音区的语音数据所包括的音频信号依次进行存储的过程中，实时将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号，即对当前音频信号进行选择性存储，而并非对音频信号进行全部存储，然后再依据已经存储的音频信号的幅值计算出目标音区的当前音区幅值。由此可准确获取音区幅值，从而根据音区幅值准确地定位语音数据的来源音区，进而解决四音区隔离度不足导致的误唤醒问题，并为纠正语音引擎误唤醒提供幅值数据依据，而且计算量小，节约了系统资源。

附图说明

图1是本发明实施例一提供的一种音区幅值获取方法的流程示意图；

图2是本发明实施例二提供的一种音区幅值获取方法的流程示意图；

图3是本发明实施例三提供的一种音区幅值获取装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种音区幅值获取方法的流程图，本实施例可适用于车载终端需要获取车辆上不同音区的幅值，以根据各音区幅值识别语音信号的来源音区的情况，该方法可以由相应的音区幅值获取装置执行，该装置可以采用软件和/或硬件的方式实现，并可配置于电子设备上，例如车载终端。

如图1所示，本发明实施例中提供的音区幅值获取方法可以包括：

S110、实时采集目标音区的语音数据，语音数据包括多个采样点对应的音频信号。

通常，整车可分为前后左右四个音区，每个音区对应设置一个麦克风，以便对四个音区进行独立拾音，其中，四个麦克风可设置在四个车门位置处，例如车门窗口的顶部或底部。各个麦克风采集语音数据后，会按照一定的规则顺序进行排列，示例性的，排在第1-2位的两段语音数据是由第一麦克风采集的，排在第3-4位的两段语音数据是由第二麦克风采集的，排在第5-6位的两段语音数据是由第三麦克风采集的，排在第7-8位的两段语音数据是由第四麦克风采集的，排在第9-10位的两段录音数据是由第一麦克风采集的，以此类推，对各个麦克风采集的语音数据进行排列。

因此，实时采集目标音区的语音数据时，首先需要实时的通过车辆上的语音获取接口读取四个麦克风所采集的语音数据，并根据各个麦克风采集语音数据的排列规则，实时的从已读取的语音数据中分离出目标音区的语音数据。需要说明的是，所述目标音区可以是车载四音区中的任意一个音区。进一步的，由于音频是按照一定采样率通过采样获取到的完整音频数据，因此，读取到的目标音区的语音数据中包括多个采样点对应的音频信号。例如获取目标音区语音数据的频率是20ms，即每次获取到的录音数据时长都是20ms。而在此20ms的语音数据中，包括600个采样点，每个采样点对应一个音频信号，每个采样点对应的值即为对应音频信号的幅值。

S120、通过如下方式对所述音频信号进行存储：将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号。

每个音区可分别对应一个存储空间，用于存储该音区产生的语音数据，示例性的，针对任一音区，可预先为该音区创建一个用于存储语音数据的容器。而在具体存储时，将语音数据中各采样点对应的音频信号依次进行存储。

具体的，针对每次待存储的当前音频信号，是将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号，即选择性存储，而非全部存储。这里需要说明的是，现有技术通常是利用一段时间内的全部语音信号并通过计算处理得到。然而，一方面，有的语音信号会干扰到音区幅值的确定，因此，利用全部语音信号来确定幅值结果并不准确，另一方面，也会因计算量大而导致系统性能损耗较大。而在本发明实施例中，并不是将获取到的全部采样点对应的音频信号进行存储，而是根据待存储的当前音频信号的幅值与当前已经存储的音频信号的幅值之间的数值大小比较结果选择性存储。例如，可以按照存储规则，根据所述幅值大小比较关系将幅值较小的音频信号丢弃，不存储，从而既能排除一些干扰，也能降低计算量。

优选的，将实时采集到的目标音区的语音数据中各采样点对应的音频信号依次插入到预先创建的与该目标音区对应的容器中，并在插入过程中，如果任一待存储的当前音频信号的幅值大于当前容器中已插入的音频信号的幅值的最小值，则将待存储的当前音频信号的幅值替换所述最小值，否则丢弃当前音频信号。由此可实现循环把实时采集的语音数据中幅值最低的音频信号排除掉，可确保后续计算的音区幅值精准，体现出各音区的大音量部分，从而为准确识别语音信号的来源音区提供精准数据准备。

S130、根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值。

示例性的，可以将当前完成存储的全部音频信号的幅值进行求平均运算，利用得到的均值计算目标音区当前的音区幅值。此外，由于当前已存储的全部音频信号的幅值的均值并不不能直接反应用户的音量，因此还需通过数学运算将该均值转换成用户的音量，也即为目标音区当前的音区幅值。示例性的，可按公式F＝256*A进行运算，其中，F表示音区幅值，A表示当前已存储的全部音频信号的幅值的均值。

本发明实施例中，在将实时采集的目标音区的语音数据包括的音频信号依次进行存储的过程中，将待存储的当前音频信号的幅值与已存储的音频信号的幅值相比较，并根据比较结果选择是否存储当前音频信号，实现对当前待存储的音频信号的选择性存储，而并非对所有音频信号进行全部存储，然后再依据完成存储的全部音频信号的幅值和预设规则计算出目标音区当前的音区幅值。由此可准确获取音区幅值，从而根据音区幅值准确地定位语音数据的来源音区，进而解决四音区隔离度不足导致的误唤醒问题，并为纠正语音引擎误唤醒提供幅值数据依据，而且计算量小，节约了系统资源。

实施例二

图2为本发明实施例二提供的一种音区幅值获取方法的流程示意图。本实施例以上述实施例为基础进行优化，如图2所示，本发明实施例中提供的音区幅值获取方法可以包括：

S210、实时采集目标音区的语音数据，所述语音数据包括多个采样点对应的音频信号。

S220、将多个采样点对应的音频信号依次插入到预先创建的容器中，在插入过程中，为每个音频信号的幅值绑定对应的插入时间戳。

由于车载终端采集的语音数据均具有时效性，一段时间以前获取到的语音数据对当前音区幅值的计算没有意义，因此需要定期计算容器中所存储的语音存储时长，以进行及时的清理。示例性的，可通过语音数据存储时间与当前时间确定。因此需要记录语音数据存入容器的时间，例如，在向容器插入语音数据中一个采样点对应的音频信号时，则将当前时刻作为该音频信号的幅值对应的插入时间戳。

S230、在插入过程中，如果当前音频信号的幅值大于所述容器中已插入的音频信号的幅值的最小值，则将所述当前音频信号的幅值替换所述最小值；如果当前音频信号的幅值小于或等于所述容器中已插入的音频信号的幅值的最小值，则将所述当前音频信号丢弃。

通过比较当前音频信号的幅值和容器中已插入的音频信号的幅值之间的大小关系，将幅值较小的音频信号幅值丢弃，不存储，从而既能排除一些干扰，也能降低计算量。

S240、按照预设的清除周期，根据所述插入时间戳检测所述容器中是否存在超过预设丢弃时间的目标音频信号，如果检测出存在目标音频信号，则执行S250。如果检测出不存在目标音频信号，则表示无需进行清除。

S250、将目标音频信号的幅值在所述容器中对应的元素值置零。

为保证容器内存储的语音数据的时效，需要定期检查是否存在过期的语音数据，其中，检查周期可根据实际需求进行设定。示例性的，预先设置一个每隔预设时长自动运行的定时器，其中，预设时长即为检测周期，当定时器运行时，检测容器中各音频信号的幅值对应的插入时间戳与检测时对应的时间戳的差值，并判断该差值是否大于预设丢弃时间，若是，表明该音频信号已过期，则将该音频信号标记为目标音频信号，并将目标音频信号放入预设的目标音频信号集合中。

如果目标音频信号集合不为空，则表明该集合内存在目标音频信号均已过期，需要把目标音频信号集合内的目标音频信从容器内删除。示例性的，将目标音频信号的幅值在容器中对应的元素值置零即可实现删除操作。由此可完成对容器内数值的更新，保证后续计算音区幅值的准确性。

S260、计算容器中元素值非零的所有音频信号的幅值的均值，并依据该均值计算目标音区的当前音区幅值。

本实施例中，计算当前容器中元素值非零的所有音频信号的幅值的均值，然后按着公式F＝256*A进行运算求音区幅值，其中，F表示音区幅值，A表示当前容器中元素值非零的所有音频信号的幅值的均值。

本实施例通过在向容器存储音频信号时，同时为每个音频信号的幅值绑定对应的插入时间戳，周期性的检测并删除容器内的过期的音频信号，保证容器内数据的实效性，使得后续计算的音区幅值更准确。

实施例三

图3是本发明实施例三提供的一种音区幅值获取装置的结构示意图。如图3所示，该装置包括：

采集模块310，用于实时采集目标音区的语音数据，所述语音数据包括多个采样点对应的音频信号；

存储模块320，用于通过如下方式对所述音频信号进行存储：将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号；

音区幅值计算模块330，用于根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值。

本实施例中，存储模块将采集模块实时采集的目标音区的语音数据所包括的音频信号进行依次存储过程中，实时将待存储的音频信号的幅值与已存储的音频信号的幅值相比较，并根据比较结果选择是否存储当前音频信号，即实现对当前待存储的音频信号进行选择性存储，而并非对所有音频信号进行全部存储，然后再依据已经存储的音频信号的幅值计算出目标音区当前的音区幅值。由此可准确获取音区幅值，从而根据音区幅值准确地定位语音数据的来源音区，进而解决四音区隔离度不足导致的误唤醒问题，并为纠正语音引擎误唤醒提供幅值数据依据，而且计算量小，节约了系统资源。

在上述实施例的基础上，所述存储模块具体用于：

通过如下方式对所述音频信号进行存储：将所述多个采样点对应的音频信号依次插入到预先创建的容器中；

在插入过程中，如果当前音频信号的幅值大于所述容器中已插入的音频信号的幅值的最小值，则将所述当前音频信号的幅值替换所述最小值；如果当前音频信号的幅值小于或等于所述容器中已插入的音频信号的幅值的最小值，则将所述当前音频信号丢弃。

在上述实施例的基础上，所述装置还包括：

时间戳添加模块，用于在所述插入过程中，为每个音频信号的幅值绑定对应的插入时间戳；

检测模块，用于按照预设的清除周期，根据所述插入时间戳检测所述容器中是否存在超过预设丢弃时间的目标音频信号；

清除模块，用于如果检测出存在超过预设丢弃时间的目标音频信号，则将目标音频信号在所述容器中对应的元素值置零。

在上述实施例的基础上，所述音区幅值计算模块具体用于：

计算所述容器中元素值非零的所有音频信号的幅值的均值，并依据该均值计算目标音区的当前音区幅值。

本发明实施例所提供的音区幅值获取装置可执行本发明任意实施例所提供的音区幅值获取方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的音区幅值获取方法，包括：

实施例五

本发明实施例中提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种音区幅值获取方法，该方法包括：

当然，本发明实施例中所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例中所提供的音区幅值获取方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音区幅值获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将待存储的当前音频信号的幅值与已存储的各音频信号的幅值相比较，并根据比较结果选择是否存储所述当前音频信号，包括：

将所述多个采样点对应的音频信号依次插入到预先创建的容器中；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述插入过程中，为每个音频信号的幅值绑定对应的插入时间戳；

按照预设的清除周期，根据所述插入时间戳检测所述容器中是否存在超过预设丢弃时间的目标音频信号；

如果存在，则将目标音频信号的幅值在所述容器中对应的元素值置零。

4.根据权利要求3所述的方法，其特征在于，所述根据完成存储的全部音频信号的幅值计算所述目标音区的当前音区幅值，包括：

5.一种音区幅值获取装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述存储模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

清除模块，用于如果检测出存在超过预设丢弃时间的目标音频信号，则将目标音频信号的幅值在所述容器中对应的元素值置零。

8.根据权利要求7所述的装置，其特征在于，所述音区幅值计算模块具体用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的音区幅值获取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的音区幅值获取方法。