CN109697989B

CN109697989B - 音频数据处理方法、服务器及可读存储介质

Info

Publication number: CN109697989B
Application number: CN201811600852.9A
Authority: CN
Inventors: 吕巧
Original assignee: Shenzhen Skyworth Digital Technology Co Ltd
Current assignee: Shenzhen Xiaopai Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-03-16
Anticipated expiration: 2038-12-26
Also published as: CN109697989A

Abstract

本发明公开了一种音频数据处理方法，包括步骤：在远场语音设备的模式为离家模式时，获取所述远场语音设备录制的预设距离范围内的音频数据；判断所述音频数据是否含有人声；若否，则将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作。本发明还公开了一种服务器及可读存储介质。本发明能够将音频数据与数据库中的声音数据进行自动匹配，以根据匹配结果对应提示用户或自动滤除与家居安全无关的噪声，减少对用户不必要的提醒，使用户接收的提示信息更加准确。

Description

音频数据处理方法、服务器及可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种音频数据处理方法、服务器及可读存储介质。

背景技术

随着社会经济的发展和居民消费水平的提高，家庭中存放财务和珍贵物品的数量和价值也不断提高，当人们外出时，在一段时间内家中无人居住也无人看管，这种情况就给盗窃人员找到了可乘之机，因此出现了家居安防监控技术。目前常见的家居安防监控方法是通过视频监控或者声音监控。其中声音监控是预先录入家庭用户的声音作为模板，当录入的声音不属于模板中的声音时，会向用户终端发送提醒信息，但实质上录入的声音可能并非是盗窃人员产生的，例如可能是邻居装修以及房屋附近施工发出的声音，这使用户过多接收到与家居安全无关的干扰噪声，因此安防监控智能化程度不够。

发明内容

本发明提出的一种音频数据处理方法、服务器及可读存储介质，旨在解决用户过多接收到与家居安全无关的干扰噪声，安防监控智能化程度不够的问题。

为实现上述目的，本发明提供一种音频数据处理方法，包括步骤：

在远场语音设备的模式为离家模式时，获取所述远场语音设备录制的预设距离范围内的音频数据；

判断所述音频数据是否含有人声；

若否，则将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作。

可选地，所述获取所述远场语音设备录制的预设距离范围内的音频数据的步骤之后，还包括：

对所述音频数据的分贝值进行分析；

根据分析结果中的音频数据的分贝峰值，判断所述音频数据的分贝峰值是否大于第一预设分贝值；

若是，执行步骤：判断所述音频数据是否含有人声。

可选地，所述音频数据库中的声音数据包括非可疑音频数据和可疑音频数据；

将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户的步骤包括：

获取音频数据库中非可疑音频数据，并判断所述音频数据与所述音频数据库中非可疑音频数据是否匹配；

当所述音频数据与所述音频数据库中非可疑音频数据不匹配时，获取音频数据库中可疑音频数据，并判断所述音频数据与所述音频数据库中可疑音频数据是否匹配；

当所述音频数据与所述音频数据库中可疑音频数据匹配时，发出可疑声音提示信息至用户。

可选地，所述根据匹配结果对应执行音频数据的噪声滤除操作的步骤包括：

当所述音频数据与所述音频数据库中可疑音频数据不匹配时，对所述音频数据进行噪声滤除。

可选地，所述对所述音频数据进行噪声滤除的步骤包括：

获取所述音频数据大于第二预设分贝值时的持续时间，其中所述第二预设分贝值大于所述第一预设分贝值；

判断所述持续时间是否大于预设持续时间；

若是，则将所述音频数据设置为噪声滤除数据。

可选地，所述判断所述持续时间是否大于预设持续时间的步骤之后，还包括：

若否，则发出可疑声音提示信息至用户。

可选地，所述发出可疑声音提示信息至用户的步骤之前，还包括：

将所述音频数据设置为可疑音频数据，并更新音频数据库。

可选地，所述可疑声音提示信息包括所述音频数据，所述发送可疑声音提示信息至用户的步骤之后，还包括：

接收用户对可疑声音提示信息中的音频数据的反馈信息；

根据所述反馈信息更新音频数据库中的声音数据。

此外，为实现上述目的，本发明还提供一种服务器，所述服务器包括：通信模块、存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上所述的音频数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的音频数据处理方法的步骤。

本发明通过在远场语音设备的模式为离家模式时，获取所述远场语音设备录制的预设距离范围内的音频数据；判断所述音频数据是否含有人声；若否，则将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作。其中，当远场语音设备录制的在预设距离范围内的音频数据中不包含人声时，通过对音频数据的自动匹配，可以根据匹配结果滤除与家居安全无关的噪声，减少对用户不必要的提醒，使用户接收的提示信息更加准确，提高了安防监控智能化程度。

附图说明

图1是本发明实施例方案涉及的服务器的硬件结构示意图；

图2为本发明音频数据处理方法第一实施例的流程示意图；

图3为本发明音频数据处理方法第四实施例的流程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参看图1，图1为本发明所提供的服务器的硬件结构示意图。所述服务器可以包括通信模块10、存储器20以及处理器30等部件。在所述服务器中，所述处理器30分别与所述存储器20以及所述通信模块10连接，所述存储器20上存储有计算机程序，所述计算机程序同时被处理器30执行，所述计算机程序执行时实现下述方法实施例的步骤。

通信模块10，可通过网络与外部通讯设备连接。通信模块10可以接收外部通讯设备发出的请求，还可以发送请求、指令及信息至所述外部通讯设备。所述外部通讯设备可以是其他服务器和/或其他设备终端，其他设备终端例如为远程语音设备，所述远程语音设备可以是远程语音智能音响。

存储器20，可用于存储软件程序以及各种数据。存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如获取音频数据)等；存储数据区可包括数据库，存储数据区可存储根据服务器的使用所创建的数据或信息等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器30，是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器20内的软件程序和/或模块，以及调用存储在存储器20内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。处理器30可包括一个或多个处理单元；可选地，处理器30可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器30中。

尽管图1未示出，但上述服务器还可以包括电路控制模块，用于与电源连接，保证其他部件的正常工作。本领域技术人员可以理解，图1中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述硬件结构，提出本发明方法各个实施例。

请参照图2，图2为本发明音频数据处理方法第一实施例的流程示意图。在该实施例中，所述方法包括：

步骤S10，在远场语音设备的模式为离家模式时，获取所述远场语音设备录制的预设距离范围内的音频数据；

现在的家庭远场语音设备越来越多，远场语音的使用成了家庭娱乐生活的一部分，产品形态也丰富多彩，包括远场语音智能音箱、远场语音电视盒子、远场语音电视等等。

本实施例以远场语音设备为远场语音智能音箱进行举例说明，远场语音智能音箱配有多个麦克风，可形成麦克风阵列，用于录制一定范围内的音频数据。本实施例中远场语音设备可以在待机或运行时每间隔预设时间或实时录制音频数据，比较适合通过远场语音设备进行一些家庭安全甄别，本实施例中的远场语音设备有属于自己的序列号，序列号是识别远场语音设备的唯一标识，当用户开启远场语音设备的离家模式时，远场语音设备将序列号发送至服务器，相应的通知服务器开启离家模式。实际使用时，可以根据自己的需要设置开启离家模式立即开始采集音频数据，也可以是开启离家模式后的一段时间采集音频数据，例如，当用户设定为远场语音设备开启离家模式5min后开始采集音频数据，相应的服务器开启离家模式后休眠5min，5min内不采集音频数据，如果用户正在准备离家，用户自身产生的例如走路声等等的声音都会被远场语音设备采集，通过设定休眠时间后再进行音频录制可以无需采集用户未离家时自身发出的声音数据，考虑了远场语音设备所处的情境，减少干扰因素。

远场语音设备的麦克风可以在预设识别距离范围内获取声音信号，预设识别距离的设定与麦克风的功能和型号有关，例如，可将预设距离设置为5m，远场语音设备的麦克风可以采集5m内的音频数据。远场语音设备可按预设时间采集预设距离范围的实时音频数据，例如，预设时间为10s，远场语音设备可采集10s的实时音频数据，将每次采集的10s的实时音频数据压缩后发送至服务器。

步骤S20，判断所述音频数据是否含有人声；

本实施例中的人声识别的识别过程可以是获取远场语音设备采集的预设范围内的音频数据，并对音频数据进行解压并分析是否含有人声，其中获取的音频数据可以通过算法提取声音特征，例如可基于梅尔倒频谱算法提取声音特征，并将其转换成频谱图片；将人声频谱作为正样本，动物声音和杂音等非人声作为负样本，交由神经网络模型训练；基于训练产生的文件，生成可运行的预测模型，然后将音频数据通过预测模型以获取预测结果，从预测结果中可以知道音频数据中是否含有人声。当音频数据中含有人声时，说明存在可疑人员；当音频数据中不含人声时，并不代表没有可疑人员，也有可能是走路的声音以及其它不应该存在的声音，需要进一步判断甄别。

步骤S30，当所述音频数据不含有人声时，将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作。

其中，确定音频数据库的过程可以是：根据远场语音设备的序列号查找存储器中是否有id为此序列号的远场语音设备对应的音频数据库，如果没有查找到对应的音频数据库，可建立id为此序列号的远程语音设备的空白音频数据库，如果有对应的音频数据库，则获取其中的音频数据。进一步地，每个音频数据数据库中的声音数据可以分为可疑音频数据和非可疑音频数据。在获取了音频数据库中的声音数据后，可以将其与远场语音设备录制的音频数据进行匹配，可选地，由于录制的音频数据较长，可以将音频数据分成数据组进行匹配，但进一步建立过多的数据组在与声音数据进行匹配时会耗费过多的时间，导致匹配效率不高，因此可以解析音频数据，选择数据组中音频数据分贝峰值附近的数据组进行匹配，对于分贝值较小的区域不进行匹配，例如选择峰值附近两秒的数据进行匹配。此外，当匹配的是新建立的空白音频数据库时，可以在匹配之前，在空白的音频数据库中分别添加具有典型性代表性的M组可疑音频数据和非可疑音频数据作为比对数据组，其中M可以等于5。

进一步地，本实施例中可根据音频数据与音频数据库中的声音数据的匹配结果对音频数据做噪声滤除或者是发送提示信息至用户。所谓噪声滤除是根据匹配结果确认录制的音频数据为一些并非可疑数据的干扰声音，这一类音频数据虽然属于异常声音，但是它不属于可疑音频数据中的声音，例如可能是邻居家传来的装修声音或者是附近建筑工地传来的施工声音，这类音频数据属于干扰声音并不需要发送提示信息至用户，因此需要将这些音频数据滤除。当匹配结果显示该音频数据中存在可疑音频数据时，需要发送可疑声音提示信息至用户。

本实施例通过在远场语音设备的模式为离家模式时，获取所述远场语音设备录制的预设距离范围内的音频数据；判断所述音频数据是否含有人声；若否，则将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作。其中，当获取的远场语音设备在预设距离范围内音频数据中不包含人声时，通过对音频数据的智能匹配以滤除与家居安全无关的干扰噪声，减少对用户不必要的提醒，使用户接收的提示信息更加准确，提高了安防监控智能化程度。

进一步地，基于本发明音频数据处理方法的第一实施例提出本发明音频数据处理方法的第二实施例，在本实施例中，所述步骤S10之后，还包括：

步骤S40，对所述音频数据的分贝值进行分析；

步骤S41，根据分析结果中的音频数据的分贝峰值，判断所述音频数据的分贝峰值是否大于第一预设分贝值；若是，则执行步骤S20。

本实施例中对获取的实时音频数据的分贝值进行分析，获取音频数据每秒的分贝值，接着比较得到音频数据的分贝峰值，然后将音频数据分贝峰值与第一预设分贝值进行比较，例如，第一预设分贝值为40db，可以当声音分贝值在0db-40db时，认为远场语音设备处于一个比较安静环境状态，是一个相对安全的状态，不需要进行下一步甄别操作，可以返回继续获取远场语音设备录制的音频数据，或者，可以返回获取并确定远场语音设备的工作模式是否为离家模式，如果是再重新获取录制的音频数据；当声音分贝值在40db以上时，认为当前远场语音设备周围存在物体/人类发声，需要进一步结合人声进行可疑声音甄别。本方案通过加入声音分贝峰值的筛选，当分贝峰值高于第一预设分贝值时，才进行后续操作，减少了后续可疑数据的排查，提高了甄别效率。

进一步地，基于本发明音频数据处理方法的第一实施例提出本发明音频数据处理方法的第三实施例，在本实施例中，所述步骤S30包括：

步骤S31，获取音频数据库中非可疑音频数据，并判断所述音频数据与所述音频数据库中非可疑音频数据是否匹配；

步骤S32，当所述音频数据与所述音频数据库中非可疑音频数据不匹配时，获取音频数据库中可疑音频数据，并判断所述音频数据与所述音频数据库中可疑音频数据是否匹配；

步骤S33，当所述音频数据与所述音频数据库中可疑音频数据匹配时，发出可疑声音提示信息至用户；

步骤S34，当所述音频数据与所述音频数据库中可疑音频数据不匹配时，对所述音频数据进行噪声滤除。

本实施例音频数据与音频数据库中的声音数据匹配过程可以是先与音频数据库中的非可疑音频数据进行匹配之后再与可疑音频数据进行匹配。进一步音频数据在进行匹配时可以仅将音频数据的分贝峰值附近的数据作为匹配数据与音频数据库中声音数据进行比较，例如匹配数据可以是音频数据分贝峰值附近2s的音频数据，可以选择分贝峰值前一秒和后一秒的音频数据结合，也可以选择分贝峰值前2秒等等，在此不过多赘述。需要说明的是，在进行匹配操作时，可以通过数据相似度确认是否匹配，当数据相似度小于预设阈值时，认为音频数据不匹配，相反如果数据相似度大于或等于预设阈值时，认为音频数据匹配。例如，本实施例中可以当2s的音频数据与音频数据中非可疑音频数相似度达到90％，认为音频数据与非可疑音频数据匹配，该音频数据为非可疑声音。可以是将2s的音频数据与音频数据中可疑音频数据进行匹配，当2s的音频数据与音频数据中可疑音频数据的相似度达到90％，认为音频数据与音频数据中可疑音频数据匹配，该音频数据属于可疑声音，需要发送提示信息至用户，告知用户家中存在可疑声音。此外，还需要说明的是，当音频数据与音频数据中可疑音频数据不匹配，需要对该音频数据进行进一步噪声滤除。

通过音频数据与音频数据库中的非可疑音频数据以及可疑音频数据自动匹配，若音频数据与非可疑音频数据匹配，说明音频数据不属于可疑声音。当音频数据与非可疑音频数据不匹配时，需要进一步与可疑音频数据匹配。进一步当音频数据与可疑音频数据匹配时，需要通知用户家中有可疑声音，当音频数据与可疑音频数据不匹配时，需要先对音频数据进行噪声滤除。通过不同的匹配结果，对应进行噪声滤除或提示用户操作，能够从整体上减少干扰噪声对于用户的打扰，提高安防监控的智能化程度。

进一步地，基于本发明音频数据处理方法的第三实施例提出本发明音频数据处理方法的第四实施例，请参照图3，图3为本发明音频数据处理方法第四实施例的流程示意图，在本实施例中，所述步骤S34包括：

步骤S341，获取所述音频数据大于第二预设分贝值时的持续时间，其中所述第二预设分贝值大于所述第一预设分贝值；

步骤S342，判断所述持续时间是否大于预设持续时间；

步骤S343，当所述持续时间大于预设持续时间时，将所述音频数据设置为噪声滤除数据。

其中第二预设分贝值的大小可以根据实际需要进行设置，例如第二预设分贝值可设置为60db，声音分贝值大于60db，此时声音大小是有损听觉神经的，属于很吵闹的声音。预设持续时间可设置为5s。例如，当10s的音频数据中分贝峰值大于60db的音频数据未达到5s，则发送可疑声音提示信息至用户，告知用户住宅内存在可疑声音；当10s的音频数据中分贝峰值大于60db的音频数据有5s，将该音频数据设置为噪声滤除数据，音频数据虽然未能与音频数据库中的可疑声音数据和非可疑声音数据匹配成功，但该音频数据有可能是来自外界的干扰声音，例如邻居家装修电钻声或是来自附近施工的声音，需要被认定为是不属于用户住宅内的声音，可以自动将该音频数据认定为噪声滤除数据即可。用户也不必接收该异常声音的提示，可减少打扰用户的次数。

进一步地，在其他实施例中，还可以在根据持续时间确定音频数据为异常数据后且发送可疑声音提示信息至用户之前，将所述音频数据添加至音频数据库中的可疑音频数据中，并更新音频数据库中的声音数据。本方案能够对可疑音频数据进行自动更新，之后如果出现与该音频数据相似的音频数据可以直接判定为可疑声音，有利于提升效率。

进一步地，所述可疑声音提示信息包括音频数据，可以在发送可疑声音提示信息至用户之后，执行以下步骤：

接收用户对可疑声音提示信息中的音频数据的反馈信息；

根据所述反馈信息更新音频数据库中的声音数据。

本实施例中用户接收的提示信息包括音频数据，用户可以播放音频数据，当用户认为音频数据不属于可疑音频，用户可以将该信息进行反馈，根据用户对音频数据的反馈信息，将音频数据添加至非可疑音频数据，当用户认为该音频数据为可疑音频时，根据用户对该音频数据的反馈信息或者用户也可以不做反馈，无需对该音频所属数据库做调整。从而结合了用户的反馈意见，帮助完善音频数据库中的声音数据。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序。所述计算机可读存储介质可以是图1的终端中的存储器，也可以是如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘中的至少一种，所述计算机可读存储介质包括若干指令用以使得一台具有处理器的终端设备(可以是手机，计算机，服务器，终端，或者网络设备等)执行本发明各个实施例所述的方法。

在本发明中，术语“第一”“第二”“第三”“第四”“第五”仅用于描述的目的，而不能理解为指示或暗示相对重要性，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，本发明保护的范围并不局限于此，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和替换，这些变化、修改和替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权力要求的保护范围为准。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括步骤：

判断所述音频数据是否含有人声；

若否，则将音频数据与音频数据库中的声音数据进行匹配，并根据匹配结果对应发送可疑声音提示信息至用户或执行音频数据的噪声滤除操作；

其中，所述音频数据库中的声音数据包括非可疑音频数据和可疑音频数据；

2.如权利要求1所述的音频数据处理方法，其特征在于，所述获取所述远场语音设备录制的预设距离范围内的音频数据的步骤之后，还包括：

对所述音频数据的分贝值进行分析；

若是，执行步骤：判断所述音频数据是否含有人声。

3.如权利要求2所述的音频数据处理方法，其特征在于，所述根据匹配结果对应执行音频数据的噪声滤除操作的步骤包括：

4.如权利要求3所述的音频数据处理方法，其特征在于，所述对所述音频数据进行噪声滤除的步骤包括：

判断所述持续时间是否大于预设持续时间；

若是，则将所述音频数据设置为噪声滤除数据。

5.如权利要求4所述的音频数据处理方法，其特征在于，所述判断所述持续时间是否大于预设持续时间的步骤之后，还包括：

若否，则发出可疑声音提示信息至用户。

6.如权利要求5所述的音频数据处理方法，其特征在于，所述发出可疑声音提示信息至用户的步骤之前，还包括：

将所述音频数据设置为可疑音频数据，并更新音频数据库。

7.如权利要求1-6任一项所述的音频数据处理方法，其特征在于，所述可疑声音提示信息包括所述音频数据，所述发送可疑声音提示信息至用户的步骤之后，还包括：

接收用户对可疑声音提示信息中的音频数据的反馈信息；

根据所述反馈信息更新音频数据库中的声音数据。

8.一种服务器，其特征在于，所述服务器包括通信模块、存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-7任一项所述的音频数据处理方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的音频数据处理方法的步骤。