CN115910047A - 数据处理方法、模型训练方法、关键词检测方法及设备 - Google Patents

数据处理方法、模型训练方法、关键词检测方法及设备 Download PDF

Info

Publication number
CN115910047A
CN115910047A CN202310017387.0A CN202310017387A CN115910047A CN 115910047 A CN115910047 A CN 115910047A CN 202310017387 A CN202310017387 A CN 202310017387A CN 115910047 A CN115910047 A CN 115910047A
Authority
CN
China
Prior art keywords
audio
channel
type
keyword detection
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310017387.0A
Other languages
English (en)
Other versions
CN115910047B (zh
Inventor
纳跃跃
王子腾
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202310017387.0A priority Critical patent/CN115910047B/zh
Publication of CN115910047A publication Critical patent/CN115910047A/zh
Application granted granted Critical
Publication of CN115910047B publication Critical patent/CN115910047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Stereophonic System (AREA)

Abstract

本发明实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备。数据处理方法包括:获取多个单通道的第一类音频,第一类音频包括预设关键词;基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量;对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。本实施例提供的技术方案,有效地实现了基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了训练数据的数量,提高了关键词检测模型的训练质量和效果,进而提高了该方法的实用性。

Description

数据处理方法、模型训练方法、关键词检测方法及设备
技术领域
本发明涉及音频处理技术领域,尤其涉及一种数据处理方法、模型训练方法、关键词检测方法及设备。
背景技术
关键词检测(Keyword Spotting,简称KWS)即通常所说的音频唤醒,指的是一系列从实时音频流中检测出若干预定义关键词的技术。随着远讲免提音频交互(distant-talking hands free speech interaction)技术的发展,关键词检测及其配套技术也变得越来越重要。类比于人和人交互时先喊对方的名字一样,关键词就好比智能设备的“名字”,而关键词检测模块则相当于交互流程的触发开关。
目前,关键词检测方法包括多通道的关键词检测方法,这类算法的基本思想是将多通道信号的特征进行拼接后进行训练,从而获得一个多个通道信号作为输入、单输出的系统。但是,由于多通道的实际数据比较难获取,使得关键词检测模型的训练数据数量有限,进而降低了关键词检测模型的训练质量和效果。
发明内容
本发明实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备,能够基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了训练数据的数量,提高了关键词检测模型的训练质量和效果。
第一方面,本发明实施例提供一种数据处理方法,包括:
获取多个单通道的第一类音频,所述第一类音频包括预设关键词;
基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;
对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。
第二方面,本发明实施例提供一种数据处理装置,包括:
第一获取模块,用于获取多个单通道的第一类音频,所述第一类音频包括预设关键词;
第一生成模块,用于基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;
第一处理模块,用于对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的数据处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的数据处理方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第一方面中的数据处理方法中的步骤。
第六方面,本发明实施例提供了一种模型训练方法,包括:
获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
确定与多通道的音频信息相对应的音频特征;
基于所述音频特征和所述预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
第七方面,本发明实施例提供了一种模型训练装置,包括:
第二获取模块,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
第二确定模块,用于确定与多通道的音频信息相对应的音频特征;
第二训练模块,用于基于所述音频特征和所述预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
第八方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第六方面中的模型训练方法。
第九方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第六方面中的模型训练方法。
第十方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第六方面中的模型训练方法中的步骤。
第十一方面,本发明实施例提供了一种关键词检测方法,包括:
获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
确定与多个通道的音频信息相对应的多通道的表征向量;
对多通道的表征向量进行最大池化处理,获得单通道特征;
基于所述单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
第十二方面,本发明实施例提供了一种关键词检测装置,包括:
第三获取模块,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
第三确定模块,用于确定与多个通道的音频信息相对应的多通道的表征向量;
第三处理模块,用于对多通道的表征向量进行最大池化处理,获得单通道特征;
第三处理模块,还用于基于所述单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
第十三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十一方面中的关键词检测方法。
第十四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十一方面中的关键词检测方法。
第十五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第十一方面中的关键词检测方法中的步骤。
本实施例提供的数据处理方法、模型训练方法、关键词检测方法及设备,通过获取多个单通道的第一类音频,其中,所获得的第一类音频中包括预设关键词,而后基于多个单通道的第一类音频生成一单通道的第二类音频,需要注意的是,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量,即第二类音频相对于第一类音频而言,属于长音频,为了能够生成多通道的第二类音频,则可以对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,上述过程有效地实现了将多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了关键词检测模型的训练数据数量,提高了关键词检测模型的训练质量和效果,这样有效地提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的场景示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的另一种数据处理方法的流程示意图;
图4为本发明实施例提供的一种模型训练方法的流程示意图;
图5为本发明实施例提供的关键词检测模型的结构示意图;
图6为本发明实施例提供的一种关键词检测方法的流程示意图;
图7为本发明应用实施例提供的一种模型训练过程的原理示意图;
图8为本发明应用实施例提供的一种多通道关键词检测过程的原理示意图;
图9为本发明实施例提供的一种数据处理装置的结构示意图;
图10为与图9所示实施例提供的数据处理装置对应的电子设备的结构示意图;
图11为本发明实施例提供的一种模型训练装置的结构示意图;
图12为与图11所示实施例提供的模型训练装置对应的电子设备的结构示意图;
图13为本发明实施例提供的一种关键词检测装置的结构示意图;
图14为与图13所示实施例提供的关键词检测装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
术语定义:
语音增强(Speech Enhancement,简称SE):通常情况下,麦克风采集到的信号信噪比较低,不利于后续的识别和唤醒处理。语音增强的作用就是通过算法处理,提高目标语音的信噪比和语音可懂度,便于后续的人机交互。
关键词检测(Keyword Spotting,简称KWS):即俗称的语音唤醒,设备连续监听某一预定义好的关键词,当检测到关键词出现时,说明有人机交互需求,则启动相应的交互流程。
可扩展性(scalability):对于不同的设备,其应用场景、硬件配置、麦克风数目、语音增强算法都各不相同,所以语音增强算法输出的增强通道数也会有所不同。所谓可扩展性指的是关键词检测算法需要具有适配不同通道数目的能力。一方面,关键词检测算法需要兼容不同通道数目的输入,另一方面,关键词检测性能不能随着通道数目的变化而显著降低。
较佳的通道选择:目前较为普遍的语音交互架构是在设备端进行多通道语音增强和关键词检测,而云端的语音识别、语义理解等任务仍然采用单通道的音频输入。所以当设备端检测到关键词后,需要选择出目标语音质量较好的通道,将该通道的音频送往云端进行后续处理。
为了能够理解本实施例中技术方案的具体实现过程,下面先对相关技术进行说明:
关键词检测(keyword spotting,简称KWS)即通常所说的语音唤醒,指的是一系列从实时音频流中检测出若干预定义关键词的技术。随着远讲免提语音交互(distant-talking hands free speech interaction)技术的发展,关键词检测及其配套技术也变得越来越重要。类比于人和人交互时先喊对方的名字一样,关键词就好比智能设备的“名字”,而关键词检测模块则相当于交互流程的触发开关。
为了应对远讲免提语音交互过程中所出现的设备回声、人声干扰、环境噪声、房间混响等诸多不利声学因素的影响,关键词检测通常需要配合语音增强来使用。语音增强以单通道或多通道麦克风/参考信号为输入,针对各种不利声学因素进行去混响、回声消除、源信号分离、噪声与残余抑制、增益控制等处理,输出语音信噪比较高的信号给关键词检测模块,使得关键词更容易被检出。
由于语音增强大多采用基于物理建模的信号处理方法,其增强过程只能利用某些底层的物理假设,例如:源信号的独立性、声源方位、理想噪声模型等信息,做到对几个源信号的分离,或是针对某些特定方位的信号进行增强处理。所以,语音增强一般会输出多路信号,而在缺乏关于目标声源先验信息指导的情况下,单凭信号处理算法无法判断出哪路输出是目标声源,即包含关键词信噪比最高的输出通道(假设环境是短时稳定的,则可以认为关键词之后的交互命令在目标通道中的信噪比也最高)。
另一方面,对预定义关键词的检测能力可以理解为一定意义上的语义或交互意图辨别能力,或是通过海量数据训练所得的某种先验指导信息。使用该信息有利于对目标通道进行选择,以便于开展后续的数据传输、语音识别等交互流程。所以,针对多输出语音增强的关键词检测算法除了需要实现多通道信息融合并实现关键词的成功检出之外,还需要具备对目标声源通道进行选择的能力。
当前,关键词检测方法大多为单通道的方法,例如,文献Guoguo Chen, CarolinaParada, and Georg Heigold,“Small-footprint keyword spotting using deep neuralnetworks,” in 2014 IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP).IEEE,2014,pp.4087–4091等。单通道的方法并不能直接用于多通道关键词检测。而需要对单通道关键词检测方法进行调整,目前,单通道关键词检测扩展为多通道关键词检测方法就是利用“或”的逻辑将多路单通道关键词检测算法并联起来,其中,任何一路信号中检测到关键词即算检出,之后采用关键词的置信度、语音信噪比估计等信息来进行通道选择。
上述并联的方案虽然实现简单,但是存在以下问题:
(1)虚警问题,由于多路信号中虚警发生的概率可以近似认为是相互独立的,所以每增加一个通道,虚警就比单通道的关键词检测近似增加一倍;
(2)计算量问题,每增加一个通道,整体计算量比单通道关键词检测也随之增加一倍;
(3)系统的复杂性问题,由于各路关键词检测上报事件的机制也是相互独立的,所以经常会发生信噪比高的通道后唤醒的情况,所以需要复杂的缓存和等待逻辑来对事件和数据进行同步,从而增加了系统的复杂性;
(4)通道选择的正确率问题,实验表明,采用置信度、信噪比估计进行通道选择在某些应用场景中效果较差,会显著影响后续的交互性能。
为了解决上述多通道关键词检测的问题,研究者们提出了相应的多通道关键词检测算法,例如,文献Wu,Jilong,et al.“Small footprint multi-channel keywordspotting.”(2020).等。上述算法的基本思想是将多通道信号的特征进行拼接后送给关键词检测模型进行训练,从而可以获得一个多输入、单输出的系统。由于只有一个输出,所以这类方法首先解决了唤醒事件同步的问题;另外,由于多路拼接操作一般只出现在神经网络的第一层,所以与上述多个单路模型并联的方法相比,多通道模型推理的计算量不会随着通道数的增加而成倍增长。之后再配合相应的模型测试和阈值选择策略,多通道模型也有望克服上述简单并联方法中虚警率成倍增长的问题。
但是,上述方法的缺点在于缺乏可扩展性(scalability),具体的,在将多个单通道的数据拼接为N个通道的数据时,神经网络的结构就已经固定了,所以N通道的关键词模型只能适配N输出的语音增强算法,对于关键词相同但输出信号数目不同的应用来说就必须重新训练专门的模型来进行匹配,从而增加了模型训练和维护成本。
为了解决上述技术问题,本应用实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备,该数据处理方法的执行主体可以为数据处理装置,数据处理装置能够将多个单通道、短音频数据模拟处理成一个或多个多通道、长音频数据。具体的,该数据处理装置可以实现为本地服务器或者云端的服务器,此时,该数据处理方法可以在云端来执行,在云端可以部署有若干计算节点(云服务器),每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(Application Programming Interface,简称API)等形式。
具体的,参考附图1所示,该数据处理装置可以通信连接有客户端或者请求端,针对本发明实施例提供的方案,云端可以提供有数据处理服务的服务接口,用户通过客户端/请求端调用该数据处理服务接口,以向云端触发调用该数据处理服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行数据处理的具体处理操作。
客户端/请求端可以是任何具有一定数据传输能力的计算设备,具体实现时,客户端/请求端可以是手机、个人电脑PC、平板电脑、设定应用程序等等。此外,客户端/请求端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端/请求端的配置和类型。客户端/请求端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端/请求端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
数据处理装置是指可以在网络虚拟环境中提供数据处理服务的设备,通常是指利用网络进行信息规划、数据处理操作的装置。在物理实现上,数据处理装置可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。数据处理装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端可以与数据处理装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端与数据处理装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G、6G等中的任意一种。
在本申请实施例中,客户端可以生成、存储或者获取多个单通道的第一类音频,上述的第一类音频可以包括预设关键词,预设关键词可以为预设设备(扫地机器人、电视机、电冰箱、洗衣机、音箱、电灯等等)的唤醒词,上述的预设关键词用于唤醒预设设备。另外,第一类音频可以为时长小于或等于预设时长的短音频,或者,第一类音频可以为字符数量小于或等于预设数量的短音频,为了能够获得数量足够多的多通道的长音频,可以将多个单通道的第一类音频发送至数据处理装置,以实现数据处理操作。
数据处理装置,用于接收并获取到客户端所发送的多个单通道的第一类音频,而后对多个单通道的第一类音频进行分析处理,从而可以生成一单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量,即第二类音频可以为字符数量大于预设数量的长音频,或者,第二类音频可以为时长大于预设时长的长音频,由于上述的第二类音频是单通道的,因此,可以对第二类音频进行多通道的模拟传递操作,从而可以获得多通道的目标音频,所生成的多通道的目标音频可以作为关键词检测模型的训练数据,以通过目标音频进行关键词检测模型的训练操作,由于目标音频是通过多个单通道的第一类音频所生成的,即通过随机数量的多个单通道的第一类音频可以生成任意数量的多通道的第二类音频,从而保证了目标音频的生成数量,而后基于所生成的目标音频进行关键词检测模型的训练操作,保证了关键词检测模型的质量和效果。
本实施例提供的技术方案,通过获取多个单通道的第一类音频,第一类音频包括预设关键词,而后基于多个单通道的第一类音频生成一单通道的第二类音频,由于第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量,为了能够生成多通道的第二类音频,则可以对第二类音频进行多通道的模拟传递操作,从而可以获得多通道的目标音频,有效地实现了基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了对关键词检测模型进行训练时所需要的训练数据的数量,提高了关键词检测模型的训练质量和效果,这样有效地提高了该方法的实用性,有利于市场的推广与应用。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明实施例提供的一种数据处理方法的流程示意图;参考附图2所示,本实施例提供了一种数据处理方法,该方法的执行主体可以为数据处理装置,可以理解的是,该数据处理装置可以实现为软件、或者软件和硬件的组合,具体的,在数据处理装置实现为硬件时,其具体可以是具有数据处理操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当数据处理装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的数据处理装置,本实施例中的数据处理方法可以包括以下步骤:
步骤S201:获取多个单通道的第一类音频,第一类音频包括预设关键词。
步骤S202:基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量。
步骤S203:对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。
下面对上述各个步骤的具体实现原理和实现效果进行详细说明:
步骤S201:获取多个单通道的第一类音频,第一类音频包括预设关键词。
其中,多个单通道的第一类音频是指至少两个通道的第一类音频,在一预设空间内,多个单通道的第一类音频可以包括来自多个不同声源的音频信息,或者,多个单通道的第一类音频可以包括来自同一个声源的不同音频信息,例如:多个单通道的第一类音频可以包括:语音信息和在传递语音信息时所存在的干扰噪声等等。另一方面,对于第一类音频而言,为了能够实现关键词检测操作,第一类音频可以包括预设关键词,该预设关键词用于作为预设设备的唤醒词,上述的预设设备可以包括电视机、电冰箱、扫地机器人、空调、洗衣机、音箱、语音盒子等等,不同的预设设备可以对应有不同的预设关键词,例如:“天猫精灵”、“精灵”等等。
另外,对于第一类音频而言,为了方便进行数据采集操作和数据处理操作,所获得的第一类音频可以看作为是短音频,该短音频可以是指时长小于预设时长的音频,其中,预设时长可以为5s、10s或者15s等预先配置好的用于识别是否为短音频的时长阈值,或者,短音频可以是指字符数量小于预设数量的音频,上述的预设数量可以为10个、15个、20个或者25个等预先配置好的用于识别是否为短音频的字符数量阈值。
此外,本实施例对于多个单通道的第一类音频的具体获取方式不做限定,在一些实例中,多个单通道的第一类音频可以存储在预设区域(例如:预设数据库、云数据库、云服务器、预设存储区等等)中,通过访问预设区域即可获取多个单通道的第一类音频;或者,多个单通道的第一类音频可以存储在第三设备中,第三设备与数据处理装置通信连接,通过第三设备可以主动或者被动地获取到多个单通道的第一类音频。在一些实例中,第三设备可以实现为音频采集装置,此时,多个单通道的第一类音频可以是通过音频采集装置进行实际采集获得,而后音频采集装置可以主动或者被动地将所获得的多个单通道的第一类音频发送至数据处理装置,从而使得数据处理装置可以稳定地获取到多个单通道的第一类音频。
步骤S202:基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量。
由于第一类音频往往是比较容易获得的单通道的短类型音频,若基于第一类音频进行关键词检测模型的训练操作,无法覆盖大部分的应用场景,进而无法保证关键词检测模型的训练质量和效果。因此,在获取到多个单通道的第一类音频之后,可以对多个单通道的第一类音频进行分析处理,从而可以生成一单通道的第二类音频,该第二类音频的时长可以大于第一类音频的时长,或者,第二类音频的字符数量可以多于第一类音频的字符数量,即说明相对于第一类音频而言,第二类音频可以看作为长音频,该长音频可以是指时长大于或等于预设时长的音频,其中,预设时长可以为5s、10s或者15s等预先配置好的用于识别是否为长音频的时长阈值,或者,长音频可以是指字符数量大于或等于预设数量的音频,上述的预设数量可以为15个、20个或者25个等预先配置好的用于识别是否为长音频的字符数量阈值。
可以理解的是,用于识别是否为长音频的时长阈值或者字符数量阈值可以与用于识别是否为短音频的时长阈值或者字符数量阈值为相同的时长阈值或者字符数量阈值。举例来说,在用于识别是否为短音频的时长阈值为15s时,对于一个音频而言,若该音频的时长大于或等于15s,则可以确定该音频为第二类音频;若该音频的时长小于15s,则可以确定该音频为第一类音频。相类似的,在用于识别是否为短音频的字符数量阈值为20个时,对于一个音频而言,若该音频中所包括的字符数量大于或等于20个,则可以确定该音频为第二类音频;若该音频中所包括的字符数量小于20个,则可以确定该音频为第一类音频。
另外,本实施例对于第二类音频的生成方式不做限定,在一些实例中,第二类音频可以是通过多个单通道的第一类音频进行拼接所生成的,此时,对多个单通道的第一类音频进行拼接处理,从而可以生成一个单通道的第二类音频。为了能够保证第二类音频的数量足够多、且所生成的第二类音频具有多样性,基于多个单通道的第一类音频,生成一单通道的第二类别音频可以包括:在多个单通道的第一类音频中,随机选择多个第一类音频;对所选择的多个第一类音频进行拼接处理,生成第二类音频。
举例来说,多个单通道的第一类音频可以包括音频1、音频2、音频3、音频4、音频5、音频6,而后利用随机算法在上述多个第一类音频中选择多个第一类音频,例如,选择音频1和音频2,而后可以对音频1和音频2进行拼接处理,从而可以生成一个第二类音频。再例如,选择音频1和音频2、音频2与音频4与音频5、音频3与音频5,而后可以分别对音频1和音频2、音频2与音频4与音频5、音频3与音频5进行拼接处理,从而可以生成三个单通的第二类音频,并且,任意两个第二类音频不相同。
在另一些实例中,第二类音频不仅可以通过对第一类音频信息拼接处理所生成,还可以通过预先训练好的神经网络模型或者机器学习模型所获得,此时,基于多个单通道的第一类音频,生成单通道的第二类音频可以包括:获取预先训练好的神经网络模型或者机器学习模型,上述的神经网络模型或者机器学习模型用于基于多个第一类音频生成一个或多个单通道的第二类音频,确定要生成的第二类音频的数量参数;而后将所获得的多个单通道的第一类音频以及数量参数输入至神经网络模型或者机器学习模型中,从而可以获得由神经网络模型或者机器学习模型所输出的满足数量参数的单通道的第二类音频。
步骤S203:对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。
由于所获得的第二类音频是单通道的音频信号,而在实际场景中,对第二类音频进行传输时往往伴随着其他通道的音频信号一同传输,因此,为了能够更加贴近真实的音频传输情况,在获取到第二类音频之后,可以对第二类音频进行多通道的模拟传递操作,从而可以将单通道的第二类音频转换为多通道的目标音频,并且,由于目标音频中包括预设关键词,因此,所获得的目标音频能够用于进行关键词检测模型的训练操作,即将目标音频作为关键词检测模型的训练数据,由于目标音频能够基于任意多个单通道的第一类音频进行分析处理所获得,因此,使得关键词检测模型的训练数据不仅容易获得、数量足够多,且保证了训练数据的多样性,进而提高了关键词检测模型的训练质量和效果。
另外,本实施例对于多通道的模拟传递操作的具体实现方式不做限定,在一些实例中,可以通过预先训练好的能够实现多通道的模拟传递操作的机器学习模型或者神经网络模型来实现,此时,对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频可以包括:获取预先训练好的机器学习模型或者神经网络模型;将第二类音频输入至机器学习模型或者神经网络模型中,从而可以获得神经网络模型或者机器学习模型所输出的多通道的目标音频。需要注意的是,若第二类音频的数量为多个,则所获得的目标音频也为多个;若第二类音频的数量为一个,则所获得的目标音频也为一个。
在又一些实例中,不仅可以通过预先训练好的机器学习模型或者神经网络模型来实现多通道的模拟传递操作,还可以通过传递函数来实现,此时,对第二类音频进行多通道的传递模拟操作,获得多通道的目标音频可以包括:获取与第二类音频相对应的传递函数,传递函数用于表示对第二类音频进行传输时所对应的信道特性;对传递函数和第二类音频进行卷积处理,获得多通道的目标音频。
对于第二类音频而言,预先配置有用于对第二类音频进行模拟传输操作的传递函数,该传递函数用于表示对第二类音频进行模拟传输时所对应的信道特性,为了能够实现对第二类音频进行多通道的传递模拟操作,则可以获取与第二类音频相对应的传递函数,而后可以对传递函数和第二类音频进行卷积处理,从而可以获得多通道的目标音频。
在一些实例中,对传递函数和第二类音频进行卷积处理,获得多通道的目标音频可以包括:获取与传递函数相对应的阶数参数和临时变量;基于临时变量对第二类音频进行处理,获得当前时刻所对应的处理后音频;获取处理后音频和传递函数之间的乘积值;对各个阶数和各个临时变量所对应的乘积值进行累加处理,获得多通道的、且包括预设关键词的目标音频。举例来说,以作为第二类音频,作为目标音频,作为与第二类音频相对应的传递函数,-1作为与传递函数相对应的阶数参数,为临时变量,为当前时刻,而后可以通过以下公式来获取多通道的、且包括预设关键词的目标音频,从而可以准确地获取到目标音频。
在另一些实例中,在对第二类音频进行多通道的模拟传递操作时,为了使得多通道的模拟传递操作更加贴近实际场景,不仅需要单独考虑对第二类音频进行多通道的模拟传递操作,还可以结合干扰信息进行多通道的模拟传递操作,此时,对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频可以包括:获取干扰信息;分别对第二类音频和干扰信息进行多通道的模拟传递操作,获得模拟音频和模拟干扰信息;基于模拟音频和模拟干扰信息,确定多通道的目标音频。
其中,在获取到第二类音频之后,可以获取干扰信息,干扰信息可以包括以下至少之一:干扰音频、回声,上述的干扰音频可以包括点声源干扰音频,回声可以是指由非第一类音频所生成的噪音,例如:由电视所生成的噪音、由音乐所生成的噪音等等。具体的,干扰信息可以是预先采集或者预先生成的信息,该干扰信息可以存储在预设区域中,通过访问预设区域即可获取到干扰信息;或者,干扰信息可以是通过语音采集设备所采集的信息,此时,语音采集设备与数据处理装置通信连接,而后数据处理装置可以通过语音采集设备主动或者被动地获取到干扰信息。
在获取到干扰信息之后,可以分别对第二类音频和干扰信息进行多通道的模拟传递操作,从而可以获得模拟音频和模拟干扰信息,其中,对第二类音频进行多通道的模拟传递操作,获得模拟音频可以包括:获取与第二类音频相对应的第一传递函数,第一传递函数用于表示对第二类音频进行传输时所对应的信道特性;对第一传递函数和第二类音频进行卷积处理,获得模拟音频。具体的,本实施例中对第二类音频进行多通道的模拟传递操作,获得模拟音频的具体实现方式、实现原理和实现效果与上述实施例中“对传递函数和第二类音频进行卷积处理,获得多通道的目标音频”的具体实现方式、实现原理和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
另外,对于干扰信息而言,干扰信息可以包括以下至少之一:点声源干扰音频、回声;在一些实例中,对干扰信息进行多通道的模拟传递操作,获得模拟干扰信息可以包括:获取与干扰信息相对应的第二传递函数,第二传递函数用于表示对干扰信息进行传输时所对应的信道特性;对第二传递函数和干扰信息进行卷积处理,获得模拟干扰信息。
举例1,以作为点声源干扰音频,作为模拟点声源干扰音频,作为与点声源干扰音频相对应的第二传递函数,作为与第二传递函数相对应的阶数参数,为临时变量,为当前时刻,而后可以通过以下公式来获取模拟干扰信息,从而可以准确地获取到模拟点声源干扰音频。
举例2,以作为回声,作为模拟回声,作为与回声相对应的第二传递函数,作为与第二传递函数相对应的阶数参数,为临时变量,为当前时刻,而后可以通过以下公式来获取模拟回声,从而可以准确地获取到模拟回声。
需要注意的是,干扰信息不仅可以包括点声源干扰音频、回声,还可以包括环境噪声,具体的,在干扰信息包括环境噪声时;对干扰信息进行多通道的模拟传递操作,获得模拟干扰信息可以包括:获取单通道的环境噪声;对环境噪声进行模拟扩散处理,获得模拟环境噪声。
具体的,单通道的环境噪声可以通过语音采集装置采集所获得,或者,单通道的环境噪声可以通过对已有数据进行数据处理所获得,在获取到单通道的环境噪声之后,可以对环境噪声进行模拟扩散处理操作,从而可以获得模拟环境噪声,该模拟环境噪声用于模拟从四面八方获取的噪声信息。
在获取到模拟音频和模拟干扰信息之后,可以对模拟音频和模拟干扰信息进行分析处理,从而可以确定多通道的目标音频。在一些实例中,基于模拟音频和模拟干扰信息,确定多通道的目标音频可以包括:直接对模拟音频和模拟干扰信息进行累加,获得多通道的目标音频。
在又一些实例中,不仅可以直接对模拟音频和模拟干扰信息进行累加操作,获得目标音频,还可以结合信噪比来生成目标音频,具体的,基于模拟音频和模拟干扰信息,确定多通道的目标音频可以包括:获取用于限定目标音频的预设信噪比;基于预设信噪比,确定模拟音频和模拟干扰信息各自对应的权重信息;基于模拟音频和模拟干扰信息各自对应的权重信息对模拟音频和模拟干扰信息进行加权求和,获得目标音频。
具体的,在获取到模拟音频和模拟干扰信息之后,为了能够提高目标音频生成的灵活可靠性,可以获取用于限定目标音频的预设信噪比,而后可以基于预设信噪比来生成目标音频,该预设信噪比用于标识模拟音频与模拟干扰信息之间的数据占比信息;在一些实例中,预设信噪比可以是预先设置的默认信噪比,该默认信噪比可以存储在预设区域或者第三设备中,通过访问预设区域或者第三设备可以获取到用于限定目标音频的预设信噪比。
在获取到预设信噪比之后,可以判断预设信噪比是否满足应用场景的需求,用户可以对预设信噪比进行配置或者调整操作,具体的,在获取到预设信噪比之后,可以显示与预设信噪比相对应的配置页面,获取用户在配置页面中输入的调整操作,而后可以基于执行操作对预设信噪比进行调整或者配置操作,西欧分为可以获得处理后信噪比、配置后信噪比。
在又一些实例中,预设信噪比不仅可以预先获取的默认信噪比,还可以根据用户的交互操作获取用于限定目标音频的预设信噪比,此时,获取用于限定目标音频的预设信噪比可以包括:显示用于与用户进行交互操作的显示界面;获取用户在显示界面中所输入的执行操作,基于执行操作获得用于限定目标音频的预设信噪比。
本实施例提供的数据处理方法,通过获取多个单通道的第一类音频,第一类音频包括预设关键词,而后基于多个单通道的第一类音频生成一单通道的第二类音频,由于第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量,为了能够生成多通道的第二类音频,则可以对第二类音频进行多通道的模拟传递操作,从而可以获得多通道的目标音频,有效地实现了基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了训练数据的数量,而后可以基于足够多的训练数据进行关键词检测模型的训练操作,这样能够提高关键词检测模型的训练质量和效果,进一步提高了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的另一种数据处理方法的流程示意图;在上述任意一个实施例的基础上,参考附图3所示,在获得多通道的目标音频之后,本实施例还可以基于目标音频进行模型训练操作,具体的,本实施例中的方法可以包括:
步骤S301:对多通道的目标音频进行增强处理,获得多通道的增强后音频。
步骤S302:对多通道的增强后音频进行特征提取操作,获得多个音频特征。
步骤S303:基于多个音频特征以及所对应的预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
在获取到多通道的目标音频之后,则可以基于多通道的目标音频进行关键词检测模型的训练操作,其中,为了能够准确地提高关键词检测模型的训练质量和效果,在获取到多通道的目标音频之后,可以对多通道的目标音频进行增强处理,从而可以获得多通道的增强后音频。在获取到多通道的增强后音频之后,可以对多通道的增强后语音进行特征提取操作,从而可以获得多个音频特征,而后可以基于多个音频特征以及所对应的预设关键词进行模型训练操作,从而可以获得关键词检测模型,该关键词检测模型支持对任意数量的通道音频进行关键词检测操作,这样有效地提高了关键词检测模型实用性和使用灵活性。
在一些实例中,在获得关键词检测模型之后,本实施例中的方法还可以包括:获取多通道音频各自对应的音频特征;将多通道音频各自对应的音频特征输入至关键词检测模型,获得包括目标关键词的目标通道音频;基于目标通道音频对通过目标关键词所唤醒的唤醒设备进行控制。
在用户存在关键词检测需求时,则可以获取多通道音频各自对应的音频特征,具体的,可以先获取需要进行关键词检测操作的多通道音频,而后可以对多通道音频进行特征提取操作,从而获得多通道音频各自对应的音频特征,之后可以将多个通道音频各自对应的音频特征输入至关键词检测模型,获得包括目标关键词的目标通道音频,其中,目标关键词可以与预设关键词相同或者不同,而后可以基于目标通道音频对通过目标关键词所唤醒的唤醒设备进行控制,从而有效地实现了对唤醒设备进行语音控制操作。
举例来说,在预设设备为位于一房间内时,房间人的多个人可以同时或者不同时地对预设设备进行语音控制操作者,此时,则可以获取到多通道数据,例如,多通道数据可以包括:用户甲所说的“天猫精灵,播放音乐”、用户乙所说的“小精灵,关闭电灯”、用户丙所说的“精灵精灵,增大音量”,若预设设备所对应的目标关键词(即唤醒词)为“天猫精灵”时,则可以确定与预设设备相对应的目标通道音频为用户甲所说的音频,而后则可以基于用户甲所说的“天猫精灵,播放音乐”对所唤醒的唤醒设备进行控制,即控制预设设备进行播放音乐操作,这样有效地提高了对唤醒设备进行控制的稳定可靠性。
本实施例中,通过对多通道的目标音频进行增强处理,获得多通道的增强后音频,而后对多通道的增强后音频进行特征提取操作,获得多个音频特征,并基于多个音频特征以及所对应的预设关键词进行模型训练操作,获得关键词检测模型,从而有效地实现了基于目标音频进行模型的训练操作,并有效地保证了对关键词检测模型的训练质量和效率。
图4为本发明实施例提供的一种模型训练方法的流程示意图;参考附图4所示,本实施例提供了一种模型训练方法,该方法的执行主体可以为模型训练装置,可以理解的是,该模型训练装置可以实现为软件、或者软件和硬件的组合,具体的,在模型训练装置实现为硬件时,其具体可以是具有模型训练操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当模型训练装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的数据处理装置,本实施例中的模型训练方法可以包括以下步骤:
步骤S401:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词。
步骤S402:确定与多通道的音频信息相对应的音频特征。
步骤S403:基于音频特征和预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
下面对上述各个步骤的具体实现原理和实现效果进行详细说明:
步骤S401:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词。
其中,在用户存在模型训练需求时,则可以向模型训练装置发送多通道的音频信息,从而使得模型训练装置可以获取到多通道的音频信息,为了能够实现关键词检测模型的训练操作,所获得的音频信息中的至少之一包括预设关键词,可以理解的是,多通道的音频信息中的至少一部分音频信息中可以包括预设关键词。
需要注意的是,为了能够保证关键词检测模型的训练质量和效果,所获得的多通道的音频信息可以为上述图2所示实施例中所获得的多通道的目标音频,即模型训练装置可以获得多通道的长音频,具体的获取方式可以通过上述图2所示的实施例中的数据处理方法所获得。在一些实例中,模型训练装置可以通信连接有数据处理装置,在上述的数据处理装置获取到多通道的音频信息之后,可以将多通道的音频信息发送至模型训练装置,从而使得模型训练装置可以稳定、有效地获取到多通道的音频信息。
在又一些实例中,多通道的音频信息可以通过上述图2-图3所示的数据处理方法生成之后,在生成多通道的音频信息之后,多通道的音频信息可以存储在预设区域或者预设设备中,而后通过访问预设设备或者预设设备即可获取到多通道的音频信息。
步骤S402:确定与多通道的音频信息相对应的音频特征。
在获取到多通道的音频信息之后,可以对多通道的音频信息进行分析处理,具体的,可以特征提取算法或者预先训练好的机器训练模型对多通道的音频信息进行特征提取操作,从而可以获得与多通道的音频信息相对应的音频特征,该音频特征能够标识音频信息所对应的内容信息以及其他特性等等。
步骤S403:基于音频特征和预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
其中,在获取音频特征之后,可以基于音频特征和预设关键词进行模型训练操作,从而可以获得关键词检测模型,具体的,参考附图5所示,所生成的关键词检测模型可以包括最大池化单元以及一个或多个前馈顺序存储网络单元,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量,最大池化单元可以随机位于任意一个前馈顺序存储网络单元之后,由于最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量,即能够将多通道的数据融合为单通道的数据,因此使得所生成的关键词检测模型能够支持对任意数量的通道音频进行关键词检测操作,例如:该关键词检测模型可以对三个通道的音频、四个通道的音频、五个通道的音频或者六个通道的音频进行关键词检测操作,这样有效地拓展了关键词检测模型的扩展性和实用性。
需要注意的是,关键词检测模型不仅可以包括最大池化单元和前馈顺序存储网络单元,还可以包括归一化单元,该归一化单元位于最后一个前馈顺序存储网络单元之后,从而可以获得关键词检测结果,该关键词检测结果可以包括与任意一个关键词字符所对应的概率信息;或者,关键词检测结果还可以包括某个音频信息中是否包括预设关键词,或者哪个通道的音频信息中是否包括预设关键词。
本实施例提供的模型训练方法,通过获取多通道的音频信息,而后确定与多通道的音频信息相对应的音频特征,并基于音频特征和预设关键词进行模型训练操作,从而可以获得能够对任意数量的通道音频进行关键词检测操作的关键词检测模型,由于所获得的关键词检测模型能够对任意数量的通道音频进行关键词检测操作,从而有效地提高了关键词检测模型的扩展性、实用性和灵活可靠性,进一步提高了该方法的实用性,有利于市场的推广与应用。
图6为本发明实施例提供的一种关键词检测方法的流程示意图;参考附图6所示,本实施例提供了一种关键词检测方法,该方法的执行主体可以为关键词检测装置,可以理解的是,该关键词检测装置可以实现为软件、或者软件和硬件的组合,具体的,在关键词检测装置实现为硬件时,其具体可以是具有关键词检测操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当关键词检测装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的关键词检测装置,本实施例中的关键词检测方法可以包括以下步骤:
步骤S601:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词。
本实施例中多通道的音频信息的获取方式与上述实施例中步骤S401的具体实现方式相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S602:确定与多个通道的音频信息相对应的多通道的表征向量。
在获取到多通道的音频信息之后,可以对多通道的音频信息进行分析处理,具体的,可以特征提取算法或者预先训练好的机器训练模型对多通道的音频信息进行特征提取操作,从而可以获得与多通道的音频信息相对应的音频特征,该音频特征能够标识音频信息所对应的内容信息,之后可以对所获得的多通道的音频信息分别进行处理,从而可以获得与多个通道的音频信息相对应的多通道的表征向量,该表征向量可以是能够标识所对应通道的音频信息的内容信息的高维向量。
步骤S603:对多通道的表征向量进行最大池化处理,获得单通道特征。
在获取到多通道的表征向量之后,可以对多通道的表征向量进行最大池化处理,从而可以获得单通道特征,从而有效地实现了将多通道的表征向量融合为单通道的特征信息,这样方便实现对任意数量通道的音频信息进行关键词检测操作。
步骤S604:基于单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
在获取到单通道特征之后,可以基于单通道特征进行关键词检测操作,从而可以获得与多通道的音频信息相对应的关键词检测结果,即实现了对多通道音频进行关键词检测操作,需要注意的是,上述的多通道的音频可以是任意通道数量的音频,进而提高了该方法的实用性。
本实施例提供的关键词检测方法,通过获取多通道的音频信息,确定与多个通道的音频信息相对应的多通道的表征向量,而后对多通道的表征向量进行最大池化处理,获得单通道特征,对多通道的表征向量进行最大池化处理,获得单通道特征,并基于单通道特征进行关键词检测操作,从而可以获得与多通道的音频信息相对应的关键词检测结果,该方法能够对任意数量通道的音频信息进行关键词检测操作,进而保证了该关键词检测方法的实用性和灵活可靠性,有利于市场的推广与应用。
具体应用时,本应用实施例提供了一种可扩展的多通道关键词检测和较佳通道选择方法,该方法可以适配不同通道数目的音频输入,并且,关键词检测的性能不会随着通道数目的变化而降低,另外,该方法在检测关键词的同时,还可以输出包含关键词信号质量最高的通道音频,用于后续的语音交互流程,具体的,该方法可以包括以下:模型训练过程以及多通道关键词检测过程,其中,参考附图7所示,模型训练过程可以包括以下步骤:
步骤1:获取多个单通道的短音频,短音频中可以包括预设关键词。
步骤2:基于多个单通道的短音频,生成单通道的长音频。
由于关键词检测模型需要多通道的长音频进行模型训练操作,而实际的多通道长音频数据比较难获取,因此,为了能够保证获取到足够多数量的多通道长音频,并方便对多通道长音频进行获取和生成操作,则可以使用数据模拟的方法将多个单通道的短音频数据模拟成多通道的长音频训练数据。为了能够准确地获取到多通道的长音频训练数据,在获取到多个单通道的短音频之后,可以对多个单通道的短音频进行分析处理,从而可以生成单通道的长音频。在一些实例中,基于多个单通道的第一类音频,生成单通道的第二类音频可以包括:在多个单通道的短音频中,随机选择多个短音频;对所选择的多个短音频进行拼接处理,生成单通道的长音频。
举例来说,单通道的短音频包括短音频1、短音频2、短音频3、短音频4、短音频5、短音频6、短音频7,其中,短音频1的时长为13s,短音频2的时长为10s,短音频3的时长为15s,短音频4的时长为11s,短音频5的时长为15s,短音频6的时长为9s,短音频7的时长为14s,通过对短音频1、短音频2、短音频5、短音频6和短音频7进行拼接处理,从而可以生成单通道的长音频,该长音频的时长约为1min。
步骤3:获取干扰信息。
其中,干扰信息可以包括以下至少之一:点声源干扰音频、回声、环境噪声,上述的回声可以是指来自于电视、音乐等声源所对应的回声信息。
步骤4:对单通道的长音频进行多通道的模拟传递操作,获得模拟长音频,模拟长音频为包括预设关键词的多通道的长音频。
其中,对单通道的长音频进行多通道的模拟传递操作可以由单通道的长音频卷积上多通道的传递函数即可生成模拟长音频,上述的传递函数RIR可以通过预设数据库进行提取获得,或者,也可以通过数据模拟操作生成传递函数RIR。具体的,可以通过以下公式来实现对单通道的长音频进行多通道的模拟传递操作,从而可以获得模拟长音频:
上述公式中的为模拟后长音频,为用于实现对单通道的长音频进行多通道的模拟传递操作的传递函数,为当前时刻,为临时变量,为传递函数的阶数。
步骤5:对于干扰信息中的点声源干扰音频和回声而言,对点声源干扰音频和回声分别进行多通道的模拟传递操作,获得模拟点声源干扰音频和模拟回声。
对于干扰信息中包括的点声源干扰音频而言,对点声源干扰音频进行多通道的模拟传递操作可以由点声源干扰音频卷积上多通道的传递函数即可生成模拟干扰信息,具体的,可以通过以下公式来实现对点声源干扰音频进行多通道的模拟传递操作,从而可以获得模拟点声源干扰音频:
上述公式中的为模拟点声源干扰音频,为用于实现对点声源干扰音频进行多通道的模拟传递操作的传递函数,为当前时刻,为临时变量,为传递函数的阶数。
相类似的,对于干扰信息中包括的回声而言,可以对回声进行非线性回波模拟操作,从而可以获得模拟回声,具体的,对回声进行非线性回波模拟操作可以由回声卷积上多通道的传递函数即可生成模拟回声,具体的,可以通过以下公式来实现:
上述公式中的为模拟回声,为用于实现对回声进行多通道的模拟传递操作的传递函数,为当前时刻,为临时变量,为传递函数的阶数。
步骤6:对于干扰信息中的环境噪声而言,可以对环境噪声进行扩散噪声模拟操作,从而可以获得模拟环境噪声,该模拟环境噪声用于模拟来自预设空间或者预设区域中来自四面八方的噪声。
步骤7:基于模拟长音频、模拟点声源干扰音频、模拟回声以及模拟环境噪声,生成多通道的目标音频。
具体的,目标音频(可以看作为是多通道麦克风信号x)由模拟长音频(即目标语音S)、模拟点声源干扰音频q、模拟回声e和模拟环境噪声四部分叠加而成。在一些实例中,,其中,为目标音频,为模拟长音频,为模拟点声源干扰音频,为模拟回声,为模拟环境噪声。
在又一些实例中,可以通过信噪比来对上述用于构成目标音频的各个部分的权重进行调整,此时,,上述的为通过信噪比所获得的模拟长音频的权重信息,为通过信噪比所获得的模拟点声源干扰音频的权重信息,为通过信噪比所获得的模拟回声的权重信息,为通过信噪比所获得的模拟环境噪声的权重信息,其中,,通过信噪比可以对上述的权重信息进行任意调整,从而实现了所获得的噪声信息能够覆盖各种噪声的应用场景。
另外,在获得目标音频之后,还可以根据应用需求或者设计需求对目标音频的音量进行调整,从而实现了对目标音频的整体进行幅度调整操作,这样有效地实现了通过随机调整音量和信噪比可以获得多种多样的目标音频,有效地增加了目标音频的数据多样性。
步骤8:将多通道的目标音频作为模型训练数据,基于目标音频和目标音频中所包括的关键词进行模型训练操作,生成关键词检测模型。
其中,为了能够保证模型训练的质量和效果,基于目标音频和目标音频中所包括的关键词进行模型训练操作,生成关键词检测模型可以包括:先对目标音频进行语音增强处理,具体的,可以利用预设的语音增强算法对多通道的目标音频进行增强处理,获得增强后音频,以达到数据的匹配训练要求。而后对增强后音频进行特征提取操作,具体的,可以通过Fbank 特征提取方法或者其他特征提取方法从增强后音频提取出用于进行关键词检测的特征信息,而后可以基于特征信息和关键词标签进行模型训练操作,获得能够进行关键词检测操作的关键词检测模型。
具体的,参考附图5所示,关键词检测模型可以包括:一个或多个并联的线性整流单元、与各个线性整流单元相连接的前馈顺序存储网络单元、一最大池化单元以及归一化单元,最大池化单元可以随机位于任意一个前馈顺序存储网络单元之后,在一些实例中,最大池化单元可以位于最后一个前馈顺序存储网络单元之后。需要注意的是,当最大池化单元之后还存在多个前馈顺序存储网络单元时,那么,位于最大池化单元之后的多个前馈顺序存储网络单元之间相互串联连接。上述的线性整流模块用于接收并处理用于进行关键词检测的特征信息,而后将处理信息发送至前馈顺序存储网络单元,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量,归一化单元用于基于表征向量进行关键词检测操作,从而可以获得各个关键词建模单元的观测概率,例如:关键词由字符A、字符B、字符C和字符D构成时,通过归一化单元进行关键词检测操作时,则可以获取到与字符A相对应的观测概率、与字符B相对应的观测概率、与字符C相对应的观测概率、与字符D相对应的观测概率以及其他字符相对应的观测概率。本实施例中,实现了将单通道关键词检测模型扩展为了多通道检测模型,其中,在某一层FSMN单元之后进行了最大池化操作,从而将多通道数据融合为单通道数据,有效地实现了可扩展的多通道关键词检测。
另外,在获取到关键词检测模型之后,则可以基于关键词检测模型进行关键词检测操作,具体的,参考附图8所示,多通道关键词检测过程可以包括如下步骤:
步骤11:获取待处理的多通道长音频;
步骤12:确定多通道长音频各自对应的音频特征,其中,音频特征可以包括f1、f2或者fN等等。
步骤13:将多通道音频各自对应的音频特征输入至关键词检测模型,获得包括目标关键词的目标通道音频;
其中,由于关键词检测模型可以包括一个或多个线性整流单元Relu、一个或多个前馈顺序存储网络单元FSMN、一个最大池化单元max pooling,在进行最大池化操作之前,可以基于一个或多个线性整流单元Relu和一个或多个前馈顺序存储网络单元FSMN对音频特征进行处理,获得用于表征多通道长音频特性的高维向量,需要注意的是,上述的多通道相对应的线性整流单元Relu以及前馈顺序存储网络单元之间共享模型参数,但是数据为各自通道的数据。
而后可以利用最大池化单元对所获得的多个高维向量进行最大池化操作,在进行最大池化操作时,可以将多通道数据对应的各个数据维度上选择数值最大的那个通道的数据(即较佳通道选择),从而将多通道数据融合为了单通道数据,并完成余下的关键词检测操作。
具体的,从最大池化操作的选择结果即可得到较佳通道的选择结果,具体的实现原理如下公式:
=
其中,为通道选择的指示器,是频道信号, 如果进行最大池化操作的高维向量的特征维度是100维,则K等于100;是时间块的序号,当最大通道为本通道时, =1,否则, =0;是通道n中所对应的向量元素值,用于标识是所有通道中向量元素值中最大的数值;通过上述公式,即可输出所有维度上唤醒词区间内之和最大的通道特征
举例来说,现有高维向量1和高维向量2,其中,高维向量1可以为, 高维向量2可以为,通过对上述的高维向量1和高维向量2进行最大池化操作,则可以获取到池化后的结果,具体的,可以为,从而有效地实现了将多通道的数据融合为单通道的数据。
而后可以基于池化后的结果进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果,并可以基于关键词检测结果确定多通道的音频信息中相对应的目标通道音频。
步骤14:基于目标通道音频对通过目标关键词所唤醒的唤醒设备进行控制。
需要注意的是,本应用实施例中的网络单元并不限于FSMN模型架构,还可以使用例如卷积神经网络CNN、时延神经网络TDNN等模型架构。
本应用实施例提供的技术方案,通过采用最大池化机制实现多通道关键词检测操作,相对于直接使用多路单通道关键词检测模型而言,具有更好的检测性能,并且具有更好的可扩展性,在通道数目增加时,虚警数目不会显著增加,从而保证了模型的性能;另外,在利用关键词检测模型进行关键词检测操作时,通道选择机制同样由模型训练结果而得到,比其它机制具有更高的正确率,并且该关键词检测模型具有和单通道关键词检测模型同样的参数量,适合于低资源嵌入式应用,从而有效地提高了该方法的实用性和适用范围,有利于市场的推广与应用。
图9为本发明实施例提供的一种数据处理装置的结构示意图;参考附图9所示,本实施例提供了一种数据处理装置,该数据处理装置可以执行上述图2所示的数据处理方法,该数据处理装置可以包括:第一获取模块11、第一生成模块12和第一处理模块13,具体的,
第一获取模块11,用于获取多个单通道的第一类音频,第一类音频包括预设关键词;
第一生成模块12,用于基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量;
第一处理模块13,用于对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。
在一些实例中,在第一生成模块12基于多个单通道的第一类音频,生成单通道的第二类音频时,该第一生成模块12用于:在多个单通道的第一类音频中,随机选择多个第一类音频;对所选择的多个第一类音频进行拼接处理,生成第二类音频。
在一些实例中,在第一处理模块13对第二类音频进行多通道的传递模拟操作,获得多通道的目标音频时,该第一处理模块13用于:获取与第二类音频相对应的传递函数,传递函数用于表示对第二类音频进行传输时所对应的信道特性;对传递函数和第二类音频进行卷积处理,获得多通道的目标音频。
在一些实例中,在第一处理模块13对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频时,该第一处理模块13用于:获取干扰信息;分别对第二类音频和干扰信息进行多通道的模拟传递操作,获得模拟音频和模拟干扰信息;基于模拟音频和模拟干扰信息,确定多通道的目标音频。
在一些实例中,在第一处理模块13对第二类音频进行多通道的模拟传递操作,获得模拟音频时,该第一处理模块13用于:获取与第二类音频相对应的第一传递函数,第一传递函数用于表示对第二类音频进行传输时所对应的信道特性;对第一传递函数和第二类音频进行卷积处理,获得模拟音频。
在一些实例中,干扰信息包括以下至少之一:点声源干扰音频、回声;在第一处理模块13对干扰信息进行多通道的模拟传递操作,获得模拟干扰信息时,该第一处理模块13用于:获取与干扰信息相对应的第二传递函数,第二传递函数用于表示对干扰信息进行传输时所对应的信道特性;对第二传递函数和干扰信息进行卷积处理,获得模拟干扰信息。
在一些实例中,干扰信息还包括环境噪声;在第一处理模块13对干扰信息进行多通道的模拟传递操作,获得模拟干扰信息时,该第一处理模块13用于:获取单通道的环境噪声;对环境噪声进行模拟扩散处理,获得模拟环境噪声。
在一些实例中,在第一处理模块13基于模拟音频和模拟干扰信息,确定多通道的目标音频时,该第一处理模块13用于:获取用于限定目标音频的预设信噪比;基于预设信噪比,确定模拟音频和模拟干扰信息各自对应的权重信息;基于模拟音频和模拟干扰信息各自对应的权重信息对模拟音频和模拟干扰信息进行加权求和,获得目标音频。
在一些实例中,在获得多通道的目标音频之后,本实施例中的第一处理模块13用于执行以下步骤:对多通道的目标音频进行增强处理,获得多通道的增强后音频;对多通道的增强后音频进行特征提取操作,获得多个音频特征;基于多个音频特征以及所对应的预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
在一些实例中,在获得关键词检测模型之后,本实施例中的第一获取模块11和第一处理模块13分别用于执行以下步骤:
第一获取模块11,用于获取多通道音频各自对应的音频特征;
第一处理模块13,用于将多通道音频各自对应的音频特征输入至关键词检测模型,获得包括目标关键词的目标通道音频;基于目标通道音频对通过目标关键词所唤醒的唤醒设备进行控制。
图9所示装置可以执行图1-图3、图7-图8所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图3、图7-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3、图7-图8所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图9所示数据处理装置的结构可实现为一电子设备,该电子设备可以是控制器、个人电脑、服务器等各种设备。如图10所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图3、图7-图8所示实施例中提供的数据处理方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:获取多个单通道的第一类音频,第一类音频包括预设关键词;基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量;对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。
进一步的,第一处理器21还用于执行前述图1-图3、图7-图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图3、图7-图8所示实施例中数据处理方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图1-图3、图7-图8所示方法实施例中数据处理方法中的步骤。
图11为本发明实施例提供的一种模型训练装置的结构示意图;参考附图11所示,本实施例提供了一种模型训练装置,该模型训练装置可以执行上述图4所示的模型训练方法,该模型训练装置可以包括:第二获取模块31、第二确定模块32和第二训练模块33,具体的,
第二获取模块31,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
第二确定模块32,用于确定与多通道的音频信息相对应的音频特征;
第二训练模块33,用于基于音频特征和预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
图11所示装置可以执行图4-图5、图7-图8所示实施例的方法,本实施例未详细描述的部分,可参考对图4-图5、图7-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4-图5、图7-图8所所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图11所示模型训练装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图12所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图4-图5、图7-图8所示实施例中提供的模型训练方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;确定与多通道的音频信息相对应的音频特征;基于音频特征和预设关键词进行模型训练操作,获得关键词检测模型,关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,最大池化单元随机位于任意一个前馈顺序存储网络单元之后,前馈顺序存储网络单元用于确定与音频特征相对应的表征向量;最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
进一步的,第二处理器41还用于执行前述图4-图5、图7-图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图4-图5、图7-图8所示方法实施例中模型训练方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图4-图5、图7-图8所示方法实施例中模型训练方法中的步骤。
图13为本发明实施例提供的一种关键词检测装置的结构示意图;参考附图13所示,本实施例提供了一种关键词检测装置,该关键词检测装置用于执行上述图6所示的关键词检测方法,该关键词检测装置可以包括第三获取模块51、第三确定模块52以及第三处理模块53,具体的,
第三获取模块51,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
第三确定模块52,用于确定与多个通道的音频信息相对应的多通道的表征向量;
第三处理模块53,用于对多通道的表征向量进行最大池化处理,获得单通道特征;
该第三处理模块53,还用于基于单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
图13所示装置可以执行图6-图8所示实施例的方法,本实施例未详细描述的部分,可参考对图6-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图6-图8所所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图13所示关键词检测装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图14所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储相对应电子设备执行上述图6-图8所示实施例中提供的关键词检测方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;确定与多个通道的音频信息相对应的多通道的表征向量;对多通道的表征向量进行最大池化处理,获得单通道特征;基于单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
进一步的,第三处理器61还用于执行前述图6-图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图6-图8所示方法实施例中关键词检测方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图6-图8所示方法实施例中关键词检测方法中的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种数据处理方法,其特征在于,包括:
获取多个单通道的第一类音频,所述第一类音频包括预设关键词;
基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;
对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。
2.根据权利要求1所述的方法,其特征在于,基于多个单通道的第一类音频,生成单通道的第二类音频,包括:
在多个单通道的第一类音频中,随机选择多个第一类音频;
对所选择的多个第一类音频进行拼接处理,生成所述第二类音频。
3.根据权利要求1所述的方法,其特征在于,对所述第二类音频进行多通道的传递模拟操作,获得多通道的目标音频,包括:
获取与所述第二类音频相对应的传递函数,所述传递函数用于表示对第二类音频进行传输时所对应的信道特性;
对所述传递函数和所述第二类音频进行卷积处理,获得多通道的目标音频。
4.根据权利要求1所述的方法,其特征在于,对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,包括:
获取干扰信息;
分别对所述第二类音频和所述干扰信息进行多通道的模拟传递操作,获得模拟音频和模拟干扰信息;
基于所述模拟音频和所述模拟干扰信息,确定多通道的目标音频。
5.根据权利要求4所述的方法,其特征在于,对所述第二类音频进行多通道的模拟传递操作,获得模拟音频,包括:
获取与所述第二类音频相对应的第一传递函数,所述第一传递函数用于表示对第二类音频进行传输时所对应的信道特性;
对所述第一传递函数和所述第二类音频进行卷积处理,获得模拟音频。
6.根据权利要求4所述的方法,其特征在于,所述干扰信息包括以下至少之一:点声源干扰音频、回声;对所述干扰信息进行多通道的模拟传递操作,获得模拟干扰信息,包括:
获取与所述干扰信息相对应的第二传递函数,所述第二传递函数用于表示对干扰信息进行传输时所对应的信道特性;
对所述第二传递函数和所述干扰信息进行卷积处理,获得模拟干扰信息。
7.根据权利要求4所述的方法,其特征在于,所述干扰信息还包括环境噪声;对所述干扰信息进行多通道的模拟传递操作,获得模拟干扰信息,包括:
获取单通道的环境噪声;
对所述环境噪声进行模拟扩散处理,获得模拟环境噪声。
8.根据权利要求4所述的方法,其特征在于,基于所述模拟音频和所述模拟干扰信息,确定多通道的目标音频,包括:
获取用于限定所述目标音频的预设信噪比;
基于所述预设信噪比,确定所述模拟音频和所述模拟干扰信息各自对应的权重信息;
基于所述模拟音频和所述模拟干扰信息各自对应的权重信息对所述模拟音频和所述模拟干扰信息进行加权求和,获得所述目标音频。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,在获得多通道的目标音频之后,所述方法还包括:
对多通道的目标音频进行增强处理,获得多通道的增强后音频;
对多通道的增强后音频进行特征提取操作,获得多个音频特征;
基于所述多个音频特征以及所对应的预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
10.根据权利要求9所述的方法,其特征在于,在获得关键词检测模型之后,所述方法还包括:
获取多通道音频各自对应的音频特征;
将所述多通道音频各自对应的音频特征输入至所述关键词检测模型,获得包括目标关键词的目标通道音频;
基于所述目标通道音频对通过所述目标关键词所唤醒的唤醒设备进行控制。
11.一种模型训练方法,其特征在于,包括:
获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
确定与多通道的音频信息相对应的音频特征;
基于所述音频特征和所述预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
12.一种关键词检测方法,其特征在于,包括:
获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;
确定与多个通道的音频信息相对应的多通道的表征向量;
对多通道的表征向量进行最大池化处理,获得单通道特征;
基于所述单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现权利要求1-12中任意一项所述的方法。
CN202310017387.0A 2023-01-06 2023-01-06 数据处理方法、模型训练方法、关键词检测方法及设备 Active CN115910047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310017387.0A CN115910047B (zh) 2023-01-06 2023-01-06 数据处理方法、模型训练方法、关键词检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310017387.0A CN115910047B (zh) 2023-01-06 2023-01-06 数据处理方法、模型训练方法、关键词检测方法及设备

Publications (2)

Publication Number Publication Date
CN115910047A true CN115910047A (zh) 2023-04-04
CN115910047B CN115910047B (zh) 2023-05-19

Family

ID=85733662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310017387.0A Active CN115910047B (zh) 2023-01-06 2023-01-06 数据处理方法、模型训练方法、关键词检测方法及设备

Country Status (1)

Country Link
CN (1) CN115910047B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105405445A (zh) * 2015-12-10 2016-03-16 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
CN108615526A (zh) * 2018-05-08 2018-10-02 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN109658935A (zh) * 2018-12-29 2019-04-19 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN110277093A (zh) * 2019-07-30 2019-09-24 腾讯科技(深圳)有限公司 音频信号的检测方法及装置
US20190333498A1 (en) * 2018-04-27 2019-10-31 Cirrus Logic International Semiconductor Ltd. Processing audio signals
CN112566008A (zh) * 2020-12-28 2021-03-26 科大讯飞(苏州)科技有限公司 音频上混方法、装置、电子设备和存储介质
CN113795881A (zh) * 2019-03-10 2021-12-14 卡多姆科技有限公司 使用线索的聚类的语音增强
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113963251A (zh) * 2021-11-26 2022-01-21 山东省计算中心(国家超级计算济南中心) 一种海洋生物检测方法、系统和设备
CN114283833A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 语音增强模型训练方法、语音增强方法、相关设备及介质
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及系统
WO2022134759A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
US11495215B1 (en) * 2019-12-11 2022-11-08 Amazon Technologies, Inc. Deep multi-channel acoustic modeling using frequency aligned network

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105405445A (zh) * 2015-12-10 2016-03-16 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
US20190333498A1 (en) * 2018-04-27 2019-10-31 Cirrus Logic International Semiconductor Ltd. Processing audio signals
CN108615526A (zh) * 2018-05-08 2018-10-02 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN109658935A (zh) * 2018-12-29 2019-04-19 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN113795881A (zh) * 2019-03-10 2021-12-14 卡多姆科技有限公司 使用线索的聚类的语音增强
CN110277093A (zh) * 2019-07-30 2019-09-24 腾讯科技(深圳)有限公司 音频信号的检测方法及装置
US11495215B1 (en) * 2019-12-11 2022-11-08 Amazon Technologies, Inc. Deep multi-channel acoustic modeling using frequency aligned network
WO2022134759A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质
CN112566008A (zh) * 2020-12-28 2021-03-26 科大讯飞(苏州)科技有限公司 音频上混方法、装置、电子设备和存储介质
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113963251A (zh) * 2021-11-26 2022-01-21 山东省计算中心(国家超级计算济南中心) 一种海洋生物检测方法、系统和设备
CN114283833A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 语音增强模型训练方法、语音增强方法、相关设备及介质
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAZIEL ALVAREZ ET AL.: "END-TO-END STREAMING KEYWORD SPOTTING", ICASSP 2019 *
YUEYUE NA ET AL.: "JOINT EGO-NOISE SUPPRESSION AND KEYWORD SPOTTING ON SWEEPING ROBOTS", 《ICASSP 2022》 *
杨明浩;陶建华;: "多通道人机交互信息融合的智能方法", 中国科学:信息科学 *

Also Published As

Publication number Publication date
CN115910047B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
TWI730584B (zh) 關鍵詞的檢測方法以及相關裝置
US20220159403A1 (en) System and method for assisting selective hearing
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
Dorfan et al. Tree-based recursive expectation-maximization algorithm for localization of acoustic sources
CN108899044A (zh) 语音信号处理方法及装置
CN107507615A (zh) 界面智能交互控制方法、装置、系统及存储介质
CN110287461A (zh) 文本转换方法、装置及存储介质
CN108269567A (zh) 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN114203163A (zh) 音频信号处理方法及装置
Barker et al. The CHiME challenges: Robust speech recognition in everyday environments
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN115148197A (zh) 语音唤醒方法、装置、存储介质及系统
Chen et al. Sound localization by self-supervised time delay estimation
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
CN116075888A (zh) 用于减少云服务中的延迟的系统和方法
US11460927B2 (en) Auto-framing through speech and video localizations
CN113823273A (zh) 音频信号处理方法、装置、电子设备及存储介质
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
CN111816180B (zh) 基于语音控制电梯的方法、装置、设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant