CN111722696A - 用于低功耗设备的语音数据处理方法和装置 - Google Patents
用于低功耗设备的语音数据处理方法和装置 Download PDFInfo
- Publication number
- CN111722696A CN111722696A CN202010555482.2A CN202010555482A CN111722696A CN 111722696 A CN111722696 A CN 111722696A CN 202010555482 A CN202010555482 A CN 202010555482A CN 111722696 A CN111722696 A CN 111722696A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- low
- power consumption
- optimal parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/329—Power saving characterised by the action undertaken by task scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5044—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Power Sources (AREA)
Abstract
本发明公开用于低功耗设备的语音数据处理方法和装置,其中,一种用于低功耗设备的语音数据处理方法,包括:通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;判断所述最佳参数量信息是否小于第一预设阈值;以及若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。从而可以在当前设备上以更好的状态运行,从而可以使得语音模型对语音的处理结果达到当前设备能够达到的一个较好的状态,获得一个更好的处理结果。
Description
技术领域
本发明属于低功耗设备技术领域,尤其涉及用于低功耗设备的语音数据处理方法和装置。
背景技术
随着智能穿戴设备的发展,人们对其续航能力,抗干扰能力的要求越来越高,低功耗这个词反复的出现在智能穿戴设备中,是否低功耗决定该产品是否能快速有效的推广开。目前市场上已有的低功耗比较有代表性的做法一个是开发低功耗芯片,另一个是降低计算参数量。
发明人在实现本申请的过程中发现,上述两种方案不管是重新设计芯片还是优化模型均存在成本较高且实现困难的缺陷。
发明内容
本发明实施例提供一种用于低功耗设备的语音数据处理方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于低功耗设备的语音数据处理方法,包括:通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;判断所述最佳参数量信息是否小于第一预设阈值;以及若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
第二方面,本发明实施例提供一种用于低功耗设备的语音数据处理装置,包括:算力获取模块,配置为通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;最佳参数量模块,配置为基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;判断模块,配置为判断所述最佳参数量信息是否小于第一预设阈值;以及端点检测抹除模块,配置为若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于低功耗设备的语音数据处理方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的用于低功耗设备的语音数据处理方法的步骤。
本申请的方法和装置提供的方案通过先获取设备的算力信息及相关的能够支持的CPU占用和内存信息,之后再根据这些信息得到最佳参数量信息,然后判断最佳参数量信息是不是小于第一预设阈值,如果小于,可以采用抹掉低功耗设备的语音模型中的语音端点检测模块来降低语音模型运行对设备的要求,从而可以在当前设备上以更好的状态运行,从而可以使得语音模型对语音的处理结果达到当前设备能够达到的一个较好的状态,获得一个更好的处理结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种用于低功耗设备的语音数据处理方法的流程图;
图2为本发明一实施例提供的另一种用于低功耗设备的语音数据处理方法的流程图;
图3为本发明一实施例提供的一种用于低功耗设备的语音数据处理方法的一具体实施例的流程图;
图4是本发明实施例的用于低功耗设备的语音数据处理方案一具体实施例的步骤流程图;
图5为本发明一实施例提供的一种用于低功耗设备的语音数据处理装置的框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的用于低功耗设备的语音数据处理方法的一实施例的流程图,本实施例的用于低功耗设备的语音数据处理方法可以适用于低功耗设备,本申请在此没有限制。
如图1所示,在步骤101中,通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;
在步骤102中,基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;
在步骤103中,判断所述最佳参数量信息是否小于第一预设阈值;
在步骤104中,若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
在本实施例中,对于步骤101,用于低功耗设备的语音数据处理装置通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息,例如可以通过查阅芯片手册的方式进行硬件分析,获得硬件算力信息以及能够支持的CPU占用和能够支持的内存信息。之后,对于步骤102,用于低功耗设备的语音数据处理装置可以基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息。之后,对于步骤103,判断该最佳参数量是否小于第一预设阈值,该第一预设阈值可以是能够支持某一体量的语音模型正常运行的阈值,该阈值与语音模型的大小有关,在此不再赘述,本申请在此没有限制。最后,对于步骤104,如果最佳参数量小于该第一预设阈值的话,则说明当前低功耗设备没办法支持该体量的语音模型正常运行,则需要对语音模型做一些剪裁使得该语音模型能够实现在当前的设备上的更好的性能,该方式可以是抹掉低功耗设备的语音模型中的语音端点检测模块。
本实施例的方法通过先获取设备的算力信息及相关的能够支持的CPU占用和内存信息,之后再根据这些信息得到最佳参数量信息,然后判断最佳参数量信息是不是小于第一预设阈值,如果小于,可以采用抹掉低功耗设备的语音模型中的语音端点检测模块来降低语音模型运行对设备的要求,从而可以在当前设备上以更好的状态运行,从而可以使得语音模型对语音的处理结果达到当前设备能够达到的一个较好的状态,获得一个更好的处理结果。
进一步参考图2,其示出了本发明一实施例提供的另一种用于低功耗设备的语音数据处理方法的流程图。需要说明的是,该流程图主要是针对图1中步骤104“若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块”之后的步骤进一步限定的步骤的流程图。
在步骤201中,判断所述最佳参数信息是否小于第二预设阈值,其中,所述第二预设阈值小于所述第一预设阈值;
在步骤202中,若所述最佳参数信息小于所述第二预设阈值,采用跳帧和/或定点化的方式减小所述语音模型的计算量。
在本实施例中,对于步骤201,在抹掉低功耗设备的语音模型中的语音端点检测模块之后,还需要判断该最佳参数量是不是小于一个比第一预设阈值更小的第二预设阈值,如果对于步骤202,判断的结果是比第二预设阈值还要小的话,说明仅仅是抹掉语音端点检测模块还是不够的,还需要再做一些别的操作才能进一步降低语音模型的体量,让其能够在当前低功耗设备上更好地运行,并获得在当前设备上能够获得的一个比较好的处理结果。例如可以采用跳帧和/或定点化的方式减小所述语音模型的计算量。
需要说明的是判断是否小于第一预设阈值的步骤和判断是否小于第二预设阈值的步骤可以糅合在一起完成,即同时判断,也可以有一个明确的先后判断顺序,不管以上哪种方案都能够实现本申请实施例,本申请在此没有限制,在此不再赘述。
在一些可选的实施例中,在判断所述最佳参数量信息是否小于第一预设阈值之后,所述方法还包括:若所述最佳参数量信息不小于第一预设阈值,将语音端点检测模块中的预设参量共享给后续的唤醒模块以降低所述唤醒模块的计算量,其中,所述唤醒模块为进行有监督的深度神经网络学习获取的多分类模型。从而即使在低功耗设备的最佳参数量满足的情况下也可以通过上述方式进一步减少低功耗设备中唤醒模块的计算量,从而减轻低功耗设备的负担。
请参考图3,其示出了本发明一实施例提供的一种用于低功耗设备的语音数据处理方法的一具体实施例的流程图。该流程图主要是针对整个方案在语音端点检测模块检测到语音信号之后的处理步骤进一步限定的步骤的流程图。
如图3所示,在步骤301中,在经过所述语音端点检测模块检测到语音信号之后,开启逻辑控制机制。
在步骤302中,基于逻辑控制机制确定所述当前声学环境和所述当前使用场景对应的唤醒阈值,基于语音信号的当前帧对于指定唤醒词的置信度;
在步骤303中,基于所述置信度和所述唤醒阈值确定是否启动所述唤醒模块。
在本实施例中,对于步骤301,用于低功耗设备的语音数据处理装置在根据语音端点检测检测到语音信号之后,还可以开启逻辑控制机制,其中,该逻辑控制机制包括:分析当前声学环境、当前使用场景,并基于所述当前声学环境、所述当前使用场景、历史声学环境和历史使用场景预设逻辑判断以及预设不同的唤醒阈值;即该逻辑控制机制在针对不同的声学环境和使用场景的不同组合时可以定义不同的唤醒阈值,例如对于比较嘈杂的声学环境和要求比较低的使用场景时,例如商场,可以适当的降低唤醒阈值,让设备更容易被唤醒,在比较安静的声学环境和对唤醒精度要求比较高的环境时,例如用户家里,可以适当的定义一个较高的唤醒阈值,从而减少误唤醒,以此类推,在此不再赘述。
之后,对于步骤302,根据逻辑控制机制确定了对应的唤醒阈值之后,可以获取基于语音信号的当前帧对于指定唤醒词的置信度,最后,对于步骤303,基于所述置信度和所述唤醒阈值确定是否启动所述唤醒模块。从而在不同的环境中,可以适当的调整唤醒阈值,进而实现设备更容易被唤醒或者更难被误唤醒。
在一些可选的实施例中,在经过所述语音端点检测模块检测到语音信号之前,所述方法还包括:对采集的语音数据的数字信号进行数模转换,对转换后的模拟信号进行量化;以及对所述数字信号进行预处理以提高所述语音数据的质量。从而可以通过量化信号的方式更好地确定最佳参数量,并且通过预处理的方式可以显著提高语音数据的质量,使得后续处理的准确率更高。
进一步可选的,所述预处理包括预加重、加窗、分帧、回声消除和/或波束形成。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
开发低功耗芯片是把信号处理做到芯片端,浮点运算转化为定点运算,研发设计新的低功耗算法,从而达到降低功耗的目的;降低计算参数量,通常是压缩模型结构,减小神经网络的层数,或者每层节点数,又或者降低输入参数的维度;对于算力特别有限的设备可能还需要裁剪语音端点检测技术(VAD,Voice Activity Detection)。
发明人在实现本申请的过程中发现:对于中小型行业而言,芯片经验和算法开发人员有限,设计芯片这条漫漫长路不太能走通,用的最多的还是降低计算参量的方式,该方法的优势是产品落地比较快,只要调整到合适的模型结构进行数据适当深度学习即可,此时的重心问题是优化模型,对于需求不强烈和性能要求不高的产品来说性能基本能满足需求,所以很多企业或机构不愿意花费大量人力物力去做深入优化。
本申请实施例的方案主要采用以下方式:通过硬件分析(芯片手册等),获取硬件算力信息;基于客户的需求,了解到能够分配給唤醒的CPU和内存信息,结合主频,内存,工艺以及架构等信息,加上以往硬件分析经验,可以获取设备上运行的最佳参数量信息。基于参数量灵活设计相应的模型结构,保证低功耗的同时最大限度的提升唤醒性能。目前主要做法是共享参数,把端点检测的功能移交给唤醒模块来做,端点检测节省的算力可以完全应用到唤醒模块中,此时唤醒模块的参量可以获得增加,随之带来唤醒性能的提升,依赖参数量增加的唤醒模块来实时监测当前及其历史的声学环境信息,可以更加准确有效的获取当前客户的使用场景,精确捕捉客户的使用意图,自适应学习,以适应不同环境,不同人群。该方法在算力有限的设备上特别适用,在计算量不增加的基础上,唤醒率相比之前平均提升2~3个点,尤其在噪声场景的提升尤为明显。
详细的步骤请参考图4所示:
1.采集实际信号,硬件内部配置数模转换器,对采集的模拟信号进行量化,获取便于处理的数字信号
2.对步骤1获取的数字信号进行预处理,预加重、加窗和分帧;消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响。基于信号时域,频域信息,结合空间位置在不同麦克间的能量和时间差异,获取发音人的目标方向,增强目标方向人声,抑制其他方向噪声,从而获取高信噪比的信号,为信号参数提取提供优质的参数,提高语音处理质量。目前信号处理中用的比较多的是回声消除(Acoustic Echo Cancellation,AEC)和波束形成(Beamforming)。
3.对步骤2增强后的信号进行检测,此时的语音检测跟以往的不同,以往是有个二分类的小型网络来执行语音检测,此时我们用多分类的唤醒模型共享语音检测部分参量,剔除二分类的模块,从而降低计算量。唤醒模型是基于收集的样本信息,包含唤醒词的正例样本和非唤醒词反例样本,进行有监督的深度神经网络学习获取的一个多分类模型,此模型对语音检测的准确度相比原来的二分类小网络要更加准确。通过计算后验概率区分是是否是语音,当后验概率大于某一设定的阈值时,判定为疑似语音帧,否则判定为非语音,累积若干帧都是疑似语音帧时,判定为语音开始,一旦语音开始就进入步骤3,否则继续本步骤
4.基于步骤3获取的检测信息,开启逻辑控制机制。给予步骤3的信息我们可以分析获得当前的声学环境,客户使用场景,基于当前和历史的环境信息我们设定了一系列的逻辑判断,在不同的环境中,对唤醒的后验做逻辑处理,逻辑处理后的后验作为该唤醒词的执行度计算自适应模块每帧数据的后验,获取当前帧的对于指定唤醒词的置信度,如果该置信度大于等于指定唤醒词的预设阈值时则启动唤醒机制,否则转入步骤3。
在实现本申请的过程中,发明人还采用过以下一些备选方案。目前的方案虽然在一定程度上提升了低功耗产品唤醒性能,但是实际中设备的算力越低,分配给唤醒模块的计算资源越有限,例如很多穿戴设备只有几十k的计算资源,针对这种情况,通常采用跳帧和定点化的方式来减小模型的计算量。
在实现本申请的过程中,发明人还尝试过以下方案:在低功耗研发的初期,主要是通过压缩端点检测和唤醒模块的参量来实现低功耗运行,在一些算力还可以的设备上可以正常运行且性能下降有限,但是一旦遇到计算资源特别匮乏的设备上,该算法的性能断崖式的下降,噪声场景尤为明显,根本无法达到商用的目的。
本申请实施例的方案可以实现以下有益效果:
基于唤醒模块的信号检测,比普通的端点检测算法更加能真实有效的捕捉客户到使用场景,使用意图,为后续的唤醒模型自适应学习奠定基础,同时端点检测耗费的计算资源分配给唤醒,增加了唤醒模块的参数量,使得模型的学习能力得以提升,在同等算力的硬件上,该方法在不增加计算量的情况下能有效的提升唤醒率,更值得一提的是它适用所有低功耗产品。
请参考图5,其示出了本发明一实施例提供的一种用于低功耗设备的语音数据处理装置的框图。
如图5所示,用于低功耗设备的语音数据处理装置500,包括算力获取模块510、最佳参数量模块520、判断模块530和端点检测抹除模块540。
其中,算力获取模块510,配置为通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;最佳参数量模块520,配置为基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;判断模块530,配置为判断所述最佳参数量信息是否小于第一预设阈值;以及端点检测抹除模块540,配置为若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
在一些可选的实施例中,用于低功耗设备的语音数据处理装置500,还包括:参量共享模块(图中未示出),配置为若所述最佳参数量信息不小于第一预设阈值,将语音端点检测模块中的预设参量共享给后续的唤醒模块以降低所述唤醒模块的计算量,其中,所述唤醒模块为进行有监督的深度神经网络学习获取的多分类模型。
应当理解,图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如接收模块可以描述为接收语音识别请求的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如接收模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于低功耗设备的语音数据处理方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;
基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;
判断所述最佳参数量信息是否小于第一预设阈值;
若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于低功耗设备的语音数据处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至用于低功耗设备的语音数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项用于低功耗设备的语音数据处理方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。用于低功耗设备的语音数据处理方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于低功耗设备的语音数据处理方法。输入装置630可接收输入的数字或字符信息,以及产生与用于低功耗设备的语音数据处理装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于用于低功耗设备的语音数据处理装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;
基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;
判断所述最佳参数量信息是否小于第一预设阈值;
若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于低功耗设备的语音数据处理方法,包括:
通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;
基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;
判断所述最佳参数量信息是否小于第一预设阈值;
若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
2.根据权利要求1所述的方法,其中,在若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块之后,所述方法还包括:
判断所述最佳参数信息是否小于第二预设阈值,其中,所述第二预设阈值小于所述第一预设阈值;
若所述最佳参数信息小于所述第二预设阈值,采用跳帧和/或定点化的方式减小所述语音模型的计算量。
3.根据权利要求1所述的方法,其中,在判断所述最佳参数量信息是否小于第一预设阈值之后,所述方法还包括:
若所述最佳参数量信息不小于第一预设阈值,将语音端点检测模块中的预设参量共享给后续的唤醒模块以降低所述唤醒模块的计算量,其中,所述唤醒模块为进行有监督的深度神经网络学习获取的多分类模型。
4.根据权利要求3所述的方法,其中,所述方法还包括:
在经过所述语音端点检测模块检测到语音信号之后,开启逻辑控制机制,其中,所述逻辑控制机制包括:分析当前声学环境、当前使用场景,并基于所述当前声学环境、所述当前使用场景、历史声学环境和历史使用场景预设逻辑判断以及预设不同的唤醒阈值;
基于逻辑控制机制确定所述当前声学环境和所述当前使用场景对应的唤醒阈值,基于语音信号的当前帧对于指定唤醒词的置信度;
基于所述置信度和所述唤醒阈值确定是否启动所述唤醒模块。
5.根据权利要求4所述的方法,其中,在经过所述语音端点检测模块检测到语音信号之前,所述方法还包括:
对采集的语音数据的数字信号进行数模转换,对转换后的模拟信号进行量化;
对所述数字信号进行预处理以提高所述语音数据的质量。
6.根据权利要求5所述的方法,其中,所述预处理包括预加重、加窗、分帧、回声消除和/或波束形成。
7.一种用于低功耗设备的语音数据处理装置,包括:
算力获取模块,配置为通过对所述低功耗设备进行硬件分析,获取所述低功耗设备的硬件算力信息以及能够支持的CPU占用和内存信息;
最佳参数量模块,配置为基于所述算力信息、所述能够支持的CPU占用和内存信息确定在所述低功耗设备上能够运行的最佳参数量信息;
判断模块,配置为判断所述最佳参数量信息是否小于第一预设阈值;
端点检测抹除模块,配置为若所述最佳参数量信息小于第一预设阈值,抹掉所述低功耗设备的语音模型中的语音端点检测模块。
8.根据权利要求7所述的装置,还包括:
参量共享模块,配置为若所述最佳参数量信息不小于第一预设阈值,将语音端点检测模块中的预设参量共享给后续的唤醒模块以降低所述唤醒模块的计算量,其中,所述唤醒模块为进行有监督的深度神经网络学习获取的多分类模型。
9.一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-6中任一项所述的方法的步骤。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555482.2A CN111722696B (zh) | 2020-06-17 | 2020-06-17 | 用于低功耗设备的语音数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555482.2A CN111722696B (zh) | 2020-06-17 | 2020-06-17 | 用于低功耗设备的语音数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111722696A true CN111722696A (zh) | 2020-09-29 |
CN111722696B CN111722696B (zh) | 2021-11-05 |
Family
ID=72567226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010555482.2A Active CN111722696B (zh) | 2020-06-17 | 2020-06-17 | 用于低功耗设备的语音数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111722696B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362807A (zh) * | 2021-04-26 | 2021-09-07 | 北京搜狗智能科技有限公司 | 一种实时变声的方法、装置及电子设备 |
CN113568659A (zh) * | 2021-09-18 | 2021-10-29 | 深圳比特微电子科技有限公司 | 参数配置模型的训练方法、参数配置方法和参数配置设备 |
CN115547312A (zh) * | 2022-11-30 | 2022-12-30 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173234A1 (en) * | 2009-07-21 | 2012-07-05 | Nippon Telegraph And Telephone Corp. | Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
CN107564517A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
CN110223691A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音唤醒识别的切换控制方法和装置 |
CN110515449A (zh) * | 2019-08-30 | 2019-11-29 | 北京安云世纪科技有限公司 | 唤醒智能设备的方法及装置 |
CN110910887A (zh) * | 2019-12-30 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN111028831A (zh) * | 2019-11-11 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
CN111045816A (zh) * | 2019-11-06 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种性能优化的方法以及相关装置 |
CN111192590A (zh) * | 2020-01-21 | 2020-05-22 | 苏州思必驰信息科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
-
2020
- 2020-06-17 CN CN202010555482.2A patent/CN111722696B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173234A1 (en) * | 2009-07-21 | 2012-07-05 | Nippon Telegraph And Telephone Corp. | Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
CN107564517A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
CN110223691A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音唤醒识别的切换控制方法和装置 |
CN110515449A (zh) * | 2019-08-30 | 2019-11-29 | 北京安云世纪科技有限公司 | 唤醒智能设备的方法及装置 |
CN111045816A (zh) * | 2019-11-06 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种性能优化的方法以及相关装置 |
CN111028831A (zh) * | 2019-11-11 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
CN110910887A (zh) * | 2019-12-30 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN111192590A (zh) * | 2020-01-21 | 2020-05-22 | 苏州思必驰信息科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
侯丽霞等: "强噪声环境下基于改进HHT的语音端点检测", 《计算机工程与应用》 * |
宋丹丹: "基于二值化网络实现的自适应语音处理芯片算法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362807A (zh) * | 2021-04-26 | 2021-09-07 | 北京搜狗智能科技有限公司 | 一种实时变声的方法、装置及电子设备 |
CN113568659A (zh) * | 2021-09-18 | 2021-10-29 | 深圳比特微电子科技有限公司 | 参数配置模型的训练方法、参数配置方法和参数配置设备 |
CN113568659B (zh) * | 2021-09-18 | 2022-02-08 | 深圳比特微电子科技有限公司 | 参数配置模型的训练方法、参数配置方法和参数配置设备 |
CN115547312A (zh) * | 2022-11-30 | 2022-12-30 | 深圳时识科技有限公司 | 带活动检测的预处理器、芯片和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111722696B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110428808B (zh) | 一种语音识别方法及装置 | |
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
CN108899044B (zh) | 语音信号处理方法及装置 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN111179961B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN110780741B (zh) | 模型训练方法、应用运行方法、装置、介质及电子设备 | |
CN110517670A (zh) | 提升唤醒性能的方法和装置 | |
CN112562742B (zh) | 语音处理方法和装置 | |
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111415653B (zh) | 用于识别语音的方法和装置 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN111933167A (zh) | 电子设备的降噪方法、装置、存储介质及电子设备 | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
US20240046946A1 (en) | Speech denoising networks using speech and noise modeling | |
CN110875043B (zh) | 声纹识别方法、装置、移动终端及计算机可读存储介质 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
CN112771608A (zh) | 语音信息的处理方法、装置、存储介质及电子设备 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 | |
CN112802471B (zh) | 语音音区切换方法、装置、设备及存储介质 | |
US20240170003A1 (en) | Audio Signal Enhancement with Recursive Restoration Employing Deterministic Degradation | |
CN115841812A (zh) | 语音激活检测模型的训练方法及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |