CN117524228A - 语音数据处理方法、装置、设备及介质 - Google Patents
语音数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117524228A CN117524228A CN202410025372.3A CN202410025372A CN117524228A CN 117524228 A CN117524228 A CN 117524228A CN 202410025372 A CN202410025372 A CN 202410025372A CN 117524228 A CN117524228 A CN 117524228A
- Authority
- CN
- China
- Prior art keywords
- voice
- wake
- data
- processing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 392
- 238000001514 detection method Methods 0.000 claims abstract description 136
- 238000000034 method Methods 0.000 claims abstract description 116
- 230000002618 waking effect Effects 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims description 120
- 230000000694 effects Effects 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 21
- 230000001364 causal effect Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000007499 fusion processing Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 description 79
- 238000005516 engineering process Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 18
- 230000001960 triggered effect Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000208422 Rhododendron Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种语音数据处理方法、装置、设备及介质,该方法包括:从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定唤醒成功,以控制第一对象进入工作状态。本申请基于一级唤醒模型实现唤醒词检测处理,并基于二级唤醒模型实现二次校验处理,能够提高唤醒识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种语音数据处理方法、装置、设备及介质。
背景技术
语音唤醒(Wake-up-word Detection)作为语音关键词检出任务中的一项重要应用场景,其是指通过用户说出预设的唤醒词来激活语音交互设备(诸如智能机器人、智能手环、车载设备等)以便于进行后续的语音交互流程。
一般情况下,由于设备需要随时能够被唤醒,因此语音唤醒系统需要一直处于工作状态,这会大量消耗语音唤醒系统的设备功耗。另外,对于多数语音唤醒算法而言,较好的唤醒准确率意味着更为复杂的模型和更大的参数量,也意味着功耗会较高,在设备上长时间开启会导致设备续航明显降低,影响用户使用,而功耗较低的小模型则准确率会受到限制。
发明内容
本申请实施例提出了一种语音数据处理方法、装置、设备及介质,能够基于一级唤醒模型实现唤醒词检测处理,并基于二级唤醒模型实现二次校验处理,能够提高唤醒识别的准确性。
一方面,本申请实施例提供了一种语音数据处理方法,该方法包括:
从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;
在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;
在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定对第一对象唤醒成功,以控制第一对象进入工作状态。
一方面,本申请实施例提供了一种语音数据处理装置,该装置包括:
获取单元,用于从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
处理单元,用于通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;
处理单元,还用于在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;
处理单元,还用于在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定对第一对象唤醒成功,以控制第一对象进入工作状态。
在一种可能的实现方式中,第一对象中部署有语音队列,语音队列用于存储实时语音数据流;在通过二级唤醒模型对目标数据进行识别处理之前,处理单元还用于执行以下操作:
根据语音唤醒数据、且按照先入先出的方式更新语音队列,语音队列中存储有目标数据;其中,语音队列的长度大于语音唤醒数据的长度。
在一种可能的实现方式中,一级唤醒模型中配置有语音活动检测模块;从针对第一对象的语音唤醒数据中获取目标帧长的语音唤醒数据之后,处理单元还用于执行以下操作:
通过语音活动检测模块,对语音唤醒数据进行语音活动检测处理,语音活动检测处理用于检测语音唤醒数据中是否包含活性语音信号;
若语音唤醒数据中不包含活性语音信号,则确定对第一对象唤醒失败,并控制第一对象的状态维持在休眠状态下。
在一种可能的实现方式中,一级唤醒模型中还配置有第一识别模块;处理单元通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理,用于执行以下操作:
对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征;其中,频域语音特征包括:梅尔倒谱系数、线性预测系数、线性预测倒谱系数、离散小波变换特征中的任一种或多种特征;
通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,一级唤醒模型中还配置有降噪模块;对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征之后,处理单元还用于执行以下操作:
对语音唤醒数据的频域语音特征进行分析处理,以从频域语音特征中确定出语音唤醒数据的噪声谱特征;
通过降噪模块,对语音唤醒数据的噪声谱特征进行降噪处理,得到降噪后的频域语音特征。
在一种可能的实现方式中,第一识别模块为时延神经网络模块,时延神经网络模块包括N个时延层及一个分类层,任一个时延层包括:一维因果空洞卷积层、批归一化层以及激活函数层,N为正整数;处理单元通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率,用于执行以下操作:
通过一维因果空洞卷积层,对降噪后的频域语音特征进行因果卷积处理,得到卷积语音特征;
采用批归一化层对卷积语音特征进行归一化处理,得到归一化语音特征,并采用激活函数层对归一化语音特征进行激活处理,得到处理后的语音特征;
基于分类层对将处理后的语音特征进行分类识别,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,处理单元还用于执行以下操作:
按照预设方式运行第一对象,预设方式用于指示:在第一对象的预设功耗状态下运行一级唤醒模型及二级唤醒模型;
其中,预设方式包括以下任一种:
按照第一预设频率所指示的第一运行状态运行所述一级唤醒模型,以及,按照第二预设频率所指示的第二运行状态运行二级唤醒模型;第二预设频率高于第一预设频率;
在第一对象的指定类型芯片中运行一级唤醒模型,并在第一对象的核心芯片中运行二级唤醒模型;其中,在二级唤醒模型对语音唤醒数据识别完成后,将核心芯片设置为关闭状态。
在一种可能的实现方式中,二级唤醒模型中配置有特征提取模块及第二识别模块;处理单元通过二级唤醒模型对目标数据进行识别处理,用于执行以下操作:
通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征;
通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,特征提取模块包括第一特征提取子模块及第二特征提取子模块;处理单元通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征,用于执行以下操作:
通过第一特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第一语音特征;以及,
通过第二特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第二语音特征;
对第一语音特征及第二语音特征进行特征融合处理,得到目标数据的高维隐层特征;其中,特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。
在一种可能的实现方式中,第二识别模块为深层前馈序列记忆神经网络,深层前馈序列记忆神经网络包括:序列记忆层、线性映射层、以及隐藏层;处理单元通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率,用于执行以下操作:
采用序列记忆层,对目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;
通过线性映射层,对目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;
基于隐藏层对映射结果进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,处理单元控制第一对象的状态由休眠状态切换至工作状态之后,还用于执行以下操作:
接收第二对象针对工作状态下的第一对象发出的任务指令;
对任务指令进行识别分析,得到任务分析结果,任务分析结果用于指示任务指令所指示的目标任务;
执行任务分析结果所指示的目标任务,并输出与目标任务相匹配的关联内容。
一方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器、输入设备、输出设备和存储器;该存储器中存储有计算机程序;该计算机程序被处理器执行时,执行上述语音数据处理方法。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行时,执行上述语音数据处理方法。
一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时,执行上述语音数据处理方法。
本申请实施例中,可以从针对第一对象的语音唤醒数据中获取音频帧,并通过一级唤醒模型对该音频帧进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对语音唤醒数据中包含上述音频帧的目标数据进行识别处理;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,即可确定对第一对象唤醒成功,以控制第一对象进入工作状态。由此可见,本申请在接收到一段实时的语音数据流后,首先可以获取语音唤醒数据,并按照一级唤醒模型对该语音唤醒数据进行唤醒词检测处理;进一步地,在通过一级唤醒模型的唤醒词检测处理后语音唤醒数据能够被二级唤醒模型进行再次识别处理,由于语音唤醒数据先后经过两个不同唤醒模型的识别处理,这种方式能够提高针对当前语音唤醒数据的语音识别的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术对象来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音数据处理方案的原理示意图;
图2是本申请实施例提供的一种语音数据处理系统的架构示意图;
图3是本申请实施例提供的一种语音数据处理方法的流程示意图;
图4是本申请实施例提供的另一种语音数据处理方法的流程示意图;
图5是本申请实施例提供的一种一级唤醒模型的处理流程示意图;
图6a是本申请实施例提供的一种时延神经网络模块的结构示意图;
图6b是本申请实施例提供的一种一维因果空洞卷积层的结构示意图;
图7是本申请实施例提供的一种二级唤醒模型的结构示意图;
图8是本申请实施例提供的一种语音交互处理的场景示意图;
图9是本申请实施例提供的一种语音数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请提供了一种语音数据处理方案,适应于诸如:语音唤醒、机器问答、机器翻译等智能语音交互场景,能够在智能语音交互场景中,为第一对象设计一级唤醒模型及二级唤醒模型,从而可基于一级唤醒模型实现语音活动检测处理,并基于二级唤醒模型实现二次唤醒识别处理,本方案既可以降低设备功耗又可以提高唤醒识别的准确性。请参见图1,图1是本申请实施例提供的一种语音数据处理方案的原理示意图。下面结合图1对本申请提供的语音数据处理方案的原理进行大致阐述:如图1所示,本申请为第一对象设计了一级唤醒模型和二级唤醒模型,①在智能语音交互场景中,一级唤醒模型可以接收第二对象发出的实时语音数据流,该实时语音数据流可以是指由第二对象(如用户)针对休眠状态下的第一对象(如语音交互设备)发起的唤醒事件中所携带的数据;其中,第一对象中还部署有语音队列,当接收到第二对象的实时语音数据流后,可以将实时语音数据流存储至语音队列中,一级唤醒模型可以从语音队列中按照目标帧长获取语音唤醒数据(即语音唤醒数据是一段目标帧长的音频帧);②可选的,一级唤醒模型具备语音活动检测功能,当获取到语音唤醒数据后,可以通过一级唤醒模型对该语音唤醒数据进行语音活动检测处理,以检测该语音唤醒数据是否为静音信号,若是,则可以确定第二对象针对第一对象唤醒失败;若否,则可以通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理,从而得到语音唤醒数据的唤醒置信度1(即第一概率);③将得到的唤醒置信度1与第一预设阈值(即一级唤醒模型的置信度阈值)进行比较,若唤醒置信度1小于第一预设阈值,则确定第二对象针对第一对象唤醒失败;若唤醒置信度1大于或等于第一预设阈值,则启动二级唤醒模型进行唤醒识别;④进一步地,通过二级唤醒模型对目标数据进行二级识别处理,即可得到该目标数据的唤醒置信度2(即第二概率),其中,该目标数据为实时语音数据流中包含语音唤醒数据的部分;⑤将得到的唤醒置信度2与第二预设阈值(即二级唤醒模型的置信度阈值)进行比较,若唤醒置信度2小于第二预设阈值,则确定第二对象针对第一对象唤醒失败;若唤醒置信度2大于或等于第二预设阈值,则确定对第一对象唤醒成功,即可控制第一对象从休眠状态切换至工作状态。可选的,当第一对象进入至工作状态后,可以触发第一对象在工作状态下与第二对象执行语音交互处理,诸如:语音问答、机器翻译、唱歌朗诵等交互。
上述可见,一方面,本申请在接收到实时语音流时,首先能够对语音唤醒数据进行语音活动检测处理,从而判断该语音唤醒数据是否为静音信号,若是,则无需执行后续识别流程,即需在通过语音活动检测的情况下方可启动一级唤醒模型执行后续的语音识别处理,能够降低一级唤醒模型的运行功耗,从而降低第一对象的设备功耗;另一方面,本申请基于一级唤醒模型及二级唤醒模型依次对语音唤醒数据进行两次识别处理,由于二级唤醒模型的精度高于一级唤醒模型的精度,那么首先按照低精度的模型进行一级识别然后按照高精度的模型进行二级识别的方式,能够提高对语音唤醒数据的识别准确性。
下面对本申请涉及到的关键技术术语进行详细介绍。
一、第一对象及第二对象。
第一对象是指在智能语音交互场景中需通过预设语音指令,方可被成功唤醒的对象。例如第一对象包括但不限于:智能机器人、智能穿戴设备、智能家居产品等需要任意语音唤醒的设备及产品;其中,唤醒不同类型的第一对象所对应的预设语音指令可以相同,也可以不相同,例如第一对象为智能机器人,则唤醒该智能机器人的预设语音指令可以为指令1;又如第一对象为智能穿戴设备,则唤醒该智能机器人的预设语音指令可以为指令2。通常情况下,若第一对象未检测到预设的语音指令(例如没有任何语音指令或检测到的语音指令不为该预设语音指令),则该第一对象处于休眠状态,所谓休眠状态可以理解为非工作状态,即无法执行语音交互处理的状态;若第一对象检测到预设语音指令,则第一对象被成功唤醒,那么该第一对象的状态可以从休眠状态切换至工作状态,所谓工作状态是指能够与其他对象执行语音交互处理的状态,例如语音交互处理包括:语音问答、语音对话、唱歌朗诵等交互处理。
第二对象是指针对休眠状态下的第一对象发起语音指令的对象,第二对象可以为用户或设备,其中,该语音指令中可以包括语音唤醒数据。若第一对象对第二对象发起的语音唤醒数据识别成功,则可以确定第一对象对第二对象唤醒成功,那么第一对象与第二对象之间即可执行后续的语音交互处理;反之,若第一对象对第二对象发起的语音唤醒数据识别失败,则可以确定第一对象对第二对象唤醒失败,那么第一对象无法与第二对象之间进行语音交互处理。
二、一级唤醒模型及二级唤醒模型。
一级唤醒模型是指对语音唤醒数据执行语音活动检测处理及唤醒词检测处理的模型,此处的语音活动检测处理用于检测该语音唤醒数据中是否包含活性语音信号,所谓活性语音信号可以包括:人声、音乐、噪声等非静音信号;只有通过语音活动检测处理的语音唤醒数据,方可被一级唤醒模型执行唤醒词检测处理;若未通过语音唤醒数据未通过语音活动检测处理,则表示该语音唤醒数据中不存在有效的活动信号(静音信号),可以确定对第一对象唤醒失败。
二级唤醒模型是指对包含语音唤醒数据的目标数据进行识别处理的模型,此处的识别处理可以包括唤醒词检测处理,若目标数据通过二级唤醒模型的识别处理,则可以确定第二对象基于该语音唤醒数据对第一对象唤醒成功;否则,可以确定第二对象基于该语音唤醒数据对第一对象唤醒失败。
其中,二级唤醒模型所处理的数据与一级唤醒模型所处理的数据可以相同(例如均为语音唤醒数据),也可以不相同(例如一级唤醒模型所处理的数据为语音唤醒数据,而二级唤醒模型所处理的数据为目标数据,并且目标数据与语音唤醒数据不相同)。另外,一级唤醒模型的精度低于二级唤醒模型的精度,此处的精度可以包括:模型参数的精度、模型识别的准确率中的任一种或多种;通常情况下,一级唤醒模型为轻量型网络模型,二级唤醒模型为复杂型网络模型,此处的轻量级及复杂型是基于:模型参数量大小、模型网络层数量的多少、模型结构的复杂程度等指标来衡量的。
三、语音活动检测处理。
语音活动检测,顾名思义,是一种对语音唤醒数据进行活性语音信号的检测方式,所谓活性语音信号,是指非静止的语音信号(即静音信号),例如活性语音信号可以包括:人声、音乐、噪声、雨声、风声等非静音信号。本申请中,对语音唤醒数据进行语音活动检测处理,能够判断该语音唤醒数据是否为静音信号,若是,则无需进行后续的语音识别处理,直接确定对第一对象的唤醒失败;若否,才启动一级唤醒模型对语音唤醒数据进行一级识别处理及后续的二级识别处理等流程。因此,通过语音活动检测处理对语音唤醒数据进行活性语音信号的检测,能够降低设备功耗。
四、人工智能。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器;人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提出的语音数据处理方案,可以涉及人工智能领域内的机器学习技术及语音处理技术,具体地,本申请能够采用机器学习技术训练一级唤醒模型及二级唤醒模型,从而使得第一对象在检测到唤醒事件后,能够通过一级唤醒模型和二级唤醒模型对唤醒事件所携带的语音唤醒数据进行识别处理;另外,在确定第二对象对第一对象唤醒成功后,第一对象即可采用语音处理技术识别第二对象发出的任务指令,并执行任务指令所指示的目标任务,从而实现第一对象与第二对象之间的语音交互,诸如:智能机器问答、机器翻译等交互场景。
五、云技术。
本申请提出的语音数据处理方案中,涉及较多的数据计算服务以及数据存储服务,因此需要花费大量的计算机运营成本。那么,可以采用云技术为本方案提供数据计算服务以及数据存储服务,以便于能够更好的进行车辆的仿真处理。具体地,可以基于数据计算服务通过一级唤醒模型对语音唤醒数据进行一级识别处理,以及通过二级唤醒模型对语音唤醒数据进行二级识别处理;另外,可以基于数据存储服务将获取到的唤醒事件中所携带的语音唤醒数据进行数据存储。其中,所谓云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。其中,云技术可以包括云存储技术,所谓云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
六、区块链。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。下面对区块链系统、区块链节点、以及区块结构等相关概念进行说明。
本申请中,语音数据处理过程中涉及诸多类型的语音唤醒数据,可选的,本申请可将语音唤醒数据发送至区块链进行存储,基于区块链的不可篡改、可追溯等特性可避免数据被篡改或泄露,从而提高语音数据处理过程的数据安全性和可靠性。
需要特别说明的是,在本申请中涉及到的语音唤醒数据。在本申请以上实施例运用到具体产品或技术中时,需获得用户许可或同意,且相关数据收集、使用和处理过程需遵守地区的相关法律法规和标准,符合合法、正当、必要的原则,不涉及获取法律法规禁止或限制的数据类型。在一些可选的实施例中,本申请实施例中所涉及的相关数据是经过对象单独授权后获取的,另外,在获取对象单独授权时,需向对象表明所涉及的相关数据的用途。
下面对本申请提供的语音数据处理系统的架构图进行具体介绍。
请参见图2,图2是本申请实施例提供的一种语音数据处理系统的架构示意图。如图2所示,该语音数据处理系统的架构图中至少可以包括:语音交互设备集群以及后台服务器204。其中,语音交互设备集群中可以包括至少一个语音交互设备,例如:语音交互设备201、语音交互设备202、语音交互设备203等等,本申请实施例对该语音交互设备集群中的语音交互设备的数量不做具体限定,设备数量可以根据语音交互场景的不同需求而灵活变更。可选的,本申请所涉及的第一对象是指语音交互设备集群中的任一个语音交互设备(例如语音交互设备201);另外,任一个语音交互设备可以通过有线或无线通信方式与后台服务器204之间进行直接或间接地连接。需要说明的是,本申请中的任一语音交互设备均具备语音交互功能,即需通过语音唤醒方可正常执行语音交互。
本申请提供的语音数据处理系统中的任一计算机设备(语音交互设备、或后台服务器)可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobileinternet device)、车辆、车载设备、路边设备、智能机器人、飞行器、可穿戴设备,诸如智能手表、智能手环、计步器等智能设备,虚拟现实设备等。
本申请提供的语音数据处理系统中的任一计算机设备(语音交互设备、或者后台服务器)也可以是服务器。具体地,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可以理解的是,本申请的语音数据处理系统中的各个计算机设备的类型可以相同或不同,例如,语音交互设备201可以是智能机器人,语音交互设备202可以是智能手环;再如,语音交互设备201和语音交互设备203均可以是手机,后台服务器204可以是服务器,本申请并不对基于语音数据处理系统中的各个计算机设备的数量及类型进行限定。下面以第一对象为语音交互设备201为例,对第一对象与第二对象之间的语音数据处理的具体过程进行简要描述。
①在智能语音交互场景中,第二对象(如用户)可以发起针对第一对象(即语音交互设备201)的唤醒事件,该唤醒事件是由第二对象针对休眠状态下的第一对象发起的事件,并且该唤醒事件可以携带有第二对象发出的语音唤醒数据。
②语音交互设备201检测到唤醒事件后,可以响应于该唤醒事件,并获取唤醒事件中携带的语音唤醒数据,并将该语音唤醒数据发送至后台服务器204。其中,语音交互设备201包括一级唤醒模型及二级唤醒模型;一级唤醒模型及二级唤醒模型均用于识别语音唤醒数据唤醒第一对象的概率,并且一级唤醒模型的精度低于二级唤醒模型的精度。
③后台服务器204可以对语音唤醒数据进行语音活动检测处理,得到语音活动检测处理的结果,该结果用于指示语音唤醒数据中是否包含活性语音信号。后台服务器204将该活性检测处理的结果发送至语音交互设备201。
④若语音活动检测处理的结果指示语音唤醒数据中包含活性语音信号,则语音交互设备201通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理。
⑤若唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值,则语音交互设备201通过二级唤醒模型对语音唤醒数据进行识别处理。
⑥若识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值,则确定第二对象对第一对象唤醒成功,那么可以由后台服务器204控制语音交互设备201的状态由休眠状态切换至工作状态,并触发语音交互设备201在工作状态下与用户执行语音交互处理,诸如:语音问答、机器翻译、唱歌朗诵等交互处理。
需要说明的是,上述流程是一个示例,并不对第一对象(即语音交互设备201)及后台服务器204执行的步骤进行具体限定,可选的,对语音唤醒数据进行活性检测处理,也可以由语音交互设备201来执行,另外,上述流程还可以由语音交互设备201或后台服务器204单独执行。
在一种可能的实现方式中,可以将本申请提供的语音数据处理系统部署在区块链系统中,即可以将语音交互设备201、语音交互设备202、语音交互设备203、以及后台服务器204均作为区块链系统中的节点设备,并将上述语音数据处理过程所涉及的相关数据(例如语音唤醒数据)均存储在区块链上,从而本申请中对语音唤醒数据的具体处理流程可以在区块链上执行,这样既可以保证语音数据处理流程的公平公正化,同时可以使得语音数据处理流程具备可追溯性,提升语音数据处理流程的安全性及可靠性。
本申请提供的语音数据处理系统,任一个语音交互设备可以响应于针对第一对象的唤醒事件,获取该唤醒事件携带的语音唤醒数据;唤醒事件是由第二对象针对休眠状态下的第一对象发起的事件,第一对象包括一级唤醒模型及二级唤醒模型;其中,一级唤醒模型及二级唤醒模型均用于识别语音唤醒数据唤醒第一对象的概率,并且一级唤醒模型的精度低于二级唤醒模型的精度;通过一级唤醒模型,对语音唤醒数据进行语音活动检测处理;若语音活动检测处理的结果指示语音唤醒数据中包含活性语音信号,则通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理;若唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值,则通过二级唤醒模型对语音唤醒数据进行识别处理;若识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值,则控制第一对象的状态由休眠状态切换至工作状态,并触发第一对象在工作状态下与第二对象执行语音交互处理。由此可见,一方面,本申请为第一对象设计了一级唤醒模型和二级唤醒模型这两个唤醒模型,并采用不同精度的两个唤醒模型依次对第二对象的语音唤醒数据进行识别处理,从而可以提高语音识别的准确性;另一方面,一级唤醒模型能够实现对语音唤醒数据的语音活动检测,在通过语音活动检测的情况下方可启动一级唤醒模型执行后续的语音识别处理,能够降低一级唤醒模型的运行功耗,从而降低第一对象的设备功耗。
可以理解的是,本申请实施例描述的语音数据处理系统是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术对象可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合附图对语音数据处理方案涉及的具体实施例进行描述。
请参见图3,图3是本申请实施例提供的一种语音数据处理方法的流程示意图。该方法可以由图2所示的语音数据处理系统中的任一语音交互设备(例如终端设备或服务器)执行。如图3所示,该语音数据处理方法主要包括但不限于如下步骤S301-S304:
S301:从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据。
本申请中,语音唤醒数据可以理解为一帧音频数据;在唤醒词检测的过程中,会持续从实时语音数据流中提取目标帧长的语音唤醒数据,即按照目标帧长持续提取语音唤醒数据。其中,此处的目标帧长可以按照经验值设置,例如目标帧长被设置为10ms,那么获取到的语音唤醒数据是一段帧长为10ms的音频数据,并且在唤醒词检测的过程中,从实时语音数据流中持续提取帧长为10ms的语音唤醒数据。
其中,语音数据流是指第一对象(诸如:智能机器人、车载设备、智能家居设备等语音交互设备)检测到由第二对象(如用户)发起的唤醒事件后,实时获取到的语音数据,即此处针对第一对象的语音数据流是一段实时语音数据流,所谓实时语音数据流是指伴随着时间的推移,能够源源不断地产生新的语音数据的动态数据流。可选的,此处的唤醒事件可以是由第二对象针对休眠状态下的第一对象所发起的事件。
具体实现时,第一对象中可以部署有一级唤醒模型及二级唤醒模型。其中,一级唤醒模型及二级唤醒模型均用于识别语音唤醒数据唤醒第一对象的概率,并且一级唤醒模型的精度低于二级唤醒模型的精度。此处的精度可以包括:模型参数量大小、模型网络层数量的多少、以及模型结构的复杂程度等指标来衡量的,例如一级唤醒模型的模型参数量小于二级唤醒模型的模型参数量,则一级唤醒模型的精度低于二级唤醒模型的精度;又如一级唤醒模型的网络层数量小于二级唤醒模型的网络层数量,则一级唤醒模型的精度低于二级唤醒模型的精度,因此,通常情况下,可以将一级唤醒模型俗称为轻量级(或低精度)模型,将二级唤醒模型俗称为复杂级(或高精度)模型。
具体地,一级唤醒模型及二级唤醒模型均可以为神经网络模型,此处的神经网络模型可以包括但不限于:TDNN(Time delay neural network,时延神经网络)模型、DCCRN(Deep Complex Convolution Recurrent Network,深度复数卷积循环网络)模型、CNN(Convolutional neural networks,卷积神经网络)模型、RNN(Recurrent neuralnetworks,循环神经网络)模型、LSTM(Long Short Term Memory,长短期记忆)模型、GRU(Gated recurrent units,门循环单元)模型等,本申请实施例并不对一级唤醒模型的模型结构及二级唤醒模型的模型结构进行具体限定,例如,一级唤醒模型可以为TDNN模型,二级唤醒模型可以为DCCRN模型。
在一种可能的实现方式中,当满足预设条件时,第一对象方可响应于第二对象发起的唤醒事件,从而获取唤醒事件携带的语音唤醒数据。其中,此处的预设条件可以包括以下任一种或多种:1、第一对象与第二对象之间的对象距离需大于或等于预设距离阈值,此处的对象距离可以是指第一对象的几何中心与第二对象的几何中心之间的距离;2、第二对象发出的语音分贝量大于或等于预设分贝阈值,即第二对象发出的语音需达到一定音量高度,方可被第一对象检测到;3、第一对象处于待机状态(其中,所谓待机状态是指该设备已经开机,即已经启动电源,本申请中的休眠状态是指该设备在待机状态下的一种状态),例如第一对象为智能交互设备,则需保证该智能交互设备处于待机状态,若该智能交互设备处于关机状态,则无法检测到唤醒事件。在此实现方式中,限定了第一对象能够检测到唤醒事件的预设条件,可以提高语音唤醒的准确性。
在一种可能的实现方式中,按照预设方式运行第一对象。其中,该预设方式用于指示:在第一对象的预设功耗状态下运行一级唤醒模型及二级唤醒模型。其中,所谓功耗是指功率的损耗,是指设备(即第一对象)的输入功率和输出功率之间的差额;另外,此处的预设方式包括以下任一种方式:
方式一、按照第一预设频率所指示的第一运行状态运行一级唤醒模型,以及,按照第二预设频率所指示的第二运行状态运行二级唤醒模型;第二预设频率高于第一预设频率。在此方式中,本申请能够在较低功耗状态(诸如较低的电量、较低的内存占比等状态)下运行精度较低的轻量级的一级唤醒模型,并在一级唤醒模型唤醒识别成功后,按照常规状态来运行较高精度的二级唤醒模型,能够尽可能降低设备功耗。
方式二、在第一对象的指定类型芯片(中运行一级唤醒模型,并在第一对象的核心芯片中运行二级唤醒模型;其中,在二级唤醒模型对语音唤醒数据识别完成后,将核心芯片设置为关闭状态。其中,指定类型芯片是指主要负责提供语音处理功能(例如语音识别、语音播放等)的语音专用芯片;核心芯片是指用于提供设备(即第一对象)的核心处理功能的主芯片,例如:信号处理功能、图像处理功能、语音处理功能等任意类型的处理功能芯片。在此方式中,一级唤醒模型运行在设备上的专用语音芯片中,在一级唤醒模型被成功唤醒后,方可启动运行在设备主芯片上的二级唤醒模型,能够避免主芯片长期启动,从而实现使得设备在低功耗状态下运行。
S302:通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理。
需要说明的是,由于步骤S301是持续进行的,所以此处的唤醒词检测处理的过程可以理解为:将多段目标帧长(如10ms)的语音唤醒数据按照顺序输入到一级唤醒模型进行处理,一级唤醒模型会在前一段目标帧长的语音唤醒数据的处理结果的基础上,继续处理后一段目标帧长的语音唤醒数据;例如,假设多段目标帧长的语音唤醒数据包括:语音唤醒数据1(例如实时语音数据流中第0-10ms这一帧音频数据)、语音唤醒数据2(例如实时语音数据流中第10-20ms这一帧音频数据)、语音唤醒数据3(例如实时语音数据流中第20-30ms这一帧音频数据),那么上述三段音频数据分别按照语音唤醒数据1、语音唤醒数据2、语音唤醒数据3的顺序被依次输入至一级唤醒模型中,一级唤醒模型首先会对语音唤醒数据1进行唤醒词检测处理,得到语音唤醒数据1的处理结果1,并基于该语音唤醒数据1的处理结果1,继续处理语音唤醒数据2,以得到语音唤醒数据2的处理结果2;同理,一级唤醒模型将会在语音唤醒数据2的处理结果2的基础上,继续处理语音唤醒数据3,以得到语音唤醒数据2的处理结果2。
一个唤醒词可能对应多段目标帧长的语音唤醒数据,以一个唤醒词对应5段目标帧长的语音唤醒数据为例,当检测完第5段目标帧长的语音唤醒数据时,会得到唤醒第一对象的第一概率;由于一级唤醒模型会在前一段目标帧长的语音唤醒数据的处理结果的基础上,处理后一段目标帧长的语音唤醒数据,所以该第一概率可以认为是对5段目标帧长的语音唤醒数据的处理结果。
在一种可能的实现方式中,一级唤醒模型中配置有语音活动检测模块,语音活动检测模块可以为具备语音活动检测功能的硬件模块或软件模块,例如语音活动检测模块可以为VAD(Voice activity detection)模块,该VAD模块可以用于检测是否存在活性语音信号,用于区分静音环境和非静音(即嘈杂)环境。可选的,在从针对第一对象的语音唤醒数据中获取目标帧长的语音唤醒数据之后,第一对象还可以执行以下操作:通过语音活动检测模块,对语音唤醒数据进行语音活动检测处理,以得到语音活动检测处理的结果,该语音活动检测处理的结果用于指示语音唤醒数据中是否包含活性语音信号,例如:人声、音乐、噪声等非静音信号。具体实现时,若语音活动检测处理的结果用于指示语音唤醒数据中不包含活性语音信号,则直接可以确定第二对象对第一对象唤醒失败,并控制第一对象的状态维持在休眠状态下;若语音活动检测处理的结果用于指示语音唤醒数据中包含活性语音信号,则触发执行后续步骤。
进一步地,若语音活动检测处理的结果指示语音唤醒数据中包含活性语音信号,则通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理。下面对一级唤醒模型的唤醒词检测处理过程进行详细说明。
在一种可能的实现方式中,一级唤醒模型中配置有第一识别模块,第一识别模块用于对语音唤醒数据进行特征识别处理。第一对象通过一级唤醒模型对语音唤醒数据进行一级识别处理,具体可以包括如下流程:首先,对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征;其中,频域语音特征包括:梅尔倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Predictive CepstralCoefficient,LPCC)、FBank(Filterbank,滤波器组)特征、以及LPC(Linear PredictionCoefficient,线性预测系数)中的任一种或多种特征;然后,通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率。具体实现时,可以采用不同的频域特征提取方式来提取不同类型的频域语音特征,例如采用MFCC提取方式对语音唤醒数据进行特征提取后,可以得到语音唤醒数据的MFCC特征;又如,采用滤波器提取方式对语音唤醒数据进行特征提取后,可以得到语音唤醒数据的FBank特征。由此可见,一级唤醒模型在对语音唤醒数据进行唤醒词检测处理的过程中,主要包括频域语音特征的提取处理及一级识别处理这两个过程,其中:
(1)频域语音特征的提取处理。
i.数据预处理。
可选的,在提取频域语音特征之前,还可以对语音唤醒数据进行预处理,得到预处理后的语音唤醒数据;然后,对预处理后的语音唤醒数据进行频域特征提取,得到语音唤醒数据的频域语音特征;其中,预处理包括以下至少一种:去噪处理、音量增强处理、音频剪辑处理、音频对齐处理。
具体来说,可以基于语音预处理工具(例如Kaldi工具)来执行上述预处理步骤。其中,①去噪处理:从语音唤醒数据中去除噪声,例如语音唤醒数据为游戏数据,则可以将游戏过程中的背景音、环境噪声等作为噪声进行消除处理;②音量增强处理:将采集到的语音唤醒数据中的音量进行增加,例如可以将语音唤醒数据的音量增加至指定音量(例如100);③音频剪辑处理:是将语音唤醒数据切割成固定长度的语音片段,以便于后续的特征提取和声纹识别,通常情况下,音频剪辑处理会将语音唤醒数据切割成长度为1-3秒的语音片段,这个长度可以根据具体应用场景进行调整(例如游戏场景中切割为1秒的语音片段、直播场景中切割为2秒的语音片段);④音频对齐处理:是将前述步骤中剪辑得到的语音片段对齐到同一长度,以便于后续的特征提取和声纹识别。由于不同的语音片段长度可能不同,因此需要对它们进行对齐操作,使它们具有相同的长度,具体地,音频对齐处理的实现方式通常有两种:一种是基于线性插值的对齐处理,即将语音片段进行线性插值,使它们具有相同的长度;另一种是基于动态时间规整(Dynamic Time Warping,DTW)的对齐处理,即通过动态规划的方式将语音片段对齐到同一长度。
ii.特征提取处理。
本申请实施例中涉及到的频域语音特征例如可以包括:MFCC特征、FBank特征、LPC特征、或者LPCC特征中的任一种;可选的,频域语音特征也可以为上述部分或全部特征进行融合处理后得到的融合特征,例如频域语音特征为MFCC特征与FBank特征进行平均运算处理后得到的融合特征。其中,本申请实施例中的频域语音特征可以为MFCC梅尔频谱特征,所谓梅尔频谱是一种通常用于语音信号处理的频谱表示方法,它是通过对声音信号的频谱进行加权,使其更符合人耳的感知特性而得到的;人耳对于不同频率的声音敏感度不同,梅尔频谱就是通过对频域信号进行梅尔滤波器组滤波,将高频部分的分辨率降低,低频部分的分辨率提高,从而更好地模拟人耳的感知特性。
(2)一级识别处理。
在一种可能的实现方式中,一级唤醒模型中还配置有降噪模块。在对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征之后,还可以对语音唤醒数据的频域语音特征进行分析处理,以从频域语音特征中确定出语音唤醒数据的噪声谱特征(即噪音数据的特征);通过降噪模块,对语音唤醒数据的噪声谱特征进行降噪处理,得到降噪后的频域语音特征。
进一步地,可以通过第一识别模块对降噪后的频域语音特征进行一级识别处理,从而得到一级识别处理的结果。其中,该一级识别处理的结果可以包括语音唤醒数据唤醒第一对象的第一概率(或第一置信度)。其中,第一识别模块可以为具备语音识别功能的任意网络结构的模块,对此不作具体限定,例如第一识别模块可以为TDNN(Time DelayNeural Network,时延神经网络)模块。
上述可见,本申请实施例在采用对语音唤醒数据进行唤醒词检测处理之前,需预先对语音唤醒数据进行语音活动检测处理,并在语音唤醒数据通过语音活动检测处理之后,方可通过一级唤醒模型执行一级识别处理;反之,则不会执行后续的一级识别处理乃至二级识别处理等步骤,可避免设备长时间待机,从而能够降低设备功耗。
S303:在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为实时语音数据流中包含语音唤醒数据的部分。
在一种可能的实现方式中,唤醒词检测处理的结果可以包括语音唤醒数据唤醒第一对象的第一概率,例如第一概率可以为第一置信度,例如0.7;第一预设阈值是指一级唤醒模型的置信度阈值,若第一概率大于或等于该第一预设阈值,则可以认为一级唤醒模型对该语音唤醒数据的识别成功,则触发通过二级唤醒模型对语音唤醒数据进行二级识别处理;反之,若第一概率小于该第一预设阈值,则可以认为一级唤醒模型对该语音唤醒数据的识别失败,则可以确定对第一对象的唤醒失败,那么控制第一对象的状态维持在休眠状态下。
其中,第一预设阈值可以按照不同场景需求自定义设置,例如机器问答场景中,第一预设阈值可以为0.7;又如机器翻译场景中,第一预设阈值可以为0.8。另外,第一预设阈值还可以基于一级唤醒模型的模型结构进行相应设置,例如一级唤醒模型的模型结构较为复杂,则第一预设阈值偏低;又如一级唤醒模型的模型结构较为简单,则第一预设阈值偏高,即越简单的模型结构则采用较高的置信度阈值,以及越复杂的模型则采用较低的置信度阈值,采用这种方式,能够提高一级识别模型识别处理的唤醒率。
在一种可能的实现方式中,二级唤醒模型中配置有特征提取模块及第二识别模块。第一对象通过二级唤醒模型对目标数据进行二级识别处理,主要包括如下步骤:首先,通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征;然后,通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率。其中,此处的目标数据可以为目标帧长(例如10ms)的语音唤醒数据,即目标数据为一段10ms的音频帧;或者,该目标数据也可以包括语音唤醒数据以及其它数据(例如实时语音数据流中另外20ms的语音数据),即目标数据为一段30ms的音频帧。也就是说,目标数据的长度大于或等于语音唤醒数据的长度。
其中,此处的特征提取模块可以为具备特征提取功能的任意网络结构的模块,例如DCCRN(Deep Complex Convolution Recurrent Network,深度复数卷积循环网络)模块,第二识别模块同样可以为具备语音识别功能的任意网络结构的模块,例如DFSMN(DeepFeed-Forward Sequential Memory Networks,深层前馈序列记忆神经网络)模块,即本申请并不对模块结构进行具体限定。
具体来说,二级唤醒模型在对目标数据进行识别处理的过程中,主要包括特征提取处理及二级识别处理这两个过程。其中:
(1)特征提取处理。
在一种可能的实现方式中,特征提取模块包括第一特征提取子模块及第二特征提取子模块。第一对象通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征,可以包括如下步骤:通过第一特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第一语音特征;以及,通过第二特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第二语音特征;对第一语音特征及第二语音特征进行特征融合处理,得到目标数据的高维隐层特征;其中,特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。具体来说,上述第一特征提取子模块与第二特征提取子模块均是具备特征提取功能的网络模块,并且第一特征提取子模块与第二特征提取子模块的模型结构可以相同,也可以不相同。采用多个特征提取子模块来提取目标数据的高维隐层特征,能够提取到更多维度且更全面的特征,从而增强高维隐层特征的准确性。
(2)二级识别处理。
在一种可能的实现方式中,第二识别模块可以为深层前馈序列记忆神经网络(即DFSMN模块),该深层前馈序列记忆神经网络包括:序列记忆层、线性映射层、以及隐藏层。那么,第一对象通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率,可以包括如下步骤:采用序列记忆层,对目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;通过线性映射层,对目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;基于隐藏层对映射结果进行二级识别处理,得到二级识别处理的结果。其中,该二级识别处理的结果可以包括目标数据唤醒第一对象的第二概率(或第二置信度)。应当理解,由于DFSMN模块是具备高精度的语音识别能力的网络模块,因此采用DFSMN模块对前述提取到的高维隐层特征进行二级识别处理,能够使得识别结果更加准确,从而提高语音识别的准确性。
上述可见,在通过一级唤醒模型识别处理的语音唤醒数据,方可继续被二级唤醒模型执行二次校验处理,由于二级唤醒模型的精度高于一级唤醒模型的精度,那么经过更高精度的模型能够更加准确的反映语音唤醒数据的唤醒结果。
在一种可能的实现方式中,一级唤醒模型中还设置有语音队列,语音队列用于指示:按照先入先出的队列形式,对唤醒事件中携带的实时语音数据流进行存储及更新,该语音队列可用于存储预设帧长(例如2.56秒)的数据。并且,一级唤醒模型可以按照目标帧长(例如10ms或20ms等),从语音队列中存储的实时语音数据流中获取语音唤醒数据;若确定一级唤醒模型对语音唤醒数据的唤醒识别成功(即唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值),则通过二级唤醒模型,从语音队列中获取目标数据,该目标数据是实时语音数据流中包含语音唤醒数据的数据,并采用二级唤醒模型对包含语音唤醒数据的目标数据进行二次校验处理。采用这种方式,一级唤醒模型能够按照目标帧长从语音队列中获取语音唤醒数据进行识别处理,二级唤醒模型可以从语音队列中获取包含语音唤醒数据的目标数据进行处理,并且语音队列能够定期对实时语音流进行更新,可提高数据处理的效率。
可选的,由于二级唤醒模型所处理的目标数据的长度比一级唤醒模型所处理的语音唤醒数据的长度更大,因此在通过二级唤醒模型所执行的数据处理过程中,不仅会对一级唤醒模型已处理的语音唤醒数据(目标数据包括语音唤醒数据)进行二次校验处理,同时还能够比一级唤醒模型处理更多的音频数据,由于更多的音频数据能够提供更多的音频信息,那么二级唤醒模型在对一级唤醒模型处理的语音唤醒数据进行二次校验的过程中,通过提升数据长度的方式进行数据的二次识别,能够提高二级唤醒模型对语音唤醒数据处理的准确性。
S304:在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定对第一对象唤醒成功,以控制第一对象进入工作状态。
其中,若第一对象当前处于休眠状态,则在确定对第一对象唤醒成功后,可以控制第一对象从休眠状态切换至工作状态;若第一对象当前处于工作状态,则在确定对第一对象唤醒成功后,可以控制第一对象保持至工作状态。进一步地,当第一对象进入至工作状态后,可以触发第一对象在工作状态下与第二对象执行语音交互处理。
在一种可能的实现方式中,上述二级唤醒模型的识别处理的结果可以包括语音唤醒数据唤醒第一对象的第二概率,例如第二概率可以为第二置信度,例如0.8;第二预设阈值是指二级唤醒模型的置信度阈值,若第二概率大于或等于该第二预设阈值,则可以认为二级唤醒模型对该语音唤醒数据的识别成功,则确定第二对象对第一对象唤醒成功;反之,若第二概率小于该第二预设阈值,则可以认为二级唤醒模型对包含该语音唤醒数据的目标数据识别失败,则可以确定对第一对象的唤醒失败,那么可以控制第一对象的状态维持在休眠状态下。
进一步地,当确定第二对象对第一对象唤醒成功后,即可控制第一对象(例如诸如:智能机器人、可穿戴设备、智能手表、车载设备等智能交互设备)的状态由休眠状态切换至工作状态,从而可以触发第一对象在工作状态下与第二对象执行语音交互处理,例如第一对象与第二对象之间可以执行:机器翻译、机器问答、唱歌朗诵等语音交互处理。
本申请实施例中,可以从针对第一对象的语音唤醒数据中获取音频帧,并通过一级唤醒模型对该音频帧进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对语音唤醒数据中包含上述音频帧的目标数据进行识别处理;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,即可确定对第一对象唤醒成功,以控制第一对象进入工作状态。由此可见,本申请在接收到一段实时的语音数据流后,首先可以获取语音唤醒数据,并按照一级唤醒模型对该语音唤醒数据进行唤醒词检测处理;进一步地,在通过一级唤醒模型的唤醒词检测处理后语音唤醒数据能够被二级唤醒模型进行再次识别处理,由于语音唤醒数据先后经过两个不同唤醒模型的识别处理,这种方式能够提高针对当前语音唤醒数据的语音识别的准确性。
请参见图4,图4是本申请实施例提供的另一种语音数据处理的流程示意图。如图4所示,该语音数据处理主要包括如下步骤:
S401:响应于针对第一对象的唤醒事件,获取唤醒事件携带的语音唤醒数据。
具体地,唤醒事件是由第二对象针对休眠状态下的第一对象发起的事件,第一对象包括一级唤醒模型及二级唤醒模型。一级唤醒模型及二级唤醒模型均用于识别语音唤醒数据唤醒第一对象的概率,并且一级唤醒模型的精度低于二级唤醒模型的精度。
S402:通过一级唤醒模型,对语音唤醒数据进行语音活动检测处理。
在一种可能的实现方式中,一级唤醒模型中配置有语音活动检测模块,语音活动检测模块可以为具备语音活动检测功能的硬件模块或软件模块,例如语音活动检测模块可以为VAD模块,该VAD模块可以用于检测是否存在活性语音信号,用于区分静音环境和非静音(即嘈杂)环境。可选的,第一对象通过语音活动检测模块,对语音唤醒数据进行语音活动检测处理后,可以得到语音活动检测处理的结果,该语音活动检测处理的结果用于指示语音唤醒数据中是否包含活性语音信号(例如:人声、音乐、噪声等非静音信号),若语音唤醒数据中包含活性语音信号,则执行步骤S4031;否则,执行步骤S4032。
S4031:若语音唤醒数据中包含活性语音信号,则通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理。
下面结合附图对本申请中一级唤醒模型的处理流程进行详细介绍。
请参见图5,图5是本申请实施例提供的一种一级唤醒模型的处理流程示意图。如图5所示,该一级唤醒模型中配置有:VAD(语音活动检测)模块、RNNoise降噪模块、TDNN语音唤醒模块(即第一识别模块)。具体地,一级唤醒模型在实时的语音交互场景中进行语音数据处理时,可以执行以下步骤:
①一级唤醒模型可以接收第二对象发出的唤醒事件,该唤醒事件中携带有语音唤醒数据,该语音唤醒数据可以为一段实时的语音流,所谓实时的语音流是指随着时间的推移,会源源不断产生语音数据的动态数据。其中,一级唤醒模型在接收到语音唤醒数据后,可以通过VAD模块对语音唤醒数据进行语音活动检测处理;②按照语音活动检测处理的结果,判断语音唤醒数据中是否包含活性语音信号;③若语音活动检测处理的结果指示语音唤醒数据中包含活性语音信号,则对语音唤醒数据进行特征提取处理,得到频域语音特征;其中,此处的特征提取处理可以包括但不限于:MFCC特征提取、LPC特征提取、LPCC特征提取等任一种或多种方式;④通过RNNoise降噪模块对提取到的频域语音特征进行降噪处理,以去除频域语音特征中的噪音,提高频域语音特征的准确性;⑤采用TDNN语音唤醒模块对降噪后的频域语音特征进行一级识别处理,得到一级识别结果,其中,一级识别结果可以包括语音唤醒数据唤醒第一对象的第一概率,例如第一概率可以为第一置信度(如0.7);⑥输出第一置信度0.7。
下面对TDNN语音唤醒模块的一级识别处理过程进行详细说明。
在一种可能的实现方式中,当第一识别模块为TDNN(Time Delay NeuralNetwork,时延神经网络)模块时,该时延神经网络模块(即第一识别模块)包括:N个时延层(TDNN层)及一个分类层,任一个时延层包括:一维因果空洞卷积层、批归一化层以及激活函数层,N为正整数。第一对象通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率,具体包括如下步骤:通过一维因果空洞卷积层,对降噪后的频域语音特征进行因果卷积处理,得到卷积语音特征;采用批归一化层对卷积语音特征进行归一化处理,得到归一化语音特征,并采用激活函数层对归一化语音特征进行激活处理,得到处理后的语音特征;基于分类层对将处理后的语音特征进行分类识别,得到语音唤醒数据唤醒第一对象的第一概率。
请参见图6a,图6a是本申请实施例提供的一种时延神经网络模块的结构示意图。如图6a所示,输入的语音特征会经过N层TDNN层,每个TDNN层由一个一维因果空洞卷积层、一个批归一化层一级一个激活函数层构成,常见的激活函数可以包括但不限于:Relu、Sigmoid、Tanh。其中,TDNN层的输出会再经过一个分类层,输出待检测的语音唤醒数据的后验概率(第一概率)。
请参见图6b,图6b是本申请实施例提供的一种一维因果空洞卷积层的结构示意图。如图6b所示,一维因果空洞卷积层是一个特殊的一维卷积层,其计算过程是在输入特征的时间轴上进行,其“因果”体现在每个时刻的输出仅和输入的历史帧有关。若输入的音频特征表示为x=(x1,x2,…,xT),那么对于一个kernel=K,空洞数dilation=N的一维卷积层而言,则输出yt所对应的输入为xin=(xt,xt-N,xt-2N,…,xt-(K-1)×N),示意图6b中所示的是kernel=3,dilation=2的情况,输入是实线框的为该层的有效输入。
由上述步骤①-⑥可知,在通过一级唤醒模式对语音唤醒数据进行一级识别处理后,可以得到一级识别处理的结果,该一级识别处理的结果包括语音唤醒数据唤醒第一对象的第一概率。其中,第一预设阈值为一级唤醒识别模型的置信度阈值(例如0.6),若第一概率高于第一预设阈值,则表示一级唤醒模型对语音唤醒数据的唤醒识别成功,即可触发执行步骤S4041;否则,第一概率低于第一预设阈值,则表示一级唤醒模型对语音唤醒数据的唤醒识别失败,即可触发执行步骤S4042。
上述可见,在一级唤醒模型的各个模块中,主要使用了VAD模块对语音唤醒数据进行语音活动检测处理,并按照语音活动检测处理的结果来决定是否执行后续流程;并且本方案中所采用VAD模块是基于信号处理的低复杂度模型,其算力消耗约为一级唤醒模型整体的十分之一,若其判定没有活性语音信号则可以认为语音唤醒数据中不会包含语音唤醒词,从而直接输出第一置信度为0来避免执行后续的流程,这种方式能够有效降低模型功耗。
S4032:若语音唤醒数据中不包含活性语音信号,则确定第二对象对第一对象唤醒失败。
具体地,当语音唤醒数据中不包含活性语音信号时,则该语音唤醒数据即为静音数据,那么静音数据中必然不会包括能够唤醒第一对象的唤醒词,即可确定第二对象对第一对象唤醒失败,在此情况下,控制第一对象的状态维持在休眠状态下。
S4041:若唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值,则通过二级唤醒模型对目标数据进行二级识别处理。
下面结合附图对本申请中二级唤醒模型的处理流程进行详细介绍。
请参见图7,图7是本申请实施例提供的一种二级唤醒模型的结构示意图。如图7所示,该二级唤醒模型中配置有特征提取模块(例如深度复数卷积循环网络模块,即DCCRN模块)及第二识别模块(例如深层前馈序列记忆神经网络模块,即DFSMN模块),应当理解的是,本申请实施例并不对特征提取模块及第二识别模块的网络结构进行具体限定。具体实现时,通过二级唤醒模型对目标数据进行识别处理,包括以下两个步骤(1)-(2):
(1)通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征。其中,此处的特征提取模块可以包括但不限于:DCCRN模块、RNN模块、LSTM模块中的任一种或多种,本申请对特征提取模块的类型及数量并不作具体限定。
举例来说,本申请所采用的特征提取模块为DCCRN模块,如图7所示,DCCRN模块包括:DCCRN-编码器、DCCRN-增强网络、DCCRN-解码器。具体来说,在通过DCCRN模块对目标数据进行特征提取处理时,本申请是通过DCCRN模块中的DCCRN-编码器进行特征提取处理的;其中,在通过DCCRN模块中的DCCRN-编码器进行特征提取处理之前,本申请可以对DCCRN模块进行模型训练,此处的模型训练过程可以大致包括:①采用样本语音数据(通常包含有噪声)、及训练标签进行模型训练,在训练过程中采用DCCRN-编码器对样本语音数据进行编码处理,得到样本特征;②采用DCCRN-增强网络对样本特征进行特征增强处理,得到增强后的样本特征;③采用DCCRN-解码器对增强后的样本特征进行解码处理,得到解码结果(降噪后的语音数据);④基于降噪后的语音数据及训练标签对DCCRN模块进行迭代训练,直至达到模型收敛条件时,停止对DCCRN模块的训练。后续,训练好的DCCRN模块即可用于对目标数据进行特征提取处理,从而得到高维隐层特征。
可选的,若特征提取模块包括第一特征提取子模块及第二特征提取子模块。第一对象通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征,可以包括如下步骤:通过第一特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第一语音特征;以及,通过第二特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第二语音特征;对第一语音特征及第二语音特征进行特征融合处理,得到目标数据的高维隐层特征;其中,特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。具体来说,上述第一特征提取子模块与第二特征提取子模块均是具备特征提取功能的网络模块,并且第一特征提取子模块与第二特征提取子模块的模型结构可以相同,也可以不相同。采用多个特征提取子模块来提取目标数据的高维隐层特征,能够提取到更多维度且更全面的特征,从而增强高维隐层特征的准确性。
(2)通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,当第二识别模块为DFSMN模块(即深层前馈序列记忆神经网络模块)时,该DFSMN模块包括:序列记忆层、线性映射层、以及隐藏层。那么,第一对象通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率,可以包括如下步骤:采用序列记忆层,对目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;通过线性映射层,对目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;基于隐藏层对映射结果进行二级识别处理,得到二级识别处理的结果。其中,该二级识别处理的结果可以包括目标数据唤醒第一对象的第二概率(或第二置信度)。应当理解,由于DFSMN模块是具备高精度的语音识别能力的网络模块,因此采用DFSMN模块对前述提取到的高维隐层特征进行二级识别处理,能够使得识别结果更加准确,从而提高语音识别的准确性。
上述步骤(1)-(2)可知,在通过二级唤醒模型对包含语音唤醒数据的目标数据进行二级识别处理后,可以得到二级识别处理的结果,该二级识别处理的结果包括语音唤醒数据唤醒第一对象的第二概率。其中,第二预设阈值为二级唤醒识别模型的置信度阈值(例如0.8),若第二概率高于第二预设阈值,则表示二级唤醒模型对语音唤醒数据的唤醒识别成功,即可触发执行步骤S4051;否则表示一级唤醒模型对语音唤醒数据的唤醒识别失败,即可触发执行步骤S4052。由此可见,本申请引入二级唤醒模型能够进一步对一级唤醒模型识别成功的语音唤醒数据进行二次校验处理,在经由低精度的一级唤醒模型误唤醒的情况下可以由二级唤醒模型进行校验拦截,提高唤醒识别的准确性。
S4042:若唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率低于第一预设阈值,则确定第二对象对第一对象唤醒失败。
具体地,当第一概率低于第一预设阈值时,则表面一级唤醒模型对语音唤醒数据的唤醒识别失败,由于一级唤醒模型的精度低于二级唤醒模型的精度,那么通常情况下,未通过一级唤醒识别模型的一级识别处理的语音唤醒数据,必然不会通过二级唤醒识别模型的二级识别处理,在此情况下,无需开启二级唤醒模型进行再次识别,能够降低设备功耗,因此可以直接确定第二对象对第一对象唤醒失败,并控制第一对象的状态维持在休眠状态下。
S4051:若识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值,则控制第一对象的状态由休眠状态切换至工作状态,并触发第一对象在工作状态下与第二对象执行语音交互处理。
具体实现时,当第二概率高于第二预设阈值时,确定第二对象对第一对象唤醒成功,则控制第一对象的状态由休眠状态切换至工作状态,并触发第一对象在工作状态下与第二对象执行语音交互处理。其中,此处的语音交互处理可以包括但不限于:机器翻译、机器问答、唱歌朗诵等任意智能语音交互场景。
在一种可能的实现方式中,控制第一对象的状态由休眠状态切换至工作状态之后,第一对象可以接收第二对象针对工作状态下的第一对象发出的任务指令;然后对任务指令进行识别分析,得到任务分析结果,任务分析结果用于指示任务指令所指示的目标任务;执行任务分析结果所指示的目标任务,并输出与目标任务相匹配的关联内容。其中,此处的目标任务可以包括:查找相关资料、唱歌、回答问题等任务均可,本申请实施例对此不做具体限定。
下面结合附图对第一对象及第二对象之间的语音交互场景进行举例说明。
请参见图8,图8是本申请实施例提供的一种语音交互处理的场景示意图。如图8所示,该语音交互场景中主要涉及第一对象及第二对象,其中,第一对象可以为发起唤醒事件的用户,第二对象可以为被唤醒的对象(例如智能机器人)。具体地,①第二对象可以针对休眠状态下的第一对象发起唤醒事件,例如第二对象可以向第一对象讲话即可生成唤醒事件;②第一对象响应于唤醒事件,可以获取该唤醒事件中的语音唤醒数据;③第二对象通过一级唤醒模型,对语音唤醒数据进行语音活动检测处理;若语音活动检测处理的结果指示语音唤醒数据中包含活性语音信号,则通过一级唤醒模型对语音唤醒数据进行唤醒词检测处理;若唤醒词检测处理成功,则通过二级唤醒模型对语音唤醒数据进行识别处理,并在识别处理成功后,确定第二对象对第一对象的唤醒成功,此时,第一对象可以向第一对象输出语音回复,例如:你好,请问有什么帮助您;④接下来,第二对象可以向第一对象发出任务指令,例如:杜鹃的花期是什么时候;⑤然后第一对象可以对任务指令进行识别分析,得到任务分析结果,并执行任务分析结果所指示的目标任务后,可以向第二对象输出关联内容(如图8中界面S801所示:可以显示杜鹃花期以及与杜鹃相关联的内容)。需要说明的是,第二对象输出关联内容的方式可以为:语音输出方式、图片输出方式、语音+图片的输出方式中的任一种或多种,本申请对此不限定。
在语音交互场景中,本申请设计了基于语音活动检测的一级唤醒模型与高精度的二级唤醒模型的网络结构,组成同时兼备低功耗、高唤醒率、低误唤醒率的语音唤醒系统。实践表明,语音活动检测模块(VAD模块)可以有效的减小一级唤醒模型的运行占比,降低系统功耗,其在不同场景下的测试结果如下:
表1.VAD模块的测试结果
如上表1所示,VAD使能率是指在对应测试场景中VAD模块判断为活性语音信号的时长与语音唤醒数据总时长之间的比值,该比值越低则表示一级唤醒模型所节省的功耗越低,也就是说,该比值越低代表一级唤醒模型所产生的功耗越高,例如VAD模块在安静场景中所节省的功耗低于VAD模块在噪声环境中所节省的功耗,即VAD模块在噪声环境中更有利于节省功耗;又如VAD模块在噪声环境中所节省的功耗高于VAD模块在非唤醒环境中所节省的功耗,同样的,VAD模块在噪声环境中更有利于节省功耗。
进一步地,二级唤醒模型可以有效的拦截一级唤醒模型的误唤醒样例,其测试结果如下:
表2.系统误唤醒次数的测试结果
如上表2所示,可以看出二级唤醒模型能够拦截一级唤醒模型触发的绝大数误唤醒样例,使得最终整体系统在168小时的误唤醒测试样例中仅存在2次误唤醒的情况,因此本申请能够减少语音交互场景下的误唤醒率,所谓误唤醒率是指非语音唤醒词被语音唤醒模型(即第一对象)错误检出的比例。进一步地,本申请实施例在不同语音交互场景下的唤醒率如下:
表3.不同语音交互场景下的唤醒率
如上表3所示,本申请实施例能够在各种类型的语音交互场景下保证较高的唤醒率,所谓唤醒率是指语音唤醒词被语音唤醒模型(即第一对象)正确检出的比例。例如,第一对象在安静场景下可达100%唤醒率,以及在各种室外噪声场景下唤醒率也均可到达95%以上,可见其具备较高的唤醒率。
S4052:若识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率低于第二预设阈值,则确定第二对象对第一对象唤醒失败。
本申请实施例中,设计了基于语音活动检测(VAD)的一级唤醒模型与高精度的二级唤醒模型的网络结构,在语音交互场景中,一方面,可以采用VAD模块对语音唤醒数据进行语音活动检测,然后在通过有语音活动检测处理后方可启动一级唤醒模型进行一级识别处理,能够减少一级唤醒模型的运行时间,从而降低功耗;另一方面,二级唤醒模型的引入可以解决轻量级的一级唤醒模型识别不准确的问题,采用高精度的二级唤醒模型进行二次校验,能够拦截被一级唤醒模型误唤醒的数据,从而保证较高的唤醒率,并提高用户体验感。因此,本申请设计的语音唤醒系统是一种既能兼备低功耗、又能兼备高唤醒率、还能保证低误唤醒率的系统。
下面对本申请实施例提供的语音数据处理装置进行相关阐述。
请参见图9,图9是本申请实施例提供的一种语音数据处理装置的结构示意图。如图9所示,该语音数据处理装置900可应用于前述实施例中所提及的第一对象(例如智能机器人、可穿戴设备、智能手表等语音交互设备)。具体来说,语音数据处理装置900可以是运行于语音交互设备中的一个计算机程序(包括程序代码),例如该语音数据处理装置900为一个应用软件;该语音数据处理装置900可以用于执行本申请实施例提供的语音数据处理方法中的相应步骤。具体实现时,该语音数据处理装置900具体可以包括:
获取单元901,用于从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
处理单元902,用于通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;
处理单元902,还用于在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;
处理单元902,还用于在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定对第一对象唤醒成功,以控制第一对象进入工作状态。
在一种可能的实现方式中,第一对象中部署有语音队列,语音队列用于存储语音数据流;在通过二级唤醒模型对目标数据进行识别处理之前,处理单元还用于执行以下操作:
根据语音唤醒数据、且按照先入先出的方式更新语音队列,语音队列中存储有目标数据;其中,语音队列的长度大于语音唤醒数据的长度。
在一种可能的实现方式中,一级唤醒模型中配置有语音活动检测模块;从针对第一对象的语音唤醒数据中获取目标帧长的语音唤醒数据之后,处理单元902还用于执行以下操作:
通过语音活动检测模块,对语音唤醒数据进行语音活动检测处理,语音活动检测处理用于检测语音唤醒数据中是否包含活性语音信号;
若语音唤醒数据中不包含活性语音信号,则确定对第一对象唤醒失败,并控制第一对象的状态维持在休眠状态下。
在一种可能的实现方式中,一级唤醒模型中还配置有第一识别模块;处理单元902通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理,用于执行以下操作:
对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征;其中,频域语音特征包括:梅尔倒谱系数、线性预测系数、线性预测倒谱系数、离散小波变换特征中的任一种或多种特征;
通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,一级唤醒模型中还配置有降噪模块;对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征之后,处理单元902还用于执行以下操作:
对语音唤醒数据的频域语音特征进行分析处理,以从频域语音特征中确定出语音唤醒数据的噪声谱特征;
通过降噪模块,对语音唤醒数据的噪声谱特征进行降噪处理,得到降噪后的频域语音特征。
在一种可能的实现方式中,第一识别模块为时延神经网络模块,时延神经网络模块包括N个时延层及一个分类层,任一个时延层包括:一维因果空洞卷积层、批归一化层以及激活函数层,N为正整数;处理单元902通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率,用于执行以下操作:
通过一维因果空洞卷积层,对降噪后的频域语音特征进行因果卷积处理,得到卷积语音特征;
采用批归一化层对卷积语音特征进行归一化处理,得到归一化语音特征,并采用激活函数层对归一化语音特征进行激活处理,得到处理后的语音特征;
基于分类层对将处理后的语音特征进行分类识别,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,处理单元902还用于执行以下操作:
按照预设方式运行第一对象,预设方式用于指示:在第一对象的预设功耗状态下运行一级唤醒模型及二级唤醒模型;
其中,预设方式包括以下任一种:
按照第一预设频率所指示的第一运行状态运行所述一级唤醒模型,以及,按照第二预设频率所指示的第二运行状态运行二级唤醒模型;第二预设频率高于第一预设频率;
在第一对象的指定类型芯片中运行一级唤醒模型,并在第一对象的核心芯片中运行二级唤醒模型;其中,在二级唤醒模型对语音唤醒数据识别完成后,将核心芯片设置为关闭状态。
在一种可能的实现方式中,二级唤醒模型中配置有特征提取模块及第二识别模块;处理单元902通过二级唤醒模型对目标数据进行识别处理,用于执行以下操作:
通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征;
通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,特征提取模块包括第一特征提取子模块及第二特征提取子模块;处理单元902通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征,用于执行以下操作:
通过第一特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第一语音特征;以及,
通过第二特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第二语音特征;
对第一语音特征及第二语音特征进行特征融合处理,得到目标数据的高维隐层特征;其中,特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。
在一种可能的实现方式中,第二识别模块为深层前馈序列记忆神经网络,深层前馈序列记忆神经网络包括:序列记忆层、线性映射层、以及隐藏层;处理单元902通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率,用于执行以下操作:
采用序列记忆层,对目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;
通过线性映射层,对目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;
基于隐藏层对映射结果进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,处理单元902控制第一对象的状态由休眠状态切换至工作状态之后,还用于执行以下操作:
接收第二对象针对工作状态下的第一对象发出的任务指令;
对任务指令进行识别分析,得到任务分析结果,任务分析结果用于指示任务指令所指示的目标任务;
执行任务分析结果所指示的目标任务,并输出与目标任务相匹配的关联内容。
本申请实施例中,可以从针对第一对象的语音唤醒数据中获取音频帧,并通过一级唤醒模型对该音频帧进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对语音唤醒数据中包含上述音频帧的目标数据进行识别处理;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,即可确定对第一对象唤醒成功,以控制第一对象进入工作状态。由此可见,本申请在接收到一段实时的语音数据流后,首先可以获取语音唤醒数据,并按照一级唤醒模型对该语音唤醒数据进行唤醒词检测处理;进一步地,在通过一级唤醒模型的唤醒词检测处理后语音唤醒数据能够被二级唤醒模型进行再次识别处理,由于语音唤醒数据先后经过两个不同唤醒模型的识别处理,这种方式能够提高针对当前语音唤醒数据的语音识别的准确性。
请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1000用于执行前述方法实施例中第一对象(例如智能机器人、可穿戴设备、智能手表等语音交互设备)或后台服务器所执行的步骤,该计算机设备1000包括:一个或多个处理器1001;一个或多个输入设备1002,一个或多个输出设备1003和存储器1004。上述处理器1001、输入设备1002、输出设备1003和存储器1004通过总线1005连接。其中,存储器1004用于存储计算机程序,计算机程序包括程序指令。具体地,处理器1001用于通过存储器1004存储的程序指令,用于执行以下操作:
从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理;
在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,目标数据为语音数据流中包含语音唤醒数据的部分;
在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,确定对第一对象唤醒成功,以控制第一对象进入工作状态。在一种可能的实现方式中,第一对象中部署有语音队列,语音队列用于存储实时语音数据流;在通过二级唤醒模型对目标数据进行识别处理之前,处理单元还用于执行以下操作:
根据语音唤醒数据、且按照先入先出的方式更新语音队列,语音队列中存储有目标数据;其中,语音队列的长度大于语音唤醒数据的长度。
在一种可能的实现方式中,一级唤醒模型中配置有语音活动检测模块;从针对第一对象的语音唤醒数据中获取目标帧长的语音唤醒数据之后,处理器1001还用于执行以下操作:
通过语音活动检测模块,对语音唤醒数据进行语音活动检测处理,语音活动检测处理用于检测语音唤醒数据中是否包含活性语音信号;
若语音唤醒数据中不包含活性语音信号,则确定对第一对象唤醒失败,并控制第一对象的状态维持在休眠状态下。
在一种可能的实现方式中,一级唤醒模型中还配置有第一识别模块;处理器1001通过一级唤醒模型,对语音唤醒数据进行唤醒词检测处理,用于执行以下操作:
对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征;其中,频域语音特征包括:梅尔倒谱系数、线性预测系数、线性预测倒谱系数、离散小波变换特征中的任一种或多种特征;
通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,一级唤醒模型中还配置有降噪模块;对语音唤醒数据进行频域特征提取处理,得到语音唤醒数据的频域语音特征之后,处理器1001还用于执行以下操作:
对语音唤醒数据的频域语音特征进行分析处理,以从频域语音特征中确定出语音唤醒数据的噪声谱特征;
通过降噪模块,对语音唤醒数据的噪声谱特征进行降噪处理,得到降噪后的频域语音特征。
在一种可能的实现方式中,第一识别模块为时延神经网络模块,时延神经网络模块包括N个时延层及一个分类层,任一个时延层包括:一维因果空洞卷积层、批归一化层以及激活函数层,N为正整数;处理器1001通过第一识别模块对频域语音特征进行一级识别处理,得到语音唤醒数据唤醒第一对象的第一概率,用于执行以下操作:
通过一维因果空洞卷积层,对降噪后的频域语音特征进行因果卷积处理,得到卷积语音特征;
采用批归一化层对卷积语音特征进行归一化处理,得到归一化语音特征,并采用激活函数层对归一化语音特征进行激活处理,得到处理后的语音特征;
基于分类层对将处理后的语音特征进行分类识别,得到语音唤醒数据唤醒第一对象的第一概率。
在一种可能的实现方式中,处理器1001还用于执行以下操作:
按照预设方式运行第一对象,预设方式用于指示:在第一对象的预设功耗状态下运行一级唤醒模型及二级唤醒模型;
其中,预设方式包括以下任一种:
按照第一预设频率所指示的第一运行状态运行所述一级唤醒模型,以及,按照第二预设频率所指示的第二运行状态运行二级唤醒模型;第二预设频率高于第一预设频率;
在第一对象的指定类型芯片中运行一级唤醒模型,并在第一对象的核心芯片中运行二级唤醒模型;其中,在二级唤醒模型对语音唤醒数据识别完成后,将核心芯片设置为关闭状态。
在一种可能的实现方式中,二级唤醒模型中配置有特征提取模块及第二识别模块;处理器1001通过二级唤醒模型对目标数据进行识别处理,用于执行以下操作:
通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征;
通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,特征提取模块包括第一特征提取子模块及第二特征提取子模块;处理器1001通过特征提取模块,对目标数据进行特征提取处理,得到目标数据的高维隐层特征,用于执行以下操作:
通过第一特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第一语音特征;以及,
通过第二特征提取子模块,对目标数据进行特征提取处理,得到目标数据的第二语音特征;
对第一语音特征及第二语音特征进行特征融合处理,得到目标数据的高维隐层特征;其中,特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。
在一种可能的实现方式中,第二识别模块为深层前馈序列记忆神经网络,深层前馈序列记忆神经网络包括:序列记忆层、线性映射层、以及隐藏层;处理器1001通过第二识别模块,对目标数据的高维隐层特征进行二级识别处理,得到目标数据唤醒第一对象的第二概率,用于执行以下操作:
采用序列记忆层,对目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;
通过线性映射层,对目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;
基于隐藏层对映射结果进行二级识别处理,得到目标数据唤醒第一对象的第二概率。
在一种可能的实现方式中,处理器1001控制第一对象的状态由休眠状态切换至工作状态之后,还用于执行以下操作:
接收第二对象针对工作状态下的第一对象发出的任务指令;
对任务指令进行识别分析,得到任务分析结果,任务分析结果用于指示任务指令所指示的目标任务;
执行任务分析结果所指示的目标任务,并输出与目标任务相匹配的关联内容。
本申请实施例中,可以从针对第一对象的语音唤醒数据中获取音频帧,并通过一级唤醒模型对该音频帧进行唤醒词检测处理;在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对语音唤醒数据中包含上述音频帧的目标数据进行识别处理;在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下,即可确定对第一对象唤醒成功,以控制第一对象进入工作状态。由此可见,本申请在接收到一段实时的语音数据流后,首先可以获取语音唤醒数据,并按照一级唤醒模型对该语音唤醒数据进行唤醒词检测处理;进一步地,在通过一级唤醒模型的唤醒词检测处理后语音唤醒数据能够被二级唤醒模型进行再次识别处理,由于语音唤醒数据先后经过两个不同唤醒模型的识别处理,这种方式能够提高针对当前语音唤醒数据的语音识别的准确性。
在上述实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文所对应实施例中的方法,因此,这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
根据本申请的一个方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文所对应实施例中的方法,因此,这里将不再进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (14)
1.一种语音数据处理方法,其特征在于,包括:
从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
通过一级唤醒模型,对所述语音唤醒数据进行唤醒词检测处理;
在所述唤醒词检测处理的结果指示所述语音唤醒数据唤醒所述第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,所述目标数据为所述语音数据流中包含所述语音唤醒数据的部分;
在所述识别处理的结果指示所述语音唤醒数据唤醒所述第一对象的第二概率高于第二预设阈值的情况下,确定对所述第一对象唤醒成功,以控制所述第一对象进入工作状态。
2.如权利要求1所述的方法,其特征在于,在所述通过二级唤醒模型对目标数据进行识别处理之前,所述方法还包括:
根据所述语音唤醒数据、且按照先入先出的方式更新语音队列,所述语音队列中存储有所述目标数据;其中,所述语音队列的长度大于所述语音唤醒数据的长度。
3.如权利要求1所述的方法,其特征在于,所述一级唤醒模型中配置有语音活动检测模块;所述从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据之后,还包括:
通过所述语音活动检测模块,对所述语音唤醒数据进行语音活动检测处理,所述语音活动检测处理用于检测所述语音唤醒数据中是否包含活性语音信号;
若所述语音唤醒数据中不包含活性语音信号,则确定对所述第一对象唤醒失败,并控制所述第一对象的状态维持在休眠状态下。
4.如权利要求3所述的方法,其特征在于,所述一级唤醒模型中还配置有第一识别模块;所述通过一级唤醒模型,对所述语音唤醒数据进行唤醒词检测处理,包括:
对所述语音唤醒数据进行频域特征提取处理,得到所述语音唤醒数据的频域语音特征;其中,所述频域语音特征包括:梅尔倒谱系数、线性预测系数、线性预测倒谱系数、离散小波变换特征中的任一种或多种特征;
通过所述第一识别模块对所述频域语音特征进行一级识别处理,得到所述语音唤醒数据唤醒所述第一对象的第一概率。
5.如权利要求4所述的方法,其特征在于,所述一级唤醒模型中还配置有降噪模块;所述对所述语音唤醒数据进行频域特征提取处理,得到所述语音唤醒数据的频域语音特征之后,还包括:
对所述语音唤醒数据的频域语音特征进行分析处理,以从所述频域语音特征中确定出所述语音唤醒数据的噪声谱特征;
通过所述降噪模块,对所述语音唤醒数据的噪声谱特征进行降噪处理,得到降噪后的频域语音特征。
6.如权利要求5所述的方法,其特征在于,所述第一识别模块为时延神经网络模块,所述时延神经网络模块包括N个时延层及一个分类层,任一个所述时延层包括:一维因果空洞卷积层、批归一化层以及激活函数层,N为正整数;所述通过所述第一识别模块对所述频域语音特征进行一级识别处理,得到所述语音唤醒数据唤醒所述第一对象的第一概率,包括:
通过所述一维因果空洞卷积层,对所述降噪后的频域语音特征进行因果卷积处理,得到卷积语音特征;
采用所述批归一化层对所述卷积语音特征进行归一化处理,得到归一化语音特征,并采用所述激活函数层对所述归一化语音特征进行激活处理,得到处理后的语音特征;
基于所述分类层对将所述处理后的语音特征进行分类识别,得到所述语音唤醒数据唤醒所述第一对象的第一概率。
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
按照预设方式运行所述第一对象,所述预设方式用于指示:在所述第一对象的预设功耗状态下运行所述一级唤醒模型及所述二级唤醒模型;
其中,所述预设方式包括以下任一种:
按照第一预设频率所指示的第一运行状态运行所述一级唤醒模型,以及,按照第二预设频率所指示的第二运行状态运行所述二级唤醒模型;所述第二预设频率高于所述第一预设频率;
在所述第一对象的指定类型芯片中运行所述一级唤醒模型,并在所述第一对象的核心芯片中运行所述二级唤醒模型;其中,在所述二级唤醒模型对所述语音唤醒数据识别完成后,将所述核心芯片设置为关闭状态。
8.如权利要求1所述的方法,其特征在于,所述二级唤醒模型中配置有特征提取模块及第二识别模块;所述通过二级唤醒模型对目标数据进行识别处理,包括:
通过所述特征提取模块,对所述目标数据进行特征提取处理,得到所述目标数据的高维隐层特征;
通过所述第二识别模块,对所述目标数据的高维隐层特征进行二级识别处理,得到所述目标数据唤醒所述第一对象的第二概率。
9.如权利要求8所述的方法,其特征在于,所述特征提取模块包括第一特征提取子模块及第二特征提取子模块;所述通过所述特征提取模块,对所述目标数据进行特征提取处理,得到所述目标数据的高维隐层特征,包括:
通过所述第一特征提取子模块,对所述目标数据进行特征提取处理,得到所述目标数据的第一语音特征;以及,
通过所述第二特征提取子模块,对所述目标数据进行特征提取处理,得到所述目标数据的第二语音特征;
对所述第一语音特征及第二语音特征进行特征融合处理,得到所述目标数据的高维隐层特征;其中,所述特征融合处理包括:平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。
10.如权利要求8或9所述的方法,其特征在于,所述第二识别模块为深层前馈序列记忆神经网络,所述深层前馈序列记忆神经网络包括:序列记忆层、线性映射层、以及隐藏层;所述通过所述第二识别模块,对所述目标数据的高维隐层特征进行二级识别处理,得到所述目标数据唤醒所述第一对象的第二概率,包括:
采用所述序列记忆层,对所述目标数据的高维隐层特征进行识别分析,得到目标数据的语音记忆特征;
通过所述线性映射层,对所述目标数据的语音记忆特征进行矩阵映射处理,得到映射结果;
基于所述隐藏层对所述映射结果进行二级识别处理,得到所述目标数据唤醒所述第一对象的第二概率。
11.如权利要求1所述的方法,其特征在于,在所述确定对所述第一对象唤醒成功,以控制所述第一对象进入工作状态之后,所述方法还包括:
接收第二对象针对所述工作状态下的第一对象发出的任务指令;
对所述任务指令进行识别分析,得到任务分析结果,所述任务分析结果用于指示所述任务指令所指示的目标任务;
执行所述任务分析结果所指示的目标任务,并输出与所述目标任务相匹配的关联内容。
12.一种语音数据处理装置,其特征在于,包括:
获取单元,用于从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据;
处理单元,用于通过一级唤醒模型,对所述语音唤醒数据进行唤醒词检测处理;
所述处理单元,还用于在所述唤醒词检测处理的结果指示所述语音唤醒数据唤醒所述第一对象的第一概率高于第一预设阈值的情况下,通过二级唤醒模型对目标数据进行识别处理,所述目标数据为所述语音数据流中包含所述语音唤醒数据的部分;
所述处理单元,还用于在所述识别处理的结果指示所述语音唤醒数据唤醒所述第一对象的第二概率高于第二预设阈值的情况下,确定对所述第一对象唤醒成功,以控制所述第一对象进入工作状态。
13.一种计算机设备,其特征在于,包括:存储装置和处理器;
存储器,所述存储器中存储一条或多条计算机程序;
处理器,用于加载所述一条或多条计算机程序实现如权利要求1-11中任一项所述的语音数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-11中任一项所述的语音数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410025372.3A CN117524228A (zh) | 2024-01-08 | 2024-01-08 | 语音数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410025372.3A CN117524228A (zh) | 2024-01-08 | 2024-01-08 | 语音数据处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117524228A true CN117524228A (zh) | 2024-02-06 |
Family
ID=89742477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410025372.3A Pending CN117524228A (zh) | 2024-01-08 | 2024-01-08 | 语音数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117524228A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107360327A (zh) * | 2017-07-19 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
CN111951793A (zh) * | 2020-08-13 | 2020-11-17 | 北京声智科技有限公司 | 唤醒词识别的方法、装置及存储介质 |
CN112740321A (zh) * | 2018-11-20 | 2021-04-30 | 深圳市欢太科技有限公司 | 唤醒设备的方法、装置、存储介质及电子设备 |
CN112825250A (zh) * | 2019-11-20 | 2021-05-21 | 芋头科技(杭州)有限公司 | 语音唤醒方法、设备、存储介质及程序产品 |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
WO2022122121A1 (en) * | 2020-12-08 | 2022-06-16 | Huawei Technologies Co., Ltd. | End-to-end streaming acoustic trigger apparatus and method |
CN115966199A (zh) * | 2022-11-30 | 2023-04-14 | 苏州奇梦者科技有限公司 | 一种语音唤醒方法及设备 |
CN116705033A (zh) * | 2023-05-17 | 2023-09-05 | 恒玄科技(上海)股份有限公司 | 用于无线智能音频设备的片上系统和无线处理方法 |
US20230298593A1 (en) * | 2021-03-26 | 2023-09-21 | Samsung Electronics Co., Ltd. | Method and apparatus for real-time sound enhancement |
CN116913266A (zh) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种语音检测方法、装置、设备及存储介质 |
-
2024
- 2024-01-08 CN CN202410025372.3A patent/CN117524228A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107360327A (zh) * | 2017-07-19 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
CN112740321A (zh) * | 2018-11-20 | 2021-04-30 | 深圳市欢太科技有限公司 | 唤醒设备的方法、装置、存储介质及电子设备 |
CN112825250A (zh) * | 2019-11-20 | 2021-05-21 | 芋头科技(杭州)有限公司 | 语音唤醒方法、设备、存储介质及程序产品 |
CN111951793A (zh) * | 2020-08-13 | 2020-11-17 | 北京声智科技有限公司 | 唤醒词识别的方法、装置及存储介质 |
WO2022122121A1 (en) * | 2020-12-08 | 2022-06-16 | Huawei Technologies Co., Ltd. | End-to-end streaming acoustic trigger apparatus and method |
US20230298593A1 (en) * | 2021-03-26 | 2023-09-21 | Samsung Electronics Co., Ltd. | Method and apparatus for real-time sound enhancement |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
CN115966199A (zh) * | 2022-11-30 | 2023-04-14 | 苏州奇梦者科技有限公司 | 一种语音唤醒方法及设备 |
CN116705033A (zh) * | 2023-05-17 | 2023-09-05 | 恒玄科技(上海)股份有限公司 | 用于无线智能音频设备的片上系统和无线处理方法 |
CN116913266A (zh) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种语音检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564941B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN110909613A (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN114627863B (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN111210829A (zh) | 语音识别方法、装置、系统、设备和计算机可读存储介质 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN110459207A (zh) | 唤醒语音关键短语分割 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN113035180A (zh) | 语音输入完整性判断方法、装置、电子设备和存储介质 | |
CN118173094B (zh) | 结合动态时间规整的唤醒词识别方法、装置、设备及介质 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113436617B (zh) | 语音断句方法、装置、计算机设备及存储介质 | |
CN112669837B (zh) | 智能终端的唤醒方法、装置及电子设备 | |
CN113330513B (zh) | 语音信息处理方法及设备 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN115831109A (zh) | 语音唤醒方法、装置、存储介质及电子设备 | |
CN117524228A (zh) | 语音数据处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |