CN116978370A - 语音处理方法、装置、计算机设备和存储介质 - Google Patents
语音处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116978370A CN116978370A CN202211582356.1A CN202211582356A CN116978370A CN 116978370 A CN116978370 A CN 116978370A CN 202211582356 A CN202211582356 A CN 202211582356A CN 116978370 A CN116978370 A CN 116978370A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- training
- voice
- splicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 207
- 239000013598 vector Substances 0.000 claims abstract description 187
- 238000012545 processing Methods 0.000 claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000008569 process Effects 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 66
- 230000009467 reduction Effects 0.000 claims description 61
- 230000003993 interaction Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000002779 inactivation Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 238000001514 detection method Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000001629 suppression Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本申请涉及车辆网、人工智能、云数据等技术领域,提供了一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,关键词音频为语音音频中至少一部分关键词对应的音频,语音音频为声学模型的训练数据中的至少一部分;对带噪语音进行编码处理,得到包含多个组成部分的编码数据;将编码数据的每一组成部分分别与偏置向量进行拼接,得到目标拼接数据;基于声学模型对目标拼接数据进行关键词识别,得到关键词识别结果。采用本方法能够提高语音关键词识别过程在各种复杂声学场景下的性能,提高关键词识别结果的准确性,能够很好的适配于低资源计算平台。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,语音处理的应用场景也越来越广泛,语音关键词检出技术作为语音识别中的一项子任务,是指在连续的语音流中检测是否存在预定的关键词,该技术被广泛的应用于语音唤醒、语音操控以及敏感词检测等场景中。以语音唤醒(keyword spotting,简称KWS)的场景为例,由于KWS系统通常需要处于长期开启的状态,并且多数情况下会运行在较低计算力的低资源平台上,因此其系统结构和设计都会更为精简,模型的参数量和体积会很小。在复杂场景下,例如说话人距离麦克风较远以及环境噪声较大的情况,噪声语音中关键词的识别结果的准确性会面临较大的挑战。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在较低计算力的低资源平台,实现提高噪声语音中关键词的识别结果的准确性的语音处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种语音处理方法。所述方法包括:
获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
第二方面,本申请还提供了一种语音处理装置。所述装置包括:
语音获取模块,用于获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
语音编码模块,用于对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
数据拼接模块,用于将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
关键词识别模块,用于基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
上述语音处理方法、装置、计算机设备、存储介质和计算机程序产品,通过待进行关键词识别的带噪语音的编码,能避免带噪语音的信号处理前端对于非平稳噪声抑制难的问题,具有良好的噪声抑制能力,通过获取针对关键词音频提取得到的偏置向量,与待进行关键词识别的带噪语音的编码数据中的每一组成部分分别进行拼接,由于关键词音频为声学模型的至少一部分训练数据中至少一部分关键词对应的音频,通过偏置向量的拼接,能够有效地将关键词特征显式的融入编码数据,提高语音关键词识别过程在各种复杂声学场景下的性能,提高关键词识别结果的准确性,且上述处理过程拼接偏置向量所需要的数据处理资源消耗较少,能够很好的适配于低资源计算平台。
附图说明
图1为一个实施例中语音处理方法的应用环境图;
图2为一个实施例中语音处理方法的流程示意图;
图3为一个实施例中编码数据与偏置向量拼接的流程示意图;
图4为一个实施例中声学模型的模型结构示意图;
图5为一个实施例中带噪语音处理模型的模型结构示意图;
图6为另一个实施例中带噪语音处理模型的模型结构示意图;
图7为另一个实施例中声学模型的模型结构示意图;
图8为另一个实施例中带噪语音处理模型的模型结构示意图;
图9为一个实施例中语音处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的语音处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,对带噪语音进行编码处理,得到包含多个组成部分的编码数据;将编码数据的每一组成部分分别与偏置向量进行拼接,得到目标拼接数据;基于声学模型对目标拼接数据进行关键词识别,得到关键词识别结果。其中,关键词音频为语音音频中至少一部分关键词对应的音频,语音音频为声学模型的训练数据中的至少一部分,进一步地,基于关键词识别结果可以进行终端设备的唤醒、语音操控以及敏感词检测等。例如,在语音唤醒场景下,用户可以通过说出关键词来唤醒电子设备,使电子设备进入到等待语音指令的状态,或使电子设备直接执行相应指令操作。此处,关键词可以是充当人机交互开关的唤醒词,例如给人机交互设备设置的昵称为“企鹅”、则唤醒词可以为“企鹅同学”、“你好,企鹅”,也可以是指示电子设备执行相应指令操作的命令词,例如“上一页”、“下一页”、“关机”等。
其中,终端102可以但不限于是各种物联网设备和便携式可穿戴设备,通过终端102可以实现人机交互。其中,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等,终端102也可以是台式计算机、笔记本电脑、智能手机、平板电脑等。在一些实施例中,终端102还可以对带噪语音进行降噪处理,并基于降噪后的语音数据实现语音交互,其中,语音交互功能可以通过终端102来实现,也可以通过终端102与服务器的交互来实现。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在具体的应用中,上述方法可以应用于云小微智能面板方案,用于实现固定唤醒功能,智能面板通常会使用在各种家居场景,用于通过语音控制实现各类家居技能,而固定唤醒则是通过预置固定的唤醒词的方式,实现通过语音唤醒来启动语音交互的功能。由于家居场景中往往会面临较为复杂的声学场景,包括说话人距离较远所带来的混响增大,以及家居设备和屋内人员产生的各种干扰噪声,采用本方法可以提高智能面板在这类场景下固定唤醒功能的性能以及鲁棒性。
在一个实施例中,如图2所示,提供了一种语音处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量。
带噪语音是在语音采集过程中由于环境干扰因素,采集到的包含噪声的语音数据。由于在实际的生活中,很难存在一个绝对安静的环境,在进行语音采集时,采集的语音数据或多或少会存在噪声干扰,存在噪声干扰的语音数据即为带噪语音。环境干扰因素具体可以包括语音采集环境中除了语音采集对象以外的其他对象发出的声音造成的噪声干扰,例如多个用户同时说话、用户在说话时其他设备在进行视频播放、语音播放等。环境干扰因素也可以是语音采集设备与语音采集对象之间由于距离较大,在声音传播过程中形成的干扰等。例如,用户距离麦克风距离较远时产生的远场混响干扰等。语音采集设备在经过麦克风阵列拾音得到带噪语音后,还可以对带噪语音进行放大和降噪处理等。
关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分。声学模型是用于对输入声学模型的语音数据进行关键词识别的语音处理模型,该声学模型可以基于携带有关键词标签的训练数据对初始声学模型进行训练得到。其中,训练样本可以是从各个场景中得到的,例如车载场景、家居场景、学校场景等。训练样本中的关键词可以根据实际的应用目的进行确定。例如,语音唤醒场景下,关键词可以是针对需要唤醒的人机交互设备进行设定的关键词,在设备操控场景下,关键词可以是针对设备可执行的操作进行设定的。
样本数据作为包含关键词音频和非关键词音频的组合数据,关键词音频可以是对样本数据进行非关键词音频剔除处理后得到的结果,也可以是从样本数据中截选出来只有关键词的部分音频。可选的,关键词音频可以是直接从带噪声的样本语音中获取的,也可以是从去噪处理后的样本语音中获取的。在实际应用中,可以根据精度需要以及设备计算能力进行选择。在一些实施例中,可以由服务器对样本数据进行降噪处理,从降噪处理后的样本数据中,提取出关键词音频,以便提取出关键词音频对应的偏置向量并下发至终端,减小噪声干扰以提高偏置向量的准确性。
偏置向量是针对关键词音频提取得到的高维向量,不同的应用场景下可以基于不同的训练样本设置不同的关键词,提取得到不同的偏置向量,以实现不同场景下对应关键词的准确识别。偏置向量可以通过偏置向量提取器提取得到,偏置向量提取器可以是关键词提取模型中的特征提取模块,例如以关键词提取模型可以是已经验证在声纹识别任务中可以有效的提取关键词特征向量的模型,则可以将关键词提取模型中提取关键词特征向量实物模块,作为偏置向量提取器。
步骤204,对带噪语音进行编码处理,得到包含多个组成部分的编码数据。
带噪语音的编码处理是对模拟的语音信号进行编码,将模拟信号进行编码转化成数字信号的数据处理过程。其中,带噪语音的编码处理可以通过编码器来实现,不同的编码器可以基于不同的编码原理对带噪语音进行相应的编码处理,得到编码数据。示例性的,通过编码器可以将原始音频信号变换为频域信号,频域是描述信号在频域特性时用到的一种坐标系,显示了在一个频率范围内的信号量,是从数学角度构造出来的辅助思考的一种方式,频域信号可以用复数形式来表示,包括实部与虚部两部分,频域信号也可以采用幅值与相位的形式来表示。其中,编码器可以是用于实现语音降噪处理的神经网络降噪模型中的一个组成部分。
在一些实施例中,终端获取实时采集到的带噪语音,将带噪语音输入语音降噪模块中的编码器,通过编码器将采集的带噪语音进行傅里叶变换,得到包含实部数据和虚部数据的编码数据,通过使用神经网络降噪模型的编码器输出编码数据进行后续的处理,即能避免信号处理前端对于非平稳噪声抑制难的问题,又能节省掉神经网络降噪模型中除了编码器之外的其它模块的计算量,兼顾良好的噪声抑制能力以及较低的计算量。
步骤206,将编码数据的每一组成部分分别与偏置向量进行拼接,得到目标拼接数据。
其中,编码数据和偏置向量的拼接是将编码数据和偏置向量进行特征融合的具体手段。对编码数据和偏置向量进行拼接的拼接方式可以基于编码数据的组成部分来确定。示例性的,编码数据为多个组成部分构成的情况下,目标拼接数据可以为每一组成部分分别与偏置向量进行拼接得到的多组拼接数据,也可以是多组拼接数据进一步进行二次拼接得到的单个拼接数据。如编码数据为包括实部数据和虚部数据的虚数时,可以将偏置向量先分别与各项组成部分进行拼接,然后再对各部分的拼接结果进行二次拼接,其中,偏置向量分别与各项组成部分进行拼接的拼接方式,可以与对各部分的拼接结果进行二次拼接的拼接方式相同,也可以与对各部分的拼接结果进行二次拼接的拼接方式不同。具体的拼接方式可以基于数据格式要求进行定义。
目标拼接数据是将关键词信息显式的融入噪声数据后得到的结果,基于目标拼接数据能够有效增强关键词的特征表示,从关键词音频中抽取高维表示向量,作为音频的偏置数据与神经网络降噪模型的编码器输出相结合,在关键词识别的过程中可以有效的显式利用到关键词的信息,进而提高系统在信噪比较低情况下的性能。
步骤208,基于声学模型对目标拼接数据进行关键词识别,得到关键词识别结果。
其中,声学模型是语音识别系统中最为重要的部分之一,声学模型的输入是由特征提取模块提取的特征,这些特征可以是多维的向量,并且其取值可以是离散或连续的。在本实施例中,声学模型的输入数据为目标拼接数据,声学模型是基于携带有关键词标签的训练样本对初始声学模型进行训练得到的。其中初始声学模型具体可以是由多个空洞时延卷积(Dilated Temporal Convolutional,简称DTC)构建得到的。
在一个示例性的实施例中,初始声学模型的结构如图3所示,声学模型由主要由N层DTC模块组成,每层DTC模块主要由深度卷积、点卷积、批归一化和ReLU激活函数构成,每个DTC模块的输出和输入相加构成残差连接。最后一个DTC模块的输出会跟随一个线性层投影和软最大化函数(Softmax),线性层投影维度由关键词的数目决定,如有M个关键词,则投影层的输出维度为M+1,其中,前M维表示每个关键词的后验概率,最后一维表示非关键词的后验概率。
在初始声学模型的训练过程中,可以通过将各个训练样本先进行编码,然后将训练样本的编码数据与有偏置向量提取器对关键词音频集合中的关键词进行特征提取得到的偏置向量进行拼接,得到样本数据的拼接结果,然后将样本数据的拼接结果作为初始声学模型的输入数据,输入初始声学模型进行模型训练,直至满足训练结束条件,得到用于进行关键词识别的声学模型。
在一些实施例中,终端部署有训练完成的声学模型,终端将目标拼接数据输入声学模型,基于声学模型对目标拼接数据进行关键词识别,得到声学模型的输出数据,即为关键词识别结果。其中,关键词识别结果可以包括哪些词为关键词,哪些词为非关键词,关键词可以是声学模型的输出数据中概率值大于设定阈值的词。
上述语音处理方法,通过待进行关键词识别的带噪语音的编码,能避免带噪语音的信号处理前端对于非平稳噪声抑制难的问题,具有良好的噪声抑制能力,通过获取针对关键词音频提取得到的偏置向量,与待进行关键词识别的带噪语音的编码数据进行拼接,由于关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分,通过偏置向量的拼接,能够有效地将关键词特征显式的融入编码数据,提高语音关键词识别过程在各种复杂声学场景下的性能,提高关键词识别结果的准确性,且上述处理过程拼接偏置向量所需要的数据处理资源消耗较少,能够很好的适配于低资源计算平台。
在一些实施例中,对带噪语音进行编码处理,可以得到包含实部数据和虚部数据的编码数据。相应的,将编码数据的每一组成部分分别与偏置向量进行拼接,得到目标拼接数据,包括:将编码数据的实部数据和虚部数据分别与偏置向量进行拼接,得到实部拼接数据和虚部拼接数据;对齐实部拼接数据和虚部拼接数据进行二次拼接,得到目标拼接数据。
其中,通过将带噪语音编码为包括实部数据和虚部数据的编码数据,可以实现对带噪语音中非平稳噪声的抑制。由于编码数据分为实部数据和虚部数据两部分,在进行数据拼接时,可以将偏置向量分别与实部数据和虚部数据进行拼接,利用关键词相关的高维向量,以实现实部数据的音频偏置和虚部数据的音频偏置。
数据对齐是指对实部拼接数据和虚部拼接数据进行数据对齐。可选的,数据对齐的方式包括按照数据结构进行对齐,通过定义对齐标准位置,以对齐标准位置为参照进行数据对齐。数据对齐的方式还包括将实部拼接数据和虚部拼接数据投影到同一个空间中,实现数据对齐。通过对拼接得到的实部拼接数据和虚部拼接数据在数据对齐后进行二次拼接,能够实现实部拼接数据和虚部拼接数据的有效融合,提高数据准确性。
在一些示例性的实施例中,终端获取实时采集到的带噪语音,将带噪语音输入语音降噪模块中的编码器,通过编码器将采集的带噪语音进行编码处理,得到包含实部数据和虚部数据的编码数据,然后按照偏置向量的数据组成结构,将实部数据和虚部数据分别与偏置向量进行特征拼接,得到实部拼接数据和虚部拼接数据,然后对实部拼接数据和虚部拼接数据进行数据对齐处理,对对齐处理后的实部拼接数据和虚部拼接数据进行二次拼接,即可得到目标拼接数据。
在本实施例中,通过将带噪语音编码为实部数据和虚部数据,能够分别对每一组成部分进行编码,实现偏置向量的有效融合,并且,通过对齐实部拼接数据和虚部拼接数据进行二次拼接,能够便于在后续处理过程中将实部拼接数据和虚部拼接数据作为一个整体进行数据处理,能够有效提高数据特征表达的准确信,进而提高关键词识别结果的准确性。
在一些实施例中,为了减小实部拼接数据和虚部拼接数据二者之间的差异性,在对实部拼接数据和虚部拼接数据进行二次拼接时,可以通过线性投影的方式先对实部拼接数据和虚部拼接数据进行数据对齐处理。
具体地,对齐实部拼接数据和虚部拼接数据进行二次拼接,得到目标拼接数据,包括:将实部拼接数据和虚部拼接数据经由线程层投影到同一目标空间,得到第一线性投影数据和第二线性投影数据;将第一线性投影数据和第二线性投影数据进行二次拼接,得到目标拼接数据。
其中,线性层是神经元组成结构为N*1(N为正整数)的网络层,线性层的每个神经元与上一个层所有神经元相连,可以实现对前一层的线性组合或线性变换。在具体实现中,可以是实部拼接数据和虚部拼接数据经由同一个线程层投影到同一目标空间,也可以是实部拼接数据和虚部拼接数据经由结构和参数均相同的两个线程层投影到同一目标空间。
在一个示例性的实施例中,如图4所示,由于编码器输出的编码数据为虚数,具有实部数据和虚部数据两部分,因此在拼接过程中需要对其实部数据和虚部数据同时拼接上偏置向量,再经过线性层投影到新的空间中,随后将线性层投影后的结果再拼接起来得到连接器的输出。该部分的操作可以保证降噪模块编码器的实部数据和虚部数据均可与偏置向量结合,且能够通过一个线性层来减小二者之间的差异性,进而能够有效提高后续基于拼接得到的目标拼接向量进行关键词识别的结果的准确性。
在一些实施例中,声学模型作为带噪语音处理模型中的一部分,可以通过训练带噪语音处理模型实现声学模型的训练。其中,带噪语音处理模型的训练数据即为声学模型的训练数据。带噪语音处理模型可以是仅用于实现关键词识别的模型,也可以是同时实现关键词识别和语音降噪的模型。
当带噪语音处理模型为仅用于实现关键词识别的模型时,示例性的,带噪语音处理模型的结构可以如图5所示,包括偏置向量提取器、语音编码模块、偏置向量连接器和声学模块。
其中,偏置向量提取器用于对关键词音频集合进行偏置向量提取,得到偏置向量,并将偏置向量传输至语音编码模块中的拼接单元。语音编码模块包括编码器和拼接单元,编码器用于对带噪语音进行编码,得到包含实部数据和虚部数据的编码数据,拼接单元用于将偏置向量分别与编码器输出的实部数据和虚部数据进行拼接,得到实部拼接数据和虚部拼接数据,并将实部拼接数据和虚部拼接数据通过线性层投影至同一空间,偏置向量连接器用于对线性层投影后的结果再拼接起来,得到目标拼接数据,声学模块对目标拼接数据进行关键词识别,得到关键词识别结果。
当带噪语音处理模型为同时实现关键词识别和语音降噪的模型时,示例性的,带噪语音处理模型的结构可以如图6所示,包括偏置向量提取器、语音降噪模块、偏置向量连接器和声学模块。
偏置向量提取器用于对关键词音频集合进行偏置向量提取,得到偏置向量,并将偏置向量传输至语音降噪模块中的拼接单元。语音降噪模块包括编码器、拼接单元、增强网络和解码器。其中,编码器用于对带噪语音进行编码,得到包含实部数据和虚部数据的编码数据,拼接单元用于将偏置向量分别与编码器输出的实部数据和虚部数据进行拼接,得到实部拼接数据和虚部拼接数据,实部拼接数据和虚部拼接数据可以通过线性层投影至同一空间并输入偏置向量连接器,由偏置向量连接器对线性层投影后的结果再次拼接起来,得到目标拼接数据,然后将目标拼接数据输入声学模型,通过声学模块对目标拼接数据进行关键词识别,得到关键词识别结果。实部拼接数据和虚部拼接数据还可以输入至增强网络,由增强网络对实部拼接数据和虚部拼接数据进行数据增强处理,以对实部拼接数据和虚部拼接数据进行降噪,并将降噪处理后的实部拼接数据和虚部拼接数据输入解码器,得到降噪语音,从而同时实现关键词识别和语音降噪。
进一步地,语音降噪模块所使用的网络结构为带有音频偏置的DCCRN(DeepComplex Convolution Recurrent Network,深度复数卷积循环网络),其输入为带噪语音,输出为降噪后的语音,主要实现的功能为降低输入带噪语音中的噪声,提高目标信号的信噪比。原始的DCCRN结构中是将编码器的输出直接输入增强网络,而上述方法中由于引入了偏置向量,因此此处是将偏置向量与编码器的输出进行拼接后再输入的增强网络。拼接策略可以将关键词的音频信息引入到降噪模块中,使得降噪模块能够做到抑制除关键词外的其它干扰信号,有效的避免低信噪比下降噪模块对关键词的抑制与损伤。
无论是针对仅用于实现关键词识别的带噪语音处理模型,还是同时实现关键词识别和语音降噪的带噪语音处理模型,均可以采用相同的训练方式进行训练得到,并且,在训练过程中可以直接确定关键词音频集合,得到偏置向量。
带噪语音处理模型具体的训练过程需要偏置向量的参与,偏置向量是由偏置向量提取器基于输入数据提取得到的结果,偏置向量提取器的输入为一个关键词音频集合,该关键词音频集合的生成方式有两种,分别是固定方式和动态方式,对应的,带噪语音处理模型的模型训练输入参数也分为两种情况。下面分别以固定方式和动态方式生成关键词音频集合来对带噪语音处理模型的训练过程进行说明:
固定方式生成关键词音频集合对应的模型训练方式,包括:从初始带噪语音处理模型的训练集中,随机抽取部分关键词音频构成关键词音频集合;对关键词音频集合中的各关键词音频分别进行关键词特征向量提取,基于提取得到的关键词特征向量生成偏置向量;基于偏置向量和训练集,对初始带噪语音处理模型进行训练,得到带噪语音处理模型。
其中,初始带噪语音处理模型的训练集包括多个训练数据,每一个训练数据中的关键词均携带有关键词标签。由于训练集中的训练数据众多,可以基于训练集中的一部分训练数据所包含的关键词进行抽取,该一部分训练数据可以是随机抽取得到的,也可以是按照预设的采样方式进行采样得到的,通过训练集中随机抽取部分关键词音频构成关键词音频集合,能够减少对关键词音频集合中的关键词音频进行关键词特征向量提取这一过程的数据处理量,提高关键词特征向量提取数据处理效率。
偏置向量可以是由提取得到的关键词特征向量生成的向量,例如,针对多个相同关键词的关键词特征向量进行聚类等处理,实现关键词特征向量的融合,提高偏置向量的关键词表征准确性,并且,在后续基于偏置向量进行拼接处理时,能够有效减少拼接的数据量,提高数据处理效率。
进一步地,从初始带噪语音处理模型的训练集中,随机抽取部分关键词音频构成关键词音频集合,可以在对初始带噪语音处理模型进行训练开始之前进行的处理,在初始带噪语音处理模型训练前,随机的从训练集中抽取部分关键词音频作为关键词音频集合来提取偏置向量,能够减小训练的时间,每一轮训练都使用相同的偏置向量,且在训练完成的带噪语音处理模型的应用过程中,能够依然使用训练中所使用的偏置向量,无需执行确定应用过程中的偏置向量这一数据处理过程,减少数据处理过程所需要耗费的资源。
此外,动态方式生成关键词音频集合对应的模型训练方式,包括:
针对初始带噪语音处理模型在训练过程中的每一训练阶段,获取每一训练阶段各自对应的阶段训练数据;从阶段训练数据中,随机抽取音部分关键词进行关键词特征向量提取,基于提取得到的关键词特征向量生成训练阶段的阶段偏置向量;基于每一阶段的阶段偏置向量和阶段训练数据,对初始带噪语音处理模型进行多阶段训练,得到带噪语音处理模型。
动态方式生成关键词音频集合是针对初始带噪语音处理模型在训练过程中的多个训练阶段而言的,在每一个训练阶段,均使用不同的阶段训练样本和阶段偏置参数来进行训练。进一步地,从阶段训练数据中,随机抽取音部分关键词进行关键词特征向量提取,基于提取得到的关键词特征向量生成训练阶段的阶段偏置向量,可以在对初始带噪语音处理模型的每一训练阶段开始之前分别执行的,针对初始带噪语音处理模型在训练过程中的每一训练阶段,随机的从每一训练阶段各自对应的阶段训练数据中,抽取部分关键词音频作为关键词音频集合来提取阶段偏置向量,以作为当前训练阶段的偏置向量。
通过按照每一阶段的阶段偏置向量和阶段训练数据,对初始带噪语音处理模型进行多阶段训练,该方式会在初始带噪语音处理模型训练的每一训练阶段中,从该训练阶段所使用的训练数据中随机的抽取关键词音频构建关键词音频集合,将关键词音频集合作为偏置向量提取器的输入来提取偏置向量,该方式的优势是能够有效的提高偏置向量提取器的鲁棒性,提高带噪语音处理模型在不同场景下的适应能力。
在一些实施例中,语音处理方法还包括:获取训练集中的每一训练样本各自携带的关键词标签;利用训练样本的关键词标签以及初始声学模型对同一训练样本进行关键词识别得到的后验概率,基于关键词损失函数进行模型训练,得到声学模型。
其中,后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。先验概率与后验概率有不可分割的联系,后验概率的计算通常要以先验概率为基础。具体的,事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。在本实施例中,在模型的训练阶段,初始声学模型的处理对象为携带有关键词标签的训练样本,该训练样本中的关键字是已知的,对该训练样本进行关键词识别得到的概率即为后验概率。
在一个具体的应用中,终端通过获取训练集中的每一训练样本各自携带的关键词标签;利用训练样本的关键词标签以及初始声学模型对同一训练样本进行关键词识别得到的后验概率进行比较,同时结合关键词检出损失函数进行声学模型的训练。在一个实施例中,关键词损失函数使用的是二进制交叉熵(binary cross entropy,简称BCE)损失函数
其中,yi=H(xi,θ)∈0,1表示由参数为θ的声学模型H输出的后验概率,y*∈0,1表示第i帧样本数据的真实标签。
在本实施例中,通过使用二进制交叉熵损失函数,对于二分类问题,即关键词和非关键词的分类进行有效的处理,能够有效提高声学模型的训练效果,得到关键词识别效果更优的声学模型。
在一些实施例中,训练集中的训练样本为干净语音与噪声的混合语音;带噪语音处理模型还包括增强网络;语音处理方法还包括:
获取训练集中的每一训练样本各自包含的干净语音;利用训练样本的干净语音以及初始增强网络对同一训练样本进行数据增强得到的降噪语音,基于降噪损失函数进行模型训练,得到增强网络。
在模型的训练阶段,初始增强网络的处理对象为训练样本中的干净语音,终端通过获取训练集中的每一训练样本包括的干净语音;利用训练样本的干净语音以及初始增强网络对同一训练样本进行数据增强得到的降噪语音进行比较,同时结合降噪损失函数进行增强网络的训练。在一些实施例中,降噪损失函数可以使用基于SI-SNR(scale-invariantsource-to-noise ratio,尺度不变的信噪比)准则构建的损失函数。在本实施例中,通过使用降噪损失函数,能够缩小降噪模块输出的降噪后语音与干净语音之间的时空差异,提高训练得到的增强网络的降噪效果。
在一些实施例中,带噪语音处理模型的网络结构包括声学模型和增强网络,在初始带噪语音处理模型的训练过程中存在两部分损失函数,分别是关键词损失函数和降噪损失函数,其中降噪损失函数使用SI-SNR准则进行训练,旨在缩小降噪模块输出的降噪后语音与干净语音之间的时空差异,该部分损失函数可以表示为对于关键词检出损失函数而言,关键词损失函数使用的是二进制交叉熵损失函数/>整个带噪语音处理模型的训练损失函数/>可以表示为:/>
其中yi=H(xi,θ)∈0,1表示由参数为θ的声学模型H输出的后验概率,y*∈0,1表示第i帧样本数据的真实标签。
在一些实施例中,基于声学模型对目标拼接数据进行关键词识别,得到关键词识别结果,包括:
将目标拼接数据输入声学模型,得到目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据;基于每一个候选关键词各自的概率数据以及非关键词的概率数据,确定满足概率条件的关键词。
其中,将目标拼接数据输入声学模型,声学模型会对目标拼接数据进行关键词识别,从目标拼接数据中提取出多个关键词和非关键词集合,其中,非关键词集合中的非关键词的数量可以为多个,基于非关键词集合可以将多个非关键词可以作为一个整体进行概率计算。
示例性的,声学模型的最后一个网络层包括线性层,当定义的关键词的数量为M时,该线性层的输出维度为M+1,其中前M维表示每个关键词的概率数据,最后额外的一维表示非关键词的概率数据。例如,在语音唤醒的场景下,唤醒词的数量为3个,则设定的关键词的数量为3,声学模型的线性层的输出维度为4,其中三个维度分别对应三个唤醒词即关键词,另一个维度对应非关键词。非关键词可以是与关键词具与较高的相似性,但在训练样本中未被标记为关键词或是标记为非关键词的词语。
在本实施例中,通过除了对多个关键词进行概率分析之外,还对非关键词进行了概率分析,基于具有该输出结构的声学模型,能够确保在训练过程中实现对关键词和非关键词分类准确性的验证,还能够在声学模型的应用过程中减少非关键词对声学模型的关键词识别结果的影响,提高声学模型的关键词识别结果的准确性。
在一些实施例中,声学模型包括依次连接的多个第一空洞时延卷积单元以及第二空洞时延卷积单元;
其中,后一第一空洞时延卷积单元的输入数据,为前一第一空洞时延卷积单元的输入数据与输出数据进行残差连接得到的结果;
第一空洞时延卷积单元,用于对输入数据进行深度卷积、点卷积、批归一化和ReLU激活处理,得到输出数据;
第二空洞时延卷积单元,用于对最后一个第一空洞时延卷积单元的输出数据进行随机失活、线性层投影和软最大化处理,得到目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据。
在一个示例性的实施例中,声学模型的结构如图7所示,声学模型由主要由N+1层DTC模块组成,前N层DTC模块即为多个第一空洞时延卷积单元,前N层DTC模块依次连接,每个DTC模块的输出数据和输入数据相加构成残差连接,将相加得到的结果作为下一DCT模块的输入。针对每层DTC模块,DTC模块主要由深度卷积、点卷积、批归一化和ReLU激活函数构成,其中DTC模块分为三个网络单元,分别为用于进行深度卷积和批归一化的第一网络单元,用于进行点卷积、批归一化以及ReLU激活的第二网络单元,以及用于进行点卷积和批归一化的第三网络单元,第一网络单元、第二网络单元和第三网络单元依次连接,前一网络单元的输出数据为后一网络单元的输入数据。最后一个DTC模块用于对该DTC模块的输入数据进行随机失活、线性层投影和软最大化处理,得到每一个候选关键词各自的概率数据以及非关键词的概率数据,其中,线性层投影的投影维度由关键词的数目决定,如有M个关键词,则投影层的输出维度为M+1。其中,前M维表示每个关键词的后验概率,最后一维表示非关键词的后验概率。
在一些实施例中,语音处理方法还包括:通过增强网络对目标拼接数据进行数据增强处理,得到增强数据;基于与编码处理所采用编码方式相匹配的解码方式,对增强数据进行解码,得到降噪语音。
其中,通过引入偏置向量对编码数据进行拼接处理,将偏置向量与编码数据进行拼接后再输入增强网络。这种拼接策略可以引入关键词的音频信息来进行数据增强,使得得到的增强数据能够做到抑制除关键词外的其它干扰信号,有效的避免低信噪比下的增强网络对关键词的抑制与损伤。
在一些实施例中,基于引入偏置向量,对编码数据中的实部数据和虚部数据分别进行拼接,得到实部拼接数据和虚部拼接数据,将实部拼接数据和虚部拼接数据输入增强网络进行数据增强处理,得到数据增强的实部拼接数据和虚部拼接数据,利用对带噪语音进行编码的编码方式所匹配的解码方式,对数据增强的实部拼接数据和数据增强的虚部拼接数据进行解码处理,该解码处理即为编码处理的逆过程,用于虚数形式的数据转换为音频数据,由于解码得到的音频数据为经过了增强网络进行数据增强达到了降噪的效果,因此解码得到的音频数据为对带噪语音进行降噪后的降噪语音,同时还能确保降噪语音能够抑制除关键词外的其它干扰信号,有效避免低信噪比下的增强网络对关键词的抑制与损伤。
在一些实施例中,语音处理方法还包括:将关键词识别结果与唤醒关键词进行匹配,得到匹配结果;当匹配结果满足语音唤醒条件时,基于降噪语音所包含的语音内容,进行语音交互。
在语音唤醒场景下,可以通过判断带噪语音中是否包含唤醒关键词,来确定是否唤醒设备进行语音交互。在一些实施例中,声学模型可识别的关键词设定为唤醒设备的唤醒关键词,关键词识别结果可以用于表征带噪语音中是否包含唤醒关键词,当关键词识别结果可以用于表征带噪语音中包含唤醒关键词时,即为满足语音唤醒条件,则基于降噪语音所包含的语音内容,进行语音交互。
在另一些实施例中,学模型可识别的关键词可以包含唤醒设备的唤醒关键词,即除了唤醒设备的唤醒关键词,还包括其他的关键词,在这种情况下,终端可以将关键词识别结果中识别出的关键词与唤醒关键词进行匹配,当关键词识别结果中识别出的关键词中存在唤醒关键词,即匹配结果满足语音唤醒条件时,通过识别降噪语音中所包含的语音内容,按照语音内容进行语音交互。当关键词识别结果中识别出的关键词中不存在唤醒关键词,即匹配结果不满足语音唤醒条件时,不执行设备唤醒操作。
在本实施例中,终端通过将增加偏置向量进行拼接的处理方式来进行关键词识别,关键词识别结果与唤醒关键词进行匹配,在匹配结果满足语音唤醒条件的情况下,基于降噪语音所包含的语音内容,进行语音交互,能够实现对关键词的有效识别,使得能够在各种带噪声的复杂声学场景下基于语音对人机交互设备实现有效唤醒。
本申请还提供一种应用场景,该应用场景应用上述的语音处理方法。具体地,该语音处理方法在该应用场景的应用如下:
带噪语音处理过程包括语音关键词检出各语音降噪两部分,其中,语音关键词检出技术作为语音识别中的一项子任务,是指在连续的语音流中检测是否存在预定的关键词,该技术被广泛的应用于语音唤醒、语音操控以及敏感词检测等场景中。由于语音唤醒系统通常需要处于长期开启的状态,并且多数情况下会运行在较低计算力的低资源平台上,因此其系统结构和设计都会更为精简,模型的参数量和体积会很小。在此背景之下,语音唤醒系统的性能(检出率和误报率)在复杂场景下会面临较大的挑战,例如说话人距离麦克风较远以及环境噪声较大的情况,目前对于这类场景,一般是通过使用波束形成、自适应降噪、去混响以及自动增益控制等信号处理方法,先削弱语音信号中的噪声干扰与远场混响,然后进行关键词检出,但这种处理方式对于突发的非平稳噪声而言,较为难以抑制,上述信号处理方法在应对此类场景时,往往会表现出性能的下降。随着人工智能的发展,为了实现噪声干扰,提出了基于神经网络的语音降噪模型将语音流中的噪声进行抑制,但这种处理方式对于信噪比低于0dB的场景,也即关键词的声压级在噪声之下,可能反而会将关键词语音做抑制,导致系统性能下降。并且,基于神经网络的语音降噪模型通常具有较大的参数量和计算量,因此在低资源设备上运行较为困难,特别是一些早期不具备人工智能加速能力的硬件平台。
本申请的方案则针对以上已有方案所存在的问题,设计出一种音频偏置(Audio-Bias)处理方式,从关键词音频中抽取高维向量,然后将该高维向量与神经网络降噪模型的编码器输出相结合,再输入关键词检出的声学模型,得到关键词检出结果。
一方面,使用神经网络降噪模型的编码器输出,即能避免信号处理前端对于非平稳噪声抑制难的问题,又能节省掉神经网络降噪模型中除了编码器之外的其它模块的计算量,兼顾良好的噪声抑制能力以及较低的计算量。另一方面,从关键词音频中抽取高维表示向量,作为偏置向量与神经网络降噪模型的编码器输出相结合,在降噪过程中可以有效的显式利用到关键词的信息,进而提高系统在信噪比较低情况下的性能。
具体地,本申请的方法可以应用于云小微智能面板方案,用于实现固定唤醒功能。智能面板通常会使用在各种家居场景,用于通过语音控制实现各类家居技能,而固定唤醒则是通过预置固定的唤醒词的方式,实现通过语音唤醒来启动语音交互的功能。由于家居场景中往往会面临较为复杂的声学场景,包括说话人距离较远所带来的混响增大,以及家居设备和屋内人员产生的各种干扰噪声,使用本申请的方法能够提高智能面板在这类场景下固定唤醒功能的性能以及鲁棒性。
本方法使用的带噪语音处理模型用于实现关键词检出和语音降噪,带噪语音处理模型主要由四个部分组成,分别是语音降噪模块、偏置向量提取器、偏置向量连接器和声学模块,具体可以参见图6。语音降噪模块所使用的网络结构为带有偏置向量的DCCRN,其输入为带噪语音,输出为降噪后的语音,主要实现的功能为降低输入带噪语音中的噪声,提高目标信号的信噪比。原始的DCCRN结构中是将编码器的输出直接输入增强网络,而本方法中由于引入了偏置向量,因此此处是将偏置向量与编码器进行拼接后再输入的增强网络。这种拼接策略可以将关键词的音频信息引入到降噪模块中,使得降噪模块能够做到抑制除关键词外的其它干扰信号,有效的避免低信噪比下降噪模块对关键词的抑制与损伤。
语音降噪模块中编码器输出和偏置向量的拼接结果,除了会输入增强网络之外,还会输入到偏置向量连接器中。如下图所示,这里由于编码器输出为虚数,具有实部和虚部两部分,因此在拼接过程中需要对其实部和虚部同时拼接上偏置向量,再经过线性层投影到新的空间中,随后,将线性层投影后的结果再拼接起来得到连接器的输出。该部分的操作可以保证降噪模块编码器的实部和虚部均可与偏置向量结合,且能够通过一个线性层来减小二者之间的差异性,进一步的使得偏置向量的效果更为明显。
偏置向量连接器的输出会输入到声学模型中以输出关键词的后验概率。用的声学模型由主要由N+1层DTC模块组成,前N层DTC模块即为多个第一空洞时延卷积单元,前N层DTC模块依次连接,每个DTC模块的输出数据和输入数据相加构成残差连接,将相加得到的结果作为下一DCT模块的输入。针对每层DTC模块,DTC模块主要由深度卷积、点卷积、批归一化和ReLU激活函数构成,其中DTC模块分为三个网络单元,分别为用于进行深度卷积和批归一化的第一网络单元,用于进行点卷积、批归一化以及ReLU激活的第二网络单元,以及用于进行点卷积和批归一化的第三网络单元,第一网络单元、第二网络单元和第三网络单元依次连接,前一网络单元的输出数据为后一网络单元的输入数据。最后一个DTC模块用于对该DTC模块的输入数据进行随机失活、线性层投影和软最大化处理,得到每一个候选关键词各自的概率数据以及非关键词的概率数据,其中,线性层投影的投影维度由关键词的数目决定,如有M个关键词,则投影层的输出维度为M+1。其中,前M维表示每个关键词的后验概率,最后一维表示非关键词的后验概率
带噪语音处理模型的网络结构包括声学模型和增强网络,在初始带噪语音处理模型的训练过程中存在两部分损失函数,分别是关键词损失函数和降噪损失函数,其中降噪损失函数使用SI-SNR准则进行训练,旨在缩小降噪模块输出的降噪后语音与干净语音之间的时空差异,该部分损失函数可以表示为对于关键词检出损失函数而言,关键词损失函数使用的是二进制交叉熵损失函数/>整个带噪语音处理模型的训练损失函数/>可以表示为:
其中yi=H(xi,θ)∈0,1表示由参数为θ的声学模型H输出的后验概率,y*∈0,1表示第i帧样本数据的真实标签。
带噪语音处理模型具体的训练过程需要偏置向量的参与,偏置向量是由偏置向量提取器基于输入数据提取得到的结果,偏置向量提取器的输入为一个关键词音频集合,该关键词音频集合的生成方式有两种,分别是固定方式和动态方式,对应的,带噪语音处理模型的模型训练输入参数也分为两种情况。下面分别以固定方式和动态方式生成关键词音频集合来对带噪语音处理模型的训练过程进行说明:
以固定方式生成关键词音频集合对应的模型训练方式为例,初始带噪语音处理模型的训练集包括多个训练数据,每一个训练数据中的关键词均携带有关键词标签。由于训练集中的训练数据众多,可以基于训练集中的一部分训练数据所包含的关键词进行抽取,该一部分训练数据可以是随机抽取得到的,也可以是按照预设的采样方式进行采样得到的,通过训练集中随机抽取部分关键词音频构成关键词音频集合,能够减少对关键词音频集合中的关键词音频进行关键词特征向量提取这一过程的数据处理量,提高关键词特征向量提取数据处理效率。
具体地,从初始带噪语音处理模型的训练集中,随机抽取部分关键词音频构成关键词音频集合,可以在对初始带噪语音处理模型进行训练开始之前进行的处理,在初始带噪语音处理模型训练前,随机的从训练集中抽取部分关键词音频作为关键词音频集合来提取偏置向量,能够减小训练的时间,每一轮训练都使用相同的偏置向量,且在训练完成的带噪语音处理模型的应用过程中,能够依然使用训练中所使用的偏置向量,无需执行确定应用过程中的偏置向量这一数据处理过程,减少数据处理过程所需要耗费的资源。
动态方式生成关键词音频集合是针对初始带噪语音处理模型在训练过程中的多个训练阶段而言的,在每一个训练阶段,均使用不同的阶段训练样本和阶段偏置参数来进行训练。进一步地,从阶段训练数据中,随机抽取音部分关键词进行关键词特征向量提取,基于提取得到的关键词特征向量生成训练阶段的阶段偏置向量,可以在对初始带噪语音处理模型的每一训练阶段开始之前分别执行的,针对初始带噪语音处理模型在训练过程中的每一训练阶段,随机的从每一训练阶段各自对应的阶段训练数据中,抽取部分关键词音频作为关键词音频集合来提取阶段偏置向量,以作为当前训练阶段的偏置向量。
通过按照每一阶段的阶段偏置向量和阶段训练数据,对初始带噪语音处理模型进行多阶段训练,该方式会在初始带噪语音处理模型训练的每一训练阶段中,从该训练阶段所使用的训练数据中随机的抽取关键词音频构建关键词音频集合,将关键词音频集合作为偏置向量提取器的输入来提取偏置向量,该方式的优势是能够有效的提高偏置向量提取器的鲁棒性,提高带噪语音处理模型在不同场景下的适应能力。
相比于现有的使用基于神经网络的语音降噪模型与关键词检出模型相结合的方案而言,本方案在关键词检出率以及运行在低资源平台上所消耗的CPU资源上均有优势,具体表现包括:
音频偏置向量的引入可以有效的提高关键词的检出率,特别是偏置向量拼接器能够进一步的使得偏置向量的效果更为明显。相比于已有方法中将降噪模型的结果送入到关键词检出模型的方法,本方法的关键词检出率要更高,并且在低资源平台上的CPU占用率和推理速度上有明显的优势。下表1描述了偏置向量的引入对关键词检出率所带来的提升。
表1:关键词检出率对比
模型标识 | B0 | B1 | B2 | B3 |
关键词检出率(%) | 65.69 | 72.38 | 73.64 | 87.03 |
其中,B0模型为不使用偏置向量,B1模型为使用偏置向量且提取器工作状态为固定方式,B2模型为使用偏置向量且提取器工作状态为动态方式,B3为在B2基础上加入偏置向量拼接器。
下表2描述了本方法与现有的使用基于神经网络的语音降噪模型与关键词检出模型相结合的方案相对比的关键词检出率结果以及资源占用,测试的四个场景的差异主要在信噪比,信噪比越低则说明噪声干扰越严重。资源占用测试是在Cortex-A35@1.5GHz的平台上进行,其中实时率表示处理单位时间语音流所需要的时间于语音流时长的比值,该值越小则证明运行速度越快。
表2关键词检出率结果以及资源占用对比
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音处理方法的语音处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音处理装置实施例中的具体限定可以参见上文中对于语音处理方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种语音处理装置,包括:语音获取模块902、语音编码模块904、数据拼接模块906和关键词识别模块908,其中:
语音获取模块902,用于获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
语音编码模块904,用于对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
数据拼接模块906,用于将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
关键词识别模块908,用于基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
在一些实施例中,所述编码数据的组成部分包括实部数据和虚部数据,所述数据拼接模块906,包括第一拼接单元和第二拼接单元,其中:
所述第一拼接单元,用于将所述编码数据的实部数据和虚部数据分别与所述偏置向量进行拼接,得到实部拼接数据和虚部拼接数据;
所述第二拼接单元,用于对齐所述实部拼接数据和所述虚部拼接数据进行二次拼接,得到目标拼接数据。
在一些实施例中,所述第二拼接单元,还用于将所述实部拼接数据和所述虚部拼接数据经由线程层投影到同一目标空间,得到第一线性投影数据和第二线性投影数据;将所述第一线性投影数据和所述第二线性投影数据进行二次拼接,得到目标拼接数据。
在一些实施例中,所述语音处理装置还包括模型训练模块,用于从所述初始带噪语音处理模型的训练集中,随机抽取部分关键词音频;对抽取的各所述关键词音频分别进行关键词特征向量提取,基于提取得到的关键词特征向量生成偏置向量;基于所述偏置向量和所述训练集,对所述初始带噪语音处理模型进行训练,得到带噪语音处理模型,所述带噪语音处理模型包括声学模型。
在一些实施例中,所述语音处理装置还包括模型训练模块,用于针对初始带噪语音处理模型在训练过程中的每一训练阶段,获取每一训练阶段各自对应的阶段训练数据;从所述阶段训练数据中,随机抽取音部分关键词进行关键词特征向量提取,基于提取得到的关键词特征向量生成所述训练阶段的阶段偏置向量;基于每一阶段的所述阶段偏置向量和所述阶段训练数据,对所述初始带噪语音处理模型进行多阶段训练,得到带噪语音处理模型,所述带噪语音处理模型包括声学模型。
在一些实施例中,所述语音处理装置还包括声学模型训练模块,用于获取所述训练集中的每一训练样本各自携带的关键词标签;利用所述训练样本的关键词标签以及所述初始声学模型对同一所述训练样本进行关键词识别得到的后验概率,基于关键词损失函数进行模型训练,得到声学模型。
在一些实施例中,所述训练集中的训练样本为干净语音与噪声的混合语音;所述带噪语音处理模型还包括增强网络;所述语音处理装置还包括增网络训练模块,用于获取所述训练集中的每一训练样本各自包含的干净语音;利用所述训练样本的干净语音以及初始增强网络对同一所述训练样本进行数据增强得到的降噪语音,基于降噪损失函数进行模型训练,得到增强网络。
在一些实施例中,所述关键词识别模块908,还用于将所述目标拼接数据输入所述声学模型,得到所述目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据;基于所述每一个候选关键词各自的概率数据以及所述非关键词的概率数据,确定满足概率条件的关键词。
在一些实施例中,所述声学模型包括依次连接的多个第一空洞时延卷积单元以及第二空洞时延卷积单元;其中,后一第一空洞时延卷积单元的输入数据,为前一第一空洞时延卷积单元的输入数据与输出数据进行残差连接得到的结果;所述第一空洞时延卷积单元,用于对输入数据进行深度卷积、点卷积、批归一化和ReLU激活处理,得到输出数据;所述第二空洞时延卷积单元,用于对最后一个第一空洞时延卷积单元的输出数据进行随机失活、线性层投影和软最大化处理,得到所述目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据。
在一些实施例中,所述语音处理装置还包括降噪模块,用于通过增强网络对所述目标拼接数据进行数据增强处理,得到增强数据;基于与编码处理所采用编码方式相匹配的解码方式,对所述增强数据进行解码,得到降噪语音。
在一些实施例中,所述语音处理装置还包括唤醒模块,用于将所述关键词识别结果与唤醒关键词进行匹配,得到匹配结果;当所述匹配结果满足语音唤醒条件时,基于所述降噪语音所包含的语音内容,进行语音交互。
上述语音处理装置,通过待进行关键词识别的带噪语音的编码,能避免带噪语音的信号处理前端对于非平稳噪声抑制难的问题,具有良好的噪声抑制能力,通过获取针对关键词音频提取得到的偏置向量,与待进行关键词识别的带噪语音的编码数据进行拼接,由于关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分,通过偏置向量的拼接,能够有效地将关键词特征显式的融入编码数据,提高语音关键词识别过程在各种复杂声学场景下的性能,提高关键词识别结果的准确性,且上述处理过程拼接偏置向量所需要的数据处理资源消耗较少,能够很好的适配于低资源计算平台
上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音处理方法,其特征在于,所述方法包括:
获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
2.根据权利要求1所述的方法,其特征在于,所述编码数据的组成部分包括实部数据和虚部数据;
所述将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据,包括:
将所述编码数据的实部数据和虚部数据分别与所述偏置向量进行拼接,得到实部拼接数据和虚部拼接数据;
对齐所述实部拼接数据和所述虚部拼接数据进行二次拼接,得到目标拼接数据。
3.根据权利要求2所述的方法,其特征在于,所述对齐所述实部拼接数据和所述虚部拼接数据进行二次拼接,得到目标拼接数据,包括:
将所述实部拼接数据和所述虚部拼接数据经由线程层投影到同一目标空间,得到第一线性投影数据和第二线性投影数据;
将所述第一线性投影数据和所述第二线性投影数据进行二次拼接,得到目标拼接数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从初始带噪语音处理模型的训练集中,随机抽取部分关键词音频;
对抽取的各所述关键词音频分别进行关键词特征向量提取,基于提取得到的关键词特征向量生成偏置向量;
基于所述偏置向量和所述训练集,对所述初始带噪语音处理模型进行训练,得到带噪语音处理模型,所述带噪语音处理模型包括声学模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对初始带噪语音处理模型在训练过程中的每一训练阶段,获取每一训练阶段各自对应的阶段训练数据;
从所述阶段训练数据中,随机抽取音部分关键词进行关键词特征向量提取,基于提取得到的关键词特征向量生成所述训练阶段的阶段偏置向量;
基于每一阶段的所述阶段偏置向量和所述阶段训练数据,对所述初始带噪语音处理模型进行多阶段训练,得到带噪语音处理模型,所述带噪语音处理模型包括声学模型。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取每一训练样本各自携带的关键词标签;
利用所述训练样本的关键词标签以及初始声学模型对同一所述训练样本进行关键词识别得到的后验概率,基于关键词损失函数进行模型训练,得到声学模型。
7.根据权利要求4或5所述的方法,其特征在于,所述训练集中的训练样本为干净语音与噪声的混合语音;所述带噪语音处理模型还包括增强网络;所述方法还包括:
获取每一训练样本各自包含的干净语音;
利用所述训练样本的干净语音以及初始增强网络对同一所述训练样本进行数据增强得到的降噪语音,基于降噪损失函数进行模型训练,得到增强网络。
8.根据权利要求1所述的方法,其特征在于,所述基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果,包括:
将所述目标拼接数据输入所述声学模型,得到所述目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据;
基于所述每一个候选关键词各自的概率数据以及所述非关键词的概率数据,确定满足概率条件的关键词。
9.根据权利要求8所述的方法,其特征在于,所述声学模型包括依次连接的多个第一空洞时延卷积单元以及第二空洞时延卷积单元;
其中,后一第一空洞时延卷积单元的输入数据,为前一第一空洞时延卷积单元的输入数据与输出数据进行残差连接得到的结果;
所述第一空洞时延卷积单元,用于对输入数据进行深度卷积、点卷积、批归一化和ReLU激活处理,得到输出数据;
所述第二空洞时延卷积单元,用于对最后一个第一空洞时延卷积单元的输出数据进行随机失活、线性层投影和软最大化处理,得到所述目标拼接数据中每一个候选关键词各自的概率数据以及非关键词的概率数据。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过增强网络对所述目标拼接数据进行数据增强处理,得到增强数据;
基于与编码处理所采用编码方式相匹配的解码方式,对所述增强数据进行解码,得到降噪语音。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
将所述关键词识别结果与唤醒关键词进行匹配,得到匹配结果;
当所述匹配结果满足语音唤醒条件时,基于所述降噪语音所包含的语音内容,进行语音交互。
12.一种语音处理装置,其特征在于,所述装置包括:
语音获取模块,用于获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量,所述关键词音频为语音音频中至少一部分关键词对应的音频,所述语音音频为声学模型的训练数据中的至少一部分;
语音编码模块,用于对所述带噪语音进行编码处理,得到包含多个组成部分的编码数据;
数据拼接模块,用于将所述编码数据的每一组成部分分别与所述偏置向量进行拼接,得到目标拼接数据;
关键词识别模块,用于基于所述声学模型对所述目标拼接数据进行关键词识别,得到关键词识别结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582356.1A CN116978370A (zh) | 2022-12-09 | 2022-12-09 | 语音处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582356.1A CN116978370A (zh) | 2022-12-09 | 2022-12-09 | 语音处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978370A true CN116978370A (zh) | 2023-10-31 |
Family
ID=88471941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211582356.1A Pending CN116978370A (zh) | 2022-12-09 | 2022-12-09 | 语音处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978370A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558270A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、关键词检测模型的训练方法和装置 |
-
2022
- 2022-12-09 CN CN202211582356.1A patent/CN116978370A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558270A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、关键词检测模型的训练方法和装置 |
CN117558270B (zh) * | 2024-01-11 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、关键词检测模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
Xia et al. | Using denoising autoencoder for emotion recognition. | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
Chen et al. | Multi-Modality Matters: A Performance Leap on VoxCeleb. | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Zhang | Voice keyword retrieval method using attention mechanism and multimodal information fusion | |
CN114333896A (zh) | 语音分离方法、电子设备、芯片及计算机可读存储介质 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN107229691A (zh) | 一种用于提供社交对象的方法与设备 | |
CN116978370A (zh) | 语音处理方法、装置、计算机设备和存储介质 | |
CN117558270B (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN111723912A (zh) | 一种神经网络解耦方法 | |
Bie et al. | Facial expression recognition from a single face image based on deep learning and broad learning | |
CN117056474A (zh) | 会话应答方法和装置、电子设备、存储介质 | |
Li et al. | Audio–visual keyword transformer for unconstrained sentence‐level keyword spotting | |
ElMaghraby et al. | Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
CN113851113A (zh) | 模型训练方法及装置、语音唤醒方法及装置 | |
CN117063229A (zh) | 交互语音信号处理方法、相关设备及系统 | |
Peng et al. | ULSED: An ultra-lightweight SED model for IoT devices | |
CN113571063A (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
CN113780324A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |