CN116978358A - 语音处理方法、装置、设备和介质 - Google Patents
语音处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116978358A CN116978358A CN202211297843.3A CN202211297843A CN116978358A CN 116978358 A CN116978358 A CN 116978358A CN 202211297843 A CN202211297843 A CN 202211297843A CN 116978358 A CN116978358 A CN 116978358A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- mixed
- feature
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 221
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 116
- 230000004927 fusion Effects 0.000 claims description 66
- 238000013507 mapping Methods 0.000 claims description 41
- 230000007246 mechanism Effects 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 22
- 230000002452 interceptive effect Effects 0.000 claims description 22
- 239000012634 fragment Substances 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000001228 spectrum Methods 0.000 description 85
- 230000009467 reduction Effects 0.000 description 60
- 239000011159 matrix material Substances 0.000 description 25
- 238000012549 training Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000002829 reductive effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种语音处理方法、装置、设备和介质,属于人工智能技术领域。方法包括:获取混合语音和目标对象的注册语音;混合语音中包括目标对象的语音信息;确定从混合语音中提取出的目标对象的初始语音;初始语音是依据注册语音的注册语音特征从混合语音中提取的;根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度;从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息;将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。采用本方法能够提升语音提取准确率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语音处理方法、装置、设备和介质。
背景技术
随着计算机技术的发展,出现了语音处理技术,语音处理技术是指对语音信号进行音频处理的技术。语音提取则属于语音处理技术中的其中一种,通过语音提取技术,可从复杂语音场景中提取用户感兴趣的声音。可以理解,复杂语音场景可以包括多人说话干扰、大混响、高背景噪音和音乐噪音等中的至少一种。比如,通过语音提取技术,用户可以从复杂语音场景中提取出自己感兴趣的对象的声音。传统技术中,通常直接对复杂语音进行语音提取,并将提取得到的语音直接作为最终要提取的对象的语音,但是,通过这种方式提取得到的语音经常会残留有较多噪声(比如,提取的语音中还包括其他对象的声音),从而导致语音提取准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升语音提取准确率的语音处理方法、装置、设备和介质。
第一方面,本申请提供了一种语音处理方法,所述方法包括:
获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;
从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
第二方面,本申请提供了一种语音处理装置,所述装置包括:
获取模块,用于获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
第一提取模块,用于确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
确定模块,用于根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
过滤模块,用于将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
在一个实施例中,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据所述注册语音特征从所述混合语音中还提取出干扰语音;所述干扰语音是在所述混合语音中干扰识别所述目标对象的语音信息的语音;所述装置还包括:
第二提取模块,用于在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
在一个实施例中,所述第二提取模块还用于将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
在一个实施例中,所述初始语音和所述干扰语音是通过预先训练的语音提取模型从所述混合语音中提取出的;所述第二提取模块还用于将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息;根据所述第一掩码信息屏蔽所述混合语音中的干扰信息,得到所述目标对象的初始语音;根据所述第二掩码信息屏蔽所述混合语音中所述目标对象的语音信息,得到干扰语音。
在一个实施例中,所述语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;所述第二提取模块还用于将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述第一掩码映射参数映射生成对应的第一掩码信息,以及通过所述第二掩码映射参数映射生成对应的第二掩码信息。
在一个实施例中,所述第二提取模块还用于在所述第二处理模式下,将所述混合语音、一级语音提取模型输出的所述初始语音和所述干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到所述混合语音的混合语音特征、所述初始语音的语音特征和所述干扰语音的语音特征;将所述初始语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第一注意力单元,以将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;将所述干扰语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第二注意力单元,以将所述混合语音的混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
在一个实施例中,提取所述初始语音和所述干扰语音的语音提取模型为一级语音提取模型;所述二级处理模型还包括特征融合层和二级语音提取模型;所述第二提取模块还用于将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征输入至所述特征融合层进行融合,得到语音融合特征;将所述语音融合特征输入至所述二级语音提取模型,以通过所述二级语音提取模型基于所述语音融合特征得到所述目标对象的目标语音。
在一个实施例中,所述语音信息包括语音片段;所述确定模块还用于针对所述初始语音中的每一个语音片段,确定所述语音片段对应的片段语音特征;根据所述片段语音特征和所述注册语音特征,确定所述注册语音和所述语音片段之间的语音相似度。
在一个实施例中,所述确定模块还用于针对所述初始语音中的每一个语音片段,将所述语音片段进行重复处理,得到与所述注册语音的时间长度一致的重组语音;其中,所述重组语音包括多个所述语音片段;根据所述重组语音的重组语音特征确定所述语音片段对应的片段语音特征。
在一个实施例中,所述获取模块还用于响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定所述目标对象的注册语音;在基于所述通话触发操作与所述目标对象对应的终端建立语音通话的情况下,接收所述目标对象对应的终端在所述语音通话中发送的混合语音。
在一个实施例中,所述获取模块还用于获取多媒体对象的多媒体语音;所述多媒体语音是包括多个发声对象的语音信息的混合语音;响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识;所述目标对象是所述多个发声对象中指定提取语音的发声对象;从针对多媒体语音中各发声对象预先存储的注册语音中,获取与所述对象标识具有映射关系的注册语音,得到所述目标对象的注册语音。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现本申请各方法实施例中的步骤。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现本申请各方法实施例中的步骤。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请各方法实施例中的步骤。
上述语音处理方法、装置、设备、介质和计算机程序产品,通过获取混合语音和目标对象的注册语音,混合语音中包括目标对象的语音信息。依据注册语音的注册语音特征,从混合语音中初步提取出目标对象的初始语音,能够初步较为准确地提取到目标对象的初始语音。进而,会在初始语音的基础上进行进阶地过滤处理,即,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,并从初始语音中过滤掉语音相似度小于预设相似度的语音信息,就可以将初始语音中残留的噪声过滤掉,从而得到更为干净的目标对象的目标语音,提升语音提取的准确率。
附图说明
图1为一个实施例中语音处理方法的应用环境图;
图2为一个实施例中语音处理方法的流程示意图;
图3为一个实施例中用于对混合语音进行语音提取的模型的网络结构示意图;
图4为一个实施例中一级语音提取网络的网络结构示意图;
图5为一个实施例中降噪网络的网络结构示意图;
图6为一个实施例中语音提取网络的网络结构示意图;
图7为一个实施例中注册网络的网络结构示意图;
图8为另一个实施例中语音处理方法的应用环境图;
图9为一个实施例中语音处理方法的原理示意图;
图10为一个实施例中对初始语音进行过滤处理的原理示意图;
图11为另一个实施例中语音处理方法的流程示意图;
图12为一个实施例中语音处理装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端102可获取混合语音和目标对象的注册语音,混合语音中包括目标对象的语音信息。终端102可确定从混合语音中提取出的目标对象的初始语音;初始语音是依据注册语音的注册语音特征从混合语音中提取的。终端102可根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息,将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
需要说明的是,本申请一些实施例中的语音处理方法使用到了人工智能技术。比如,注册语音的注册语音特征,则属于使用人工智能技术编码得到的特征,以及,目标对象的初始语音,也属于使用人工智能技术识别得到的语音。
在一个实施例中,如图2所示,提供了一种语音处理方法,本实施例以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤202,获取混合语音和目标对象的注册语音;混合语音中包括目标对象的语音信息。
其中,对象是可以发出声音的实体,比如,对象包括人物、动物和物体等中的至少一种。目标对象是作为目标的对象,可以理解,目标对象是语音提取要提取的对象。混合语音是包括多个对象的语音信息的语音,混合语音中包括目标对象的语音信息。混合语音中包括目标对象的语音信息,可以理解为混合语音中包括目标对象的声音。注册语音是目标对象预先注册的干净的语音,可以理解,注册语音中仅包括目标对象的语音信息,不包括除目标对象之外的其他对象的语音信息。
具体地,目标对象可以在较为安静的环境下说一段话,可以理解,这段话不包括除目标对象之外的其他对象的声音。终端可采集目标对象在安静的环境下所说的话,并根据目标对象在安静的环境下所说的话,生成目标对象的注册语音。目标对象可以在较为吵闹的环境下说一段话,可以理解,这段话包括除目标对象之外的其他对象的声音,还可以包括很多环境噪音。终端可采集目标对象在吵闹的环境下所说的话,并根据目标对象在吵闹的环境下所说的话,生成包括目标对象的语音信息的混合语音。
在一个实施例中,终端可将目标对象在安静的环境下所说的话对应的语音,直接作为目标对象的注册语音。终端可将目标对象在吵闹的环境下所说的话对应的语音,直接作为包括目标对象的语音信息的混合语音。
步骤204,确定从混合语音中提取出的目标对象的初始语音;初始语音是依据注册语音的注册语音特征从混合语音中提取的。
其中,注册语音特征是注册语音的特征。对混合语音中目标对象的语音信息进行初步识别。初始语音是对混合语音中目标对象的语音信息进行初步识别得到的语音,可以理解,初始语音中除了包括目标对象的语音信息,还有可能包括除目标对象之外的其他对象的语音信息。
具体地,终端可对注册语音进行特征提取,得到注册语音的注册语音特征。进而,终端可依据注册语音的注册语音特征,对混合语音中目标对象的语音信息进行初步识别,即,对混合语音进行初步的语音提取,得到目标对象的初始语音。
在一个实施例中,终端可对混合语音进行特征提取,得到混合语音的混合语音特征。进而,终端可根据混合语音特征和注册语音特征,对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。其中,混合语音特征是混合语音的特征。
在一个实施例中,初始语音是通过预先训练的语音提取模型提取得到的。具体地,终端可将混合语音和注册语音的注册语音特征输入至语音提取网络,以通过语音提取网络对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。
步骤206,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度。
其中,语音相似度,是注册语音和初始语音中的语音信息之间的相似度。
在一个实施例中,终端可对初始语音中的语音信息进行特征提取,得到语音信息特征。进而,终端可根据注册语音特征和语音信息特征,确定注册语音和初始语音中语音信息之间的语音相似度。
步骤208,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息。
其中,待过滤语音信息,是初始语音中即将要进行过滤处理的语音信息。
语音相似度小于预设相似度具体地,终端可分别判断初始语音中的各个语音信息与注册语音之间的语音相似度是否小于预设相似度。若语音相似度小于预设相似度,则终端可将相应的语音信息作为待过滤语音信息。若语音相似度大于或等于预设相似度,可以理解,注册语音和相应语音信息之间的语音相似度较高,说明该语音信息大概率属于目标对象对应的语音信息,此时,终端可将相应的语音信息保留。
步骤210,将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
其中,目标语音,是目标对象的干净的语音,可以理解,目标语音中仅包括目标对象的语音信息,不包括除目标对象之外的其他对象的语音信息。
具体地,终端可将初始语音中待过滤语音信息进行过滤处理,可以理解,终端可将待过滤语音信息置为静音,并根据保留下来的初始语音中的语音信息,生成目标对象的目标语音。
上述语音处理方法中,通过获取混合语音和目标对象的注册语音,混合语音中包括目标对象的语音信息。依据注册语音的注册语音特征,从混合语音中初步提取出目标对象的初始语音,能够初步较为准确地提取到目标对象的初始语音。进而,会在初始语音的基础上进行进阶地过滤处理,即,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,并从初始语音中过滤掉语音相似度小于预设相似度的语音信息,就可以将初始语音中残留的噪声过滤掉,从而得到更为干净的目标对象的目标语音,提升语音提取的准确率。
在一个实施例中,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据注册语音特征从混合语音中还提取出干扰语音;干扰语音是在混合语音中干扰识别目标对象的语音信息的语音;方法还包括:在第二处理模式下,将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于混合语音特征、第一注意力特征和第二注意力特征进行融合,并基于融合后的特征得到目标对象的目标语音。
其中,第一注意力特征,是将混合语音的混合语音特征和初始语音的语音特征基于注意力机制融合得到的特征。第二注意力特征,是将混合语音特征和干扰语音的语音特征基于注意力机制融合得到的特征。可以理解,将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,是指将混合语音的混合语音特征和初始语音的语音特征分别乘以相应的注意力权重,以进行融合。还可以理解,将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,是指将混合语音特征和干扰语音的语音特征,分别乘以相应的注意力权重,以进行融合。
具体地,在用户需要快速获取目标语音的情况下,响应于第一处理模式选择操作,终端可将当前处理模式确定为第一处理模式。在第一处理模式下,终端可根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息,将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。在用户需要获取高准确率的目标语音的情况下,响应于第二处理模式选择操作,终端可将当前处理模式确定为第二处理模式。在第二处理模式下,终端可将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于混合语音特征、第一注意力特征和第二注意力特征进行融合,并基于融合后的特征得到目标对象的目标语音。
一个实施例中,终端可将混合语音特征、所述第一注意力特征和所述第二注意力特征直接进行特征融合,得到融合后的特征。进而,终端可基于融合后的特征确定目标对象的目标语音。
在一个实施例中,终端可将混合语音和注册语音特征输入至预先训练的语音提取模型,以通过语音提取模型基于混合语音和注册语音特征进行语音提取,输出初始语音和干扰语音。
上述实施例中,在第一处理模式下,通过注册语音和初始语音中语音信息之间的语音相似度,对从混合语音中提取的初始语音进行进阶的语音过滤,得到更为干净的目标对象的目标语音。可以理解,在第一处理模式下可以快速获得较为干净的目标语音,提升语音提取效率。在第二处理模式下,通过将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,分别得到第一注意力特征和第二注意力特征。进而再基于混合语音特征、第一注意力特征和第二注意力特征确定目标对象的目标语音。可以理解,相较于第一处理模式,在第二处理模式下可以获得更为干净的目标语音,进一步提升语音提取准确率。这样,提供两种处理模式供用户选择,可以提升语音提取的灵活性。
在一个实施例中,基于混合语音特征、第一注意力特征和第二注意力特征进行融合,并基于融合后的特征得到目标对象的目标语音,包括:将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,并基于融合后的特征得到目标对象的目标语音。
具体地,终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行特征融合,得到融合后的特征。进而,终端可基于融合后的特征确定目标对象的目标语音。
上述实施例中,通过将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,可以使得融合后的特征更为准确,从而再基于更为准确的融合后的特征确定目标对象的目标语音,可以进一步提升语音提取准确率。
在一个实施例中,初始语音和干扰语音是通过预先训练的语音提取模型从混合语音中提取出的;方法还包括:将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成第一掩码信息和第二掩码信息;根据第一掩码信息屏蔽混合语音中的干扰信息,得到目标对象的初始语音;根据第二掩码信息屏蔽混合语音中目标对象的语音信息,得到干扰语音。
其中,第一掩码信息,是用于屏蔽混合语音中的干扰信息的信息。第二掩码信息,是用于屏蔽混合语音中目标对象的语音信息的信息。
具体地,终端可将混合语音和注册语音特征输入至预先训练的语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成与输入的混合语音和注册语音特征对应的第一掩码信息和第二掩码信息。进而,终端可根据第一掩码信息屏蔽混合语音中的干扰信息,生成目标对象的初始语音,以及根据第二掩码信息屏蔽混合语音中目标对象的语音信息,生成干扰目标对象的语音信息的干扰语音。
在一个实施例中,终端可将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于已训练的模型参数,生成与混合语音和注册语音特征对应的第一掩码信息和第二掩码信息。
在一个实施例中,第一掩码信息包括第一屏蔽参数。可以理解,由于第一掩码信息是用于屏蔽混合语音中的干扰信息的,所以第一掩码信息包括第一屏蔽参数,以实现对混合语音中的干扰信息的屏蔽。具体地,终端可将第一屏蔽参数与混合语音的混合语音幅度谱相乘,得到目标对象的语音信息对应的对象语音幅度谱,并根据对象语音幅度谱,生成目标对象的初始语音。其中,混合语音幅度谱是混合语音的幅度谱。对象语音幅度谱是目标对象的语音信息的幅度谱。
在一个实施例中,第二掩码信息包括第二屏蔽参数。可以理解,由于第二掩码信息是用于屏蔽混合语音中目标对象的语音信息的,所以第二掩码信息包括第二屏蔽参数,以实现对混合语音中目标对象的语音信息的屏蔽。具体地,终端可将第二屏蔽参数与混合语音的混合语音幅度谱相乘,得到混合语音中干扰信息对应的干扰幅度谱,并根据干扰幅度谱,生成干扰目标对象的语音信息的干扰语音。其中,干扰幅度谱是混合语音中干扰信息的幅度谱。
上述实施例中,通过语音提取模型基于混合语音和注册语音特征,可以生成与混合语音和注册语音特征对应的第一掩码信息和第二掩码信息,进而根据第一掩码信息屏蔽混合语音中的干扰信息,可以得到目标对象的初始语音,从而进一步提升了初始语音的提取准确率。以及,根据第二掩码信息屏蔽混合语音中目标对象的语音信息,可以得到干扰语音,从而提升了干扰语音的提取准确率。
在一个实施例中,语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成第一掩码信息和第二掩码信息,包括:将混合语音和注册语音特征输入至语音提取模型,以通过第一掩码映射参数映射生成对应的第一掩码信息,以及通过第二掩码映射参数映射生成对应的第二掩码信息。
其中,掩码映射参数,是将语音特征映射为掩码信息的相关参数。通过第一掩码映射参数可映射生成用来屏蔽混合语音中干扰信息的掩码信息,即第一掩码信息。通过第二掩码映射参数可映射生成用来屏蔽混合语音中目标对象的语音信息的掩码信息,即第二掩码信息。
具体地,终端可将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型中的第一掩码映射参数,映射生成与输入的混合语音和注册语音特征对应的第一掩码信息,以及通过语音提取模型中的第二掩码映射参数,映射生成与输入的混合语音和注册语音特征对应的第二掩码信息。
上述实施例中,由于第一掩码信息和第二掩码信息是基于输入至语音提取模型的混合语音和注册语音特征,以及语音提取模型中预先训练好的第一掩码映射参数和第二掩码映射参数生成的,因此,第一掩码信息和第二掩码信息是可随着输入的不同而动态改变的。这样可以提升第一掩码信息和第二掩码信息的准确率,从而进一步提升初始语音和干扰语音的提取准确率。
在一个实施例中,在第二处理模式下,将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征,包括:在第二处理模式下,将混合语音、一级语音提取模型输出的初始语音和干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到混合语音的混合语音特征、初始语音的语音特征和干扰语音的语音特征;将初始语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元,以将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元,以将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
可以理解,用于对混合语音进行语音提取的模型包括一级语音提取模型和二级处理模型。其中,一级语音提取模型用于从混合语音中提取出初始语音和干扰语音。二级处理模型用于基于初始语音和干扰语音对混合语音进行进阶的语音提取,得到目标对象的目标语音。
具体地,二级处理模型中包括特征提取层、第一注意力单元和第二注意力单元。在第二处理模式下,终端可将混合语音、一级语音提取模型输出的初始语音和干扰语音分别输入至二级处理模型中的特征提取层,以通过特征提取层对混合语音、初始语音和干扰语音分别进行特征提取,得到混合语音的混合语音特征、初始语音的语音特征和干扰语音的语音特征。终端可将初始语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元,以通过第一注意力单元将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征。终端可将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元,以通过第二注意力单元将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
上述实施例中,通过一级语音提取模型提取初始语音和干扰语音,通过二级处理模型参考初始语音和干扰语音对混合语音进行进阶的语音提取,可以进一步提升语音提取准确率。
在一个实施例中,提取初始语音和干扰语音的语音提取模型为一级语音提取模型;二级处理模型还包括特征融合层和二级语音提取模型;将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,并基于融合后的特征得到目标对象的目标语音,包括:将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至特征融合层进行融合,得到语音融合特征;将语音融合特征输入至二级语音提取模型,以通过二级语音提取模型基于语音融合特征得到目标对象的目标语音。
具体地,二级处理模型中除了包括特征提取层、第一注意力单元和第二注意力单元之外,还包括特征融合层和二级语音提取模型。终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型中的特征融合层,以通过特征融合层对混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,得到语音融合特征。进而,终端可将语音融合特征输入至二级处理模型中的二级语音提取模型,以通过二级语音提取模型基于语音融合特征得到目标对象的目标语音。
在一个实施例中,终端可将语音融合特征输入至二级处理模型中的二级语音提取模型,以通过二级语音提取模型对语音融合特征进行特征提取,并基于提取到的特征生成目标对象的目标语音。
在一个实施例中,如图3所示,用于对混合语音进行语音提取的模型包括一级语音提取模型和二级处理模型。其中,二级处理模型中包括第一特征提取层、第二特征提取层、第三特征提取层、第一注意力单元、第二注意力单元、特征融合层和二级语音提取模型。终端可将混合语音和注册语音特征输入至一级语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,得到初始语音和干扰语音。进而,终端可将混合语音、初始语音和干扰语音,分别输入至二级处理模型中的第一特征提取层、第二特征提取层和第三特征提取层,以对混合语音、初始语音和干扰语音分别进行特征提取,得到混合语音的混合语音特征、初始语音的语音特征和干扰语音的语音特征。终端可将初始语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元,以通过第一注意力单元将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征。终端可将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元,以通过第二注意力单元将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型中的特征融合层,以通过特征融合层对混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,得到语音融合特征。进而,终端可将语音融合特征输入至二级处理模型中的二级语音提取模型,以通过二级语音提取模型基于语音融合特征得到目标对象的目标语音。
在一个实施例中,如图4所示,上述一级语音提取模型中包括傅里叶变换单元、编码器、长短期记忆单元、第一反傅里叶变换单元和第二反傅里叶变换单元。可以理解,终端可通过一级语音提取模型中的傅里叶变换单元,提取混合语音的混合语音幅度谱。终端可通过一级语音提取模型中的编码器对混合语音幅度谱进行特征提取,得到幅度谱特征。终端可通过一级语音提取模型中的长短期记忆单元基于幅度谱特征生成第一掩码映射参数和第一掩码映射参数。终端可将第一掩码映射参数与混合语音的混合语音幅度谱相乘,得到目标对象的语音信息对应的对象语音幅度谱。终端可通过一级语音提取模型中的第一反傅里叶变换单元,根据混合语音的相位谱将对象语音幅度谱进行变换,得到目标对象的初始语音。终端可将第二掩码映射参数与混合语音的混合语音幅度谱相乘,得到混合语音中干扰信息对应的干扰幅度谱,终端可通过一级语音提取模型中的第二反傅里叶变换单元,根据混合语音的相位谱将干扰幅度谱进行变换,得到干扰语音。
上述实施例中,通过将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型的特征融合层进行融合,可以得到更为准确的语音融合特征,进而通过二级语音提取模型基于更为准确的语音融合特征,确定目标对象的目标语音,可以进一步提取语音提取准确率。
在一个实施例中,获取混合语音和目标对象的注册语音,包括:获取初始混合语音和目标对象的初始注册语音;初始混合语音中包括目标对象的语音信息;分别对初始混合语音和初始注册语音进行降噪处理,得到混合语音和目标对象的注册语音。
其中,初始混合语音是未经过降噪处理的混合语音。初始注册语音是未经过降噪处理的注册语音。
具体地,终端可分别获取初始混合语音和目标对象的初始注册语音,其中,初始混合语音中包括目标对象的语音信息。可以理解,初始混合语音和初始注册语音中含有噪声,比如,含有大混响、高背景噪音和音乐噪音等中的至少一种。终端可对初始混合语音进行降噪处理,得到混合语音。终端可对初始注册语音进行降噪处理,得到目标对象的注册语音。
在一个实施例中,混合语音和注册语音是通过预先训练的降噪网络进行降噪处理得到的。具体地,终端可将获取的初始混合语音和目标对象的初始注册语音,分别输入至降噪网络,以通过降噪网络对初始混合语音和初始注册语音进行降噪处理,得到混合语音和目标对象的注册语音。
上述实施例中,通过分别对初始混合语音和初始注册语音进行降噪处理,可以去除掉初始混合语音和初始注册语音中的噪音,得到不含噪声的混合语音和注册语音,从而后续基于不含噪声的混合语音和注册语音进行语音提取,可以进一步提升语音提取的准确率。
在一个实施例中,初始语音是通过预先训练的语音处理模型生成得到的;语音处理模型包括降噪网络和语音提取网络;混合语音和注册语音是通过降噪网络进行降噪处理得到的。确定从混合语音中提取出的目标对象的初始语音,包括:将注册语音的注册语音特征输入至语音提取网络,以通过语音提取网络对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。
具体地,语音处理模型包括降噪网络和语音提取网络。终端可将获取的初始混合语音和目标对象的初始注册语音,分别输入至降噪网络,以通过降噪网络对初始混合语音和初始注册语音进行降噪处理,得到混合语音和目标对象的注册语音。进而,终端可将混合语音和注册语音的注册语音特征输入至语音提取网络,以通过语音提取网络对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。
在一个实施例中,如图5所示,降噪网络包括傅里叶变换单元、编码器、长短期记忆单元、解码器和反傅里叶变换单元。可以理解,噪声语音包括初始混合语音和初始注册语音。干净语音包括混合语音和注册语音。终端可将噪声语音输入至降噪网络,以通过降噪网络中的傅里叶变换单元对噪声语音进行傅里叶变换,得到噪声语音的幅度谱和相位谱,进而,通过降噪网络中的编码器对噪声语音的幅度谱进行特征编码,得到编码后的特征,再通过降噪网络中的长短期记忆单元对编码后的特征进行特征提取,并通过降噪网络中的解码器对提的特征进行解码,得到解码后的幅度谱,进而再通过降噪网络中的反傅里叶变换单元对解码后的幅度谱进行反傅里叶变换,得到干净语音。
上述实施例中,通过语音处理模型中的降噪网络对初始的混合语音和初始的注册语音进行降噪处理,可以得到不含噪声的混合语音和注册语音,提升语音降噪效果。进而通过语音提取网络对混合语音中目标对象的语音信息进行初步识别,可以提升初始语音的提取准确率。
在一个实施例中,混合语音和注册语音是通过预先训练的降噪网络进行降噪处理得到的;方法还包括:获取样本噪声语音;样本噪声语音是通过对作为参照的干净语音增加噪声得到;将样本噪声语音输入至待训练的降噪网络,以通过降噪网络对样本待降噪语音进行降噪处理,得到降噪后的预测语音;根据预测语音和干净语音之间的差异,对待训练的降噪网络进行迭代训练,得到预先训练的降噪网络。
其中,样本噪声语音是含有噪声的、且用于训练降噪网络的语音,样本噪声语音是通过对作为参照的干净语音增加噪声得到。干净语音是不含噪声的、且在训练降噪网络中起参照作用的语音。预测语音,是训练降噪网络过程中样本噪声语音经过降噪之后所预测得到的语音。
具体地,终端可获取作为参照的干净语音,并对干净语音增加噪声,得到样本噪声语音。进而,终端可将样本噪声语音输入至待训练的降噪网络,以通过降噪网络对样本待降噪语音进行降噪处理,得到降噪后的预测语音。终端可根据预测语音和干净语音之间的差异,对待训练的降噪网络进行迭代训练,得到预先训练的降噪网络。
在一个实施例中,终端可根据预测语音和干净语音之间的差异,确定降噪损失值,并根据降噪损失值,对待训练的降噪网络进行迭代训练,在迭代停止的情况下得到预先训练的降噪网络。
在一个实施例中,上述的降噪损失值可通过以下损失函数计算得到:
其中,表示干净语音对应的概率,X表示预测语音对应的概率,LossSDR表示降噪损失值。
上述实施例中,通过预测语音和干净语音之间的差异,对待训练的降噪网络进行迭代训练,可以提升降噪网络的降噪能力。
在一个实施例中,初始语音是通过预先训练的语音提取网络提取得到的;方法还包括:获取样本数据;样本数据包括样本混合语音和样本对象的样本注册语音特征;样本混合语音是通过对样本对象的对象语音增加噪声得到的;将样本数据输入至待训练的语音提取网络,以通过语音提取网络依据样本注册语音特征,对样本混合语音中样本对象的样本语音信息进行识别,得到样本对象的预测对象语音;根据预测对象语音和对象语音之间的差异,对待训练的语音提取网络进行迭代训练,得到预先训练的语音提取网络。
其中,样本数据是用于训练语音提取网络的数据。样本混合语音是用于训练语音提取网络的混合语音。样本对象是训练语音提取网络过程中所涉及到的发声对象。样本注册语音特征是用于训练语音提取网络的注册语音特征。对象语音是仅含对象的语音信息的、且在训练语音提取网络中起参照作用的语音。预测对象语音,是训练语音提取网络过程中从样本混合语音中提取得到的对象的语音。
具体地,终端可获取样本对象的对象语音,并将样本对象的对象语音增加噪声,得到样本混合语音。终端可获取样本对象的样本注册语音,并对样本注册语音进行特征提取,得到样本对象的样本注册语音特征。进而,终端可根据样本混合语音和样本对象的样本注册语音特征一起作为样本数据。终端可将样本数据输入至待训练的语音提取网络,以通过语音提取网络依据样本注册语音特征,对样本混合语音中样本对象的样本语音信息进行识别,得到样本对象的预测对象语音,并根据预测对象语音和对象语音之间的差异,对待训练的语音提取网络进行迭代训练,得到预先训练的语音提取网络。
在一个实施例中,终端可根据预测对象语音和对象语音之间的差异,确定提取损失值,并根据提取损失值,对待训练的语音提取网络进行迭代训练,在迭代停止的情况下得到预先训练的语音提取网络。
在一个实施例中,上述的提取损失值可通过以下损失函数计算得到:
其中,i表示N个样本混合语音中的第i个,表示第i个样本混合语音对应的对象语音对应的概率,Yi表示预测对象语音对应的概率,LossMAE表示提取损失值。
上述实施例中,通过预测对象语音和对象语音之间的差异,对待训练的语音提取网络进行迭代训练,可以语音提取网络的语音提取准确率。
在一个实施例中,确定从混合语音中提取出的目标对象的初始语音,包括:确定混合语音的混合语音特征;将混合语音特征和注册语音的注册语音特征进行融合,得到语音融合特征;基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。
其中,语音融合特征,是将混合语音特征和注册语音的注册语音特征进行融合之后得到的语音特征。
具体地,终端可对混合语音进行特征提取,得到混合语音的混合语音特征,并将混合语音特征和注册语音的注册语音特征进行融合,得到语音融合特征。进而,终端可基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音。
在一个实施例中,终端可对混合语音进行傅里叶变换,并对傅里叶变换的结果进行特征提取,得到混合语音的混合语音特征。
在一个实施例中,终端可将混合语音特征和注册语音的注册语音特征进行特征拼接,并将拼接后的特征作为语音融合特征。
上述实施例中,通过将混合语音特征和注册语音的注册语音特征进行融合,可以得到包括混合语音特征和注册语音特征的语音融合特征,进而再基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,可以提升初始语音的提取准确率。
在一个实施例中,混合语音特征包括混合语音特征矩阵;语音融合特征包括语音融合特征矩阵;注册语音特征包括注册语音特征向量;将混合语音特征和注册语音的注册语音特征进行融合,得到语音融合特征,包括:将注册语音特征向量在时间维度上进行重复处理,以生成注册语音特征矩阵;其中,注册语音特征矩阵的时间维度与混合语音特征矩阵的时间维度相同;将混合语音特征矩阵和注册语音特征矩阵进行拼接,得到语音融合特征矩阵。
其中,时间维度,是位于时域的语音信号的帧数对应的维度。混合语音特征矩阵是混合语音特征对应的特征矩阵。语音融合特征矩阵是语音融合特征对应的特征矩阵。注册语音特征向量是注册语音特征对应的特征向量。注册语音特征矩阵是注册语音特征向量所组成的特征矩阵。
具体地,终端可根据混合语音特征矩阵的时间维度,将注册语音特征向量在时间维度上进行重复处理,以生成时间维度与混合语音特征矩阵的时间维度相同的注册语音特征矩阵。进而,终端可将混合语音特征矩阵和注册语音特征矩阵进行拼接,得到语音融合特征矩阵。
上述实施例中,通过将注册语音特征向量在时间维度上进行重复处理,以生成时间维度与混合语音特征矩阵的时间维度相同的注册语音特征矩阵,以便后续将混合语音特征矩阵和注册语音特征矩阵进行拼接,得到语音融合特征矩阵,提升特征融合的准确率。
在一个实施例中,确定混合语音的混合语音特征,包括:提取混合语音的第一幅度谱;对第一幅度谱进行特征提取,得到幅度谱特征;对幅度谱特征进行特征提取,得到混合语音的混合语音特征。
其中,第一幅度谱是混合语音的幅度谱。幅度谱特征是第一幅度谱的特征。
具体地,终端可对时域下的混合语音进行傅里叶变换,得到频域下的混合语音的语音信息。终端可根据频域下的混合语音的语音信息,得到混合语音的第一幅度谱。进而,终端可对第一幅度谱进行特征提取,得到幅度谱特征,并对幅度谱特征进行特征提取,得到混合语音的混合语音特征。
上述实施例中,通过提取混合语音的第一幅度谱,以将时域的混合语音信号转换为频域的信号,并对第一幅度谱进行特征提取得到幅度谱特征,进而再对幅度谱特征进行特征提取,可以得到混合语音的混合语音特征,从而提升混合语音特征的准确率。
在一个实施例中,基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音,包括:基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的对象语音特征;对对象语音特征进行特征解码,得到第二幅度谱;根据混合语音的相位谱将第二幅度谱进行变换,得到目标对象的初始语音。
其中,对象语音特征是目标对象的语音的特征。第二幅度谱是对象语音特征解码后得到的幅度谱。
具体地,终端可基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的对象语音特征。进而,终端可将对象语音特征进行特征解码,得到第二幅度谱。终端可获取混合语音的相位谱,并根据混合语音的相位谱将第二幅度谱进行变换,得到目标对象的初始语音。
在一个实施例中,第二幅度谱用于表征位于频域的语音信号。终端可根据混合语音的相位谱将第二幅度谱进行反傅里叶变换,得到位于时域的目标对象的初始语音。
在一个实施例中,初始语音是通过上述的语音提取网络提取得到的。如图6所示,语音提取网络包括傅里叶变换单元、编码器、长短期记忆单元和反傅里叶变换单元。可以理解,终端可通过语音提取网络中的傅里叶变换单元,提取混合语音的第一幅度谱。终端可通过语音提取网络中的编码器对第一幅度谱进行特征提取,得到幅度谱特征。终端可通过语音提取网络中的长短期记忆单元对幅度谱特征进行特征提取,得到混合语音的混合语音特征,并基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,得到目标对象的对象语音特征,对对象语音特征进行特征解码,得到第二幅度谱。进而,终端可通过语音提取网络中的反傅里叶变换单元,根据混合语音的相位谱将第二幅度谱进行变换,得到目标对象的初始语音。
上述实施例中,通过基于语音融合特征对混合语音中目标对象的语音信息进行初步识别,可以得到目标对象的对象语音特征。进而再通过对对象语音特征进行特征解码,可以得到第二幅度谱,根据混合语音的相位谱将第二幅度谱进行变换,以将频域的信号转换为时域的语音信号,得到目标对象的初始语音,提升初始语音的提取准确率。
在一个实施例中,方法还包括:提取注册语音的频率谱;根据频率谱,生成注册语音的梅尔频率谱;对梅尔频率谱进行特征提取,得到注册语音的注册语音特征。
具体地,终端可对时域下的注册语音进行傅里叶变换,得到频域下的注册语音的语音信息。终端可根据频域下的注册语音的语音信息,得到注册语音的频率谱。进而,终端可根据注册语音的频率谱,生成注册语音的梅尔频率谱,并对梅尔频率谱进行特征提取,得到注册语音的注册语音特征。
在一个实施例中,上述的语音处理模型还包括注册网络。注册语音特征是通过注册网络提取得到的。注册网络包括梅尔频率谱生成单元、长短期记忆单元和特征生成单元。如图7所示,终端可通过注册网络中的梅尔频率谱生成单元,提取注册语音的频率谱,并根据频率谱,生成注册语音的梅尔频率谱。终端可通过注册网络中的长短期记忆单元,对梅尔频率谱进行特征提取,得到多个特征向量。进而,终端可通过注册网络中的特征生成单元,在时间维度上对上述的东哥特征向量求平均,得到注册语音的注册语音特征。
上述实施例中,通过提取注册语音的频率谱,以将时域的注册语音信号转换为频域的信号。进而再根据频率谱生成注册语音的梅尔频率谱,并对梅尔频率谱进行特征提取,可以提升注册语音特征的提取准确率。
在一个实施例中,语音信息包括语音片段;根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,包括:针对初始语音中的每一个语音片段,确定语音片段对应的片段语音特征;根据片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度。
其中,片段语音特征是语音片段的语音特征。
具体地,初始语音中包括多个语音片段。针对初始语音中的每一个语音片段,终端可对该语音片段进行特征提取,得到该语音片段的片段语音特征,并根据该片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度。
在一个实施例中,针对初始语音中的每一个语音片段,终端可对该语音片段进行特征提取,得到该语音片段对应的片段语音特征。
在一个实施例中,片段语音特征包括片段语音特征向量,注册语音特征包括注册语音特征向量。针对初始语音中的每一个语音片段,终端可根据该语音片段的片段语音特征向量和注册语音特征向量,确定注册语音和该语音片段之间的语音相似度。
在一个实施例中,注册语音和语音片段之间的语音相似度可通过以下公式计算得到:
其中,A表示片段语音特征向量,B表示注册语音特征向量,cosθ表示注册语音和语音片段之间的语音相似度。
上述实施例中,通过根据片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度,可以提升注册语音和初始语音中语音信息之间的语音相似度的计算准确率。
在一个实施例中,针对初始语音中的每一个语音片段,确定语音片段对应的片段语音特征,包括:针对初始语音中的每一个语音片段,将语音片段进行重复处理,得到与注册语音的时间长度一致的重组语音;其中,重组语音包括多个语音片段;根据重组语音的重组语音特征确定语音片段对应的片段语音特征。
其中,重组语音是由多个相同的语音片段重组得到的语音,可以理解,重组语音中包括多个相同的语音片段。
具体地,针对初始语音中的每一个语音片段,终端可将该语音片段进行重复处理,得到与注册语音的时间长度一致的重组语音。终端可对重组语音进行特征提取,得到重组语音的重组语音特征,并根据重组语音的重组语音特征,确定该语音片段对应的片段语音特征。
在一个实施例中,终端可将重组语音的重组语音特征,直接作为该语音片段对应的片段语音特征。
上述实施例中,将语音片段进行重复处理,得到与注册语音的时间长度一致的、且包括多个相同的语音片段的重组语音,进而再根据重组语音的重组语音特征确定语音片段对应的片段语音特征,可以进一步提升注册语音和初始语音中语音信息之间的语音相似度的计算准确率。
在一个实施例中,获取混合语音和目标对象的注册语音,包括:响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定目标对象的注册语音;在基于通话触发操作与目标对象对应的终端建立语音通话的情况下,接收目标对象对应的终端在语音通话中发送的混合语音。
具体地,在语音通话的场景下,用户可基于终端向目标对象发起通话请求,即,终端可响应于用户针对目标对象的通话触发操作,从预先存储的候选的注册语音中,查找目标对象的注册语音。同时,终端可相应于通话触发操作,生成针对目标对象的通话请求,并将通话请求发送至目标对象对应的终端。在基于通话请求与目标对象对应的终端建立语音通话的情况下,终端可接收目标对象对应的终端在语音通话中发送的混合语音。
可以理解,终端可在语音通话过程中,依据注册语音的注册语音特征,对接收到的混合语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息,并将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
上述实施例中,通过响应于针对目标对象的通话触发操作,可以从预先存储的候选的注册语音中,确定目标对象的注册语音。通过在基于通话触发操作与目标对象对应的终端建立语音通话的情况下,接收目标对象对应的终端在语音通话中发送的混合语音,可以实现在通话场景下提取目标对象的语音,从而提升通话质量。
在一个实施例中,获取混合语音和目标对象的注册语音,包括:获取多媒体对象的多媒体语音;多媒体语音是包括多个发声对象的语音信息的混合语音;响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识;目标对象是多个发声对象中指定提取语音的发声对象;从针对多媒体语音中各发声对象预先存储的注册语音中,获取与对象标识具有映射关系的注册语音,得到目标对象的注册语音。
其中,多媒体对象是一种多媒体文件,多媒体对象包括视频对象和音频对象。多媒体语音是多媒体对象中的语音。发声对象是发出声音的对象。对象标识是用于唯一标识对象身份的字符串。
具体地,终端可从多媒体对象中提取多媒体语音,可以理解,该多媒体语音是包括多个发声对象的语音信息的混合语音。终端可响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识,可以理解,目标对象是多个发声对象中指定提取语音的发声对象。终端可从针对多媒体语音中各发声对象预先存储的注册语音中,查找到与对象标识具有映射关系的注册语音,作为目标对象的注册语音。
可以理解,终端可从多媒体语音中提取得到目标对象的目标语音,具体地,终端可依据该目标对象的注册语音的注册语音特征,对多媒体语音中目标对象的语音信息进行初步识别,得到目标对象的初始语音,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息,并将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
上述实施例中,通过获取多媒体对象的多媒体语音,并响应于针对多媒体语音中的发声对象的指定操作,可以获取指定的目标对象的对象标识。进而从针对多媒体语音中各发声对象预先存储的注册语音中,可以获取与对象标识具有映射关系的注册语音,得到目标对象的注册语音,可以实现从多媒体对象中提取用户感兴趣的发声对象的语音。
在一个实施例中,如图8所示,本申请的语音处理方法可应用于影视视频或语音通话中的语音提取场景。具体地,针对应用于影视视频的场景,终端可获取影视视频的视频语音,视频语音是包括多个发声对象的语音信息的混合语音。终端可响应于针对视频语音中的发声对象的指定操作,获取指定的目标对象的对象标识,目标对象是多个发声对象中指定提取语音的发声对象。终端可从针对视频语音中各发声对象预先存储的注册语音中,获取与对象标识具有映射关系的注册语音,得到目标对象的注册语音。从而通过本申请的语音处理方法,基于注册语音从视频语音中提取出目标对象的注册语音。针对应用于语音通话的场景,终端可响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定目标对象的注册语音,在基于通话触发操作与目标对象对应的终端建立语音通话的情况下,接收目标对象对应的终端在语音通话中发送的混合语音。从而通过本申请的语音处理方法,基于注册语音从语音通话过程中获取的混合语音中,提取出目标对象的目标语音。
在一个实施例中,目标语音是通过语音处理模型和过滤处理单元生成得到的,其中,语音处理模型包括降噪网络、注册网络和语音提取网络。如图9所示,终端可通过语音处理模型中的降噪网络对初始混合语音和初始注册语音分别进行降噪,得到降噪后的混合语音和降噪后的注册语音。终端可通过语音处理模型中的注册网络对降噪后的注册语音进行特别编码,得到注册语音特征。终端可根据注册语音特征,通过语音处理模型中的语音提取网络从降噪后的混合语音中提取得到初始语音。进而,终端再使用过滤处理单元,基于注册语音特征对初始语音进行过滤处理,得到目标对象的目标语音。
在一个实施例中,如图10所示,终端使用过滤处理单元,基于注册语音特征对初始语音进行过滤处理,得到目标对象的目标语音的具体实现如下:针对初始语音中的每一个语音片段,终端可通过上述的注册网络对该语音片段进行特征提取,得到该语音片段的片段语音特征,进而,终端可根据片段语音特征和注册语音特征,确定注册语音和该语音片段之间的语音相似度。终端可将相似度大于或等于预设语音相似度阈值的语音片段进行存储,并将相似度小于预设语音相似度阈值的语音片段置为静音。进而,终端可根据保留下来的语音片段,生成目标对象的目标语音。
如图11所示,在一个实施例中,提供了一种语音处理方法,本实施例以该方法应用于图1中的终端102为例进行说明,该方法具体包括以下步骤:
步骤1102,获取混合语音和目标对象的注册语音;混合语音中包括目标对象的语音信息;语音信息包括语音片段。
步骤1104,将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成第一掩码信息和第二掩码信息。
步骤1106,根据第一掩码信息屏蔽混合语音中的干扰信息,得到目标对象的初始语音。
步骤1108,根据第二掩码信息屏蔽混合语音中目标对象的语音信息,得到干扰语音。
步骤1110,在第一处理模式下,针对初始语音中的每一个语音片段,将语音片段进行重复处理,得到与注册语音的时间长度一致的重组语音;其中,重组语音包括多个语音片段。
步骤1112,根据重组语音的重组语音特征确定语音片段对应的片段语音特征。
步骤1114,根据片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度。
步骤1116,从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息。
步骤1118,将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
步骤1120,在第二处理模式下,将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
步骤1122,将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,并基于融合后的特征得到目标对象的目标语音。
本申请还提供一种应用场景,该应用场景应用上述的语音处理方法。具体地,该语音处理方法可应用于影视视频中语音提取的场景。可以理解,影视视频中包括影视语音(即混合语音),该影视语音中包括多个演员(即发声对象)的语音信息。具体地,终端可获取初始影视语音和目标演员的初始注册语音;初始影视语音中包括目标演员的语音信息;语音信息包括语音片段。将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成第一掩码信息和第二掩码信息。根据第一掩码信息屏蔽混合语音中的干扰信息,得到目标演员的初始影视语音;根据第二掩码信息屏蔽混合语音中目标演员的语音信息,得到干扰语音。
在第一处理模式下,针对初始影视语音中的每一个语音片段,终端可将语音片段进行重复处理,得到与注册语音的时间长度一致的重组语音;其中,重组语音包括多个语音片段。根据重组语音的重组语音特征确定语音片段对应的片段语音特征。根据片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度。从初始影视语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息。将初始影视语音中待过滤语音信息进行过滤处理,得到目标演员的目标语音。
在第二处理模式下,终端可将混合语音的混合语音特征和初始影视语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,并基于融合后的特征得到目标演员的目标语音。通过本申请的语音处理方法,可以准确提取得到用户感兴趣的演员的声音,提升演员语音的提取准确率。
本申请还另外提供一种应用场景,该应用场景应用上述的语音处理方法。具体地,该语音处理方法可应用于语音通话中语音提取的场景。具体地,终端可响应于针对目标通话人(即目标对象)的通话触发操作,从预先存储的候选的注册语音中,确定目标通话人的注册语音。在基于通话触发操作与目标通话人对应的终端建立语音通话的情况下,接收目标通话人对应的终端在语音通话中发送的通话语音(即混合语音)。可以理解,通过本申请的语音处理方法,可以从通话语音中提取出目标通话人的声音,以提升通话质量。
此外,本申请还另外提供一种应用场景,该应用场景应用上述的语音处理方法。具体地,该语音处理方法可应用于训练神经网络模型之前的针对训练数据的获取场景。具体地,训练神经网络模型需要大量的训练数据,通过本申请的语音处理方法可从复杂的混合语音中提取感兴趣的干净语音,以作为训练数据。通过本申请的语音处理方法,可快速获取到大批量的训练数据,相较于传统的人工提取的方式,节省了人力成本。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照顺序依次显示,但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种语音处理装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
获取模块1202,用于获取混合语音和目标对象的注册语音;混合语音中包括目标对象的语音信息。
第一提取模块1204,用于确定从混合语音中提取出的目标对象的初始语音;初始语音是依据注册语音的注册语音特征从混合语音中提取的。
确定模块1206,用于根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度;从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息。
过滤模块1208,用于将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。
在一个实施例中,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据注册语音特征从混合语音中还提取出干扰语音;干扰语音是在混合语音中干扰识别目标对象的语音信息的语音;装置还包括:
第二提取模块,用于在第二处理模式下,将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于混合语音特征、第一注意力特征和第二注意力特征进行融合,并基于融合后的特征得到目标对象的目标语音。
在一个实施例中,第二提取模块还用于将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合,并基于融合后的特征得到目标对象的目标语音。
在一个实施例中,初始语音和干扰语音是通过预先训练的语音提取模型从混合语音中提取出的;第二提取模块还用于将混合语音和注册语音特征输入至语音提取模型,以通过语音提取模型基于混合语音和注册语音特征,生成第一掩码信息和第二掩码信息;根据第一掩码信息屏蔽混合语音中的干扰信息,得到目标对象的初始语音;根据第二掩码信息屏蔽混合语音中目标对象的语音信息,得到干扰语音。
在一个实施例中,语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;第二提取模块还用于将混合语音和注册语音特征输入至语音提取模型,以通过第一掩码映射参数映射生成对应的第一掩码信息,以及通过第二掩码映射参数映射生成对应的第二掩码信息。
在一个实施例中,第二提取模块还用于在第二处理模式下,将混合语音、一级语音提取模型输出的初始语音和干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到混合语音的混合语音特征、初始语音的语音特征和干扰语音的语音特征;将初始语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元,以将混合语音的混合语音特征和初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元,以将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。语音处理方法、装置、设备和介质
在一个实施例中,提取初始语音和干扰语音的语音提取模型为一级语音提取模型;二级处理模型还包括特征融合层和二级语音提取模型;第二提取模块还用于将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至特征融合层进行融合,得到语音融合特征;将语音融合特征输入至二级语音提取模型,以通过二级语音提取模型基于语音融合特征得到目标对象的目标语音。
在一个实施例中,语音信息包括语音片段;确定模块1206还用于针对初始语音中的每一个语音片段,确定语音片段对应的片段语音特征;根据片段语音特征和注册语音特征,确定注册语音和语音片段之间的语音相似度。
在一个实施例中,确定模块1206还用于针对初始语音中的每一个语音片段,将语音片段进行重复处理,得到与注册语音的时间长度一致的重组语音;其中,重组语音包括多个语音片段;根据重组语音的重组语音特征确定语音片段对应的片段语音特征。
在一个实施例中,获取模块1202还用于响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定目标对象的注册语音;在基于通话触发操作与目标对象对应的终端建立语音通话的情况下,接收目标对象对应的终端在语音通话中发送的混合语音。
在一个实施例中,获取模块1202还用于获取多媒体对象的多媒体语音;多媒体语音是包括多个发声对象的语音信息的混合语音;响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识;目标对象是多个发声对象中指定提取语音的发声对象;从针对多媒体语音中各发声对象预先存储的注册语音中,获取与对象标识具有映射关系的注册语音,得到目标对象的注册语音。
上述语音处理装置,通过获取混合语音和目标对象的注册语音,混合语音中包括目标对象的语音信息。依据注册语音的注册语音特征,从混合语音中初步提取出目标对象的初始语音,能够初步较为准确地提取到目标对象的初始语音。进而,会在初始语音的基础上进行进阶地过滤处理,即,根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度,并从初始语音中过滤掉语音相似度小于预设相似度的语音信息,就可以将初始语音中残留的噪声过滤掉,从而得到更为干净的目标对象的目标语音,提升语音提取的准确率。
上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音处理方法,其特征在于,所述方法包括:
获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;
从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
2.根据权利要求1所述的方法,其特征在于,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据所述注册语音特征从所述混合语音中还提取出干扰语音;所述干扰语音是在所述混合语音中干扰识别所述目标对象的语音信息的语音;所述方法还包括:
在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;
基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
3.根据权利要求2所述的方法,其特征在于,所述基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音,包括:
将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
4.根据权利要求3所述的方法,其特征在于,所述初始语音和所述干扰语音是通过预先训练的语音提取模型从所述混合语音中提取出的;所述方法还包括:
将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息;
根据所述第一掩码信息屏蔽所述混合语音中的干扰信息,得到所述目标对象的初始语音;
根据所述第二掩码信息屏蔽所述混合语音中所述目标对象的语音信息,得到干扰语音。
5.根据权利要求4所述的方法,其特征在于,所述语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;
所述将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息,包括:
将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述第一掩码映射参数映射生成对应的第一掩码信息,以及通过所述第二掩码映射参数映射生成对应的第二掩码信息。
6.根据权利要求3所述的方法,其特征在于,所述在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征,包括:
在所述第二处理模式下,将所述混合语音、一级语音提取模型输出的所述初始语音和所述干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到所述混合语音的混合语音特征、所述初始语音的语音特征和所述干扰语音的语音特征;
将所述初始语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第一注意力单元,以将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;
将所述干扰语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第二注意力单元,以将所述混合语音的混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
7.根据权利要求6所述的方法,其特征在于,提取所述初始语音和所述干扰语音的语音提取模型为一级语音提取模型;所述二级处理模型还包括特征融合层和二级语音提取模型;
所述将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合,并基于融合后的特征得到所述目标对象的目标语音,包括:
将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征输入至所述特征融合层进行融合,得到语音融合特征;
将所述语音融合特征输入至所述二级语音提取模型,以通过所述二级语音提取模型基于所述语音融合特征得到所述目标对象的目标语音。
8.根据权利要求1所述的方法,其特征在于,所述语音信息包括语音片段;所述根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度,包括:
针对所述初始语音中的每一个语音片段,确定所述语音片段对应的片段语音特征;
根据所述片段语音特征和所述注册语音特征,确定所述注册语音和所述语音片段之间的语音相似度。
9.根据权利要求8所述的方法,其特征在于,所述针对所述初始语音中的每一个语音片段,确定所述语音片段对应的片段语音特征,包括:
针对所述初始语音中的每一个语音片段,将所述语音片段进行重复处理,得到与所述注册语音的时间长度一致的重组语音;其中,所述重组语音包括多个所述语音片段;
根据所述重组语音的重组语音特征确定所述语音片段对应的片段语音特征。
10.根据权利要求1所述的方法,其特征在于,所述获取混合语音和目标对象的注册语音,包括:
响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定所述目标对象的注册语音;
在基于所述通话触发操作与所述目标对象对应的终端建立语音通话的情况下,接收所述目标对象对应的终端在所述语音通话中发送的混合语音。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述获取混合语音和目标对象的注册语音,包括:
获取多媒体对象的多媒体语音;所述多媒体语音是包括多个发声对象的语音信息的混合语音;
响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识;所述目标对象是所述多个发声对象中指定提取语音的发声对象;
从针对多媒体语音中各发声对象预先存储的注册语音中,获取与所述对象标识具有映射关系的注册语音,得到所述目标对象的注册语音。
12.一种语音处理装置,其特征在于,所述装置包括:
获取模块,用于获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
第一提取模块,用于确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
确定模块,用于根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
过滤模块,用于将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297843.3A CN116978358A (zh) | 2022-10-21 | 2022-10-21 | 语音处理方法、装置、设备和介质 |
PCT/CN2023/121068 WO2024082928A1 (zh) | 2022-10-21 | 2023-09-25 | 语音处理方法、装置、设备和介质 |
US18/431,826 US20240177717A1 (en) | 2022-10-21 | 2024-02-02 | Voice processing method and apparatus, device, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297843.3A CN116978358A (zh) | 2022-10-21 | 2022-10-21 | 语音处理方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978358A true CN116978358A (zh) | 2023-10-31 |
Family
ID=88475462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211297843.3A Pending CN116978358A (zh) | 2022-10-21 | 2022-10-21 | 语音处理方法、装置、设备和介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240177717A1 (zh) |
CN (1) | CN116978358A (zh) |
WO (1) | WO2024082928A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445905B (zh) * | 2018-05-24 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
KR102621897B1 (ko) * | 2018-10-10 | 2024-01-08 | 주식회사 케이티 | 화자 인식 장치 및 그 동작방법 |
CN112053695A (zh) * | 2020-09-11 | 2020-12-08 | 北京三快在线科技有限公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN113823293B (zh) * | 2021-09-28 | 2024-04-26 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
CN114495973A (zh) * | 2022-01-25 | 2022-05-13 | 中山大学 | 一种基于双路径自注意力机制的特定人语音分离方法 |
CN114898762A (zh) * | 2022-05-07 | 2022-08-12 | 北京快鱼电子股份公司 | 基于目标人的实时语音降噪方法、装置和电子设备 |
-
2022
- 2022-10-21 CN CN202211297843.3A patent/CN116978358A/zh active Pending
-
2023
- 2023-09-25 WO PCT/CN2023/121068 patent/WO2024082928A1/zh unknown
-
2024
- 2024-02-02 US US18/431,826 patent/US20240177717A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240177717A1 (en) | 2024-05-30 |
WO2024082928A1 (zh) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801644B (zh) | 混合声音信号的分离方法、装置、电子设备和可读介质 | |
JP2019216408A (ja) | 情報を出力するための方法、及び装置 | |
CN111524521B (zh) | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 | |
KR20190022432A (ko) | 전자장치, 신분 검증 방법, 시스템 및 컴퓨터 판독 가능한 저장매체 | |
CN111885414B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN110321863A (zh) | 年龄识别方法及装置、存储介质 | |
CN111883107A (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
CN110753238A (zh) | 视频处理方法、装置、终端及存储介质 | |
WO2022062800A1 (zh) | 语音分离方法、电子设备、芯片及计算机可读存储介质 | |
US20230386470A1 (en) | Speech instruction recognition method, electronic device, and non-transient computer readable storage medium | |
CN115359409B (zh) | 视频拆分方法、装置、计算机设备和存储介质 | |
CN117354557A (zh) | 视频处理方法、装置、设备和介质 | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
KR102663654B1 (ko) | 적응형 시각적 스피치 인식 | |
CN114866856B (zh) | 音频信号的处理方法、音频生成模型的训练方法及装置 | |
CN116978358A (zh) | 语音处理方法、装置、设备和介质 | |
KR20210019920A (ko) | 사용자의 음성을 인식하는 시스템 및 방법 | |
CN111292766B (zh) | 用于生成语音样本的方法、装置、电子设备和介质 | |
CN117316160B (zh) | 无声语音识别方法、装置、电子设备和计算机可读介质 | |
CN115331694B (zh) | 语音分离网络生成方法、装置、电子设备以及存储介质 | |
CN116705007A (zh) | 语音确定模型训练方法、对象语音提取方法、装置、电子设备及存储介质 | |
CN117975984A (zh) | 语音处理方法、装置、设备、存储介质和计算机程序产品 | |
CN114974313A (zh) | 音高提取方法、装置和电子设备 | |
CN116597293A (zh) | 多模态场景识别方法、装置、计算机设备和存储介质 | |
CN118486329A (zh) | 音频处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |