CN111739546A - 变声语音还原方法、装置、计算机设备和存储介质 - Google Patents
变声语音还原方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111739546A CN111739546A CN202010719804.2A CN202010719804A CN111739546A CN 111739546 A CN111739546 A CN 111739546A CN 202010719804 A CN202010719804 A CN 202010719804A CN 111739546 A CN111739546 A CN 111739546A
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- sound
- original
- signal feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008859 change Effects 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 46
- 238000001228 spectrum Methods 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 15
- 238000005311 autocorrelation function Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种变声语音还原方法、装置、计算机设备和存储介质。所述方法包括:获取原始语音样本;通过目标程序对所述原始语音样本进行变声处理,得到变声语音样本;分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,获得所述原始语音样本的第一语音信号特征值集合和所述变声语音样本的第二语音信号特征值集合;根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原。采用本方法能够降低变声语音还原的成本。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种变声语音还原方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了变声技术,通过变声技术可以改变说话人的原始语音的语音信号特征,使其听起来像另外一个人的声音。在现实生活中,越来越多不法分子通过变声技术改变声音的语音信号特征,以掩饰真实身份实施网络诈骗。所以,需要对变声语音进行还原,以识别变声语音的真实说话人。
传统技术中,通过基于神经网络的变声语音还原方法对变声语音进行还原。基于神经网络的变声语音还原方法,需要大量的训练数据对还原模型进行训练,训练数据的收集过程比较困难,并且花费成本较高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低成本的变声语音还原方法、装置、计算机设备和存储介质。
一种变声语音还原方法,所述方法包括:
获取原始语音样本;
通过目标程序对所述原始语音样本进行变声处理,得到变声语音样本;
分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,获得所述原始语音样本的第一语音信号特征值集合和所述变声语音样本的第二语音信号特征值集合;
根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;
基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原。
在一个实施例中,所述分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取包括:
分别对所述原始语音样本和所述变声语音样本进行端点检测,以提取所述原始语音样本和所述变声语音样本各自的有效音段;
分别对所述原始语音样本和所述变声语音样本各自的有效音段进行峰值检测,并根据所述峰值检测的结果分别去除所述原始语音样本和所述变声语音样本的有效音段中的噪声;
分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
在一个实施例中,所述分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取包括:
设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;
对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取。
在一个实施例中,所述对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,包括:
当所述语音信号特征类型为基音频率时,根据所述原始语音样本和所述变声语音样本各自的自相关函数,分别提取所述原始语音样本和所述变声语音样本的基音频率;和/或,
当所述语音信号特征类型为共振峰时,根据所述原始语音样本和所述变声语音样本各自的频谱包络,分别提取所述原始语音样本和所述变声语音样本的共振峰;和/或,
当所述语音信号特征类型为频谱时,对所述原始语音样本和所述变声语音样本进行快速傅里叶变换,以分别提取所述原始语音样本和所述变声语音样本的频谱。
在一个实施例中,所述设定语音信号特征类型集合包括:
显示语音信号特征选择页面;
获取在所述语音信号特征选择页面中输入的语音信号特征选择指令;
根据所述语音信号特征选择指令设定语音信号特征类型集合。
在一个实施例中,所述基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原包括:
提取所述待还原的变声语音的语音信号特征值;
根据所述还原函数对所述语音信号特征值进行运算;
根据所述运算的结果对所述待还原的变声语音进行变声还原。
在一个实施例中,所述方法还包括:
提取经过变声还原得到的还原语音的声纹特征;
分别将所述声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;
根据所述声纹比对的结果,确定经过变声还原得到的还原语音是否属于所述数据库记录的嫌疑人。
一种变声语音还原装置,所述装置包括:
获取模块,用于获取原始语音样本;
变声处理模块,用于通过目标程序对所述原始语音样本进行变声处理,得到变声语音样本;
特征提取模块,用于分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,获得所述原始语音样本的第一语音信号特征值集合和所述变声语音样本的第二语音信号特征值集合;
确定模块,用于根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;
变声还原模块,用于基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原。
在一个实施例中,所述特征提取模块,还用于:
分别对所述原始语音样本和所述变声语音样本进行端点检测,以提取所述原始语音样本和所述变声语音样本各自的有效音段;
分别对所述原始语音样本和所述变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除所述原始语音样本和所述变声语音样本的有效音段中的噪声;
分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
在一个实施例中,所述特征提取模块,还用于:
设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;
对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取。
在一个实施例中,所述特征提取模块,还用于:
当所述语音信号特征类型为基音频率时,根据所述原始语音样本和所述变声语音样本各自的自相关函数,分别提取所述原始语音样本和所述变声语音样本的基音频率;和/或,
当所述语音信号特征类型为共振峰时,根据所述原始语音样本和所述变声语音样本各自的频谱包络,分别提取所述原始语音样本和所述变声语音样本的共振峰;和/或,
当所述语音信号特征类型为频谱时,对所述原始语音样本和所述变声语音样本进行快速傅里叶变换,以分别提取所述原始语音样本和所述变声语音样本的频谱。
在一个实施例中,所述确定模块,还用于:
显示语音信号特征选择页面;
获取在所述语音信号特征选择页面中输入的语音信号特征选择指令;
根据所述语音信号特征选择指令设定语音信号特征类型集合。
在一个实施例中,所述变声还原模块,还用于:
提取所述待还原的变声语音的语音信号特征值;
根据所述还原函数对所述语音信号特征值进行运算;
根据所述运算的结果对所述待还原的变声语音进行变声还原。
在一个实施例中,所述装置还包括:
提取模块,用于提取经过变声还原得到的还原语音的声纹特征;
声纹比对模块,用于分别将所述声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;
所述确定模块,还用于根据所述声纹比对的结果,确定经过变声还原得到的还原语音是否属于所述数据库记录的嫌疑人。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述变声语音还原方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述变声语音还原方法的步骤。
上述实施例中,计算机设备提取原始语音样本和变声语音样本的语音信号特征值,并根据原始语音样本和变声语音样本的语音信号特征值间的映射关系确定还原函数。然后,基于还原函数对通过目标程序变声得到的待还原变声语音进行变声还原。计算机设备不需要大量的训练数据,也不需要对训练数据进行标注,即可获得对变声语音进行还原的还原函数,并对待还原的变声语音进行还原,操作简单,成本低。
附图说明
图1为一个实施例中变声语音还原方法的流程示意图;
图2为另一个实施例中变声语音还原方法的流程示意图;
图3为一个实施例中变声语音还原装置的结构框图;
图4为另一个实施例中变声语音还原装置的结构框图;
图5为一个实施例中计算机设备的内部结构图;
图6为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的变声语音还原方法,计算机设备通过对原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本和变声语音样本的语音信号特征值,并根据原始语音样本和变声语音样本的语音信号特征值间的映射关系确定还原函数。然后,基于还原函数对通过目标程序变声得到的待还原变声语音进行变声还原。
其中,计算机设备可以是终端,也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供了一种变声语音还原方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
S102,获取原始语音样本。
其中,原始语音样本可以是通过不同语音采集设备采集的各种音频格式的语音信号,可以是模拟信号格式或者数字信号格式,压缩格式或者无压缩格式。
当原始语音样本是模拟信号格式时,计算机设备首先根据模数转换算法,将模拟信号格式的原始语音样本转换为数字信号格式的原始语音样本。当原始语音样本是压缩格式时,计算机设备首先对原始语音样本进行解压缩。
S104,通过目标程序对原始语音样本进行变声处理,得到变声语音样本。
其中,目标程序是对输入的语音信号进行变声处理并输出变声语音的计算机程序。目标程序承载了对语音信号进行变声处理的算法。
其中,变声处理是通过变声函数将原始语音的一个或者多个语音信号特征值映射为对应的变声语音的语音信号特征值,以使仅靠人耳无法判断出变声语音所属的说话人。设原始语音为,通过变声函数对进行变声处理,得到变声语音。
计算机设备可以对变声处理涉及的原始语音样本的语音信号特征类型进行选择。其中,语音信号特征能够表征语音信号在时域和频域的特性,包括但不限于语音信号的基音频率、共振峰、频率响应、短时平均幅度、短时平均过零率等特征类型。
S106,计算机设备分别对原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本的第一语音信号特征值集合和变声语音样本的第二语音信号特征值集合。
其中,语音信号特征提取是根据语音信号处理理论提取语音信号特征类型对应的语音信号特征值。计算机设备分别对原始语音样本和变声语音样本的每种语音信号特征类型,采用对应的语音信号特征提取方式计算出对应的语音信号特征值。计算机设备提取的原始语音样本的所有语音信号特征值构成第一语音信号特征值集合,变声语音样本的所有语音信号特征值构成第二语音信号特征值集合。
S108,根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数。
由于,第二语音信号特征值集合是对第一语音信号特征值集合包含的对应的语音信号特征值进行映射变换得到的,第一语音信号特征值集合和第二语音信号特征值集合中对应的语音信号特征值具有确定的映射关系,所以计算机设备可以通过该映射关系确定还原函数。
在一个实施例中,语音信号特征类型为基音频率,计算机设备提取的原始语音样本的基音频率对应的语音信号特征值是,变声语音样本的基音频率对应的语音信号特征值是,那么和间的映射关系为。计算机设备根据映射关系确定的还原函数为。
在一个实施例中,语音信号特征类型为频谱,计算机设备提取的原始语音样本的频谱对应的语音信号特征值是,变声语音样本的频谱对应的语音信号特征值是,那么和间的映射关系为。计算机设备根据映射关系确定的还原函数为。
S110,计算机设备基于还原函数,对通过目标程序变声得到的待还原变声语音进行变声还原。
由于,在目标程序确定时,通过目标程序进行变声处理得到的待还原变声语音和其对应的还原语音的语音信号特征值间的映射关系与变声语音样本和原始语音样本的语音信号特征值间的映射关系相同。所以通过基于变声语音样本和原始语音样本的语音信号特征值间的映射关系确定的还原函数可以对待还原变声语音进行变声还原。
上述实施例中,计算机设备提取原始语音样本和变声语音样本的语音信号特征值,并根据原始语音样本和变声语音样本的语音信号特征值间的映射关系确定还原函数。然后,基于还原函数对通过目标程序变声得到的待还原变声语音进行变声还原。计算机设备不需要大量的训练数据,也不需要对训练数据进行标注,即可获得对变声语音进行还原的还原函数,并对待还原的变声语音进行还原,操作简单、成本低并且具有很强的实时性,计算量小,对硬件要求低。
在一个实施例中,计算机设备分别对原始语音样本和变声语音样本进行语音信号特征提取包括:分别对原始语音样本和变声语音样本进行端点检测,以提取原始语音样本和变声语音样本各自的有效音段;分别对原始语音样本和变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除原始语音样本和变声语音样本的有效音段中的噪声;分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
其中,端点检测是计算机设备自动检测出语音信号的起始点及结束点,以去除无效音段(例如说话人换气、没有说话等声段),提取出有效音段的检测方法。例如,计算机设备通过双门限比较法进行端点检测。
其中,峰值检测是计算机设备将原始语音样本和变声语音样本按照预设的时间间隔划分为多个音段,然后分别检测各个音段的平均峰值。由于说话人的声音幅度一般在预设幅度范围内,所以计算机设备将原始语音样本和变声语音样本中平均峰值在预设幅度范围之外的音段确定为噪声音段并去除。
计算机设备对原始语音样本和变声语音样本进行端点检测和峰值检测,能够排除无效音段和噪声音段的干扰,提高语音信号特征提取的准确性。
在一个实施例中,计算机设备分别对原始语音样本和变声语音样本进行语音信号特征提取包括:设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对原始语音样本和变声语音样本进行语音信号特征提取。
其中,在本实施方式中,所述语音信号特征类型集合中包括基因频率、共振峰、频谱中的至少一种语音信号特征类型。可以理解,在其他实施方式中,所述语音信号特征类型集合中不限于仅包括上述三种语音信号特征的至少一种,其可以包括所有能够表征所述语音在不同维度的特征的语音信号特征的至少一种。进一步地,当所述语音信号特征类型集合中包括的所述语音信号特征越多时,其能够提取到的所述原始语音样本和所述变声语音样本的特征就越多,相应地,所述还原函数的复杂度越高,通过所述还原函数得到的所述还原语音与所述变声语音的相似程度就越高,从而提高了所述还原语音与嫌疑人语音比对的成功率。
对于语音信号特征类型集合中每一种语音信号特征类型,计算机设备分别提取原始语音样本和变声语音样本对应的语音信号特征值。并将原始语音样本的语音信号特征值和变声语音样本的语音信号特征值进行比对,根据比对结果确定目标语音信号特征类型。目标语音信号特征类型是目标程序通过变声函数对其对应的语音信号特征值进行了改变的语音信号特征类型。例如,对于一种语音信号特征类型,如果变声语音样本和原始语音样本对应的语音信号特征值的差值大于预设阈值,则计算机设备将该语音信号特征类型确定为目标语音信号特征类型。例如,对于一种语音信号特征类型,如果变声语音样本和原始语音样本对应的语音信号特征值的比值超出预设范围,则计算机设备将该语音信号特征类型确定为目标语音信号特征类型。
在一个实施例中,原始语音样本和变声语音样本对应的目标语音信号特征类型的语音信号特征值构成第一语音信号特征值集合和第二语音信号特征值集合。
在一个实施例中,计算机设备设定语音信号特征类型集合包括:显示语音信号特征选择页面;获取在语音信号特征选择页面中输入的语音信号特征选择指令;根据语音信号特征选择指令设定语音信号特征类型集合。
计算机设备根据语音信号特征选择指令可以更灵活的确定原始语音样本和变声语音样本的语音信号特征类型。
在一个实施例中,计算机设备对于每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对原始语音样本和变声语音样本进行语音信号特征提取,包括:当语音信号特征类型为基音频率时,根据原始语音样本和变声语音样本各自的自相关函数,分别提取原始语音样本和变声语音样本的基音频率;和/或,当语音信号特征类型为共振峰时,根据原始语音样本和变声语音样本各自的频谱包络,分别提取原始语音样本和变声语音样本的共振峰;和/或,当语音信号特征类型为频谱时,对原始语音样本和变声语音样本进行快速傅里叶变换,以分别提取原始语音样本和变声语音样本的频谱。
其中,根据声带震动方式的不同,将声音信号分为清音和浊音。在发出浊音时,需要声带周期性的震动,这种声带周期性震动的频率称为基音频率。
其中,设语音信号为,则的自相关函数为,是的延时。如果语音信号具有周期性,则其自相关函数也具有周期性,并且的周期与的周期相同。由于自相关函数的峰值在其周期的整数倍上,所以通过检测自相关函数的峰值即可获得其周期。
其中,共振峰是语音信号的频谱中能量相对集中的区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。由于共振峰的峰值位置与频谱包络的峰值位置一致,所以计算机设备在提取共振峰时,首先分别获取原始语音样本和变声语音样本的频谱包络,根据频谱包络的峰值位置即可获得原始语音样本和变声语音样本的共振峰。
由于,原始语音样本和变声语音样本中包含多个共振峰,在提取共振峰时,相邻共振峰的峰值之间可能存在重叠。所以在一个实施例中,计算机设备在提取原始语音样本和变声语音样本的共振峰之前,使用自适应滤波器分别对原始语音样本和变声语音样本进行预滤波,使每个共振峰的频谱限制在一定范围之内,防止相邻共振峰的峰值之间出现重叠,影响共振峰的提取效果。
在一个实施例中,计算机设备基于还原函数,对通过目标程序变声得到的待还原变声语音进行变声还原包括:提取待还原的变声语音的语音信号特征值;根据还原函数对语音信号特征值进行运算;根据运算的结果对待还原的变声语音进行变声还原。
例如,设置计算机设备提取的待还原的变声语音的语音信号特征类型为基音频率,计算机设备所提取的待还原的变声语音的基音频率为,设对待还原的变声语音还原后得到的还原语音的基音频率为。根据还原函数确定的与的映射关系为,所以还原语音的基音频率。计算机设备将待还原的变声语音的基音频率调整为,即可得到还原语音。
例如,设置计算机设备提取的待还原的变声语音的语音信号特征类型为频谱,计算机设备所提取的待还原的变声语音的频谱为,设对待还原的变声语音还原后得到的还原语音的频谱为。根据还原函数确定的与的映射关系为,所以还原语音的频谱。计算机设备将待还原的变声语音的频谱调整为,即可得到还原语音。
在一个实施例中,计算机设备提取经过变声还原得到的还原语音的声纹特征;分别将声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;根据声纹比对的结果,确定经过变声还原得到的还原语音是否属于数据库记录的嫌疑人。
其中,声纹特征是能够表征说话人的语音特点的个性化的生理特征,且声纹特征具有唯一性。声纹特征包括:(1)与人类的生理学结构上的发音机制有关的特征,例如频谱、倒频谱、共振峰、基音频率、反射系数等;(2)与社会经济水平和受教育水平有关的词法特征,例如,说话人喜好用口语化的词来表达或者喜好用书面化的词来表达;(3)韵律、语速等特征。(4)语种、方言和口音特征。
计算机设备根据Mel频率倒谱系数法、线性预测倒谱系数法、基于深度学习的声纹特征提取方法等提取还原语音的声纹特征。然后通过I-Vector方法和X-Vector方法等声纹比对方法将还原语音的声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对。
在一个实施例中,如图2所示,计算机设备对带还原的变声语音进行还原包括如下步骤:
S202,获取原始语音样本。
S204,通过目标程序对原始语音样本进行变声处理,得到变声语音样本。
S206,分别对原始语音样本和变声语音样本进行端点检测,以提取原始语音样本和变声语音样本各自的有效音段。
S208,分别对原始语音样本和变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除原始语音样本和变声语音样本的有效音段中的噪声。
S210,确定至少一种语音信号特征类型,并分别对去除噪声后的原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本的第一语音信号特征值集合和变声语音样本的第二语音信号特征值集合。
S212,根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数。
S214,提取待还原的变声语音的语音信号特征值。
S216,根据还原函数对语音信号特征值进行运算。
S218,根据所述运算的结果对所述待还原的变声语音进行变声还原。
S202至S218的具体内容可以参考上文所述的具体实现过程。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种变声语音还原装置,包括:获取模块302、变声处理模块304、特征提取模块306、确定模块308和变声还原模块310,其中:
获取模块302,用于获取原始语音样本;
变声处理模块304,用于通过目标程序对原始语音样本进行变声处理,得到变声语音样本;
特征提取模块306,用于分别对原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本的第一语音信号特征值集合和变声语音样本的第二语音信号特征值集合;
确定模块308,用于根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;
变声还原模块310,用于基于还原函数,对通过目标程序变声得到的待还原变声语音进行变声还原。
上述实施例中,计算机设备提取原始语音样本和变声语音样本的语音信号特征值,并根据原始语音样本和变声语音样本的语音信号特征值间的映射关系确定还原函数。然后,基于还原函数对通过目标程序变声得到的待还原变声语音进行变声还原。计算机设备不需要大量的训练数据,也不需要对训练数据进行标注,即可获得对变声语音进行还原的还原函数,并对待还原的变声语音进行还原,操作简单、成本低并且具有很强的实时性,计算量小,对硬件要求低。
在一个实施例中,特征提取模块306还用于:
分别对原始语音样本和变声语音样本进行端点检测,以提取原始语音样本和变声语音样本各自的有效音段;
分别对原始语音样本和变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除原始语音样本和变声语音样本的有效音段中的噪声;
分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
在一个实施例中,特征提取模块306还用于:
设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;
对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对原始语音样本和变声语音样本进行语音信号特征提取。
在一个实施例中,特征提取模块306还用于:
当语音信号特征类型为基音频率时,根据原始语音样本和变声语音样本各自的自相关函数,分别提取原始语音样本和变声语音样本的基音频率;和/或,
当语音信号特征类型为共振峰时,根据原始语音样本和变声语音样本各自的频谱包络,分别提取原始语音样本和变声语音样本的共振峰;和/或,
当语音信号特征类型为频谱时,对原始语音样本和变声语音样本进行快速傅里叶变换,以分别提取原始语音样本和变声语音样本的频谱。
在一个实施例中,确定模块308还用于:
显示语音信号特征选择页面;
获取在语音信号特征选择页面中输入的语音信号特征选择指令;
根据语音信号特征选择指令设定语音信号特征类型集合。
在一个实施例中,变声还原模块310还用于:
提取待还原的变声语音的语音信号特征值;
根据还原函数对语音信号特征值进行运算;
根据运算的结果对待还原的变声语音进行变声还原。
在一个实施例中,如图4所示,装置还包括:
提取模块312,用于提取经过变声还原得到的还原语音的声纹特征;
声纹比对模块314,用于分别将声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;
确定模块308,还用于根据声纹比对的结果,确定经过变声还原得到的还原语音是否属于数据库记录的嫌疑人。
关于变声语音还原装置的具体限定可以参见上文中对于变声语音还原方法的限定,在此不再赘述。上述变声语音还原装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储变声语音还原数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种变声语音还原方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种变声语音还原方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5、6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取原始语音样本;通过目标程序对原始语音样本进行变声处理,得到变声语音样本;分别对原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本的第一语音信号特征值集合和变声语音样本的第二语音信号特征值集合;根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;基于还原函数,对通过目标程序变声得到的待还原变声语音进行变声还原。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对原始语音样本和变声语音样本进行端点检测,以提取原始语音样本和变声语音样本各自的有效音段;分别对原始语音样本和变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除原始语音样本和变声语音样本的有效音段中的噪声;分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;对于语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对原始语音样本和变声语音样本进行语音信号特征提取。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当语音信号特征类型为基音频率时,根据原始语音样本和变声语音样本各自的自相关函数,分别提取原始语音样本和变声语音样本的基音频率;和/或,当语音信号特征类型为共振峰时,根据原始语音样本和变声语音样本各自的频谱包络,分别提取原始语音样本和变声语音样本的共振峰;和/或,当语音信号特征类型为频谱时,对原始语音样本和变声语音样本进行快速傅里叶变换,以分别提取原始语音样本和变声语音样本的频谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:显示语音信号特征选择页面;获取在语音信号特征选择页面中输入的语音信号特征选择指令;根据语音信号特征选择指令设定语音信号特征类型集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取待还原的变声语音的语音信号特征值;根据还原函数对语音信号特征值进行运算;根据运算的结果对待还原的变声语音进行变声还原。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取经过变声还原得到的还原语音的声纹特征;分别将声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;根据声纹比对的结果,确定经过变声还原得到的还原语音是否属于数据库记录的嫌疑人。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始语音样本;通过目标程序对原始语音样本进行变声处理,得到变声语音样本;分别对原始语音样本和变声语音样本进行语音信号特征提取,获得原始语音样本的第一语音信号特征值集合和变声语音样本的第二语音信号特征值集合;根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;基于还原函数,对通过目标程序变声得到的待还原变声语音进行变声还原。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对原始语音样本和变声语音样本进行端点检测,以提取原始语音样本和变声语音样本各自的有效音段;分别对原始语音样本和变声语音样本各自的有效音段进行峰值检测,并根据峰值检测的结果分别去除原始语音样本和变声语音样本的有效音段中的噪声;分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对原始语音样本和变声语音样本进行语音信号特征提取。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当语音信号特征类型为基音频率时,根据原始语音样本和变声语音样本各自的自相关函数,分别提取原始语音样本和变声语音样本的基音频率;和/或,当语音信号特征类型为共振峰时,根据原始语音样本和变声语音样本各自的频谱包络,分别提取原始语音样本和变声语音样本的共振峰;和/或,当语音信号特征类型为频谱时,对原始语音样本和变声语音样本进行快速傅里叶变换,以分别提取原始语音样本和变声语音样本的频谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:显示语音信号特征选择页面;获取在语音信号特征选择页面中输入的语音信号特征选择指令;根据语音信号特征选择指令设定语音信号特征类型集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取待还原的变声语音的语音信号特征值;根据还原函数对语音信号特征值进行运算;根据运算的结果对待还原的变声语音进行变声还原。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取经过变声还原得到的还原语音的声纹特征;分别将声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;根据声纹比对的结果,确定经过变声还原得到的还原语音是否属于数据库记录的嫌疑人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种变声语音还原方法,其特征在于,所述方法包括:
获取原始语音样本;
通过目标程序对所述原始语音样本进行变声处理,得到变声语音样本;
分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,获得所述原始语音样本的第一语音信号特征值集合和所述变声语音样本的第二语音信号特征值集合;
根据所述第一语音信号特征值集合和所述第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;
基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取包括:
分别对所述原始语音样本和所述变声语音样本进行端点检测,以提取所述原始语音样本和所述变声语音样本各自的有效音段;
分别对所述原始语音样本和所述变声语音样本各自的有效音段进行峰值检测,并根据所述峰值检测的结果分别去除所述原始语音样本和所述变声语音样本的有效音段中的噪声;
分别对去除噪声后的原始语音样本和变声语音样本各自的有效音段进行语音信号特征提取。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取包括:
设定语音信号特征类型集合;所述语音信号特征类型集合中包括至少一种语音信号特征类型;
对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取。
4.根据权利要求3所述的方法,其特征在于,所述对于所述语音信号特征类型集合中的每种语音信号特征类型,采用对应的语音信号特征提取方式,分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,包括:
当所述语音信号特征类型为基音频率时,根据所述原始语音样本和所述变声语音样本各自的自相关函数,分别提取所述原始语音样本和所述变声语音样本的基音频率;和/或,
当所述语音信号特征类型为共振峰时,根据所述原始语音样本和所述变声语音样本各自的频谱包络,分别提取所述原始语音样本和所述变声语音样本的共振峰;和/或,
当所述语音信号特征类型为频谱时,对所述原始语音样本和所述变声语音样本进行快速傅里叶变换,以分别提取所述原始语音样本和所述变声语音样本的频谱。
5.根据权利要求3所述的方法,其特征在于,所述设定语音信号特征类型集合包括:
显示语音信号特征选择页面;
获取在所述语音信号特征选择页面中输入的语音信号特征选择指令;
根据所述语音信号特征选择指令设定语音信号特征类型集合。
6.根据权利要求1所述的方法,其特征在于,所述基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原包括:
提取所述待还原的变声语音的语音信号特征值;
根据所述还原函数对所述语音信号特征值进行运算;
根据所述运算的结果对所述待还原的变声语音进行变声还原。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
提取经过变声还原得到的还原语音的声纹特征;
分别将所述声纹特征和数据库记录的各嫌疑人的声纹特征进行声纹比对;
根据所述声纹比对的结果,确定经过变声还原得到的还原语音是否属于所述数据库记录的嫌疑人。
8.一种变声语音还原装置,其特征在于,所述装置包括:
获取模块,用于获取原始语音样本;
变声处理模块,用于通过目标程序对所述原始语音样本进行变声处理,得到变声语音样本;
特征提取模块,用于分别对所述原始语音样本和所述变声语音样本进行语音信号特征提取,获得所述原始语音样本的第一语音信号特征值集合和所述变声语音样本的第二语音信号特征值集合;
确定模块,用于根据第一语音信号特征值集合和第二语音信号特征值集合包含的对应的语音信号特征值间的映射关系,确定还原函数;
变声还原模块,用于基于所述还原函数,对通过所述目标程序变声得到的待还原变声语音进行变声还原。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719804.2A CN111739546A (zh) | 2020-07-24 | 2020-07-24 | 变声语音还原方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719804.2A CN111739546A (zh) | 2020-07-24 | 2020-07-24 | 变声语音还原方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111739546A true CN111739546A (zh) | 2020-10-02 |
Family
ID=72657550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010719804.2A Pending CN111739546A (zh) | 2020-07-24 | 2020-07-24 | 变声语音还原方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739546A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1913590A2 (en) * | 2005-07-28 | 2008-04-23 | Motorola, Inc. | Method and system for warping voice calls |
CN105654941A (zh) * | 2016-01-20 | 2016-06-08 | 华南理工大学 | 一种基于指向目标人变声比例参数的语音变声方法及装置 |
CN109215680A (zh) * | 2018-08-16 | 2019-01-15 | 公安部第三研究所 | 一种基于卷积神经网络的语音还原方法 |
CN109285555A (zh) * | 2017-07-20 | 2019-01-29 | 北京唱吧科技股份有限公司 | 一种变声方法、装置及移动终端 |
CN110728993A (zh) * | 2019-10-29 | 2020-01-24 | 维沃移动通信有限公司 | 一种变声识别方法及电子设备 |
CN110797031A (zh) * | 2019-09-19 | 2020-02-14 | 厦门快商通科技股份有限公司 | 语音变音检测方法、系统、移动终端及存储介质 |
-
2020
- 2020-07-24 CN CN202010719804.2A patent/CN111739546A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1913590A2 (en) * | 2005-07-28 | 2008-04-23 | Motorola, Inc. | Method and system for warping voice calls |
CN105654941A (zh) * | 2016-01-20 | 2016-06-08 | 华南理工大学 | 一种基于指向目标人变声比例参数的语音变声方法及装置 |
CN109285555A (zh) * | 2017-07-20 | 2019-01-29 | 北京唱吧科技股份有限公司 | 一种变声方法、装置及移动终端 |
CN109215680A (zh) * | 2018-08-16 | 2019-01-15 | 公安部第三研究所 | 一种基于卷积神经网络的语音还原方法 |
CN110797031A (zh) * | 2019-09-19 | 2020-02-14 | 厦门快商通科技股份有限公司 | 语音变音检测方法、系统、移动终端及存储介质 |
CN110728993A (zh) * | 2019-10-29 | 2020-01-24 | 维沃移动通信有限公司 | 一种变声识别方法及电子设备 |
Non-Patent Citations (3)
Title |
---|
BOAT_LEE: "语音信号中的特征提取", 《CSDN博客》 * |
ZJA0722: "关于音频特征提取", 《CSDN博客》 * |
张桂清等: "电子伪装语音的变声规律研究", 《证据科学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN111145786A (zh) | 语音情感识别方法和装置、服务器、计算机可读存储介质 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
Dişken et al. | A review on feature extraction for speaker recognition under degraded conditions | |
CN112435684A (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
US20110066426A1 (en) | Real-time speaker-adaptive speech recognition apparatus and method | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
KR101699252B1 (ko) | 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치 | |
CN110718210B (zh) | 一种英文错误发音的识别方法、装置、介质和电子设备 | |
Nematollahi et al. | Speaker frame selection for digital speech watermarking | |
CN113506586A (zh) | 用户情绪识别的方法和系统 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
CN111261192A (zh) | 一种基于lstm网络的音频检测方法、电子设备及存储介质 | |
CN111739546A (zh) | 变声语音还原方法、装置、计算机设备和存储介质 | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
Girirajan et al. | Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment | |
JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |