CN111902862A - 耳语音处理方法及设备 - Google Patents
耳语音处理方法及设备 Download PDFInfo
- Publication number
- CN111902862A CN111902862A CN201980021280.5A CN201980021280A CN111902862A CN 111902862 A CN111902862 A CN 111902862A CN 201980021280 A CN201980021280 A CN 201980021280A CN 111902862 A CN111902862 A CN 111902862A
- Authority
- CN
- China
- Prior art keywords
- feature
- audio signal
- output
- dnn
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 70
- 230000005236 sound signal Effects 0.000 claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 45
- 210000002569 neuron Anatomy 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 18
- 238000007781 pre-processing Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 208000029951 Laryngeal disease Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004266 retinal recognition Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提供了通过深度学习智能地将耳语音转换为普通语音的方法、系统和设备的实施例,因此耳语音的抗干扰力更强,更易于理解。接收包括第一耳语语音的第一音频信号;对所述第一音频信号执行多次第一计算以提取第一特征;将所述第一特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括第二特征;对所述第二特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
Description
相关申请案的交叉参考
本申请要求于2018年4月10日递交的发明名称为“耳语音处理方法及设备(AMETHOD AND DEVICE FOR PROCESSING WHISPERED SPEECH)”的第15/949,358号美国常规专利申请案的优先权和权益,其通过引用结合在本申请案中。
技术领域
本发明大体上涉及音频处理,特别是用于增强耳语音的音频处理。
背景技术
根据语音的产生方式或发声方式,语音音频信号一般可分为普通语音、耳语音、喊叫语音等,而正常发声的语音可以认为是中性语音或普通语音。喊叫语音可称为最响亮的语音发音模式,可能需要对发音刺激进行最大的改变。耳语音可定义为声带振动受限时最安静的发音模式。耳语音信号通常比普通语音信号能量低得多,因此更容易受到干扰。声带不震动或非常微弱的声带震动可以产生耳语音,使观众难以理解耳语音。
发明内容
一种示例性实施例,包括耳语音处理方法,包括:接收包括第一耳语音的第一音频信号;对所述第一信号执行多次第一计算以提取多个第一特征;将所述第一特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括多个第二特征;对所述第二特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
可选地,在上述实施例中,所述方法包括:所述第一特征和所述第二特征分别包括多个频率。
可选地,在上述任一实施例中,所述方法包括:对所述第一音频信号执行所述多次第一计算以提取所述第一特征包括:将所述第一音频信号分成多个部分重叠的数据窗口;对所述数据窗口执行所述多次第一计算。
可选地,在上述任一实施例中,所述方法包括:相邻窗口重叠约50%。
可选地,在上述任一实施例中,所述方法包括:对所述第一音频信号执行所述多次第一计算以提取所述第一特征还包括:执行所述数据窗口的快速傅里叶变换(FastFourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);计算所述DFT大小的log10以产生所述第一特征。
可选地,在上述任一实施例中,所述方法包括:所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
可选地,在上述任一实施例中,所述方法包括:将所述第一特征提供给所述输入层,其中所述方法包括向所述DNN模型应用前向传播以从所述输出层获取所述第二特征。
可选地,在上述任一实施例中,所述方法包括:获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的第一特征和包括所述耳语音的非耳语版本的相应音频信号的第二特征;对于每个所述训练对:将所述对的所述第一特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述第二特征进行比较;根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
可选地,在上述任一实施例中,所述方法包括:所述损失函数为:
另一种实施例,包括耳语音处理设备,包括:存储器,存储指令;处理器,耦合到所述存储器,其中当所述处理器执行所述指令时,所述处理器执行以下操作:接收包括第一耳语音的第一音频信号;对所述第一音频信号执行多次第一计算以提取多个第一特征;将所述第一特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括多个第二特征;对所述第二特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
可选地,在上述实施例中,所述设备包括:所述第一特征和所述第二特征分别包括多个频率。
可选地,在上述任一实施例中,所述设备包括:对所述第一音频信号执行所述多次第一计算以提取所述第一特征包括:将所述第一音频信号分成多个部分重叠的数据窗口;对所述数据窗口执行所述多次第一计算。
可选地,在上述任一实施例中,所述设备包括:相邻窗口重叠约50%。
可选地,在上述任一实施例中,所述设备包括:对所述第一音频信号执行所述多次第一计算以提取所述第一特征还包括:执行所述数据窗口的快速傅里叶变换(FastFourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);计算所述DFT大小的log10以产生所述第一特征。
可选地,在上述任一实施例中,所述设备包括:所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
可选地,在上述任一实施例中,所述设备包括:将所述第一特征提供给所述输入层,其中所述方法包括向所述DNN模型应用前向传播以从所述输出层获取所述第二特征。
可选地,在上述任一实施例中,所述处理器执行操作还包括:获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的第一特征和包括所述耳语音的非耳语版本的相应音频信号的第二特征;对于每个所述训练对:将所述对的所述第一特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述第二特征进行比较;根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
可选地,在上述任一实施例中,所述设备包括:所述损失函数为:
本发明提供了通过深度学习智能地将耳语音转换为普通语音的方法、系统和设备的实施例,因此耳语音的抗干扰力更强,更易于理解。
附图说明
为了更透彻地理解本发明,现参阅结合附图和具体实施方式而描述的以下简要说明,其中的相同附图标记表示相同部分。
图1A至图1D是普通语音和耳语音的示例。
图2是本发明实施例提供的耳语音处理系统的框图。
图3是本发明实施例提供的图2的耳语音处理的预处理阶段。
图4是本发明实施例提供的图2的耳语音处理的后处理阶段。
图5是本发明实施例提供的DNN架构的框图。
图6是本发明实施例提供的耳语音处理方法的流程图。
图7是本公开实施例提供的网络设备的示意图。
图8是本发明实施例提供的示例性机器架构和机器可读介质。
具体实施方式
首先应理解,尽管下文提供一项或多项实施例的说明性实现方式,但所公开的系统和/或方法可使用任何数量的技术来实现,无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实现方式、附图和技术,包括本文所说明并描述的示例性设计和实现方式,而是可在所附权利要求书的范围以及其等效物的完整范围内修改。
传统的增强耳语音的方法是基于自动增益控制(Automatic Gain Control,AGC)等的信号处理。这种AGC解决方案将所有耳语音的内容都当作是增强信号和噪声一样对待。本发明提供了通过深度学习智能地将耳语音转换为普通语音的方法、系统和设备的实施例,因此耳语音的抗干扰力更强,更易于理解。
耳语音与其他语音有几个方面不同。与普通语音不同,耳语音通常没有周期性激励或谐波结构,但共振峰转换频率更高,频谱斜率可能更平坦,持续时间更长,并且能级相当低。此外,与其它语音类型相比,耳语音通常具有更低的声压级(sound pressure level,SPL),从而使得耳语音具有比普通语音更低的信噪比(signal-to-noise ratio,SNR)和更低的SPL。
表1示出了语音和环境的不同音频输入的示例性SNR。音频输入是从麦克风(近距离谈话麦克风)和喉式麦克风(喉式话筒)收集的,前者使用普通语音,后者使用耳语音。每一个语音输入分别记录在一个寂静(“安静”)的环境和在一个嘈杂的环境中。从表1中可以看出,普通语音和耳语音在分贝数(dB)上有很大的差异。
表1不同麦克风和环境的SNR
通常情况下,人类可以听到0到140dB的声音。普通语音范围是50到60分贝。一般来说,语音的下限是30分贝左右。有些人甚至可以说话比30分贝还小声,但听者在没有任何帮助的情况下可能难以听懂30分贝以下的语音。耳语音通常是指响度范围的程度,例如,30dB或更低。
图1A至图1D是普通语音和耳语音的示例。图1A示出了普通语音110的波形光谱图(频率和时间关系)。图1B示出了耳语音120的波形光谱图(频率和时间关系)。图1C示出了普通语音112的频谱图(振幅和时间关系)。图1D示出了耳语音122的频谱图(振幅和时间关系)。如图1A至图1D所示,耳语音120、122的变化持续时间较长,语音持续时间方差较大。此外,耳语音122的频谱斜率比普通语音112的斜率小。
图2是本发明实施例提供的从耳语音转换成普通语音的系统200的框图。系统200可以在软件、硬件或其组合中实现。接收包括耳语音的第一音频信号;对第一信号执行多次计算以提取耳语音特征(预处理211);将所述特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型(模型212),以获取所述DNN模型的包括非耳语音特征的输出;对所述非耳语音特征执行多次第一计算的逆运算(后处理213),以产生对应于耳语的非耳语版本的音频信号。
在图2中示出了两个阶段210、220:一个阶段是“耳语增强”阶段210,该阶段使用由耳语训练阶段220生成的训练模型将耳语音转换为非耳语音。“耳语训练”阶段220用于训练阶段210使用的耳语模型212。耳语增强阶段210和耳语训练阶段220中的每一个可以包括多个处理子阶段。例如,耳语增强阶段210可以包括:预处理阶段211,用于从接收到的语音信号中提取特征集;基于模型的增强阶段212,用于获取包括普通语音特征的DNN模型的输出;后处理阶段213,用于生成第一音频信号的耳语音的非耳语版本。耳语训练阶段220可以包括预处理阶段221、231,分别用于从普通语音和对应的耳语音中提取特征集;DNN模型训练阶段222,用于为基于模型的增强阶段212训练DNN模型212;损失函数223,用于驱动模型训练。
可以离线执行耳语训练阶段220以训练耳语模型(例如,模型212)。耳语增强阶段210通常在在线模式下运行(例如,在用户说话时实时处理语音)并使用来自耳语训练阶段220的训练模型将用户的耳语音转换为普通语音。在这两个阶段210、220中,预处理阶段211、231和221用于从接收到的语音信号中提取相同的特征集。在其它实现方式中,预处理阶段211、231和221提取相互不同的特征。由211、231和220执行的特征提取包括:在一些实现方式中,将音频信号分为多个部分重叠的数据窗口,并对所述数据窗口执行计算。在一些实现方式中,相邻的数据窗口重叠约50%。也可能是其它重叠百分比。计算可以包括以下过程:执行数据窗口的快速傅里叶变换(Fast Fourier Transform,FFT),以产生音频信号的离散傅里叶变换(discrete Fourier Transform,DFT);计算DFT大小的log10以产生特征。
在基于模型的增强阶段212中,将已在预处理阶段211中提取的耳语音特征作为输入提供给DNN模型,以导出非耳语音特征的版本。DNN模型可从耳语训练阶段220的DNN模型训练阶段222获得。在后处理阶段213,对非耳语音特征执行预处理操作211的逆操作,从而产生对应于耳语音的非耳语版本的音频信号。
在耳语训练阶段220,训练和生成DNN模型,用于将耳语音转换为非耳语音。DNN模型可以是前馈模型并且可包括输入层、输出层以及输入层和输出层之间的多个隐藏层。训练输入包括语音的普通语音信号(例如,短语或词)和对应的耳语音信号,但在耳语声音中。普通语音信号和耳语音信号都由各自的预处理器221和231进行预处理以生成各自的特征。将普通语音特征作为输入提供给损失函数223,将耳语音信号作为输入提供给DNN模型训练222。
通过应用多个权重计算损失函数222。在某些实现方式中,损失函数为:
其中,
N表示所述模型中多个神经元的总个数,
n表示损失函数的计算次数,
W是所有神经元的权重矢量,
b是所有神经元的偏差矢量,
Y表示221生成的普通语音的特征集,
可以在耳语训练阶段220中从DNN模型训练阶段222获取训练的DNN模型的输出,并将其提供给基于模型的增强212。通过将普通语音信号和耳语音信号的相关模型进行比较,计算了训练的DNN模型。普通语音信号可以是来自耳语音信号的非耳语音版本的样本。
图3是本发明实施例提供的图2的用于产生特征的预处理阶段(例如,221、231、211)。
被提取的特征可以被反转,使用逆操作来重构输入语音信号。这些特征包含了感知相关的参数,用于从耳语音中提取重要信息,训练DNN模型。这些特征可能与针对自动语音识别系统(automatic speech recognition,ASR)提取的特征通常不同。ASR系统通常不需要将特征转换回音频信号,因为最终的结果是文本。
通过预处理阶段211、221、231和300,以紧凑表示处理接收到的语音信号,并且仍然包括识别接收到的语音的所有必要信息。
预处理阶段211、221、231和300可以包括开窗阶段301和计算302至305的特征提取阶段。在预处理阶段结束时,提取的特征可以转发到模型训练阶段222或模型增强阶段212。
在预处理阶段211、221、231和300,频率随时间变化函数的接收到的音频信号可分成一系列窗口,每个窗口包括时间的一部分。帧或窗口的长度可能因应用范围和使用的算法而异。可以检查每个窗口的信号,以获取声学特性。例如,信号被分割成长度为20ms的窗口,可选地重叠约为窗口大小的50%。每个窗口可以独立分析,并且可以用单个特征矢量表示。
对数据窗口执行多次计算,例如,对每个窗口应用快速傅里叶变换(Fast FourierTransform,FFT)302以获取时间序列的功率谱;对系数加权的功率谱间隔频率;可选地,计算绝对值303;对权重应用对数304计算。可选地,可以对每个权重应用计算。经过FFT计算,可以得到两个值,一个是振幅值,另一个是相位值。可选地,根据该相位值计算绝对值303。
在对数域特征空间中,人听觉系统的损失函数表示为一致性。对于给定输入语音信号,特征矢量作为输入提供给下一阶段。可选地,所述矢量可以组合成单个矢量,例如通过将所述矢量串联为单个矢量。在某些实现方式中,对输入到损失函数的特征进行加权以更好地接近人听觉系统。
计算的输出结果可以包括接收信号的振幅和相位305的信息。
图4描绘了本发明实施例的提供的图2的耳语音处理的后处理阶段。
在后处理阶段400中,应用如图2和图3所示的已在预处理阶段211、221、231和300中使用的操作的逆操作来重构第一耳语音的非耳语版本。由模型增强阶段212中的多次计算获取增强的特征并将其输出至后处理400。第一耳语音的相位用于重构非耳语版本语音的过程。该相位也可以用于DNN模型训练。
在特征提取的示例中,对数10^(.)401的逆运算和逆傅里叶变换(inverseFourier transform,iFFT)402应用于模型增强阶段212的输出。由模型增强阶段212中的多次计算获取增强的特征并将其输出至后处理400。在预处理211和增强212中处理后,计算的增强特征作为与输入耳语音比较而言更接近非耳语音。iFFT函数402可允许控制变换的大小。可以通过iFFT在调整顺序声门脉冲之间的相位时一次性重新合成重构目标信号。在预处理阶段,多个相邻数据窗口的部分重叠约为50%,在后处理阶段,将执行重叠加403的逆运算。图5描绘了本发明实施例提供的DNN架构500的框图。
DNN模型训练阶段222可以以图5所示的实施例为例。
例如,DNN架构500可以包括一个或多个神经元。神经元在分级网络中相互连接,某些神经元的输出作为其它神经元的输入。网络可以表示为节点的连接层。一个或多个神经元可以分组在一起以形成多个层。在图5中,用圆圈表示输入网络的神经元。
示例性神经网络500包括输入层510,层520、530、540可称为中间层或隐藏层,层550是输出层。隐藏层520、530、540的值可以不在训练集中观察。每个层可以具有一个或多个神经元或节点。每层神经元的数目可以不同。每个层中的每个神经元可以分别与相邻层中的每个神经元映射,即,神经元的输出可以作为相邻层中的每个神经元的输入。例如,如图5所示,层520中的输入神经元映射到层510中的输出神经元。输入-输出映射可以用逻辑回归来定义。
每个神经元可以接收单个窗口对应的特征矢量。每个神经元可接受一个或多个加权输入,将激活函数应用于输入的总和,并产生输出。权重可以与输入相乘,然后在节点中求和。神经元可以是计算单元。在计算过程中也可以使用偏差单元。神经网络具有例如W和b等参数。以参数W为例,例如W1、W2、W3和W4表示与每层中的神经元单元之间的连接相关联的参数W或权重。参数b可表示偏差,它与每个神经元单元相关联。包括偏差元件以增强网络的灵活性。权重通常是由神经网络或外部输入输出的固定值。权重可以是可以在学习过程中更改的变量,并且与输入一起确定节点的输出。
神经网络500可以是具有多个非线性层的前馈神经网络。这些非线性回归函数也与iFFT层一起工作,将耳语音映射到非耳语音。网络架构500可以通过标准反向传播算法(例如,iFFT层)进行训练,所述反向传播算法可以写入具有固定权重矩阵的一组矩阵运算中。在数据上训练一个神经元之后,神经元单元的推断状态可以作为训练另一个神经元的数据。这可以重复多次,以产生多层非线性特征检测器,代表数据中越来越复杂的统计结构。每一层都产生更高层次的特征表示,并且产生比原始输入语音本身更接近于原始输入语音的普通语音版本的特征表示。神经元训练过程可以通过损失函数进行,该损失函数用于调整神经元的权重和偏差,直到损失达到所需的水平。
DNN训练模型的获取过程可以简单描述如下:首先从声学系数的窗口得到一个示例性模型。然后将隐藏单元的状态作为训练数据。重复此过程,以创建尽可能多的隐藏层。然后,堆栈转换成一个单一的生成式模型,一个DNN训练模型。学习是通过反复激活某些神经连接而发生的,加强了这些连接。给定一个特定的输入,就可以产生一个期望的结果。期望的结果可以称为反馈,神经连接可以加强结果的强化。
图6是本发明实施例提供的耳语音处理方法的流程图。
图6提供了一种将耳语音转换为普通语音的方法。图6所示的方法可以与图1至图5的实施例一起应用。接收包括第一耳语音的第一信号610;对第一信号执行620多次第一计算以提取耳语音特征;将耳语音特征作为输入提供给训练的深度神经网络(deep neuralnetwork,DNN)模型630,以获取DNN模型的包括非耳语音特征的输出;对非耳语音特征执行640多次第一计算的逆运算,以产生对应于第一耳语的非耳语版本的第二信号650。
图7是本发明实施例提供的网络设备的示意图,所述网络设备可用于执行本文描述的方法和技术的操作。
图7提供了一种将耳语音转换为普通语音的方法。可以从各种资源接收第一信号的输入,例如网络701、设备702和人703。第一信号包括第一耳语音。设备710用于将耳语音转换为非耳语音。设备包括执行耳语训练阶段720的功能模块,以及执行耳语增强阶段730的功能模块。
耳语训练阶段720可以应用如上所述的耳语训练阶段220的所有功能和过程。DNN模型可以通过执行DNN架构500、耳语训练阶段720或从设备701、网络702等资源获得。因此耳语训练阶段720对于设备710可以是可选的。
耳语增强阶段730可以应用上述耳语增强阶段210的所有功能和过程。
设备用于接收第一信号;对第一信号执行多次第一计算以提取耳语音特征;将耳语音特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取DNN模型的包括非耳语音特征的输出;对非耳语音特征执行多次第一计算的逆运算,以产生对应于第一耳语的非耳语版本的第二信号。第二信号可以输出到各种资源,例如,人704、网络705、设备706。
在各种场景下,都可以有效的使用耳语音。例如,耳语可用于私人和机密的电话通信。耳语可以用来缩短语音感知的距离,从而缩短语音可懂度的距离。它也可用于会议室、电梯和其它公共场所,以避免打扰其它人。在其它情况下,喉部疾病患者之间使用耳语进行交流。
图8是本发明实施例提供的可用于执行本文中所描述的方法和技术的操作的示例性机器架构和机器可读介质。
图8中提供了示出机器800的组件的框图,根据一些示例性实施例,能够从机器可读介质(例如,机器可读存储介质)读取指令并执行本文讨论的方法中的任何一个或多个方法。具体而言,图8示出了计算机系统示例形式的机器800的示意性表示,其中,指令816至822(例如,软件、程序、应用、小程序、应用程序或其它可执行代码)用于使得机器800执行本文讨论的任何一个或多个方法。例如,指令可使得机器执行图1至图7的流程图。附加地或替代地,指令可以实现图2的耳语增强阶段210和耳语训练阶段220。指令将一般的、非编程的机器转换为特定的机器,该机器被编程以所描述的方式执行描述的和说明的功能。在替代性实施例中,机器800作为独立设备操作,或者可以耦合(例如,联网)到其它机器。在联网部署中,机器800可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力运行,或在对等(或分布式)网络环境中以对等机器的能力运行。机器800可以包括但不限于服务器计算机、客户端计算机、个人计算机(personal computer,PC)或任何能够按顺序或以其它方式执行指令816至822的机器,指令816至822指定由机器800采取的行动。此外,虽然仅示出了单台机器800,但术语“机器”也应理解为包括单独或联合执行指令816至822以执行本文讨论的任何一个或多个方法的机器800的集合。
机器800可以包括处理器810、存储器830和I/O组件850,I/O组件850可用于相互通信,例如通过总线802。在示例性实施例中,处理器810(例如,中央处理单元(CentralProcessing Unit,CPU)、精简指令集计算(Reduced Instruction Set Computing,RISC)处理器、复杂指令集计算(Complex Instruction Set Computing,CISC)处理器、图形处理单元(Graphics Processing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、ASIC、射频集成电路(Radio-Frequency Integrated Circuit,RFIC)、其它处理器或其任何合适的组合可以包括,例如,处理器812和处理器814可分别执行指令816和指令818。术语“处理器”意在包括具有两个或两个以上独立处理器(有时称为“核心”)的多核处理器,这些处理器可同时执行指令。尽管图8示出了多个处理器,但机器800可以包括具有单核的单个处理器、具有多核的单个处理器、具有单核的多个处理器、具有多核的多个处理器或其任意组合。
存储器(memory/storage)830可以包括存储器832,例如主存储器或其它存储器,以及存储单元836,这些存储器或存储单元都可由处理器810访问,例如通过总线802访问。存储单元836和存储器832分别存储指令822和指令820,体现本文描述的任何一个或多个方法或功能。指令816至822等指令在由机器800执行期间也可以完全或部分地驻留在存储器832内,驻留在存储单元836内,驻留在至少一个处理器810内(例如,处理器的高速缓存存储器内)或其任何合适的组合。因此,存储器832、存储单元836和处理器810的存储器是机器可读介质的示例。
如本文所使用的,“机器可读介质”是指能够暂时或永久存储指令和数据的设备,可以包括但不限于随机存取存储器(random-access memory,RAM)、只读存储器(read-onlymemory,ROM)、缓冲存储器、闪存、光学介质、磁性介质、高速缓存存储器、其它类型的存储器(例如,可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EEPROM))或其任何合适的组合。术语“机器可读介质”应理解为包括能够存储指令的单个介质或多个介质(例如,集中式或分布式数据库,或关联的高速缓存和服务器)。术语“机器可读介质”也应理解为包括能够存储指令(例如,指令816至822)以供机器(例如,机器800)执行的任何介质或多媒体组合,使得当所述指令由机器800的一个或多个处理器(例如,处理器810)执行时,使得机器800执行本文描述的任何一个或多个方法。相应地,“机器可读介质”是指单个存储装置或设备,以及包括多个存储装置或设备的基于“云”的存储系统或存储网络。术语“机器可读介质”本身不包括信号。
I/O组件850可以包括各种组件,以接收输入、提供输出、产生输出、传输信息、交换信息、捕获测量数据等。包括在特定机器中的特定I/O组件850将取决于机器的类型。例如,手机等便携式机器可能包括触摸输入设备或其它此类输入机制,而无头服务器机器可能不包括此类触摸输入设备。应当理解的是,I/O组件850可以包括图8中未示出的许多其它组件。I/O组件850仅根据功能性进行分组以简化以下讨论,并且分组决不是限制性的。在各种示例性实施例中,I/O组件850可以包括输出组件852和输入组件854。输出组件852可包括可视组件(例如,等离子显示面板(plasma display panel,PDP)等显示器、发光二极管(lightemitting diode,LED)显示器、液晶显示器(liquid crystal display,LCD)、投影仪或阴极射线管(cathode ray tube,CRT)、声学组件(例如,扬声器)、触觉组件(例如,振动马达、电阻机构)、其它信号产生器等等。输入组件854可包括字母数字输入组件(例如,键盘、用于接收字母数字输入的触摸屏、光电键盘或其它字母数字输入组件)、点式输入组件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指点工具)、触觉输入组件(例如,物理按钮、提供触摸或触摸手势位置或力度的触摸屏或其它触觉输入组件)、音频输入组件(例如,麦克风)等。
在另一示例性实施例中,I/O组件850可以包括生物识别组件856、运动组件858、环境组件860、定位组件862或其它组件。例如,生物识别组件856可以包括用于检测表情(例如,手部表情、面部表情、声音表情、身体姿势或眼部跟踪),测量生物信号(如血压、心率、体温、排汗、脑电波等),识别人员(如语音识别、视网膜识别、面部识别、指纹识别、脑电图识别)等的组件。运动组件858可包括加速度传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。环境组件860可包括,例如,照明传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如,气压计)、声学传感器组件(例如,一个或多个检测背景噪声的麦克风)、接近传感器组件(例如,检测附近物体的红外传感器)、气体传感器(例如,检测有害气体浓度的气体检测传感器,以确保安全,或测量大气中的污染物)或可提供与周围物理环境相对应的指示、测量或信号的其它组件。定位组件862可以包括位置传感器组件(例如,全球定位系统(Global Position System,GPS)接收器组件)、高度传感器组件(例如,可检测气压或导出高度的高度计或气压计)、方向传感器组件(例如,磁力计)等。
可以使用多种技术实现通信。I/O组件850可以包括通信组件864,可分别通过耦合882和耦合872将机器800耦合到网络880或设备870。例如,通信组件864可以包括网络接口组件或其它适合的设备以与网络880进行连接。在另一示例中,通信组件864可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(Near Field Communication,NFC)组件、组件(例如,低功耗)、组件和其它通信组件通过其它方式提供通信。设备870可以是另一机器或各种外围设备(例如,通过USB耦合的外围设备)中的任一种。
此外,通信组件864可以检测标识符或包括用于检测标识符的组件。例如,通信组件864可以包括射频识别(Radio Frequency Identification,RFID)标签阅读器组件、NFC智能标签检测组件、光阅读器组件(例如,用于检测通用产品代码(Universal ProductCode,UPC)条形码等一维条形码、快速响应(Quick Response,QR)码、阿兹特克码、数据矩阵、数据形体、最大码、PDF417、超码、统一编码协会缩略空间符号码(例如,UCC RSS-2D条码及其它光学码等条形码的光传感器),或声学检测组件(例如,识别带标签的音频信号的麦克风)。此外,可通过通信组件864导出各种信息,例如,通过因特网协议(InternetProtocol,IP)地理定位的定位、通过信号三角定位的定位、通过检测可指示特定位置的NFC信标信号的定位等。
在各种示例性实施例中,网络880的一个或多个部分可以是自组网、内网、外网、VPN、LAN、WLAN、WAN、WWAN、MAN、因特网、因特网的一部分、PSTN的一部分、传统电话业务(plain old telephone service,POTS)网络、蜂窝电话网络、无线网络、网、其它类型的网络,或者两个或两个以上此类网络的组合。例如,网络880或网络880的一部分可包括无线或蜂窝网络,耦合882可为码分多址(Code Division Multiple Access,CDMA)连接、全球移动通信系统(Global System for Mobile communications,GSM)连接或其它类型的蜂窝或无线耦合。在该示例中,耦合882可以实现各种类型的数据传输技术中的任一种,例如单载波无线传输技术(1xRTT)、演进数据优化(Evolution-Data Optimized,EVDO)技术、通用分组无线业务(General Packet Radio Service,GPRS)技术、GSM演进增强数据速率(Enhanced Data rates for GSM Evolution,EDGE)技术、包括3G的第三代合作伙伴计划(third Generation Partnership Project,3GPP)、第四代无线(4G)网络、通用移动通讯系统(Universal Mobile Telecommunications System,UMTS)、高速分组接入(High SpeedPacket Access,HSPA)、全球微波接入互操作性(Worldwide Interoperability forMicrowave Access,WiMAX)、长期演进(Long Term Evolution,LTE)等各种标准组织定义的标准,或其它长距离协议或其它数据传输技术。
指令816至822可通过网络880通过网络接口设备使用传输介质(例如,包括在通信组件864中的网络接口组件)并利用许多众所周知的传输协议(例如,超文本传输协议(hypertext transfer protocol,HTTP))中的任意一项进行发送或接收。类似地,可以通过耦合872(例如,对等耦合)使用传输介质将指令816至822发送至设备870或接收指令816至822。术语“传输介质”应理解为包括能够存储、编码或携带由机器800执行的指令的任何无形介质,并且包括数字或模拟通信信号或其它无形介质,以有利于此类软件的通信。
可选地,设备710可以在GPU或CPU中执行。
可选地,DNN模型训练过程500的神经元结构可以在软件中实现。
应理解,软件可以安装在设备中并可以随网络设备710一同出售。或者,可以获得软件并将所述软件加载到网络设备710中,包括通过物理介质或分布式系统获得软件,例如,包括从软件创建者拥有的服务器或从非软件创建者拥有但被软件创建者使用的服务器获得软件。例如,软件可以存储在服务器上,以便通过网络分配。
一个示例性实施例包括一种耳语音处理方法,该方法可以单独应用或与上述所公开的所有或任一实施例的组合结合使用。所述方法包括:接收包括第一耳语音的第一音频信号;对所述第一信号执行多次第一计算以提取多个耳语音特征;将所述耳语音特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括多个非耳语音特征;对所述非耳语音特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
可选地,在上述实施例中,所述方法包括:所述耳语音特征和非耳语音特征分别包括多个频率。
可选地,在上述任一实施例中,所述方法包括:对所述第一音频信号执行所述多次第一计算以提取所述耳语音特征包括:将所述第一音频信号分成多个部分重叠的数据窗口;对所述数据窗口执行所述多次第一计算。
可选地,在上述任一实施例中,所述方法包括:相邻窗口重叠约50%。
可选地,在上述任一实施例中,所述方法包括:对所述第一音频信号执行所述多次第一计算以提取所述耳语音特征还包括:执行所述数据窗口的快速傅里叶变换(FastFourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);计算所述DFT大小的log10以产生所述耳语音特征。
可选地,在上述任一实施例中,所述方法包括:所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
可选地,在上述任一实施例中,所述方法包括:将所述耳语音特征提供给所述输入层,其中所述方法包括向所述DNN模型应用前向传播以从所述输出层获取所述非耳语音特征。
可选地,在上述任一实施例中,所述方法包括:获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的耳语音特征和包括所述耳语音的非耳语版本的相应音频信号的非耳语音特征;对于每个所述训练对:将所述对的所述耳语音特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述非耳语音特征进行比较;根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
可选地,在上述任一实施例中,所述方法包括:所述损失函数为:
其中,N表示所述DNN模型中多个神经元的总个数,n表示所述损失函数的计算次数,W表示多个权重的组合,b表示多个偏差,为常数,Y是所述训练对的所述非耳语音特征,是所述训练对的所述耳语音特征。图2中还公开了损失函数223的输出,可包括:接收包括第四普通语音的第四信号;预处理231可用于对所述第四信号执行第四多次计算以提取第四特征集;所述第四特征集可以作为计算输入提供给所述损失函数223。应用损失函数223以将所述第三特征集与所述第四特征集进行比较。比较过程可以包括:计算第三特征集和第四特征集之间的损失函数;在计算过程中反复应用多个权重和偏差,直至损失函数的计算结果达到阈值。权重和偏差可能是神经元的载体。
一个实施例包括一种耳语音处理设备,该设备可以单独应用或与上述所公开的所有或任一实施例的组合结合使用。所述设备包括:存储器,存储指令;处理器,耦合到所述存储器,其中当所述处理器执行所述指令时,所述处理器执行以下操作:接收包括第一耳语音的第一音频信号;对所述第一音频信号执行多次第一计算以提取多个耳语音特征;将所述耳语音特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括多个非耳语音特征;对所述非耳语音特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
可选地,在上述实施例中,所述设备包括:所述耳语音特征和非耳语音特征分别包括多个频率。
可选地,在上述任一实施例中,所述设备包括:对所述第一音频信号执行所述多次第一计算以提取所述耳语音特征包括:将所述第一音频信号分成多个部分重叠的数据窗口;对所述数据窗口执行所述多次第一计算。
可选地,在上述任一实施例中,所述设备包括:相邻窗口重叠约50%。
可选地,在上述任一实施例中,所述设备包括:对所述第一音频信号执行所述多次第一计算以提取所述耳语音特征还包括:执行所述数据窗口的快速傅里叶变换(FastFourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);计算所述DFT大小的log10以产生所述耳语音特征。
可选地,在上述任一实施例中,所述设备包括:所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
可选地,在上述任一实施例中,所述设备包括:将所述耳语音特征提供给所述输入层,其中所述方法包括向所述DNN模型应用前向传播以从所述输出层获取所述非耳语音特征。
可选地,在上述任一实施例中,所述处理器还执行以下操作:获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的耳语音特征和包括所述耳语音的非耳语版本的相应音频信号的非耳语音特征;对于每个所述训练对:将所述对的所述耳语音特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述非耳语音特征进行比较;根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
可选地,在上述任一实施例中,所述设备包括:所述损失函数为:
除非另有说明,否则使用术语“约”是指以下描述的数字的±10%。虽然本发明多个具体实施例,但应当理解,所公开的系统和方法也可通过其它多种具体形式体现,而不会脱离本发明的精神或范围。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或组件可以在另一系统中组合或合并,或者某些特征可以省略或不实现。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、组件、技术或方法进行组合或合并。展示或论述为相互耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。其它变更、替换、更替示例对本领域技术人员而言是显而易见的,均不脱离此处公开的精神和范围。
Claims (18)
1.一种耳语音处理方法,其特征在于,包括:
接收包括第一耳语音的第一音频信号;
对所述第一信号执行多次第一计算以提取多个第一特征;
将所述第一特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括多个第二特征;
对所述第二特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
2.根据权利要求1所述的方法,其特征在于,所述第一特征和所述第二特征分别包括多个频率。
3.根据权利要求1所述的方法,其特征在于,对所述第一音频信号执行所述多次第一计算以提取所述第一特征包括:
将所述第一音频信号分成多个部分重叠的数据窗口;
对所述数据窗口执行所述多次第一计算。
4.根据权利要求3所述的方法,其特征在于,相邻窗口重叠约50%。
5.根据权利要求3所述的方法,其特征在于,对所述第一音频信号执行所述多次第一计算以提取所述第一特征还包括:
执行所述数据窗口的快速傅里叶变换(Fast Fourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);计算所述DFT大小的log10以产生所述第一特征。
6.根据权利要求1所述的方法,其特征在于,所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
7.根据权利要求6所述的方法,其特征在于,将所述第一特征提供给所述输入层,其中所述方法包括向所述DNN模型应用前向传播以从所述输出层获取所述第二特征。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的第一特征和包括所述耳语音的非耳语版本的相应音频信号的第二特征;
对于每个所述训练对:
将所述对的所述第一特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述第二特征进行比较;
根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
10.一种耳语音处理设备,其特征在于,包括:
存储器,存储指令;
处理器,耦合到所述存储器,其中当所述处理器执行所述指令时,所述处理器执行以下操作:
接收包括第一耳语音的第一音频信号;
对所述第一音频信号执行多次第一计算以提取第一特征;
将所述第一特征作为输入提供给训练的深度神经网络(deep neural network,DNN)模型,以获取所述DNN模型的输出,所述输出包括第二特征;
对所述第二特征执行所述多次第一计算的逆运算以产生对应于所述第一耳语音的非耳语版本的第二音频信号。
11.根据权利要求10所述的设备,其特征在于,所述第一特征和所述第二特征分别包括多个频率。
12.根据权利要求10所述的设备,其特征在于,对所述第一音频信号执行所述多次第一计算以提取所述第一特征包括:
将所述第一音频信号分成多个部分重叠的数据窗口;
对所述数据窗口执行所述多次第一计算。
13.根据权利要求12所述的设备,其特征在于,相邻窗口重叠约50%。
14.根据权利要求12所述的设备,其特征在于,对所述第一音频信号执行所述多次第一计算以提取所述第一特征还包括:
执行所述数据窗口的快速傅里叶变换(Fast Fourier Transform,FFT),以产生离散傅里叶变换(discrete Fourier Transform,DFT);
计算所述DFT大小的log10以产生所述第一特征。
15.根据权利要求10所述的设备,其特征在于,所述DNN模型是前馈模型,所述模型包括输入层、输出层以及所述输入层和所述输出层之间的多个隐藏层。
16.根据权利要求15所述的设备,其特征在于,将所述第一特征提供给所述输入层,其中所述处理器执行操作还包括:向所述DNN模型应用前向传播以从所述输出层获取所述第二特征。
17.根据权利要求10所述的设备,其特征在于,所述处理器执行操作还包括:
获取多个不同的训练对,其中每个训练对包括耳语音的相应音频信号的第一特征和包括所述耳语音的非耳语版本的相应音频信号的第二特征;
对于每个所述训练对:
将所述对的所述第一特征作为输入提供给所述DNN模型,并使用产生输出的损失函数将所述DNN的所述输出与所述对的所述第二特征进行比较;
根据所述损失函数的所述输出,对所述DNN模型进行反向传播以训练所述DNN模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/949,358 | 2018-04-10 | ||
US15/949,358 US10832660B2 (en) | 2018-04-10 | 2018-04-10 | Method and device for processing whispered speech |
PCT/CN2019/079776 WO2019196648A1 (en) | 2018-04-10 | 2019-03-27 | A method and device for processing whispered speech |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111902862A true CN111902862A (zh) | 2020-11-06 |
Family
ID=68097314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980021280.5A Pending CN111902862A (zh) | 2018-04-10 | 2019-03-27 | 耳语音处理方法及设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10832660B2 (zh) |
EP (1) | EP3753018A4 (zh) |
CN (1) | CN111902862A (zh) |
WO (1) | WO2019196648A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6903611B2 (ja) * | 2018-08-27 | 2021-07-14 | 株式会社東芝 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
US11263323B2 (en) * | 2018-12-19 | 2022-03-01 | Google Llc | Systems and methods for increasing robustness of machine-learned models and other software systems against adversarial attacks |
CN111916095B (zh) * | 2020-08-04 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 语音增强方法、装置、存储介质及电子设备 |
US20210027802A1 (en) * | 2020-10-09 | 2021-01-28 | Himanshu Bhalla | Whisper conversion for private conversations |
CN112712816B (zh) * | 2020-12-23 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
WO2022229806A1 (en) | 2021-04-26 | 2022-11-03 | Universidade Do Porto | Method and device for real-time conversion of a whispered speech into synthetic natural voice |
DE102021132936A1 (de) | 2021-12-14 | 2023-06-15 | Technische Hochschule Nürnberg Georg Simon Ohm | Verfahren zur Generierung von Normalsprachsignalmerkmalen, Computerprogramm, Speichermedium und Vorrichtung |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060167691A1 (en) * | 2005-01-25 | 2006-07-27 | Tuli Raja S | Barely audible whisper transforming and transmitting electronic device |
CN101188637A (zh) * | 2006-11-15 | 2008-05-28 | 林晓良 | 一种将耳语转换为正常语音的装置和方法 |
CN101527141A (zh) * | 2009-03-10 | 2009-09-09 | 苏州大学 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
KR100908121B1 (ko) * | 2006-12-15 | 2009-07-16 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US9378735B1 (en) * | 2013-12-19 | 2016-06-28 | Amazon Technologies, Inc. | Estimating speaker-specific affine transforms for neural network based speech recognition systems |
US9390712B2 (en) | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
CN106683661B (zh) | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
US10192552B2 (en) * | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10121011B2 (en) * | 2016-11-16 | 2018-11-06 | The United States Of America As Represented By The Secretary Of The Air Force | Apparatus, method and article of manufacture for partially resisting hardware trojan induced data leakage in sequential logics |
WO2018151770A1 (en) * | 2017-02-16 | 2018-08-23 | Neosensory, Inc. | Method and system for transforming language inputs into haptic outputs |
US10147439B1 (en) * | 2017-03-30 | 2018-12-04 | Amazon Technologies, Inc. | Volume adjustment for listening environment |
CN107452389B (zh) | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
-
2018
- 2018-04-10 US US15/949,358 patent/US10832660B2/en active Active
-
2019
- 2019-03-27 EP EP19786188.3A patent/EP3753018A4/en active Pending
- 2019-03-27 WO PCT/CN2019/079776 patent/WO2019196648A1/en unknown
- 2019-03-27 CN CN201980021280.5A patent/CN111902862A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060167691A1 (en) * | 2005-01-25 | 2006-07-27 | Tuli Raja S | Barely audible whisper transforming and transmitting electronic device |
CN101188637A (zh) * | 2006-11-15 | 2008-05-28 | 林晓良 | 一种将耳语转换为正常语音的装置和方法 |
CN101527141A (zh) * | 2009-03-10 | 2009-09-09 | 苏州大学 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
Non-Patent Citations (2)
Title |
---|
M. JANKE ET AL: "FUNDAMENTAL FREQUENCY GENERATION FOR WHISPER-TO-AUDIBLE SPEECH CONVERSION", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING》, pages 2579 - 2583 * |
SRINIVAS DESAI ET AL: "Voice conversion using Artificial Neural Networks", 2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC, SPEECH AND SIGNAL PROCESSING, pages 3893 - 3896 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019196648A1 (en) | 2019-10-17 |
EP3753018A1 (en) | 2020-12-23 |
US20190311711A1 (en) | 2019-10-10 |
US10832660B2 (en) | 2020-11-10 |
EP3753018A4 (en) | 2021-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111902862A (zh) | 耳语音处理方法及设备 | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
EP3346462B1 (en) | Speech recognizing method and apparatus | |
Basu et al. | Emotion recognition from speech using convolutional neural network with recurrent neural network architecture | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
US12080315B2 (en) | Audio signal processing method, model training method, and related apparatus | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
EP2363852B1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN113330511B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN117174115A (zh) | 使用成对比较进行重复语音查询中的超发音检测以改进语音识别 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
KR20200126675A (ko) | 전자 장치 및 이의 제어 방법 | |
US10818308B1 (en) | Speech characteristic recognition and conversion | |
US20230298616A1 (en) | System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input with Haptic Output | |
KR20210042523A (ko) | 전자 장치 및 이의 제어 방법 | |
CN114913859B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
Mian Qaisar | Isolated speech recognition and its transformation in visual signs | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
CN110795996B (zh) | 心音信号的分类方法、装置、设备及存储介质 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN110364169A (zh) | 声纹识别方法、装置、设备及计算机可读存储介质 | |
Tarng et al. | Applications of support vector machines on smart phone systems for emotional speech recognition | |
CN114708876B (zh) | 音频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |