CN110689902A - 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 - Google Patents
基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110689902A CN110689902A CN201911262324.1A CN201911262324A CN110689902A CN 110689902 A CN110689902 A CN 110689902A CN 201911262324 A CN201911262324 A CN 201911262324A CN 110689902 A CN110689902 A CN 110689902A
- Authority
- CN
- China
- Prior art keywords
- network
- time
- audio signal
- frequency
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 8
- 230000009466 transformation Effects 0.000 abstract description 6
- 230000009467 reduction Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质,涉及语音数据处理领域,所述方法包括:创建组合网络模型,所述组合网络模型包括第一网络和第二网络;获取音频信号的时频图;对所述时频图进行优化,得到网络输入数据;利用网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。本发明实施例能够解决现有基于时间序列的映射变换模型不能满足多模态信息的应用需求的问题。
Description
技术领域
本发明实施例涉及语音数据处理领域,具体涉及一种基于神经网络的音频信号时序处理方法、装置及系统。
背景技术
神经网络在人工智能领域快速发展,推动了图像、文本、语音等多领域的信息交叉融合,构成一种多模态信息,多模态信息中的共生或共现的单模态信息间存在相关性。在研究其相关性的同时,由于多模态数据的采集环境,数据格式的差异性,造成多领域信息间的潜在相关性不容易被观测到,需要设计合适的模型学习这些数据间潜在且复杂的映射关系。
但是目前基于时间序列信息的深度神经网络模型中,将时间序列的语音数据映射对应文本内容及说话者声腔发音动作的映射变换模型还较少,尚不能满足多模态信息在对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域的应用需求。
发明内容
本发明实施例的目的在于提供一种基于神经网络的音频信号时序处理方法、装置及系统,用以解决现有基于时间序列的映射变换模型不能满足多模态信息的应用需求的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供一种基于神经网络的音频信号时序处理方法,
所述方法包括:创建组合网络模型,所述组合网络模型包括第一网络和第二网络;获取音频信号的时频图;对所述时频图进行优化,得到网络输入数据;利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。
进一步地,在获取所述音频信号的时频图之后,所述方法还包括:依次平移所述第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与所述第二网络的时间窗口长度相同。
进一步地,对所述时频图进行优化的方法包括:将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据,对所述三维图像数据进行切割。
进一步地,所述三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度,对所述三维图像数据进行切割的方法包括:平行横轴,沿高频至低频的方向切掉三分之一的频率维度,保留三分之二的低频三维图像数据作为网络输入数据。
进一步地,在所述第一网络进行特征提取时,仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。
进一步地,所述组建新的特征向量的方法包括:按照时间序列切分所述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入第二网络进行训练。
进一步地,所述第一网络包括卷积神经网络CNN,所述第二网络包括循环神经网络RNN。
第二方面,本发明实施例还提供一种基于神经网络的音频信号时序处理装置,
所述装置包括:音频信号优化单元和模型创建单元:
模型创建单元创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
音频信号优化单元获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对所述时频图进行优化,得到网络输入数据;
模型创建单元利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。
第三方面,本发明实施例还提供一种基于神经网络的音频信号时序处理系统,
所述系统包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行一种基于神经网络的音频信号时序处理方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,
所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行一种基于神经网络的音频信号时序处理方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
附图说明
图1为本发明实施例1提供的一种基于神经网络的音频信号时序处理方法的步骤图。
图2为本发明实施例2提供的一种基于神经网络的音频信号时序处理装置的结构示意图。
图3为本发明实施例3提供的一种基于神经网络的音频信号时序处理系统的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、程序以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例1提供一种基于神经网络的音频信号时序处理方法,参考图1,该方法包括:
S1、创建组合网络模型;
具体地,该组合网络模型包括第一网络和第二网络,现有技术中的语音数字信号主要经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,根据声学模型进行语音特征提取,对频域特征进行滤波等方法手动提取共振峰、梅尔倒谱等特征。通过提取的语音特征向量进行后续的文本序列识别需要。但此种方法得到的高维特征少于通过CNN网络获得的高维特征。结合卷积神经网络CNN对局部感受野相关性特征的抽取能力和循环神经网络RNN对时间序列状态保持能力,将时频图直接作为输入,经过深层CNN网络提取到更多高维特征,再输入RNN模型,实现对音频信号特征的提取,并学习驱动发音的口腔和下颌动作变化序列。因此,本实施例的第一网络优选卷积神经网络CNN,第二网络优选循环神经网络RNN。
S2、获取音频信号的时频图;
具体地,将采集的声音数据经过数字采样成数字音频信号,然后经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,对时频图再做梅尔特征转换,得到CNN网络输入的特征。
需要说明的是:由于语音输入信号长度不等,得到的时频图时间轴长度T也是变长,因此,在将时频图输入CNN前需要按照RNN的时间窗口长度(t)截取对应时间长度的频谱图,依次平移CNN网络的截取窗口位置,如T(0)…T(0+t),T(1)…T(1+t),… T(n)…T(n+t),使截取的时频图长度与RNN的时间窗口长度相同。
S3、对时频图进行优化,得到网络输入数据;
具体地,本实施例采用图像切割法对音频信息进行降噪,利用时频图计算出其一阶差分图像和二阶差分图像,将时频图、时频图的一阶差分图像和二阶差分图像组成一个数组,可以将其看作一幅三维图像数据,该三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度。由于该图像低频部分表现出明显的声纹信息,高频部分则为大量随机高亮噪声,因此对该三维图像数据的高频部分进行切割。
平行横轴,即时间轴,沿高频至低频的方向切掉三分之一的频率维度,切分时频图,剔除高频部分噪声干扰,仅保留三分之二的低频三维图像数据作为网络输入数据,具有更好的降噪效果。增加时频图的一阶差分图像和二阶差分图像数据,能够增加时序变化特征。
S4、利用网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;
具体地,将切割后的优化网络输入数据输入CNN网络进行训练,CNN网络可以选用较为成熟的ResNet等作为基础网络。
需要说明的是:在信号处理中经常采用下采样,即对于一个样值序列间隔几个样值取样一次,得到新序列,本实施例中,在CNN网络中的下采样过程仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。也可以理解为改进基础CNN中的最大池化层,在局部感受野中的频率维度提取最大池化特征,但在时间维度不做下采样,既能够通过最大池化层获取时间不变性,又保证时间序列长度不被压缩。
利用此方法提取的CNN网络提取特征比在时频图上通过滤波器分离提取特征的传统方法,能得到更多高维的特征信息。
S5、利用多维特征图组建新的特征向量;
具体地,按照时间序列切分上述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入RNN网络进行训练。
S6、将新的特征向量输入第二网络进行训练。
具体地,利用RNN网络的对时间序列状态保持能力,输入上述新的特征向量进行训练,使输出为与输入时序相同长度的回归值序列,此回归值根据组合网络模型的需要可以是发声口型的图像、坐标或者与音频信息对应的文本向量。能够提供一种利用时序语音生成驱动发音的口型、下颌等动作序列的方法。本发明的RNN网络采用双向的LSTM模型,能够提供来自前向和后向的时序状态信息。
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
与上述实施例对应的,本发明实施例2提供一种基于神经网络的音频信号时序处理装置,参考图2,该装置包括音频信号优化单元和模型创建单元:
模型创建单元,用于创建组合网络模型,组合网络模型包括第一网络和第二网络,即上述的CNN+RNN的组合网络时序回归模型;
音频信号优化单元,用于获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对时频图进行优化,得到网络输入数据。
音频信号优化单元将采集的声音数据经过数字采样成数字音频信号,然后经过分帧加窗后经过傅里叶变换为频谱时间序列,生成时频图,此技术为现有技术,在此不做过多赘述。对时频图进行优化包括增加时频图的一阶差分图像和二阶差分图像数据,增加时序变化特征,再进行裁切割,保留低频图像。
模型创建单元用创建的组合网络模型对音频信号的时序进行处理,包括利用网络输入数据对第一网络进行训练,进行特征提取、得到多维特征图;利用多维特征图组建新的特征向量,将所述新的特征向量输入第二网络进行训练,具体的该装置的各个部件在上述实施例中均有详细描述,在此不做过多赘述。
本发明实施例通过创建CNN+RNN的组合网络时序回归模型,对音频信息进行处理,使训练网络的输出为与输入时间序列具有相同长度的回归值序列,并采用图像切割法对音频信息进行优化降噪,且仅在三维图像数据的频率维度做下采样,保证时间不变性,从而更好的实现时间序列的语音数据到对应文本内容及说话者声腔发音动作的映射变换。
与上述实施例对应的,本发明实施例3提供一种基于神经网络的音频信号时序处理系统,参考图3,该系统包括:至少一个处理器和至少一个存储器;
存储器用于存储一个或多个程序指令;
处理器,用于运行一个或多个程序指令,用以执行一种基于神经网络的音频信号时序处理方法。
与上述实施例对应的,本发明实施例4提供一种计算机可读存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行基于神经网络的音频信号时序处理方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、图形处理器(Graphic Processing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific工ntegrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (9)
1.一种基于神经网络的音频信号时序处理方法,其特征在于,所述方法包括:
创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
获取音频信号的时频图,依次平移所述第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与所述第二网络的时间窗口长度相同;
对所述时频图进行优化,得到网络输入数据;
利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;
利用所述多维特征图组建新的特征向量;
将所述新的特征向量输入第二网络进行训练。
2.如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,对所述时频图进行优化的方法包括:将所述时频图、时频图的一阶差分图像和二阶差分图像组成一幅三维图像数据,对所述三维图像数据进行切割。
3.如权利要求2所述的一种基于神经网络的音频信号时序处理方法,其特征在于,所述三维图像数据的横轴为时间维度,竖轴为频率维度,纵轴为特征维度,对所述三维图像数据进行切割的方法包括:平行横轴,沿高频至低频的方向切掉三分之一的频率维度,保留三分之二的低频三维图像数据作为网络输入数据。
4.如权利要求2所述的一种基于神经网络的音频信号时序处理方法,其特征在于,在所述第一网络进行特征提取时,仅在三维图像数据的频率维度做下采样,时间维度保持网络输入数据的时序长度。
5.如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,所述组建新的特征向量的方法包括:
按照时间序列切分所述多维特征图,将不同维度下同一时间戳的特征值组成一个新的特征向量,再将每个新的特征向量按照时间序列先后排列,依次传入第二网络进行训练。
6.如权利要求1所述的一种基于神经网络的音频信号时序处理方法,其特征在于,所述第一网络包括卷积神经网络CNN,所述第二网络包括循环神经网络RNN。
7.一种基于神经网络的音频信号时序处理装置,其特征在于,所述装置包括音频信号优化单元和模型创建单元:
模型创建单元创建组合网络模型,所述组合网络模型包括第一网络和第二网络;
音频信号优化单元获取音频信号的时频图,依次平移第一网络的截取窗口,截取等长度的时频图,截取的时频图长度与第二网络的时间窗口长度相同;并对所述时频图进行优化,得到网络输入数据;
模型创建单元利用所述网络输入数据对第一网络进行训练,并进行特征提取,得到多维特征图;利用所述多维特征图组建新的特征向量;将所述新的特征向量输入第二网络进行训练。
8.一种基于神经网络的音频信号时序处理系统,其特征在于,所述系统包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令被一种基于神经网络的音频信号时序处理系统用于执行如权利要求1-6任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911262324.1A CN110689902B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
US17/623,608 US20220253700A1 (en) | 2019-12-11 | 2020-11-19 | Audio signal time sequence processing method, apparatus and system based on neural network, and computer-readable storage medium |
PCT/CN2020/130053 WO2021115083A1 (zh) | 2019-12-11 | 2020-11-19 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911262324.1A CN110689902B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689902A true CN110689902A (zh) | 2020-01-14 |
CN110689902B CN110689902B (zh) | 2020-07-14 |
Family
ID=69117776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911262324.1A Active CN110689902B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220253700A1 (zh) |
CN (1) | CN110689902B (zh) |
WO (1) | WO2021115083A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
WO2021115083A1 (zh) * | 2019-12-11 | 2021-06-17 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
CN113114400A (zh) * | 2021-04-14 | 2021-07-13 | 中南大学 | 基于时序注意力机制和lstm模型的信号频谱空洞感知方法 |
CN113434422A (zh) * | 2021-06-30 | 2021-09-24 | 青岛海尔科技有限公司 | 虚拟设备的调试方法及装置、虚拟设备的调试系统 |
CN113571075A (zh) * | 2021-01-28 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 音频处理的方法、装置、电子设备和存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021076349A1 (en) * | 2019-10-18 | 2021-04-22 | Google Llc | End-to-end multi-speaker audio-visual automatic speech recognition |
KR102494422B1 (ko) * | 2022-06-24 | 2023-02-06 | 주식회사 액션파워 | Ars 음성이 포함된 오디오 데이터에서 발화 음성을 검출하는 방법 |
CN116304558B (zh) * | 2023-01-19 | 2024-04-02 | 北京未磁科技有限公司 | 癫痫脑磁图棘波检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020035469A1 (en) * | 1999-03-08 | 2002-03-21 | Martin Holzapfel | Method and configuration for determining a descriptive feature of a speech signal |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109872720A (zh) * | 2019-01-29 | 2019-06-11 | 广东技术师范学院 | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 |
CN110223712A (zh) * | 2019-06-05 | 2019-09-10 | 西安交通大学 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
CN106782501B (zh) * | 2016-12-28 | 2020-07-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
US20190348062A1 (en) * | 2018-05-08 | 2019-11-14 | Gyrfalcon Technology Inc. | System and method for encoding data using time shift in an audio/image recognition integrated circuit solution |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN110085251B (zh) * | 2019-04-26 | 2021-06-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声提取方法、人声提取装置及相关产品 |
CN110689902B (zh) * | 2019-12-11 | 2020-07-14 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
-
2019
- 2019-12-11 CN CN201911262324.1A patent/CN110689902B/zh active Active
-
2020
- 2020-11-19 WO PCT/CN2020/130053 patent/WO2021115083A1/zh active Application Filing
- 2020-11-19 US US17/623,608 patent/US20220253700A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020035469A1 (en) * | 1999-03-08 | 2002-03-21 | Martin Holzapfel | Method and configuration for determining a descriptive feature of a speech signal |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109872720A (zh) * | 2019-01-29 | 2019-06-11 | 广东技术师范学院 | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 |
CN110223712A (zh) * | 2019-06-05 | 2019-09-10 | 西安交通大学 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021115083A1 (zh) * | 2019-12-11 | 2021-06-17 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
CN111883091A (zh) * | 2020-07-09 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频降噪方法和音频降噪模型的训练方法 |
CN113571075A (zh) * | 2021-01-28 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 音频处理的方法、装置、电子设备和存储介质 |
CN113114400A (zh) * | 2021-04-14 | 2021-07-13 | 中南大学 | 基于时序注意力机制和lstm模型的信号频谱空洞感知方法 |
CN113114400B (zh) * | 2021-04-14 | 2022-01-28 | 中南大学 | 基于时序注意力机制和lstm模型的信号频谱空洞感知方法 |
CN113434422A (zh) * | 2021-06-30 | 2021-09-24 | 青岛海尔科技有限公司 | 虚拟设备的调试方法及装置、虚拟设备的调试系统 |
CN113434422B (zh) * | 2021-06-30 | 2024-01-23 | 青岛海尔科技有限公司 | 虚拟设备的调试方法及装置、虚拟设备的调试系统 |
Also Published As
Publication number | Publication date |
---|---|
US20220253700A1 (en) | 2022-08-11 |
WO2021115083A1 (zh) | 2021-06-17 |
CN110689902B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689902B (zh) | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 | |
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
CN111247585B (zh) | 语音转换方法、装置、设备及存储介质 | |
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
US20230267665A1 (en) | End-to-end virtual object animation generation method and apparatus, storage medium, and terminal | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
CN111667834B (zh) | 一种助听设备及助听方法 | |
CN111341294A (zh) | 将文本转换为指定风格语音的方法 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
CN115938352A (zh) | 模型的获得方法、口型系数生成方法、装置、设备及介质 | |
CN113724683A (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
WO2020175530A1 (ja) | データ変換学習装置、データ変換装置、方法、及びプログラム | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
CN114387945A (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN116582726B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
US20220165250A1 (en) | Method for changing speed and pitch of speech and speech synthesis system | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
CN113779204B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
US20230047378A1 (en) | Processing accelerator architectures | |
KR100383018B1 (ko) | 실시간 음성 인식에 의한 립싱크 애니메이션 제공 방법 | |
CN114155837A (zh) | 语音识别解码方法、装置、存储介质及计算机设备 | |
CN112927673A (zh) | 一种新型维吾尔语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Neural network-based audio signal timing processing method, device, system, and computer-readable storage medium Effective date of registration: 20230713 Granted publication date: 20200714 Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd. Registration number: Y2023110000278 |