CN113270089A - 语音重采样方法及装置 - Google Patents
语音重采样方法及装置 Download PDFInfo
- Publication number
- CN113270089A CN113270089A CN202110537780.3A CN202110537780A CN113270089A CN 113270089 A CN113270089 A CN 113270089A CN 202110537780 A CN202110537780 A CN 202110537780A CN 113270089 A CN113270089 A CN 113270089A
- Authority
- CN
- China
- Prior art keywords
- radio station
- voice
- rescnn
- frequency spectrum
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012952 Resampling Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 80
- 238000005070 sampling Methods 0.000 claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000011084 recovery Methods 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001831 conversion spectrum Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音重采样方法及装置,方法包括将电台语音转换成非电台语音,以及将非电台语音转换为电台语音,其中将电台语音转换成非电台语音,包括步骤:对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,第二采样率大于第一采样率。采用洗数据方式,实现8k电台语音转换为16k非电台语音,采样率更高,声音更清晰识别率更高,同时可实现非电台语音转换为电台语音,减少标定数据的成本。
Description
技术领域
本发明涉及电台语音转换识别技术领域,尤其涉及一种语音重采样方法及装置。
背景技术
相同的声音若由不同信道采集后,声音差距很大。比如,现有开源语音训练数据是采用麦克风录制,采样率为16K或44.1K;而电台语音数据是通过电台录制,采用率为8K。因此,相同的声音,通过麦克风、电台录制,声色完全不一样,区别巨大。现有的语音识别模型都采用麦克风或者手机录制的数据进行训练产生,对电台产生的语音识别率非常低;若是重新电台语音数据做标定训练。但标定语音数据成本太高,100小时的标定都要上几十万,训练需要上千小时的数据。
发明内容
针对上述现有技术不足,本申请提供一种语音重采样方法及装置,用于电台语音和非电台语音的相互转换,采用洗数据方式,实现8k电台语音转换为16k非电台语音,采样率更高,声音更清晰识别率更高,同时可实现非电台语音转换为电台语音,减少标定数据的成本。
为了实现本发明的目的,拟采用以下方案:
一种语音重采样方法,包括将电台语音转换成非电台语音;
将电台语音转换成非电台语音,包括步骤:
对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;
对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,第二采样率大于第一采样率。
进一步,SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;
多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。
第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。
进一步,语音重采样方法,还包括将非电台语音转电台语音;
将非电台语音转电台语音,包括步骤:
通过声卡一播发非电台语音,并经声卡一的音频输出通道传输给无线发射电台,以使无线发射电台发送语音;
通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音,完成重采样。
一种语音重采样装置,包括:
傅里叶变换模块,用于对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
信道转换模块,用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;
相位恢复模块,用于对N个第二频谱进行相位恢复;
傅里叶逆变换模块,用于对相位恢复后的第二频谱进行傅里叶逆变换,得到第二采样率的非电台语音音频文件。
进一步,信道转换模块包括SSGAN深度学习网络,SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;
多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。
第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。
进一步,语音重采样装置,还包括:PC机以及与PC机分别连接的声卡一、声卡二,用于将非电台语音转换为电台语音;
PC机,用于在声卡一播发非电台语音;
声卡一,用于通过其音频输出通道将播发的非电台语音传输给无线发射电台,以使无线发射电台发送语音;
声卡二,用于将无线接收电台收到的接收语音通过音频输入通道进行采集;
PC机,还用于对声卡二采集的语音进行保存。
一种电子设备,包括:至少一个处理器和存储器;其中,存储器存储有计算机执行指令;在至少一个处理器执行存储器存储的计算机执行指令时,使得至少一个处理器执行语音重采样方法。
一种计算机可读存储介质,其上存储有计算机程序,在计算机程序被处理器运行时控制存储介质所在设备执行语音重采样方法。
本发明的有益效果:
1、本申请的应用,可以将低采样率电台语音转换为高采样率非电台语音,如8K电台语音转为16K麦克风语音,从而让电台的语音听得更清晰、也使得电台的语音识别率变高;本申请的应用,还可以实现非电台语音转电台语音,可以减少标定数据的成本;
2、传统方式8k采样率语音无法还原为16k,在8-16k频段的信息已经缺失了,本申请通过短时傅里叶变换、SSGAN网络进行信道转换、相位恢复、傅里叶逆变换,实现电台语音向非电台语音的转换,在8-16k频段的信息不会缺失,Pesq增益10.928db;
3、本通过的SSGAN网络采用多个第一RESCNN残差网络块、上采样模块、及多个第二RESCNN残差网络块的组合,且每个第一/第二RESCNN残差网络块包括3层CNN+Normalization网络,通过此种方式进行信道转换,Pesq增益(10.928db)、识别率提升0.513%。
附图说明
本文描述的附图只是为了说明所选实施例,而不是所有可能的实施方案,更不是意图限制本发明的范围。
图1示出了本申请实施例的电台语音转非电台语音流程图。
图2示出了本申请实施例的SSGAN深度学习网络进行信道转换的流程图。
图3示出了本申请实施例的第一RESCNN残差网络块结构示意图。
图4示出了本申请实施例的第二RESCNN残差网络块结构示意。
图5示出了本申请实施例的非电台语音转电台语音流程图。
图6示出了本申请实施例的电台语音转非电台语音装置结构图。
图7示出了本申请实施例的非电台语音转电台语音装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图对本发明的实施方式进行详细说明,但本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本实例的一个方面,提供一种语音重采样方法,包括将电台语音转为非电台语音,和/或,将非电台语音转为电台语音。非电台语音为麦克风语音,也可以是对讲机语音等。
如图1所示,为本实例的语音重采样方法,用于将电台语音转换成非电台语音的步骤:
首先,对8K采样率电台语音进行短时傅里叶变换,获得N*128频谱图;
然后,将N*128频谱图输入到SSGAN深度学习网络进行信道转换,获得N*256的频谱图;
然后,对N*256的频谱图进行相位恢复;
然后,再进行傅里叶逆变换,得到16K采样率的非电台语音音频文件。
通过上述方法第可以将8k的电台语音通过16K非电台语音重采样后,声音会变得更清晰;且重采样以后16k的语音文件,用于语音训练或者语音识别、识别率将会高于8K的语音识别率。
其中,将N*128频谱图输入到SSGAN深度学习网络进行信道转换时,通过如图2所示的流程,其中SSGAN深度学习网络采用17个RESCNN残差网络块;其中,前3个为RESCNN128残差网络块,后14个为RESCNN256残差网络块,中间设有一个上采样模块。
如图3所示,第一RESCNN残差网络块包括3层CNN+Normalization网络。
如图4所示,第二RESCNN残差网络块包括3层CNN+Normalization网络。
每个第一RESCNN残差网络块的第1层CNN+Normalization网络,用于对N*128频谱图进行信道转换处理,得到N*128一级转换频谱;
每个第一RESCNN残差网络块第2层CNN+Normalization网络,用于对N*128频谱图和N*128一级转换频谱结合进行信道转换处理,得到N*128二级转换频谱;
每个第一RESCNN残差网络块第3层CNN+Normalization网络,用于对N*128频谱图、N*128一级转换频谱、N*128二级转换频谱结合进行信道转换处理,得到N*128频谱图。
3个第一RESCNN残差网络块依次进行3次上述处理,输出N*128频谱图。
上采样模块用于对3个第一RESCNN残差网络块处理后得到的N*128频谱图进行上采样,获得N*256频谱图。
每个第二RESCNN残差网络块的第1层CNN+Normalization网络,用于对N*256频谱图进行信道转换处理,得到N*256一级转换频谱;
每个第二RESCNN残差网络块第2层CNN+Normalization网络,用于对N*256频谱图和N*256一级转换频谱结合进行信道转换处理,得到N*256二级转换频谱;
每个第二RESCNN残差网络块第3层CNN+Normalization网络,用于对N*256频谱图、N*256一级转换频谱、N*256二级转换频谱结合进行信道转换处理,得到N*256频谱图。
14个第二RESCNN残差网络块依次进行14次上述处理,输出N*256频谱图。
通过本实例进行将电台语音转换成非电台语音,可以达到Pesq增益10.928db、识别率会提升0.513%
如图5所示,为本实例的语音重采样方法,用于将非电台语音转换成电台语音的步骤:
首先,通过声卡一播发非电台语音,并经声卡一的音频输出通道传输给无线发射电台,以使无线发射电台发送语音;
通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音,完成重采样。
本实例的另一个方面,提供一种语音重采样装置,其包括两部分,一部分用于将电台语音转换成非电台语音,另一部分用于非电台语音转换成电台语音。非电台语音为麦克风语音,也可以是对讲机语音等。
如图6所示,本实例的语音重采样装置一部分,包括依次连接的傅里叶变换模块、信道转换模块、相位恢复模块、傅里叶逆变换模块。其中,信道转换模块采用SSGAN深度学习网络,SSGAN深度学习网络采用17个RESCNN残差网络块;每一个RESCNN残差网络块包括3层CNN+Normalization网络。
傅里叶变换模块对8K采样率电台语音进行短时傅里叶变换,获得N*128频谱图;信道转换模块将N*128频谱图输入到SSGAN深度学习网络进行信道转换,获得N*256频谱图;相位恢复模块对N*256频谱图进行相位恢复;傅里叶逆变换模块对相位恢复后的频谱进行傅里叶逆变换,得到16K采样率的非电台语音音频文件。
如图7所示,本实例的语音重采样装置另一部分,包括PC机、声卡一和声卡二。PC机分别连接的声卡一、声卡二,声卡一连接无线发射电台,声卡二连接无线接收电台。
非电台语音转为电台语音的方式为:
PC机在声卡一播发非电台语音;声卡一通过其音频输出通道将播发的非电台语音传输给无线发射电台,以使无线发射电台发送语音;声卡二将无线接收电台收到的接收语音通过音频输入通道进行采集;PC机对声卡二采集的语音进行保存。
本实例的另一个方面,提供一种电子设备,其包括至少一个处理器和存储器;其中,存储器存储有计算机执行指令;在至少一个处理器执行存储器存储的计算机执行指令时,使得至少一个处理器执行如本实例的语音重采样方法。
本实例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,在计算机程序被处理器运行时控制存储介质所在设备执行如本实例的语音重采样方法。
以上仅为本发明的优选实施例,并不表示是唯一的或是限制本发明。本领域技术人员应理解,在不脱离本发明的范围情况下,对本发明进行的各种改变或同等替换,均属于本发明保护的范围。
Claims (10)
1.一种语音重采样方法,其特征在于,包括将电台语音转换成非电台语音;
所述将电台语音转换成非电台语音,包括步骤:
对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;
对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,所述第二采样率大于第一采样率。
2.根据权利要求1所述的语音重采样方法,其特征在于:所述SSGAN深度学习网络,包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;
多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。
3.根据权利要求2所述的语音重采样方法,其特征在于,其特征在于,第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。
4.根据权利要求1所述的语音重采样方法,其特征在于,还包括将非电台语音转电台语音;
所述将非电台语音转电台语音,包括步骤:
通过声卡一播发非电台语音,并经声卡一的音频输出通道传输给无线发射电台,以使无线发射电台发送语音;
通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音,完成重采样。
5.一种语音重采样装置,其特征在于,包括:
傅里叶变换模块,用于对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
信道转换模块,用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;
相位恢复模块,用于对N个第二频谱进行相位恢复;
傅里叶逆变换模块,用于对相位恢复后的第二频谱进行傅里叶逆变换,得到第二采样率的非电台语音音频文件;
其中,所述第二采样率大于第一采样率。
6.根据权利要求5所述的语音重采样装置,其特征在于,信道转换模块包括SSGAN深度学习网络,SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;
多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。
7.根据权利要求6所述的语音重采样装置,其特征在于,第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。
8.根据权利要求6所述的语音重采样装置,其特征在于,还包括:PC机以及与PC机分别连接的声卡一、声卡二;
PC机,用于在声卡一播发非电台语音;
声卡一,用于通过其音频输出通道将播发的非电台语音传输给无线发射电台,以使无线发射电台发送语音;
声卡二,用于将无线接收电台收到的接收语音通过音频输入通道进行采集;
PC机,还用于对声卡二采集的语音进行保存。
9.一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;其特征在于,在所述至少一个处理器执行所述存储器存储的计算机执行指令时,使得所述至少一个处理器执行如权利要求1~4中任意一项所述的语音重采样方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1~4中任意一项所述的语音重采样方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110537780.3A CN113270089A (zh) | 2021-05-18 | 2021-05-18 | 语音重采样方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110537780.3A CN113270089A (zh) | 2021-05-18 | 2021-05-18 | 语音重采样方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113270089A true CN113270089A (zh) | 2021-08-17 |
Family
ID=77231357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110537780.3A Pending CN113270089A (zh) | 2021-05-18 | 2021-05-18 | 语音重采样方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270089A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
-
2021
- 2021-05-18 CN CN202110537780.3A patent/CN113270089A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101122636B (zh) | 声音到达方向的估测方法以及声音到达方向的估测设备 | |
CN111370032B (zh) | 语音分离方法、系统、移动终端及存储介质 | |
EP3252767B1 (en) | Voice signal processing method, related apparatus, and system | |
MXPA02002811A (es) | Sistema y metodo para transmitir entrada de voz desde un sitio remoto sobre un canal. | |
CN113612808B (zh) | 音频处理方法、相关设备、存储介质及程序产品 | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN113035207B (zh) | 音频处理方法及装置 | |
US10200134B2 (en) | Communications systems, methods and devices having improved noise immunity | |
CN113270089A (zh) | 语音重采样方法及装置 | |
US20230245668A1 (en) | Neural network-based audio packet loss restoration method and apparatus, and system | |
CN107391498B (zh) | 语音翻译方法和装置 | |
CN116206592A (zh) | 一种语音克隆方法、装置、设备及存储介质 | |
CN104540084A (zh) | 一种立体声语音通信方法及系统 | |
CN115831138A (zh) | 一种音频信息处理方法、装置和电子设备 | |
US20240105198A1 (en) | Voice processing method, apparatus and system, smart terminal and electronic device | |
CN112367125B (zh) | 信息传输方法、装置、通信设备和计算机可读存储介质 | |
CN112261214A (zh) | 网络语音通信自动化测试方法及系统 | |
CN110213452B (zh) | 一种智能头盔系统及运作方法 | |
CN207676652U (zh) | 一种多路语音信号传输和接收处理设备及系统 | |
CN101930745B (zh) | 一种在ip语音通信中消除回声的方法和设备 | |
RU2802279C1 (ru) | Способ улучшения речевого сигнала с низкой задержкой, вычислительное устройство и считываемый компьютером носитель, реализующий упомянутый способ | |
CN114093380B (zh) | 一种语音增强方法、电子设备、芯片系统及可读存储介质 | |
CN107886966A (zh) | 终端及其优化语音命令的方法、存储装置 | |
Bao et al. | Lightweight Dual-channel Target Speaker Separation for Mobile Voice Communication | |
CN115862650A (zh) | 神经网络实现的降噪方法及训练方法、装置、设备、芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210817 |