CN113327604A - 一种超短语音语种识别方法 - Google Patents

一种超短语音语种识别方法 Download PDF

Info

Publication number
CN113327604A
CN113327604A CN202110752462.9A CN202110752462A CN113327604A CN 113327604 A CN113327604 A CN 113327604A CN 202110752462 A CN202110752462 A CN 202110752462A CN 113327604 A CN113327604 A CN 113327604A
Authority
CN
China
Prior art keywords
input
speech
neural network
voice signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110752462.9A
Other languages
English (en)
Inventor
缪蔚
刘俊南
魏欣
王化
齐心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innomicro Technology Tianjin Co Ltd
Original Assignee
Innomicro Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innomicro Technology Tianjin Co Ltd filed Critical Innomicro Technology Tianjin Co Ltd
Priority to CN202110752462.9A priority Critical patent/CN113327604A/zh
Publication of CN113327604A publication Critical patent/CN113327604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种超短语音语种识别方法,所述方法包括步骤:输入语音信号;对所述输入语音信号进行预处理;对所述输入语音信号进行特征提取;使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别。本发明提出一种超短语音语种识别方法,提供更高的响应速度以及在短语音上的识别精度,本发明使用多路时延神经网络作为主要结构,每路卷积神经网络使用不同的卷积核心,提供不同的感受野抽取特征,在深度特征上进行融合,本发明提升了模型识别精度,减小了模型参数,可应用与1s的超短语音,可快速响应。

Description

一种超短语音语种识别方法
技术领域
本发明属于语音识别技术领域,具体涉及一种超短语音语种识别方法。
背景技术
伴随着模式识别、深度学习等技术的发展,人机信息交互也逐渐进化,从传统的指令交互到自然语言交互,语音识别作为人机交互领域的关键技术受到了极大的重视并体现出较大的实用价值。按照形式可将语音划分为与字词信息相关、与语段内容相关的语音识别系统、与语段中所蕴含说话人身份相关的说话人识别系统及与语段所属语言种类相关的语种识别系统。
语种识别系统作为其他语音识别系统的前端处理,需要更快的响应速度和识别精度。目前,语种识别领域中时长大于10s的长语段的识别准确率已经足够好,但是当语音段时长下降,语种识别性能明显下降,提高响应速度对语种识别技术提出了更高的要求。
传统的基于统计模型的全差异空间分析i-vector方法和基于音素语言模型的PRLM方法在短语音识别中无法满足识别性能的要求,基于神经网络模型发展起来的端到端方案在当前语音识别领域获得了广泛的关注,有着极好的发展前景,随着深度学习技术的发展,使用深度学习进行语种识别的方案不断涌现包括使用长短时记忆神经网络(LongShort Time Memory Net,LSTM)、时延神经网络(Time Delay Net,TDNN)等作为模型主体进行语种识别,或者使用可解释网络进行声纹识别的SincNet网络等。
发明内容
为解决上述问题,本发明提供了一种超短语音语种识别方法,所述方法包括步骤:
输入语音信号;
对所述输入语音信号进行预处理;
对所述输入语音信号进行特征提取;
使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别。
优选地,所述所述对所述输入语音信号进行预处理包括步骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
优选地,所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
优选地,所述将所述输入语音信号分割为预设长度的有效语音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
优选地,所述对所述输入语音信号进行特征提取包括步骤:
获取特征模型;
获取特征和输入维度;
获取序列长度;
根据所述输入维度和所述序列长度将所述特征输入所述特征模型中;
获取所述特征模型的输出。
优选地,所述使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别包括步骤:
获取残差时延神经网络模型和八度一维卷积神经网络层;
将所述残差时延神经网络模型作为主要结构单元;
将所述八度一维卷积神经网络层作为辅助结构单元;
对输入特征维度进行变换;
将d-vector经过2层全连接层进行维度变换;
得到各个语种对应的概率打分。
本发明提出一种超短语音语种识别方法,提供更高的响应速度以及在短语音上的识别精度,本发明使用多路时延神经网络作为主要结构,每路卷积神经网络使用不同的卷积核心,提供不同的感受野抽取特征,在深度特征上进行融合,本发明提升了模型识别精度,减小了模型参数,可应用与1s的超短语音,可快速响应。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种超短语音语种识别方法的流程示意图;
图2是本发明中音频预处理切分方法流程示意图
图3是本发明中ResidualTDNN模块示意图;
图4是本发明中图像信号的高低频信号分量示意图;
图5是本发明中OctaveConv1d模块计算示意图;
图6是本发明中深度网络模型整体结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-6,在本申请实施例中,本发明提供了一种超短语音语种识别方法,所述方法包括步骤:
S1:输入语音信号;
S2:对所述输入语音信号进行预处理;
在本申请实施例中,所述所述对所述输入语音信号进行预处理包括步骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
在本申请实施例中,当对所述输入语音信号进行预处理时,具体地,首先对所述输入语音信号进行降噪处理,并基于信噪比SNR对所述输入语音信号进行静音检测处理,然后将所述输入语音信号分割为预设长度的有效语音。
在本申请实施例中,所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
在本申请实施例中,所述将所述输入语音信号分割为预设长度的有效语音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
S3:对所述输入语音信号进行特征提取;
在本申请实施例中,所述对所述输入语音信号进行特征提取包括步骤:
获取特征模型;
获取特征和输入维度;
获取序列长度;
根据所述输入维度和所述序列长度将所述特征输入所述特征模型中;
获取所述特征模型的输出。
在本申请实施例中,当对语音段进行特征提取时,可以使用短时频域特征MFCC(梅尔谱系数特征)、FilterBank(滤波器组特征)、FFT(频率谱特征)特征,基于深度学习的DBF(深度瓶颈层特征)、PLLR(因素对数似然比特征)等特征,可解释的SincNet神经网络特征,长时包络信号特征FDLP(频域线性预测系数)等。得到输入到模型中特征Feat,输入维度Ffeat和具体特征相关,序列长度为Ntime。
S4:使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别。
在本申请实施例中,所述使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别包括步骤:
获取残差时延神经网络模型和八度一维卷积神经网络层;
将所述残差时延神经网络模型作为主要结构单元;
将所述八度一维卷积神经网络层作为辅助结构单元;
对输入特征维度进行变换;
将d-vector经过2层全连接层进行维度变换;
得到各个语种对应的概率打分。
在本申请实施例中,使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别具体包括如下步骤:
选用残差时延神经网络模型(Residual Time Delay Neural Network,ResidualTDNN)作为主要结构单元:
具体步骤为:输入为序列特征X,用TDNN+PRelu+TDNN形式的模块对X进行变换,得到新序列特征Xresidual;将X和Xresidual相加,再经过一次PRelu,得到新特征序列Xnew;
选用八度1维卷积神经网络层OctaveConv1d作为辅助结构单元;
具体步骤为:输入序列特征X_h(高频特征分量)维度为F_h,X_l(低频特征分量,若不存在为空)维度为F_l,(F_h==2*F_l);使用avgpool(在序列维度上下采样1/2),降低序列特征X_h的数据频率,然后使用一层TDNN(high2low),将X_h变换为X_h2l(高频到低频变换特征),特征维度不变,序列维度变为1/2F_l;使用一层TDNN(high2high),对X_h进行变换得到X_h2h(高频到高频变换特征),特征维度不变,序列维度不变F_h;使用一层TDNN(low2high),对X_l进行变换,然后经过插值上采样变换提升频率得到X_l2h(低频到低频高换特征),特征维度不变,序列维度变为2倍F_h;使用一层TDNN(low2low),对X_l进行变换得到X_l2l(低频到低频变换特征),特征维度不变,序列维度不变F_l;如果输入不存在低频分量特征:
X_h_new=X_h2h,X_l_new=X_h2l。
否则:
X_h_new=X_h2h+X_l2h,X_l_new=X_l2l+X_h2l。
得到新的高低频特征分量X_h_new,X_l_new。
输入特征维度变换,输入特征Feat根据所选用特征不同,得到的特征维度也不相同,使用一层TDNN网络将维度Ffeat变换为固定维度Finput,得到浅层特征Feat0。
将d-vector经过2层全连接层进行维度变换,变换为目标语种个数ClassCnt,经过softmax层,得到属于各个语种的概率打分P。
在本申请实施例中,多路差异感受野卷积神经网络包括:第一路小感受野卷积路径,使用ResidualTDNN作为基本单元,堆叠Nsmall(10-60)次,选用序列维度上卷积宽度为3,将输入浅层特征Feat0变换为深度特征Featsmall,维度保持不变Finput;第二路大感受野卷积路径,使用ResidualTDNN作为基本单元,堆叠Nbig(Nsmall的一般)次,选用序列维度上卷积宽度为9,将输入浅层特征Feat0变换为深度特征Featbig,维度保持不变Finput;第三路八度融合感受野卷积路径,使用OctaveConv1d作为基本单元,堆叠Nbig次,选用序列维度上卷积宽度为5,将输入浅层特征Feat0变换为深度特征Featoctave,维度保持不变Finput。
在本申请实施例中,多路深度特征融合具体步骤为:将三路不同感受野得到的深度特征进行特征维度上的拼接,得到序列长度不变Ntime,特征维度为Finput*3;经过一层TDNN,将特征维度变换为Ffusion(512-2048);经过MultiheadAttention,head=8,hidden_size=64,得到便函后特征Featatt输出维度为Fatt;提取向向量表示,对Featatt在序列维度上进行均值和方差向量提取,然后拼接,得到d-vector,维度为Fd(2xFatt)。
本发明提出一种超短语音语种识别方法,提供更高的响应速度以及在短语音上的识别精度,本发明使用多路时延神经网络作为主要结构,每路卷积神经网络使用不同的卷积核心,提供不同的感受野抽取特征,在深度特征上进行融合,本发明提升了模型识别精度,减小了模型参数,可应用与1s的超短语音,可快速响应。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种超短语音语种识别方法,其特征在于,所述方法包括步骤:
输入语音信号;
对所述输入语音信号进行预处理;
对所述输入语音信号进行特征提取;
使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别。
2.根据权利要求1所述的超短语音语种识别方法,其特征在于,所述所述对所述输入语音信号进行预处理包括步骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
3.根据权利要求2所述的极短语音语种识别特征提取方法,其特征在于,所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
4.根据权利要求2所述的极短语音语种识别特征提取方法,其特征在于,所述将所述输入语音信号分割为预设长度的有效语音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
5.根据权利要求1所述的极短语音语种识别特征提取方法,其特征在于,所述对所述输入语音信号进行特征提取包括步骤:
获取特征模型;
获取特征和输入维度;
获取序列长度;
根据所述输入维度和所述序列长度将所述特征输入所述特征模型中;
获取所述特征模型的输出。
6.根据权利要求1所述的极短语音语种识别特征提取方法,其特征在于,所述使用多路差异感受野卷积神经网络模型对所述输入语音信号进行识别包括步骤:
获取残差时延神经网络模型和八度一维卷积神经网络层;
将所述残差时延神经网络模型作为主要结构单元;
将所述八度一维卷积神经网络层作为辅助结构单元;
对输入特征维度进行变换;
将d-vector经过2层全连接层进行维度变换;
得到各个语种对应的概率打分。
CN202110752462.9A 2021-07-02 2021-07-02 一种超短语音语种识别方法 Pending CN113327604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752462.9A CN113327604A (zh) 2021-07-02 2021-07-02 一种超短语音语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752462.9A CN113327604A (zh) 2021-07-02 2021-07-02 一种超短语音语种识别方法

Publications (1)

Publication Number Publication Date
CN113327604A true CN113327604A (zh) 2021-08-31

Family

ID=77425724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752462.9A Pending CN113327604A (zh) 2021-07-02 2021-07-02 一种超短语音语种识别方法

Country Status (1)

Country Link
CN (1) CN113327604A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN111627419A (zh) * 2020-05-09 2020-09-04 哈尔滨工程大学 一种基于水下目标及环境信息特征的声音生成方法
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法
CN111696572A (zh) * 2019-03-13 2020-09-22 富士通株式会社 语音分离装置、方法及介质
CN112489677A (zh) * 2020-11-20 2021-03-12 平安科技(深圳)有限公司 基于神经网络的语音端点检测方法、装置、设备及介质
CN112614493A (zh) * 2020-12-04 2021-04-06 珠海格力电器股份有限公司 声纹识别方法、系统、存储介质及电子设备
CN112863521A (zh) * 2020-12-24 2021-05-28 哈尔滨理工大学 一种基于互信息估计的说话人识别方法
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
WO2021107695A1 (en) * 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696572A (zh) * 2019-03-13 2020-09-22 富士通株式会社 语音分离装置、方法及介质
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
WO2021107695A1 (en) * 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法
CN111627419A (zh) * 2020-05-09 2020-09-04 哈尔滨工程大学 一种基于水下目标及环境信息特征的声音生成方法
CN112489677A (zh) * 2020-11-20 2021-03-12 平安科技(深圳)有限公司 基于神经网络的语音端点检测方法、装置、设备及介质
CN112614493A (zh) * 2020-12-04 2021-04-06 珠海格力电器股份有限公司 声纹识别方法、系统、存储介质及电子设备
CN112863521A (zh) * 2020-12-24 2021-05-28 哈尔滨理工大学 一种基于互信息估计的说话人识别方法

Similar Documents

Publication Publication Date Title
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
US20060053009A1 (en) Distributed speech recognition system and method
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111599344B (zh) 一种基于拼接特征的语种识别方法
CN112397054B (zh) 一种电力调度语音识别方法
CN113192535B (zh) 一种语音关键词检索方法、系统和电子装置
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN115331656A (zh) 非指令语音的拒识方法、车载语音识别系统及汽车
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
Kenai et al. A new architecture based VAD for speaker diarization/detection systems
CN113327604A (zh) 一种超短语音语种识别方法
CN108597497B (zh) 一种字幕语音精准同步系统及方法、信息数据处理终端
CN116230020A (zh) 一种语音情感识别分类方法
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
Sawakare et al. Speech recognition techniques: a review
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置
Yu et al. Wake Word Detection Based on Res2Net
Marchetto et al. An automatic speaker recognition system for intelligence applications
CN107039046A (zh) 一种基于特征融合的语音声效模式检测方法
Guntur Feature extraction algorithms for speaker recognition system and fuzzy logic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination