CN113838459A - 一种基于脉冲神经网络聚合标签学习的语音识别方法 - Google Patents

一种基于脉冲神经网络聚合标签学习的语音识别方法 Download PDF

Info

Publication number
CN113838459A
CN113838459A CN202111412834.XA CN202111412834A CN113838459A CN 113838459 A CN113838459 A CN 113838459A CN 202111412834 A CN202111412834 A CN 202111412834A CN 113838459 A CN113838459 A CN 113838459A
Authority
CN
China
Prior art keywords
pulse
neural network
threshold
neuron
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111412834.XA
Other languages
English (en)
Inventor
燕锐
张马路
吴冀彬
王笑
潘纲
唐华锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Zhejiang Lab
Original Assignee
Zhejiang University of Technology ZJUT
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Zhejiang Lab filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111412834.XA priority Critical patent/CN113838459A/zh
Publication of CN113838459A publication Critical patent/CN113838459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音信号处理领域,尤其涉及一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:步骤1:将快速时变的语音信号编码成为脉冲序列;步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果。本发明实现方法简单,充分利用脉冲神经网络强大的时序信息处理能力和低功耗的特性,可以实时、准确的识别语音信号。

Description

一种基于脉冲神经网络聚合标签学习的语音识别方法
技术领域
本发明涉及语音信号处理领域,尤其涉及一种基于脉冲神经网络聚合标签学习的语音识别方法。
背景技术
智能语音被誉为人工智能皇冠上的“明珠”,随着深度学习技术的突破,大数据技术以及自然语言理解能力的提升,带动了一波产业热潮,除了在教育、客服、电信等传统行业之外,还开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。目前,国内外几乎所有的科技巨头都相继进入了智能语音市场,国外有IBM的Watson、Google Now、苹果的Siri、微软的Cortana、Facebook的Message Platform、亚马逊的Aleax等,国内有阿里的天猫精灵、百度的度秘、腾讯的微信语音,以及科大讯飞、华为、小米、云知声、依图等基于深度神经网络技术的智能语音技术和产品。但是,随着用户需求的快速增长,基于深度网络模型的智能语音系统的弊端逐渐暴露出来,并且集中体现在以下三个方面:计算量大且设备功耗高,难以满足用户的实时性要求,基于云计算的语音服务难以保护用户隐私及数据安全。
脉冲神经网络作为类脑计算的核心领域,被誉为“第三代神经网络模型”,它能够有效模拟生物神经元之间信息随时间连续传递的动力系统。它的脉冲信息传递机制恰好可以弥补深度学习在模拟时间特性上的缺陷。此外,与传统的人工神经网络ANN相比,脉冲神经网络以异步的、事件驱动的方式进行工作,更易于在硬件上实现分布式计算与信息存储,具有低功耗和强大的时序信号处理能力。研究人员初步探索了基于脉冲神经网络SNN的智能语音处理模型并希望逐步改善现有语音信息处理系统所面临的问题。比如用自组织映射SOM先对原始音频数据提取特征,然后再进行脉冲编码,进而利用SNN网络对不同的语音信号进行分类。虽然基于SNN的智能语音识别有了初步的成果,但是目前所利用的SNN编码效果不好,学习算法低效,不能处理真实环境中复杂的语音数据。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于脉冲神经网络聚合标签学习的语音识别方法,其具体技术方案如下:
一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:
步骤1:将快速时变的语音信号编码成为脉冲序列;
步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果。
进一步的,所述步骤1通过以下子步骤来实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息,具体的,设每一长度为
Figure DEST_PATH_IMAGE001
的帧窗中的频谱采样能量为
Figure 52654DEST_PATH_IMAGE002
,则每个帧的频谱能 量为
Figure DEST_PATH_IMAGE003
,则得到频谱图;然后,利用大脑听觉系统的采样机制,对于该频谱图进 行频域遮掩和时域遮掩;
(1.2)对于频谱图的M条频带,每一条频带的能量曲线都被单独编码成脉冲模式,当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲,而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,获得一个有效的稀疏时间脉冲模式。
进一步的,所述步骤(1.3)具体为:
每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值,此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲,因此,对于每一段语音信号,使用(15×2 + 1)×M个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
进一步的,所述步骤2通过以下子步骤来实现:
(2.1)如果当前的输出神经元和输入模式不对应且实际输出的脉冲个数大于目标 的输出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值,在该阈值的情况 下,找到最后一个脉冲发放的时间,并且构建误差函数
Figure 828849DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE005
是在
Figure 405324DEST_PATH_IMAGE006
时 刻的膜电压,
Figure DEST_PATH_IMAGE007
是激发脉冲的阈值;然后利用梯度下降的算法对权重进行更新
Figure 659588DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE009
为学习率,
Figure 270698DEST_PATH_IMAGE010
是突触的权重;
(2.2)如果当前的输出神经元和输入模式对应且实际输出的脉冲个数小于目标的 输出个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值,在该阈值的情况下, 找到阈下膜电压的最大值,并且构建误差函数
Figure DEST_PATH_IMAGE011
,其中
Figure 421057DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
时刻的膜 电压,
Figure 750407DEST_PATH_IMAGE007
是激发脉冲的阈值,在然后利用梯度下降的算法对权重进行更新
Figure 480465DEST_PATH_IMAGE014
,其中
Figure DEST_PATH_IMAGE015
为学习率,
Figure 211661DEST_PATH_IMAGE010
是突触的权重。
进一步的,所述步骤3通过以下子步骤来实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
本发明的优点:
本发明实现方法简单,充分利用脉冲神经网络强大的时序信息处理能力和低功耗的特性,可以实时、准确的识别语音信号。
附图说明
图1是本发明实施例的语音信号编码流程中的原始语音信号经过CQT耳蜗滤波器组之后的频谱图示意图;
图2是本发明实施例的语音信号编码流程中的经过频率掩码和时域掩码后的频谱图示意图;
图3是本发明实施例的语音信号编码流程中的单个频带的编码过程示意图;
图4是本发明实施例的语音信号编码流程中的单个频带的脉冲编码结构示意图;
图5是本发明采用聚合标签学习算法的当实际输出的脉冲个数大于目标的输出个数时的膜电压变化曲线示意图;
图6是本发明采用聚合标签学习算法的当实际输出的脉冲个数小于目标的输出个数时的膜电压变化曲线示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
一种基于脉冲神经网络聚合标签学习的语音识别方法,包括以下步骤:
步骤1:如图1-4所示,将快速时变的语音信号编码成为脉冲序列;
具体的,通过以下子步骤实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取 得到频谱信息。本发明实施例中使用20个耳蜗滤波器,频率范围从200赫兹到8000赫兹,采 样率 16000 赫兹。假设每一长度为
Figure 736183DEST_PATH_IMAGE001
的帧窗中的频谱采样能量为
Figure 21671DEST_PATH_IMAGE002
,则每个帧的频谱能量
Figure 493104DEST_PATH_IMAGE016
Figure 344385DEST_PATH_IMAGE003
,这样就得到了频谱图;继而利用大脑听觉系统的采样机制,对于该频谱 图进行频域遮掩和时域遮掩,提高编码效率;
(1.2)对于频谱图的 20 条频带,每一条频带的能量曲线都被单独编码成脉冲模式。当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲。而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值;此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲。因此,对于每一段语音信号,使用(15×2 + 1)×20 = 620个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
步骤2:采用聚合标签学习算法训练双层脉冲神经网络;
具体的,通过以下子步骤实现:
(2.1)如图5所示,如果当前的输出神经元和输入模式不对应且实际输出的脉冲个 数大于目标的输出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值。在该 阈值的情况下,找到最后一个脉冲发放的时间,并且构建误差函数
Figure 508650DEST_PATH_IMAGE004
。其中,
Figure 281434DEST_PATH_IMAGE005
是在
Figure 87716DEST_PATH_IMAGE006
时刻的膜电压,
Figure 262345DEST_PATH_IMAGE007
是激发脉冲的阈值。然后利用梯度下降的算法对权重进行更 新
Figure 128670DEST_PATH_IMAGE008
,其中
Figure 388750DEST_PATH_IMAGE009
为学习率,
Figure 998723DEST_PATH_IMAGE010
是突触的权重。
(2.2)如图6所示,如果当前的输出神经元和输入模式对应且实际输出的脉冲个数 小于目标的输出个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值。在该阈 值的情况下,找到阈下膜电压的最大值,并且构建误差函数
Figure 27859DEST_PATH_IMAGE011
。其中
Figure 330665DEST_PATH_IMAGE012
Figure 812461DEST_PATH_IMAGE013
时刻的膜电压,
Figure 226125DEST_PATH_IMAGE007
是激发脉冲的阈值。在然后利用梯度下降的算法对权重进行更新
Figure 109768DEST_PATH_IMAGE014
,其中
Figure 583474DEST_PATH_IMAGE015
为学习率,
Figure 552567DEST_PATH_IMAGE010
是突触的权重。
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果;
具体的,通过以下子步骤实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,包括以下步骤:
步骤1:将快速时变的语音信号编码成为脉冲序列;
步骤2:采用基于动态阈值的聚合标签学习算法训练双层脉冲神经网络;
步骤3:将测试语音输入到训练后的脉冲神经网络,对输出神经元进行解码得到识别结果;所述步骤3通过以下子步骤来实现:
(3.1)如果有输出神经元发放脉冲,则选择发放脉冲最多的那个神经元所代表的语音类别;
(3.2)如果没有输出神经元发放脉冲,则选择阈下膜电压最大的那个神经元所代表的语音类别。
2.如权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤1通过以下子步骤来实现:
(1.1)原始的语音波形通过一个基于CQT:Constant-Q变换的耳蜗滤波器组,提取得到 频谱信息,具体的,设每一长度为
Figure 67895DEST_PATH_IMAGE001
的帧窗中的频谱采样能量为
Figure 983767DEST_PATH_IMAGE002
,则每个帧的频谱能量为
Figure 734685DEST_PATH_IMAGE003
,则得到频谱图;然后,利用大脑听觉系统的采样机制,对于该频谱图进行频 域遮掩和时域遮掩;
(1.2)对于频谱图的M条频带,每一条频带的能量曲线都被单独编码成脉冲模式,当能量曲线穿越过某一预设的阈值时,该阈值所对应的神经元在该时间发放脉冲,而且,同一阈值但不同的穿越方向:从上往下或者从下往上,对应两个不同的编码神经元;
(1.3)将两种穿越方式整合在一起,获得一个有效的稀疏时间脉冲模式。
3.根据权利要求2所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤(1.3)具体为:
每个频带能量曲线由31个神经元编码,其中上穿和下穿各自占 15 个神经元,每一对上穿和下穿神经元都共享同一个编码阈值,此外还有一个顶峰神经元,当频谱能量达到最大值时,顶峰神经元发放脉冲,因此,对于每一段语音信号,使用(15×2 + 1)×M个神经元进行编码,由此获得一个有效的稀疏时间脉冲模式。
4.根据权利要求1所述的一种基于脉冲神经网络聚合标签学习的语音识别方法,其特征在于,所述步骤2通过以下子步骤来实现:
(2.1)如果当前的输出神经元和输入模式不对应且实际输出的脉冲个数大于目标的输 出个数,那么设计一个相对较小的值作为该神经元激发脉冲的阈值,在该阈值的情况下,找 到最后一个脉冲发放的时间,并且构建误差函数
Figure 967083DEST_PATH_IMAGE004
,其中,
Figure 660102DEST_PATH_IMAGE005
是在
Figure 548423DEST_PATH_IMAGE006
时刻的 膜电压,
Figure 414617DEST_PATH_IMAGE007
是激发脉冲的阈值;然后利用梯度下降的算法对权重进行更新
Figure 439205DEST_PATH_IMAGE008
,其中
Figure 116174DEST_PATH_IMAGE009
为学习率,
Figure 478410DEST_PATH_IMAGE010
是突触的权重;
(2.2)如果当前的输出神经元和输入模式对应且实际输出的脉冲个数小于目标的输出 个数,那么设计一个相对较大的值作为该神经元激发脉冲的阈值,在该阈值的情况下,找到 阈下膜电压的最大值,并且构建误差函数
Figure 633447DEST_PATH_IMAGE011
,其中
Figure 27389DEST_PATH_IMAGE012
Figure 875259DEST_PATH_IMAGE013
时刻的膜电 压,
Figure 472593DEST_PATH_IMAGE007
是激发脉冲的阈值,在然后利用梯度下降的算法对权重进行更新
Figure 680590DEST_PATH_IMAGE014
, 其中
Figure 210928DEST_PATH_IMAGE015
为学习率,
Figure 885492DEST_PATH_IMAGE010
是突触的权重。
CN202111412834.XA 2021-11-25 2021-11-25 一种基于脉冲神经网络聚合标签学习的语音识别方法 Pending CN113838459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412834.XA CN113838459A (zh) 2021-11-25 2021-11-25 一种基于脉冲神经网络聚合标签学习的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412834.XA CN113838459A (zh) 2021-11-25 2021-11-25 一种基于脉冲神经网络聚合标签学习的语音识别方法

Publications (1)

Publication Number Publication Date
CN113838459A true CN113838459A (zh) 2021-12-24

Family

ID=78971381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412834.XA Pending CN113838459A (zh) 2021-11-25 2021-11-25 一种基于脉冲神经网络聚合标签学习的语音识别方法

Country Status (1)

Country Link
CN (1) CN113838459A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273853A (zh) * 2022-07-11 2022-11-01 北京理工大学 一种基于仿生神经网络的语音识别系统与方法
CN115825853A (zh) * 2023-02-14 2023-03-21 深圳时识科技有限公司 声源定向方法及其装置、声源分离及跟踪方法和芯片
WO2024152583A1 (zh) * 2023-01-16 2024-07-25 之江实验室 一种面向硬件的深度脉冲神经网络语音识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710770A (zh) * 2018-05-31 2018-10-26 杭州电子科技大学 一种面向多脉冲神经网络监督学习的精确突触调整方法
US20200026981A1 (en) * 2018-04-17 2020-01-23 Hrl Laboratories, Llc Spiking neural network for probabilistic computation
CN111091815A (zh) * 2019-12-12 2020-05-01 电子科技大学 基于膜电压驱动的聚合标签学习模型的语音识别方法
CN113160823A (zh) * 2021-05-26 2021-07-23 中国工商银行股份有限公司 基于脉冲神经网络的语音唤醒方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026981A1 (en) * 2018-04-17 2020-01-23 Hrl Laboratories, Llc Spiking neural network for probabilistic computation
CN108710770A (zh) * 2018-05-31 2018-10-26 杭州电子科技大学 一种面向多脉冲神经网络监督学习的精确突触调整方法
CN111091815A (zh) * 2019-12-12 2020-05-01 电子科技大学 基于膜电压驱动的聚合标签学习模型的语音识别方法
CN113160823A (zh) * 2021-05-26 2021-07-23 中国工商银行股份有限公司 基于脉冲神经网络的语音唤醒方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张马路: "Spiking机器学习算法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273853A (zh) * 2022-07-11 2022-11-01 北京理工大学 一种基于仿生神经网络的语音识别系统与方法
WO2024152583A1 (zh) * 2023-01-16 2024-07-25 之江实验室 一种面向硬件的深度脉冲神经网络语音识别方法和系统
CN115825853A (zh) * 2023-02-14 2023-03-21 深圳时识科技有限公司 声源定向方法及其装置、声源分离及跟踪方法和芯片

Similar Documents

Publication Publication Date Title
CN113838459A (zh) 一种基于脉冲神经网络聚合标签学习的语音识别方法
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology.
US20220004870A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN109065030A (zh) 基于卷积神经网络的环境声音识别方法及系统
CN107481717B (zh) 一种声学模型训练方法及系统
CN110136731A (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN105139864B (zh) 语音识别方法和装置
Gabor Communication theory and cybernetics
CN106357456B (zh) 一种网络流量的预测方法及装置
KR20160032536A (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
CN109766424A (zh) 一种阅读理解模型训练数据的过滤方法及装置
CN110533570A (zh) 一种基于深度学习的通用隐写方法
CN110310666A (zh) 一种基于se卷积网络的乐器识别方法及系统
CN109767776A (zh) 一种基于密集神经网络的欺骗语音检测方法
Beckmann et al. Speech-vgg: A deep feature extractor for speech processing
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
King et al. Shannon, TESPAR and approximation strategies
CN110930995A (zh) 一种应用于电力行业的语音识别模型
CN116229960B (zh) 欺骗性语音鲁棒检测方法、系统、介质及设备
Jindal et al. SpeechMix-Augmenting Deep Sound Recognition Using Hidden Space Interpolations.
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Thomas et al. Acoustic and data-driven features for robust speech activity detection
Boloursaz et al. Secure data over GSM based on algebraic codebooks
CN117116287A (zh) 一种基于多粒度计算的音频场景识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211224

RJ01 Rejection of invention patent application after publication