CN110930991A - 一种远场语音识别模型训练方法及装置 - Google Patents

一种远场语音识别模型训练方法及装置 Download PDF

Info

Publication number
CN110930991A
CN110930991A CN201811000219.6A CN201811000219A CN110930991A CN 110930991 A CN110930991 A CN 110930991A CN 201811000219 A CN201811000219 A CN 201811000219A CN 110930991 A CN110930991 A CN 110930991A
Authority
CN
China
Prior art keywords
far
channel
field
voice data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811000219.6A
Other languages
English (en)
Other versions
CN110930991B (zh
Inventor
薛少飞
刘章
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811000219.6A priority Critical patent/CN110930991B/zh
Publication of CN110930991A publication Critical patent/CN110930991A/zh
Application granted granted Critical
Publication of CN110930991B publication Critical patent/CN110930991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明公开了一种远场语音识别模型训练方法和装置,以及一种远场语音识别方法和装置。其中远场语音识别模型训练方法包括:将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分和降噪处理,分别获得第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据,将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。采用本申请提供的训练方法获得的远场语音识别模型,能够解决人机交互过程中,距离较远造成的语音识别率较低的问题,提高复杂环境下的远场语音识别的效率和准确率。

Description

一种远场语音识别模型训练方法及装置
技术领域
本发明涉及远场语音识别领域,具体涉及一种远场语音识别模型训练方法、装置、电子设备及存储设备。本发明同时涉及一种远场语音识别方法、装置、电子设备及存储设备。
背景技术
随着人工智能技术的不断发展,人们越来越致力于使机器听懂人类的话语指令,并希望通过语音实现对机器的控制,从而极大的方便人们的生产和生活,在研究和探索语音识别技术过程中,针对语音识别的各个流程进行了各种尝试和改造。作为一项人机交互的关键技术,语音识别在过去几十年里取得了飞速的发展,应用于语音识别的远场语音识别模型在算法和构建上也愈发成熟,但是,目前的远场语音识别对环境的依赖性较强,距离较远带来的环境噪声影响,也使得语音识别的准确性严重下降。
为了解决上述问题,本领域中常用的远场语音识别模型是DNN或LSTM识别模型,利用麦克风阵列进行远场多通道数据的采集,然后通过解混响、Beamforming对远场多通道数据进行处理,得到单通道的语音数据,再将单通道语音数据发送到传统的语音识别模块DNN或LSTM进行识别。该远场语音识别模型能够在一定程度提高远场语音识别的效率和准确率,但是在复杂环境下识别效果仍然不够精确。
发明内容
本发明提供一种远场语音识别模型训练方法、装置、电子设备及存储设备,以解决现有技术存在的上述远场语音识别模型在复杂环境下识别效果不够精确的问题。本发明另外提供一种远场语音识别方法、装置、电子设备及存储设备。
本发明提供一种远场语音识别模型训练方法,包括:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
可选的,所述远场语音识别模型训练方法,还包括:
将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
可选的,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
可选的,所述将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
可选的,所述参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
可选的,所述将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:
选择一个房间类型中的多通道冲激响应,载入所述单通道原始语音数据和单通道噪音数据;
根据预设的多通道远场语音数据信噪比,调整所述单通道原始语音数据的能量和单通道噪音数据的能量,获得所述模拟的多通道远场语音数据。
可选的,所述第一单通道远场数据包含所述模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
可选的,所述将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:
将所述第一单通道的远场语音数据和所述不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得识别结果;
将所述识别结果与所述训练样本进行比对,获得比对结果,根据所述比对结果对所述远场语音识别模型进行调整。
相应的,本申请还提供一种远场语音识别方法,包括:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
可选的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
可选的,所述将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据,具体包括:
从预设的多组降噪参数中获得最优降噪参数,在最优降噪参数下,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
相应的,本申请还提供一种远场语音识别模型训练装置,包括:
模拟单元,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
拆分单元,将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
处理单元,将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
第一训练单元,将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
相应的,所述远场语音识别模型训练装置,还包括:
第二训练单元,用于将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
可选的,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
可选的,所述将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
可选的,所述参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
可选的,所述将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:
选择一个房间类型中的一个多通道冲激响应载入所述单通道原始语音数据和单通道噪音数据;
根据预设的多通道远场语音数据信噪比,调整所述单通道原始语音数据的能量和单通道噪音数据的能量,获得所述模拟的多通道远场语音数据。
可选的,所述第一单通道远场数据包含所述模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
可选的,所述将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:
将所述第一单通道的远场语音数据和所述不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得识别结果;
将所述识别结果与所述训练样本进行比对,获得比对结果,根据所述比对结果对所述远场语音识别模型进行调整。
相应的本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储远场语音识别模型训练方法的程序,该设备通电并通过所述处理器运行该远场语音识别模型训练方法的程序后,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
相应的,本申请还提供一种存储设备,存储有远场语音识别模型训练方法的程序,该程序被处理器运行,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
相应的,本申请还提供一种远场语音识别装置,包括:
第一获取单元,用于获取待识别的多通道远场语音数据;
处理单元,用于将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
识别单元,用于将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
可选的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
可选的,所述将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据,具体包括:
从预设的多组降噪参数中获得最优降噪参数,在最优降噪参数下,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
相应的,本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储远场语音识别方法的程序,该设备通电并通过所述处理器运行该远场语音识别方法的程序后,执行下述步骤:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
相应的,本申请还提供一种存储设备,存储有远场语音识别方法的程序,该程序被处理器运行,执行下述步骤:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
与现有技术相比,本发明具有以下优点:
本发明提供了一种远场语音识别模型训练方法,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分和降噪处理,分别获得第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据,将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。采用本申请提供的训练方法获得的远场语音识别模型,能够解决人机交互过程中,距离较远造成的语音识别率较低的问题,提高复杂环境下的远场语音识别的效率和准确率。
附图说明
图1为本申请实施例提供的一种远场语音识别模型训练方法流程图;
图2为本申请实施例提供的一种远场语音识别方法流程图;
图3为本申请实施例提供的一种远场语音识别模型训练装置示意图;
图4为本申请实施例提供的一种远场语音识别模型训练的电子设备示意图;
图5为本申请实施例提供的一种远场语音识别装置示意图;
图6为本申请实施例提供的一种远场语音识别的电子设备示意图;
图7为本申请实施例提供的一种远场语音识别模型训练训练阶段的流程图;
图8为本申请实施例提供的一种远场语音识别模型识别阶段的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此,本发明不受以下公开的具体实施例的限制。
下面基于本申请的远场语音识别模型训练方法,对其实施例进行详细描述。此外,在下面的描述中,将分别针对本方法的各个步骤进行详细的说明。请参考图1和图7所示,其分别为本申请实施例提供的一种远场语音识别模型训练方法流程图和远场语音识别模型训练阶段的流程图。
步骤S101,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据。
由于智能语音识别产品上线初期往往很难获得大量的多通道远场语音数据作为识别模型训练的样本。因此,我们提出一种远场语音数据模拟方法,可以利用近场语音数据通过远场数据模拟的方式,产生大量模拟的多通道远场语音数据。在本实施例中,所述的单通道原始语音数据是指单通道近场语音数据,可以在预设的语音数据能量范围内,通过随机调整单通道近场语音数据能量方式,获得多条不同能量的单通道近场语音数据,将获得的多条不同能量的单通道近场语音数据作为模拟多通道远场语音数据的单通道原始语音数据,进一步的,也可以在预设的语音数据速率范围内,通过随机调整单通道近场语音数据速率大小的方式,获得多条不同速率的单通道近场语音数据,将获得的多条不同速率单通道近场语音数据也作为模拟多通道远场语音数据的单通道原始语音数据。
本实施例中,所述的远场语音数据通常是指在距离1m-5m的条件下,需要让语音识别模型进行识别的语音指令,而多通道远场语音数据是指多个通道融合的远场语音数据,因为在真实的环境中存在大量的噪声、多径反射和混响,所以语音识别模型接收到的远场语音数据通常是混杂有各种声音的多通道的远场语音数据。例如在房间中发出待识别的语音指令信息时,由于周围并非完全去噪声的环境,需要识别的语音数据中往往夹杂者各种各样的噪声,这里说的噪声一般是指环境噪声,比如空调噪声、风扇的噪音,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和识别度,一般情况下,不需要做强噪声环境下的处理,只需要满足日常场景的语音交互的降噪处理就可以。
本实施例中,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据具体是指,首选确定一条单通道近场语音数据作为单通道原始语音数据,在一定范围内(如50%-150%)内随机调整语音数据的能量和速率,选择一个房间类型中的多通道冲激响应载入该单通道原始语音数据进行卷积,从而获得计算卷积后的语音数据能量,根据预设的多通道远场语音数据信噪比,可以在一定范围内(50%-150%)随机调整单通道噪音数据的能量,并与上述卷积后的语音数据能量相加,便可以得到模拟房间传播的多通道的远场语音数据,然后随机选择与麦克风阵列数量相同的模拟的冲击响应与上述模拟房间传播的多通道的远场语音数据中的每个通道内进行卷积,并在一定范围内随机调整能量,最终可以获得模拟的多通道远场语音数据。
需要说明的是,在本实施例中所述的单通道噪音数据是指多个单通道点源噪声数据和多个背景噪声数据分别在一定范围内(50%-150%)随机调整能量并相加获得的噪声数据。上述麦克风阵列指的是麦克风的排列,也就是说由一定数目的声学传感器组成,用来对对声场的空间特性进行采样并处理的系统,一般应用于语音处理的按一定规则排列的多个麦克风系统,可以简单理解为多个麦克风组成的录音系统。由于现实中声源的位置是不断的变化的,这对于麦克风来说是个障碍,在本申请实施例中的麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取。
步骤S102,将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据。
在本实施例中,通过远场语音数据模拟处理而产生的模拟的多通道远场语音数据,需要分为两路作为样本训练远场语音数据识别模型,其中一路通过拆分处理,获得第一单通道远场语音数据,例如,将一个四通道的远场语音数据经过拆分处理后,可以变成4个单通道的远场语音数据,其中,单通道的远场语音数据即为本实施例中的第一单通道远场语音数据。因此,所述的第一单通道远场语音数据包含模拟的多通道远场语音数据通过拆分处理获得的多条单通道远场语音数据,其都可以作为远场语音数据训练的样本,组成训练样本集。通过增加训练样本的多样性,使得训练样本集尽可能包含与现实生活中的不同场景下远场语音数据的相似的情况。
步骤S103,将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据。
在本实施例中,通过远场语音数据模拟流程产生的模拟的远场语音数据,需要将另一路通过我们的信号处理流程,获得经过解混响和降噪处理的第二单通道远场语音数据,其中,所述的第二单通道远场语音数据为不同降噪参数下的多条第二单通道远场语音数据,不同的降噪参数下可以获得不同的类型的第二单通道远场语音数据,同样都作为远场语音识别模型识别的样本,加入到我们的训练样本集中,从而进一步的增加了训练样本的多样性。
在训练阶段,所述的降噪处理过程中包含很多提前设定的参数,该参数可以是线性降噪系数,也可以是非线性降噪系数。以线性降噪系数为例,控制对环境噪声的抑制程度,在0-1范围内取值,系数越大对环境噪声的抑制就越强,将上述预设的用于降噪处理的不同参数下获得的第二单通道远场语音数据都用于模型训练,例如,降噪处理过程最优的参数设定为0.2,我们通过遍历一组参数中的所有参数如(0.1,0.15,0.2,0.25,0.3),在不同的参数下对模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据,将多条第二单通道的远场数据都用于模型训练,从而极大的增加了远场语音数据识别模型训练样本的多样性,使得训练样本尽可能包含与现实生活中的不同场景下远场语音数据的相似的情况,进而在复杂的环境中提高远场语音识别的准确率。
在本实施例中,所述的降噪处理过程具体包括:获取模拟的多通道远场语音数据通过解混响模块进行去混响处理,选取第一个通道的数据送入端点检测模块获得端点检测信息,选取第一个通道之后的多通道远场语音数据送入声源定位模块获得发生人的位置信息和角度信息。将第一个通道之后的多通道远场语音数据、端点检测信息和角度信息送入波束形成模块,得到语音和噪声两个音频流,并送入降噪模块进行降噪处理获得干净的远场语音数据即为本实施例中所述的第二单通道远场语音数据。
步骤S104,将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
在本实施例中,将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:将第一单通道的远场语音数据和不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得针对不同训练样本的识别结果;将识别结果与训练样本进行比对,获得比对结果,可以根据比对结果对所述远场语音识别模型进行调整。通过重复多次的模型样本训练不断对远场语音数据模型进行调整,当输入任一环境下的远场语音数据样本时,都可以达到85%-90%的识别正确率时,获得远场语音识别模型。
本发明实施例提供的一种远场语音识别模型训练方法,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分和降噪处理,分别获得第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据,将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。采用本申请提供的训练方法获得的远场语音识别模型,能够解决人机交互过程中,距离较远造成的语音识别率较低的问题,提高复杂环境下的远场语音识别的效率和准确率。
与上述提供的一种远场语音识别模型训练方法相对应,本申请实施例还提供一种远场语音识别方法,请参考图8所示,其为本申请实施例提供的一种远场语音识别模型识别阶段的流程图。
步骤S201:获得待识别的多通道远场语音数据;
在本实施例中,所述的待识别的多通道远场语音数据为真实环境中的远场语音数据。
步骤S202:将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据。
在本实施例中,该远场语音识别方法包括:将麦克风阵列接收的待识别远场语音数据进行解混响和降噪处理,获得单通道远场语音数据,通过远场语音识别模型对待识别的单通道远场语音数据进行识别。
在上述训练阶段的降噪处理过程中,我们会提前预设很多参数进行降噪处理,并将处理后的单通道语音数据都用于模型训练,例如,存在一组参数,最优的参数设定为0.2,我们通过遍历一组参数集中的所有参数如(0.1,0.15,0.2,0.25,0.3),在不同的参数下对模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据都用于模型训练。而在识别阶段,我们只是用最优参数0.2对数据进行处理,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
步骤S203:将所述单通道远场语音数据输入至中,获得所述远场语音数据识别结果。其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
在本实施例中,所述的远场语音识别模型是指通过上述远场语音识别模型训练方法获得的远场语音识别模型。获取第一单通道远场语音数据;
在本实施例,所述的第一单通道远场语音数据是指一条单通道的远场语音数据。所述的获取第一单通道远场语音数据方法是将单通道原始语音数据通过多通道数据模拟流程,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分获得的多条第一单通道远场语音数据都作为远场语音识别模型训练的样本。
在本实施例中,所述的获取第二单通道远场语音数据,包括:将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,将所述模拟的多通道的远场数据通过降噪处理,获得不同降噪参数场景下的多条第二单通道远场语音数据。在降噪处理过程中预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。其中,不同降噪参数对噪声的抑制程度是不一样的,获得的第二单通道的远场数据也是不一样的。
本发明实施例提供的一种远场语音识别方法,通过获取待识别的多通道远场语音数据,将待识别的多通道的远场数据在最优的降噪参数下进行降噪处理,获得单通道远场语音数据,将单通道远场语音数据输入至上述远场语音识别模型训练方法获得的远场语音识别模型中,获得远场语音数据识别结果。采用本申请提供的,能够解决人机交互过程中,距离较远造成的语音识别率较低的问题,提高复杂环境下的远场语音识别的效率和准确率。
与上述的远场语音识别模型训练方法相对应,本申请还提供一种远场语音识别模型训练装置,上述远场语音识别模型训练方法可以应用于该装置。由于本装置实施例相似于方法实施例,所以描述的比较简单,相关之处请参见方法实施例部分说明即可,下面描述装置实施例仅是示意性的。请参见图3,其为本申请实施例提供的一种远场语音识别模型训练装置示意图。
本申请实施例所述的远场语音识别模型训练装置包括如下部分:
模拟单元301,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据。
在本实施例中,单通道原始语音数据是指单通道近场语音数据,其中包括:
在预设的语音数据能量范围内,通过随机调整单通道近场语音数据能量,获得的多条第一单通道近场语音数据,可以将第一单通道近场语音数据作为单通道原始语音数据,另外,在预设的语音数据速率范围内,通过随机调整单通道近场语音数据速率大小,获得的多条第二单通道近场语音数据,也可以将第二单通道近场语音数据作为单通道原始语音数据。
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:选择一个房间类型中的一个多通道冲激响应载入单通道原始语音数据和单通道噪音数据,根据预设的多通道远场语音数据信噪比,调整单通道原始语音数据的能量和单通道噪音数据的能量,获得模拟的多通道远场语音数据。其中,上述单通道噪声数据包括单通道电源噪声数据和单通道背景噪声数据。
拆分单元302,将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
在本实施例中,第一单通道远场数据包含模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
处理单元303,将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
在本实施例中,将模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:预设用于降噪处理的参数集,通过遍历参数集中的所有参数,在不同的参数下对模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。其中,参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
第一训练单元304,将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
在本实施例中,所述的将第一单通道远场语音数据和不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:将第一单通道的远场语音数据和不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至远场语音识别模型中,获得识别结果,将识别结果与所述训练样本进行比对,获得比对结果,根据比对结果对远场语音识别模型进行调整。
本申请实施例提供一种还包括第二训练单元优选的实施方式,第二训练单元用于将单通道原始语音数据和模拟的多通道远场语音数据也作为训练样本,训练远场语音识别模型。
与上述提供的一种远场语音识别模型训练方法相对应的,本申请实施例还提供一种电子设备,请参见图4,其为本申请实施例提供的一种远场语音识别模型训练的电子设备示意图。
本申请实施例所述的远场语音识别模型训练的电子设备包括如下部分:
处理器401;以及
存储器402,用于存储远场语音识别模型训练方法的程序,该设备通电并通过所述处理器运行该远场语音识别模型训练方法的程序后,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种远场语音识别模型训练方法的相关描述,这里不再赘述。
与上述提供的一种远场语音识别模型训练方法相对应的,本申请实施例还提供一种存储设备,存储有远场语音识别模型训练方法的程序,该程序被处理器运行,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
需要说明的是,对于本申请实施例提供的一种存储设备的详细描述,可以参考对本申请实施例提供的一种远场语音识别模型训练方法的相关描述,这里不再赘述。
与上述的远场语音识别方法相对应,本申请还提供一种远远场语音识别装置,上述远场语音识别方法可以应用于该装置。由于本装置实施例相似于方法实施例,所以描述的比较简单,相关之处请参见方法实施例部分说明即可,下面描述装置实施例仅是示意性的。请参见图5,其为本申请实施例提供的一种远场语音识别装置示意图。
本申请实施例所述的远场语音识别装置包括如下部分:
第一获取单元501,用于获取待识别的多通道远场语音数据。
在本实施例中,待识别的多通道远场语音数据为真实环境中的远场语音数据。
处理单元502,用于将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据。
在本实施例中,所述的降噪处理过程是指在最优降噪参数下,对待识别的多通道的远场数据进行降噪处理,获得最优降噪参数下的单通道远场语音数据。
识别单元503,用于将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果。其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
在本实施例中,远场语音识别模型是指通过上述远场语音识别模型训练方法获得的远场语音识别模型,作为训练样本的第一单通道远场语音数据通常为多条。通过将单通道原始语音数据通过多通道数据模拟流程,获得模拟的多通道远场语音数据,将模拟的多通道远场语音数据进行拆分,获得多条第一单通道远场语音数据。
作为训练样本的第二单通道远场语音数据通常也为多条,通过将单通道原始语音数据通过多通道数据模拟流程,获得模拟的多通道远场语音数据,将模拟的多通道的远场数据通过降噪处理流程,获得不同降噪参数场景下的多条不同的第二单通道远场语音数据。
需要说明的是,所述的降噪处理过程需要预设用于降噪处理的多组参数,通过遍历所有预设的参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条不同的第二单通道的远场数据。其中,不同的参数对语音数据中噪声的抑制程度不同,获得的第二单通道的远场语音数据也就不同。
与上述提供的一种远场语音识别方法相对应的,本申请实施例还提供一种电子设备,请参见图4,其为本申请实施例提供的一种远场语音识别的电子设备示意图。
本申请实施例所述的远场语音识别的电子设备包括如下部分:
处理器601;以及
存储器602,用于存储远场语音识别方法的程序,该设备通电并通过所述处理器运行该远场语音识别方法的程序后,执行下述步骤:
获得待识别的多通道远场语音数据。
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据。
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果。
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种远场语音识别方法的相关描述,这里不再赘述。
与上述提供的一种远场语音识别方法相对应的,本申请实施例还提供一种存储设备,存储有远场语音识别方法的程序,该程序被处理器运行,执行下述步骤:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
需要说明的是,对于本申请实施例提供的一种存储设备的详细描述,可以参考对本申请实施例提供的一种远场语音识别方法的相关描述,这里不再赘述。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (26)

1.一种远场语音识别模型训练方法,其特征在于,包括:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
2.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,还包括:
将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
3.根据权利要求1或2所述的远场语音识别模型训练方法,其特征在于,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
4.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
5.根据权利要求4所述的远场语音识别模型训练方法,其特征在于,所述参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
6.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:
选择一个房间类型中的多通道冲激响应,载入所述单通道原始语音数据和单通道噪音数据;
根据预设的多通道远场语音数据信噪比,调整所述单通道原始语音数据的能量和单通道噪音数据的能量,获得所述模拟的多通道远场语音数据。
7.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述第一单通道远场数据包含所述模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
8.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:
将所述第一单通道的远场语音数据和所述不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得识别结果;
将所述识别结果与所述训练样本进行比对,获得比对结果,根据所述比对结果对所述远场语音识别模型进行调整。
9.一种远场语音识别方法,其特征在于,包括:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
10.根据权利要求9所述的远场语音识别方法,其特征在于,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
11.根据权利要求9所述的远场语音识别方法,其特征在于,所述将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据,具体包括:
从预设的多组降噪参数中获得最优降噪参数,在最优降噪参数下,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
12.一种远场语音识别模型训练装置,其特征在于,包括:
模拟单元,将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
拆分单元,将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
处理单元,将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
第一训练单元,将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
13.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,还包括:
第二训练单元,用于将所述单通道原始语音数据和所述模拟的多通道远场语音数据作为训练样本,训练远场语音识别模型。
14.根据权利要求12或13所述的远场语音识别模型训练装置,其特征在于,所述单通道原始语音数据为单通道近场语音数据,包括:
在预设的语音数据能量范围内,通过随机调整所述单通道近场语音数据能量值,获得多条第一单通道近场语音数据,将所述第一单通道近场语音数据作为所述单通道原始语音数据;和/或,
在预设的语音数据速率范围内,通过随机调整所述单通道近场语音数据速率值,获得多条第二单通道近场语音数据,将所述第二单通道近场语音数据作为所述单通道原始语音数据。
15.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,所述将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
16.根据权利要求15所述的远场语音识别模型训练装置,其特征在于,所述参数包括线性降噪系数和非线性降噪系数中的至少一种类型的参数。
17.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,所述将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据,具体包括:
选择一个房间类型中的一个多通道冲激响应载入所述单通道原始语音数据和单通道噪音数据;
根据预设的多通道远场语音数据信噪比,调整所述单通道原始语音数据的能量和单通道噪音数据的能量,获得所述模拟的多通道远场语音数据。
18.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,所述第一单通道远场数据包含所述模拟的多通道远场语音数据通过拆分获得的多条单通道远场语音数据。
19.根据权利要求12所述的远场语音识别模型训练装置,其特征在于,所述将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型,具体包括:
将所述第一单通道的远场语音数据和所述不同降噪参数下的第二单通道的远场语音数据作为训练样本,输入至所述远场语音识别模型中,获得识别结果;
将所述识别结果与所述训练样本进行比对,获得比对结果,根据所述比对结果对所述远场语音识别模型进行调整。
20.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储远场语音识别模型训练方法的程序,该设备通电并通过所述处理器运行该远场语音识别模型训练方法的程序后,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
21.一种存储设备,其特征在于,存储有远场语音识别模型训练方法的程序,该程序被处理器运行,执行下述步骤:
将单通道原始语音数据通过多通道数据模拟,获得模拟的多通道远场语音数据;
将所述模拟的多通道远场语音数据进行拆分,获得第一单通道远场语音数据;
将所述模拟的多通道远场语音数据通过降噪处理,获得不同降噪参数下的第二单通道远场语音数据;
将所述第一单通道远场语音数据和所述不同降噪参数下的第二单通道远场语音数据作为训练样本,训练远场语音识别模型。
22.一种远场语音识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的多通道远场语音数据;
处理单元,用于将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
识别单元,用于将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
23.根据权利要求22所述的远场语音识别装置,其特征在于,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的,具体包括:
预设用于降噪处理的参数集,通过遍历所述参数集中的所有参数,在不同的参数下对所述模拟的多通道远场语音数据进行降噪处理,获得不同降噪参数下的多条第二单通道的远场数据。
24.根据权利要求22所述的远场语音识别装置,其特征在于,所述将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据,具体包括:
从预设的多组降噪参数中获得最优降噪参数,在最优降噪参数下,对所述待识别的多通道的远场数据进行降噪处理,获得所述最优降噪参数下的单通道远场语音数据。
25.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储远场语音识别方法的程序,该设备通电并通过所述处理器运行该远场语音识别方法的程序后,执行下述步骤:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
26.一种存储设备,其特征在于,存储有远场语音识别方法的程序,该程序被处理器运行,执行下述步骤:
获得待识别的多通道远场语音数据;
将所述待识别的多通道的远场数据通过降噪处理,获得单通道远场语音数据;
将所述单通道远场语音数据输入至远场语音识别模型中,获得所述远场语音数据识别结果;
其中,所述远场语音识别模型是根据第一单通道远场语音数据和第二单通道远场语音数据训练,用于得到远场语音数据识别结果的模型,所述第一单通道远场语音数据是通过将单通道原始语音数据进行多通道数据模拟并将模拟的多通道远场语音数据进行拆分得到的,所述第二单通道远场语音数据是将所述模拟的多通道远场语音数据通过降噪处理得到的。
CN201811000219.6A 2018-08-30 2018-08-30 一种远场语音识别模型训练方法及装置 Active CN110930991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811000219.6A CN110930991B (zh) 2018-08-30 2018-08-30 一种远场语音识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811000219.6A CN110930991B (zh) 2018-08-30 2018-08-30 一种远场语音识别模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN110930991A true CN110930991A (zh) 2020-03-27
CN110930991B CN110930991B (zh) 2023-08-25

Family

ID=69854909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811000219.6A Active CN110930991B (zh) 2018-08-30 2018-08-30 一种远场语音识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN110930991B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421569A (zh) * 2021-06-11 2021-09-21 屏丽科技(深圳)有限公司 一种提高播放设备的远场语音识别率的控制方法及播放设备
WO2023093477A1 (zh) * 2021-11-25 2023-06-01 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN108269567A (zh) * 2018-01-23 2018-07-10 北京百度网讯科技有限公司 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN108269567A (zh) * 2018-01-23 2018-07-10 北京百度网讯科技有限公司 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN108335694A (zh) * 2018-02-01 2018-07-27 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宇;张鹏远;颜永红;: "基于注意力LSTM和多任务学习的远场语音识别", 清华大学学报(自然科学版), no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421569A (zh) * 2021-06-11 2021-09-21 屏丽科技(深圳)有限公司 一种提高播放设备的远场语音识别率的控制方法及播放设备
WO2023093477A1 (zh) * 2021-11-25 2023-06-01 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Also Published As

Publication number Publication date
CN110930991B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109074816B (zh) 远场自动语音识别预处理
US8577054B2 (en) Signal processing apparatus, signal processing method, and program
US11611840B2 (en) Three-dimensional audio systems
US10728688B2 (en) Adaptive audio construction
CN113823273B (zh) 音频信号处理方法、装置、电子设备及存储介质
Su et al. Inras: Implicit neural representation for audio scenes
CN110930991B (zh) 一种远场语音识别模型训练方法及装置
CN113784274A (zh) 三维音频系统
CN117693791A (zh) 言语增强
Tang et al. Low-frequency compensated synthetic impulse responses for improved far-field speech recognition
CN116647780A (zh) 一种用于蓝牙耳机的降噪控制系统及方法
Chen et al. An end-to-end deep learning framework for multiple audio source separation and localization
Maldonado et al. Lightweight online separation of the sound source of interest through blstm-based binary masking
Novoa et al. Weighted delay-and-sum beamforming guided by visual tracking for human-robot interaction
CN111696573B (zh) 声源信号处理方法及装置、电子设备和存储介质
Falcon Perez Machine-learning-based estimation of room acoustic parameters
Choi et al. Convolutional neural network-based direction-of-arrival estimation using stereo microphones for drone
CN115396784B (zh) 一种远程调音的方法和系统
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN117643075A (zh) 用于言语增强的数据扩充
Dimitriadis et al. Spatial HuBERT: Self-supervised Spatial Speech Representation Learning for a Single Talker from Multi-channel Audio
Xue et al. A study on improving acoustic model for robust and far-field speech recognition
Chetupalli et al. Robust offline trained neural network for TDOA based sound source localization
Keyrouz A novel robotic sound localization and separation using non-causal filtering and Bayesian fusion
Youssef et al. Binaural speaker recognition for humanoid robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026858

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant