CN113936687B - 一种实时语音分离语音转写的方法 - Google Patents

一种实时语音分离语音转写的方法 Download PDF

Info

Publication number
CN113936687B
CN113936687B CN202111548064.1A CN202111548064A CN113936687B CN 113936687 B CN113936687 B CN 113936687B CN 202111548064 A CN202111548064 A CN 202111548064A CN 113936687 B CN113936687 B CN 113936687B
Authority
CN
China
Prior art keywords
voice
doa
filter
module
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111548064.1A
Other languages
English (en)
Other versions
CN113936687A (zh
Inventor
赵建平
荆榆
程栋梁
沈忱
石松涛
高博
许乾坤
张宇韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruikelun Intelligent Technology Co ltd
Original Assignee
Beijing Ruikelun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruikelun Intelligent Technology Co ltd filed Critical Beijing Ruikelun Intelligent Technology Co ltd
Priority to CN202111548064.1A priority Critical patent/CN113936687B/zh
Publication of CN113936687A publication Critical patent/CN113936687A/zh
Application granted granted Critical
Publication of CN113936687B publication Critical patent/CN113936687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明是一种实时语音分离语音转写的方法,包括:硬件采集模块,语音分离模块,语音转写模块,其中,硬件采集模块用来采集语音数字信号;语音分离模块用来对硬件采集模块的采集的不同方向语音数字信号分离;语音转写模块对所述语音分离模块分离出来的各路语音数字信号转写为文字,硬件采集模块的麦克风拾音模组采集语音信号,仅需配置角度参数;语音分离模块可实时、有效的将多人对话按说话人分离,进行实时语音转写;同时,语音分离模块可有效降低环境噪声的干扰,对固定方向的声源进行转写,从而可有效的分离重叠的对话语音,进行有效的语音转写。

Description

一种实时语音分离语音转写的方法
技术领域
本发明涉及计算机领域,具体涉及一种实时语音分离语音转写的方法。
背景技术
在类似保险、银行柜台具有固定位置的服务对话场景中,需要在略微吵杂的环境中,对双方的对话进行有效的记录;
现有的桌面指向拾音产品,只能对其使用者,即使用人进行近场拾音,无法同时获得对话中对人的语音,若场景中存在多人说话,需布局多个近场的拾音设备,且离说话人非常近,通常在20公分以内。本方法可以通过放在桌面端的麦克风阵列拾音器,实时判断分离不同方向的多个人声,并实时按多个不同角色,输出为对应的文本信息,该方法可有效的应用于多人讲话、同时讲话、移动讲话的多种不同场景。
远场使用场景中,复杂的噪声环境严重影响了语音转写的正确率,本发明可有效抑制使用环境中的噪音影响,包含环境噪音和其他非目标说话人的声音。
远场多人对话场景中,受复杂的噪声的影响,且对话场景中抢话,插话导致连续语音中多人的话术,本发明可实时有效的分离对话场景的多说话人语音,进行有效转写。
发明内容
本发明提供一种实时语音分离语音转写的方法,通过硬件采集模块,得到多路麦克风的数字信号,经过语音分离模块对多说话人进行声源定位后对固定方向的声源成形,形成说话方向的滤波后的语音信号,进一步消除非目标方向的语音和干扰信号,然后语音转写模块把固定方向的语音信号转化为文字内容。
为了达到上述目的,本发明提供如下技术方案:一种实时语音分离语音转写的方法,包括:通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;
通过语音分离模块将所述数字信号分离出多个单人的语音信号;
将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容。
优选的,所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz的数字信号。
优选的,所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,Post Filter后处理滤波器及Post Separator后处理时域分离器构成。
优选的,所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、为按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
优选的,所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。
优选的,所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive BlockingMatrix和Multichannel Adaptive Interference Canceller 滤波器更新策略,本方法使用Adaptive Interference Canceller -Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。
优选的,所述Post Filter采用MAP-Based后处理滤波器。
优选的,所述Post Filter后处理滤波器采用
Figure DEST_PATH_IMAGE001
为后验信噪比作为随机变 量,定义
Figure 607268DEST_PATH_IMAGE002
,复合高斯分布定义先验信噪比
Figure DEST_PATH_IMAGE003
, As为Modified TF-GSC输出,An为Modified TF-GSC ABM模块的输出
Figure 222795DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 638864DEST_PATH_IMAGE006
为经验超参,
Figure DEST_PATH_IMAGE007
Figure 924745DEST_PATH_IMAGE008
为高斯分布均值和方差,估计后处理滤波器的系数
Figure DEST_PATH_IMAGE009
,进一步形成目标方向固定波束,消除 残余方向的干扰信号。
优选的,所述Post Separator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
本发明有益效果为:通过上述设置,本发明中硬件采集模块的麦克风拾音模组可方便、便捷的部署在柜台或桌面的任意位置采集语音信号,仅需配置角度参数;本发明语音分离模块可实时、有效的将多人对话按说话人分离,进行实时语音转写;同时,本发明中语音分离模块可有效降低环境噪声的干扰,包含环境噪音和其他非目标说话人的声音,对固定方向的声源进行转写,从而可有效的分离重叠的对话语音,进行有效的语音转写。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明应用方式示意图;
图2为本发明局部工作示意图;
图3为本发明Modified TF_GSC结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1、图2中的流程步骤所示,一种实时语音分离语音转写的方法,包括:通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;通过语音分离模块将所述数字信号分离出多个单人的语音信号;将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容;所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz的数字信号。
在这里所述的硬件采集模块中的麦克风拾音模组以固定的角度进行排列,通过对环境中的说话人的语音进行采集,得到N_MIC路(麦克风数量)麦克风模拟电信号,所述的麦克风拾音模组可以在会议桌或者银行柜台前进行摆放,对说话人位置进行预估,配置角度参数进行摆放,可有效对各个角度的说话人的语音进行有效采集,采集语音之后进过模拟数字转化,转化为N_MIC路采样率为16kHz的数字语音信号,为之后的数字信号域算法做出准备。
所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,PostFilter后处理滤波器及Post Separator后处理时域分离器构成。
所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、为按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
利用Guided-Weighted-Smoothed-SRP-PHAT方法,先计算SPR-PHAT得到每一帧(8ms)的原始DOA输出记为DOA_PEAK_RAW,之后对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SPRout最大值为目前DOA_PEAK_energy和DOA_PEAK。
首先计算SRP-PHAT,得到每一帧(8ms)的原始DOA输出记为DOA_PEAK1,记麦克风为p,q,则
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE013
Figure 650124DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
SRP是所有麦克风两两组合的GCC之和,
令:SRP值在t时刻和波达方向
Figure 750017DEST_PATH_IMAGE016
相关,
Figure 32094DEST_PATH_IMAGE018
Figure 467755DEST_PATH_IMAGE020
Figure 177085DEST_PATH_IMAGE022
对不同频率进行加权,用以平衡不同频率的空间分辨率和麦克风间距,提高DOA精度;
按每5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK。
对DOA_PEAK进行中值滤波,平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定中值滤波长度为H,当前时刻T,DOA_SMOOTH为中值滤波的输出,即窗口H内排序后的中值,得到DOA_SMOOTH=MEDIAN_FILTER(即DOA_PEAK)。
按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到Fixed Beamformer的输入导向矢量DOA_TARGET_BF;同时输出平滑DOA_SMOOTH,通过
If abs(DOA_SMOOTH –DOA_TARGET)<DOA_BEAM or 360–abs(DOA_SMOOTH-DOA_TARGET)>180:
DOA_TARGET_BF=DOA_SMOOTH
Else:
DOA_TARGET_BF=DOA_TARGET
DOA_SMOOTH=DOA_SMOOTH用于估计DOA是不是在预设的范围内,其中abs为取绝对值运算符。
对输出的平滑DOA_SMOOTH使用固定方向波束成形,分别输出目标方向空间滤波后的语音数字信号。
所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive Blocking Matrix和Multichannel Adaptive Interference Canceller 滤波器更新策略,本方法使用Adaptive Interference Canceller-Adaptive Blocking Matrixcontroller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。固定波束采用Modified TF_GSC结构。如图3所示:
TF_GSC由Fixed Beamformer固定波束成形(简称FB)、Blocking Matrix矩塞矩阵(简称BM矩塞矩阵)、Multichannel Adaptive Interference Canceller构成(简称Multichannel AIC,多通道自适应相消器)BM采用自适应滤波器 Adaptive BM(简称ABM),同时使用AIC-ABM controller跟踪后验信噪比变化,来控制两组滤波器是否更新,分别输出目标说话方向空间滤波后的语音数字信号。
所述Post Filter采用MAP-Based后处理滤波器,MAP即Maximum a posteriori estimation 最大后验估计;所述Post Filter后处理滤波器采用
Figure 563942DEST_PATH_IMAGE001
为后验信噪比 作为随机变量,定义
Figure 649709DEST_PATH_IMAGE002
,复合高斯分布定义先验信噪比
Figure 939876DEST_PATH_IMAGE003
,As为Modified TF-GSC输出,An为Modified TF_GSC ABM模块的输出
Figure 85687DEST_PATH_IMAGE004
Figure 962769DEST_PATH_IMAGE005
Figure 321069DEST_PATH_IMAGE006
为经验超参,
Figure 872268DEST_PATH_IMAGE007
Figure 421935DEST_PATH_IMAGE008
为高斯分布均值和方差,估计后处理滤波器的系数
Figure 284849DEST_PATH_IMAGE009
,进一步形成目标方向固定波束,消除残 余方向的干扰信号。
所述Post Separator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch(基频)差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
Post Separator的增益表示为:
if SPK1能量>SPK2能量+delta_energy;
Mask_SPK2=true
else if:SPK1能量<SPK2 能量+delta_energy
Mask_SPK1=true
Else:
if Coherence>Coherence_thresnhold and pitch差<delta-pitch:
if DOA_GUIDE=SPK2:
Mask_SPK1 =true
Else if DOA_GUIDE=SPK1:
Mask_SPK2=true
利用Post Separator的增益估计N_SPK(输出说话人数量)路分离信号的相似度,利用Mask计算时域信号上生成遮掩滤波器,进一步消除残留干扰。
最后利用语音转写模块对消除残留干扰后的N_SPK路分离语音数字信号分别进行转写,所述语音转写模块可以为每一路的数字语音信号分别转写为文字内容,不会对各路语音信号的干扰内容进行转写或者不区分进行转写,能够在多人会议的时候有效对每一位发言者进行单独的转写
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种实时语音分离语音转写的方法,其特征在于,包括:
通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;
通过语音分离模块将所述数字信号分离出多个单人的语音信号;
将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容;
所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,PostFilter后处理滤波器及Post Separator后处理时域分离器构成;
所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度,SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
2.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz。
3.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述FixedBeamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。
4.根据权利要求3所述的一种实时语音分离语音转写的方法,其特征在于:所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel AdaptiveInterference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive Blocking Matrix和MultichannelAdaptive Interference Cancel ler滤波器更新策略,本方法使用AdaptiveInterference Canceller-Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。
5.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述PostFilter后处理滤波器采用MAP-Based后处理滤波器。
6.根据权利要求3所述的一种实时语音分离语音转写的方法,其特征在于:所述PostFilter后处理滤波器采用γ(ejΩμ,k)为后验信噪比作为随机变量,定义Γ(ejΩμ,k)=10log10γ(ejΩμ,k),复合高斯分布定义先验信噪比
Figure FDA0003501840830000021
As为Modified TF-GSC输出,An为Modified TF-GSC ABM模块的输出,
μr(ξ)=10log10(ξ+1),
Figure FDA0003501840830000022
λΦ为经验超参,μr,λr为高斯分布均值和方差,估计后处理滤波器的系数
Figure FDA0003501840830000023
进一步形成目标方向固定波束,消除残余方向的干扰信号。
7.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于,所述PostSeparator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK,
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
CN202111548064.1A 2021-12-17 2021-12-17 一种实时语音分离语音转写的方法 Active CN113936687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548064.1A CN113936687B (zh) 2021-12-17 2021-12-17 一种实时语音分离语音转写的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548064.1A CN113936687B (zh) 2021-12-17 2021-12-17 一种实时语音分离语音转写的方法

Publications (2)

Publication Number Publication Date
CN113936687A CN113936687A (zh) 2022-01-14
CN113936687B true CN113936687B (zh) 2022-03-15

Family

ID=79289289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548064.1A Active CN113936687B (zh) 2021-12-17 2021-12-17 一种实时语音分离语音转写的方法

Country Status (1)

Country Link
CN (1) CN113936687B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999515A (zh) * 2022-05-31 2022-09-02 安徽声讯信息技术有限公司 一种仿生音频拾音器及基于其的语音会议音频分离方法
CN115331688A (zh) * 2022-08-10 2022-11-11 思必驰科技股份有限公司 音频降噪方法及电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN106448722A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 录音方法、装置和系统
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110797043A (zh) * 2019-11-13 2020-02-14 苏州思必驰信息科技有限公司 会议语音实时转写方法及系统
CN113225441A (zh) * 2021-07-09 2021-08-06 北京中电慧声科技有限公司 一种会议电话系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN106448722A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 录音方法、装置和系统
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110797043A (zh) * 2019-11-13 2020-02-14 苏州思必驰信息科技有限公司 会议语音实时转写方法及系统
CN113225441A (zh) * 2021-07-09 2021-08-06 北京中电慧声科技有限公司 一种会议电话系统

Also Published As

Publication number Publication date
CN113936687A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
Chen et al. Multi-channel overlapped speech recognition with location guided speech extraction network
Boeddeker et al. Exploring practical aspects of neural mask-based beamforming for far-field speech recognition
CN105869651B (zh) 基于噪声混合相干性的双通道波束形成语音增强方法
CN107919133A (zh) 针对目标对象的语音增强系统及语音增强方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN113936687B (zh) 一种实时语音分离语音转写的方法
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
CN108109617A (zh) 一种远距离拾音方法
EP1570464A1 (en) System and method for speech processing using independent component analysis under stability constraints
WO2019205798A1 (zh) 语音增强的方法、装置及设备
CN115359804B (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
Marti et al. Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments
López-Espejo et al. Dual-channel spectral weighting for robust speech recognition in mobile devices
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
Kovalyov et al. Dsenet: Directional signal extraction network for hearing improvement on edge devices
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Zhang et al. Microphone array processing for distance speech capture: A probe study on whisper speech detection
CN116106826A (zh) 声源定位方法、相关装置和介质
CN113345421B (zh) 一种基于角度谱特征的多通道远场的目标语音识别方法
Li et al. Feature mapping of multiple beamformed sources for robust overlapping speech recognition using a microphone array
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant