CN113936687B - 一种实时语音分离语音转写的方法 - Google Patents
一种实时语音分离语音转写的方法 Download PDFInfo
- Publication number
- CN113936687B CN113936687B CN202111548064.1A CN202111548064A CN113936687B CN 113936687 B CN113936687 B CN 113936687B CN 202111548064 A CN202111548064 A CN 202111548064A CN 113936687 B CN113936687 B CN 113936687B
- Authority
- CN
- China
- Prior art keywords
- voice
- doa
- filter
- module
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000000926 separation method Methods 0.000 title claims abstract description 23
- 238000013518 transcription Methods 0.000 title claims abstract description 23
- 230000035897 transcription Effects 0.000 title claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000000903 blocking effect Effects 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 3
- 101100355601 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD53 gene Proteins 0.000 description 3
- 101150087667 spk1 gene Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000734676 Homo sapiens Inactive tyrosine-protein kinase PEAK1 Proteins 0.000 description 1
- 102100034687 Inactive tyrosine-protein kinase PEAK1 Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 208000027124 goblet cell carcinoma Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明是一种实时语音分离语音转写的方法,包括:硬件采集模块,语音分离模块,语音转写模块,其中,硬件采集模块用来采集语音数字信号;语音分离模块用来对硬件采集模块的采集的不同方向语音数字信号分离;语音转写模块对所述语音分离模块分离出来的各路语音数字信号转写为文字,硬件采集模块的麦克风拾音模组采集语音信号,仅需配置角度参数;语音分离模块可实时、有效的将多人对话按说话人分离,进行实时语音转写;同时,语音分离模块可有效降低环境噪声的干扰,对固定方向的声源进行转写,从而可有效的分离重叠的对话语音,进行有效的语音转写。
Description
技术领域
本发明涉及计算机领域,具体涉及一种实时语音分离语音转写的方法。
背景技术
在类似保险、银行柜台具有固定位置的服务对话场景中,需要在略微吵杂的环境中,对双方的对话进行有效的记录;
现有的桌面指向拾音产品,只能对其使用者,即使用人进行近场拾音,无法同时获得对话中对人的语音,若场景中存在多人说话,需布局多个近场的拾音设备,且离说话人非常近,通常在20公分以内。本方法可以通过放在桌面端的麦克风阵列拾音器,实时判断分离不同方向的多个人声,并实时按多个不同角色,输出为对应的文本信息,该方法可有效的应用于多人讲话、同时讲话、移动讲话的多种不同场景。
远场使用场景中,复杂的噪声环境严重影响了语音转写的正确率,本发明可有效抑制使用环境中的噪音影响,包含环境噪音和其他非目标说话人的声音。
远场多人对话场景中,受复杂的噪声的影响,且对话场景中抢话,插话导致连续语音中多人的话术,本发明可实时有效的分离对话场景的多说话人语音,进行有效转写。
发明内容
本发明提供一种实时语音分离语音转写的方法,通过硬件采集模块,得到多路麦克风的数字信号,经过语音分离模块对多说话人进行声源定位后对固定方向的声源成形,形成说话方向的滤波后的语音信号,进一步消除非目标方向的语音和干扰信号,然后语音转写模块把固定方向的语音信号转化为文字内容。
为了达到上述目的,本发明提供如下技术方案:一种实时语音分离语音转写的方法,包括:通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;
通过语音分离模块将所述数字信号分离出多个单人的语音信号;
将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容。
优选的,所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz的数字信号。
优选的,所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,Post Filter后处理滤波器及Post Separator后处理时域分离器构成。
优选的,所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、为按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
优选的,所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。
优选的,所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive BlockingMatrix和Multichannel Adaptive Interference Canceller 滤波器更新策略,本方法使用Adaptive Interference Canceller -Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。
优选的,所述Post Filter采用MAP-Based后处理滤波器。
优选的,所述Post Filter后处理滤波器采用为后验信噪比作为随机变
量,定义,复合高斯分布定义先验信噪比,
As为Modified TF-GSC输出,An为Modified TF-GSC ABM模块的输出
优选的,所述Post Separator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
本发明有益效果为:通过上述设置,本发明中硬件采集模块的麦克风拾音模组可方便、便捷的部署在柜台或桌面的任意位置采集语音信号,仅需配置角度参数;本发明语音分离模块可实时、有效的将多人对话按说话人分离,进行实时语音转写;同时,本发明中语音分离模块可有效降低环境噪声的干扰,包含环境噪音和其他非目标说话人的声音,对固定方向的声源进行转写,从而可有效的分离重叠的对话语音,进行有效的语音转写。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明应用方式示意图;
图2为本发明局部工作示意图;
图3为本发明Modified TF_GSC结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1、图2中的流程步骤所示,一种实时语音分离语音转写的方法,包括:通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;通过语音分离模块将所述数字信号分离出多个单人的语音信号;将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容;所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz的数字信号。
在这里所述的硬件采集模块中的麦克风拾音模组以固定的角度进行排列,通过对环境中的说话人的语音进行采集,得到N_MIC路(麦克风数量)麦克风模拟电信号,所述的麦克风拾音模组可以在会议桌或者银行柜台前进行摆放,对说话人位置进行预估,配置角度参数进行摆放,可有效对各个角度的说话人的语音进行有效采集,采集语音之后进过模拟数字转化,转化为N_MIC路采样率为16kHz的数字语音信号,为之后的数字信号域算法做出准备。
所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,PostFilter后处理滤波器及Post Separator后处理时域分离器构成。
所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、为按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
利用Guided-Weighted-Smoothed-SRP-PHAT方法,先计算SPR-PHAT得到每一帧(8ms)的原始DOA输出记为DOA_PEAK_RAW,之后对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度SPRout最大值为目前DOA_PEAK_energy和DOA_PEAK。
首先计算SRP-PHAT,得到每一帧(8ms)的原始DOA输出记为DOA_PEAK1,记麦克风为p,q,则
SRP是所有麦克风两两组合的GCC之和,
对不同频率进行加权,用以平衡不同频率的空间分辨率和麦克风间距,提高DOA精度;
按每5度为间隔,扫描0-360度SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK。
对DOA_PEAK进行中值滤波,平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定中值滤波长度为H,当前时刻T,DOA_SMOOTH为中值滤波的输出,即窗口H内排序后的中值,得到DOA_SMOOTH=MEDIAN_FILTER(即DOA_PEAK)。
按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到Fixed Beamformer的输入导向矢量DOA_TARGET_BF;同时输出平滑DOA_SMOOTH,通过
If abs(DOA_SMOOTH –DOA_TARGET)<DOA_BEAM or 360–abs(DOA_SMOOTH-DOA_TARGET)>180:
DOA_TARGET_BF=DOA_SMOOTH
Else:
DOA_TARGET_BF=DOA_TARGET
DOA_SMOOTH=DOA_SMOOTH用于估计DOA是不是在预设的范围内,其中abs为取绝对值运算符。
对输出的平滑DOA_SMOOTH使用固定方向波束成形,分别输出目标方向空间滤波后的语音数字信号。
所述Fixed Beamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel Adaptive Interference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive Blocking Matrix和Multichannel Adaptive Interference Canceller 滤波器更新策略,本方法使用Adaptive Interference Canceller-Adaptive Blocking Matrixcontroller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。固定波束采用Modified TF_GSC结构。如图3所示:
TF_GSC由Fixed Beamformer固定波束成形(简称FB)、Blocking Matrix矩塞矩阵(简称BM矩塞矩阵)、Multichannel Adaptive Interference Canceller构成(简称Multichannel AIC,多通道自适应相消器)BM采用自适应滤波器 Adaptive BM(简称ABM),同时使用AIC-ABM controller跟踪后验信噪比变化,来控制两组滤波器是否更新,分别输出目标说话方向空间滤波后的语音数字信号。
所述Post Filter采用MAP-Based后处理滤波器,MAP即Maximum a posteriori
estimation 最大后验估计;所述Post Filter后处理滤波器采用为后验信噪比
作为随机变量,定义,复合高斯分布定义先验信噪比,As为Modified TF-GSC输出,An为Modified TF_GSC ABM模块的输出
所述Post Separator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch(基频)差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
Post Separator的增益表示为:
if SPK1能量>SPK2能量+delta_energy;
Mask_SPK2=true
else if:SPK1能量<SPK2 能量+delta_energy
Mask_SPK1=true
Else:
if Coherence>Coherence_thresnhold and pitch差<delta-pitch:
if DOA_GUIDE=SPK2:
Mask_SPK1 =true
Else if DOA_GUIDE=SPK1:
Mask_SPK2=true
利用Post Separator的增益估计N_SPK(输出说话人数量)路分离信号的相似度,利用Mask计算时域信号上生成遮掩滤波器,进一步消除残留干扰。
最后利用语音转写模块对消除残留干扰后的N_SPK路分离语音数字信号分别进行转写,所述语音转写模块可以为每一路的数字语音信号分别转写为文字内容,不会对各路语音信号的干扰内容进行转写或者不区分进行转写,能够在多人会议的时候有效对每一位发言者进行单独的转写
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种实时语音分离语音转写的方法,其特征在于,包括:
通过硬件采集模块对多人说话的声音采集,并得到多路麦克风的数字信号;
通过语音分离模块将所述数字信号分离出多个单人的语音信号;
将各个所述语音信号分别接入语音转写模块,转写成对应每个说话人的文字内容;
所述语音分离模块由DOA声源定位、Fixed Beamformer固定方向波束成形,PostFilter后处理滤波器及Post Separator后处理时域分离器构成;
所述DOA声源定位采用GWS-SRP-PHAT方法:
第一步、先计算SRP-PHAT得到每一帧的原始DOA输出记为DOA_PEAK_RAW,同时对不同频率进行加权,用以平衡不同频率的空间谱分辨率和麦克风间距,提高DOA精度,按5度为间隔,扫描0-360度,SRPout最大值为目前DOA_PEAK_energy和DOA_PEAK;
第二步、对DOA_PEAK进行中值滤波器平滑滤波得到DOA_SMOOTH,结合语音学和经验值设定,中值滤波器长度为H,当前时刻T,DOA_SMOOTH为中值滤波器的输出,即窗口H内排序后的中值DOA_SMOOTH;
第三步、按指定的目标方向角DOA_TARGET和波束范围DOA_BEAM,得到FixedBeamformer的输入导向矢量DOA_TARGET_BF,同时输出平滑DOA_SMOOTH。
2.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述采集模块包含多个麦克风拾音模组;各个所述麦克风拾音模组的采样率为16kHz。
3.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述FixedBeamformer固定方向波束成形通过采用Modified TF-GSC结构分别输出目标说话方向空间滤波后的语音信号。
4.根据权利要求3所述的一种实时语音分离语音转写的方法,其特征在于:所述TF-GSC由Fixed Beamformer固定波束成形、Blocking Matrix矩塞矩阵、Multichannel AdaptiveInterference Canceller构成;所述Blocking Matrix矩塞矩阵采用自适应滤波器Adaptive Blocking Matrix,自适应滤波器Adaptive Blocking Matrix和MultichannelAdaptive Interference Cancel ler滤波器更新策略,本方法使用AdaptiveInterference Canceller-Adaptive Blocking Matrix controller跟踪各自输入输出的后验信噪比变化,来判定目标方向和非目标方向是否包含语音,来控制两组滤波器是否更新。
5.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于:所述PostFilter后处理滤波器采用MAP-Based后处理滤波器。
7.根据权利要求1所述的一种实时语音分离语音转写的方法,其特征在于,所述PostSeparator包含:相似度,Pitch filter,DOA_GUIDE,窗口能量;预定义的输出的说话人数量为N_SPK,
所述相似度为N_SPK路分离信号的窗口的Coherence,即谱相似度;
所述Pitch filter用于分别估计N_SPK路语音信号的Pitch差是否在预定义的delta-Pitch内,即N_SPK的基频是否相似;
所述DOA_GUIDE用于同步判断窗口内当前帧属于N_SPK路说话人的比例,予以加权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548064.1A CN113936687B (zh) | 2021-12-17 | 2021-12-17 | 一种实时语音分离语音转写的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548064.1A CN113936687B (zh) | 2021-12-17 | 2021-12-17 | 一种实时语音分离语音转写的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936687A CN113936687A (zh) | 2022-01-14 |
CN113936687B true CN113936687B (zh) | 2022-03-15 |
Family
ID=79289289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111548064.1A Active CN113936687B (zh) | 2021-12-17 | 2021-12-17 | 一种实时语音分离语音转写的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936687B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999515A (zh) * | 2022-05-31 | 2022-09-02 | 安徽声讯信息技术有限公司 | 一种仿生音频拾音器及基于其的语音会议音频分离方法 |
CN115331688A (zh) * | 2022-08-10 | 2022-11-11 | 思必驰科技股份有限公司 | 音频降噪方法及电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110797043A (zh) * | 2019-11-13 | 2020-02-14 | 苏州思必驰信息科技有限公司 | 会议语音实时转写方法及系统 |
CN113225441A (zh) * | 2021-07-09 | 2021-08-06 | 北京中电慧声科技有限公司 | 一种会议电话系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957337B2 (en) * | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
-
2021
- 2021-12-17 CN CN202111548064.1A patent/CN113936687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN106448722A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 录音方法、装置和系统 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110797043A (zh) * | 2019-11-13 | 2020-02-14 | 苏州思必驰信息科技有限公司 | 会议语音实时转写方法及系统 |
CN113225441A (zh) * | 2021-07-09 | 2021-08-06 | 北京中电慧声科技有限公司 | 一种会议电话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113936687A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Multi-channel overlapped speech recognition with location guided speech extraction network | |
Boeddeker et al. | Exploring practical aspects of neural mask-based beamforming for far-field speech recognition | |
CN105869651B (zh) | 基于噪声混合相干性的双通道波束形成语音增强方法 | |
CN107919133A (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN113936687B (zh) | 一种实时语音分离语音转写的方法 | |
CN111916101B (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
CN108109617A (zh) | 一种远距离拾音方法 | |
EP1570464A1 (en) | System and method for speech processing using independent component analysis under stability constraints | |
WO2019205798A1 (zh) | 语音增强的方法、装置及设备 | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
WO2019205796A1 (zh) | 减少频域处理量的方法、装置及设备 | |
Marti et al. | Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments | |
López-Espejo et al. | Dual-channel spectral weighting for robust speech recognition in mobile devices | |
Jin et al. | Multi-channel noise reduction for hands-free voice communication on mobile phones | |
Maas et al. | A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments | |
Xiao et al. | Beamforming networks using spatial covariance features for far-field speech recognition | |
Kovalyov et al. | Dsenet: Directional signal extraction network for hearing improvement on edge devices | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
Zhang et al. | Microphone array processing for distance speech capture: A probe study on whisper speech detection | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
CN113345421B (zh) | 一种基于角度谱特征的多通道远场的目标语音识别方法 | |
Li et al. | Feature mapping of multiple beamformed sources for robust overlapping speech recognition using a microphone array | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |