CN111402912A - 一种语音信号降噪方法及装置 - Google Patents
一种语音信号降噪方法及装置 Download PDFInfo
- Publication number
- CN111402912A CN111402912A CN202010099456.3A CN202010099456A CN111402912A CN 111402912 A CN111402912 A CN 111402912A CN 202010099456 A CN202010099456 A CN 202010099456A CN 111402912 A CN111402912 A CN 111402912A
- Authority
- CN
- China
- Prior art keywords
- noise
- real
- time image
- current
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000001629 suppression Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音信号降噪方法及装置,包括:获取实时图像;分析实时图像,从预设图像确定出多个声源方向;对声源方向进行标注以区分人声方向信息和噪声方向信息;根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;输出降噪后的声音数据。通过利用实时图像中人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪,使得处理的过程中提供多个方向的声音数据来进行降噪,并且利用了实时图像中的人声方向和噪声方向来对声音数据进行降噪,通过人声和噪声的方向可以将声音数据中的人声和噪声分离开来,使得最终的去噪效果更加明显和高效。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音信号降噪方法及装置。
背景技术
目前,随着科技的进步和发展,人们的生活质量越来越高,在享受物质生活的基础上去追求更高的精神生活,在他们的闲暇时间去KTV和酒吧等娱乐设施去放松身心,但由于上述环境中的声音都比较嘈杂,在人们说话的过程中会有大量的噪音乱入,对于人们之间的交流有很大的影响,于是针对这项问题研究出了降噪方法,现有的降噪方法为通过确定发音人的方位,采集发音人的发音信息,基于此信息指导波束形成做固定方向的语音增强,进而实现降噪。上述技术方法存在以下缺点,单纯的对人声语音进行增强,实际的原理是通过提高人声语音来降低噪音的干扰,从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果,并且上述方法在低信噪比的环境下语音的增强效果不强,影响了用户的使用体验。
发明内容
针对上述所显示出来的问题,本方法基于从实时图像中确定人声和噪声方向信息进而根据人声和噪声方向信息对声音数据进行降噪,最后输出降噪后的声音数据,获得纯净的人声。
一种语音信号降噪方法,包括以下步骤:
获取实时图像;
分析所述实时图像,从所述实时图像确定出多个声源方向;
对所述声源方向进行标注以区分人声方向信息和噪声方向信息;
根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;
输出降噪后的声音数据。
优选的,所述获取实时图像,包括:
在实时环境中心设置一个能够360°旋转的摄像头;
启动所述摄像头,利用所述摄像头获取所述实时环境内整体的图像;
确定所述整体的图像为所述实时图像。
优选的,所述分析所述实时图像,从所述实时图像确定出多个声源方向,包括:
利用目标检测算法识别出所述实时图像内的能够发音的物体,所述能够发音的物体包括用户在内;
记录所述能够发音的物体中每个物体的具体位置;
基于所述具体位置,利用波向传达算法确定出所述各物体的声源方向。
优选的,所述根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪,包括:
利用固定方向波束形成算法对所述声音数据作增强处理;
将增强处理后的所述声音数据中的人声数据确认为当前带噪信号;
将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号;
将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。
优选的,所述输出降噪后的声音数据,包括:;
利用所述波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除所述当前噪声成分,保留所述当前人声成分;
降噪完成,输出所述当前人声成分。
一种语音信号降噪装置,该装置包括:
获取模块,用于获取实时图像;
确定模块,用于分析所述实时图像,从所述实时图像确定出多个声源方向;
标注模块,用于对所述声源方向进行标注以区分人声方向信息和噪声方向信息;
降噪模块,用于根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;
输出模块,用于输出降噪后的声音数据。
优选的,所述获取模块,包括:
设置子模块,用于在实时环境中心设置一个能够360°旋转的摄像头;
获取子模块,用于启动所述摄像头,利用所述摄像头获取所述实时环境内整体的图像;
第一确定子模块,用于确定所述整体的图像为所述实时图像。
优选的,所述确定模块,包括:
识别子模块,用于利用目标检测算法识别出所述实时图像内的能够发音的物体,所述能够发音的物体包括用户在内;
记录子模块,用于记录所述能够发音的物体中每个物体的具体位置;
第二确定子模块,用于基于所述具体位置,利用波向传达算法确定出所述各物体的声源方向。
优选的,所述降噪模块,包括:
处理子模块,用于利用固定方向波束形成算法对所述声音数据作增强处理;
第一确认子模块,用于将增强处理后的所述声音数据中的人声数据确认为当前带噪信号;
第二确认子模块,用于将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号;
降噪子模块,将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。
优选的,所述输出模块,包括:
分离子模块,用于利用所波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除子模块,用于剔除所述当前噪声成分,保留所述当前人声成分;
输出子模块,用于降噪完成,输出所述当前人声成分。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种语音信号降噪方法的工作流程图;
图2为本发明所提供的一种语音信号降噪方法的另一工作流程图;
图3为本发明所提供的一种语音信号降噪装置的结构图;
图4为本发明所提供的一种语音信号降噪装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
目前,随着科技的进步和发展,人们的生活质量越来越高,在享受物质生活的基础上去追求更高的精神生活,在他们的闲暇时间去KTV和酒吧等娱乐设施去放松身心,但由于上述环境中的声音都比较嘈杂,在人们说话的过程中会有大量的噪音乱入,对于人们之间的交流有很大的影响,于是针对这项问题研究出了降噪方法,现有的降噪方法为通过确定发音人的方位,采集发音人的发音信息,基于此信息指导波束形成做固定方向的语音增强,进而实现降噪。上述技术方法存在以下缺点,单纯的对人声语音进行增强,实际的原理是通过提高人声语音来降低噪音的干扰,从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果,并且上述方法在低信噪比的环境下语音的增强效果不强,影响了用户的使用体验。为了解决上述问题,本实实施例公开了一种基于从实时图像中确定人声和噪声方向信息进而根据人声和噪声方向信息对声音数据进行降噪,最后输出降噪后的声音数据,获得纯净的人声的方法。
一种语音信号降噪方法,如图1所示,包括以下步骤:
步骤S101、获取实时图像;
步骤S102、分析实时图像,从实时图像确定出多个声源方向;
步骤S103、对声源方向进行标注以区分人声方向信息和噪声方向信息;
步骤S104、根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;
步骤S105、输出降噪后的声音数据。
上述技术方案的工作原理为:获取实时图像,从实时图像中确定多个声源方向,然后就每个声源方向进行标注来确定人声方向信息和噪声方向信息,然后根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪,最后输出降噪后的声音数据。
上述技术方案的有益效果为:通过利用实时图像中人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪,使得处理的过程中提供多个方向的声音数据来进行降噪,并且利用了实时图像中的人声方向和噪声方向来对声音数据进行降噪,通过人声和噪声的方向可以将声音数据中的人声和噪声分离开来,使得最终的去噪效果更加明显和高效,解决了现有技术中由于单纯的对人声语音进行增强,从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果的问题,同时,由于利用了人声方向和噪声方向进行降噪,在低信噪比的环境下同样不影响降噪效果,极大地提高了用户的体验感。
在一个实施例中,如图2所示,获取预设图像,包括:
步骤S201、在实时环境中心设置一个能够360°旋转的摄像头;
步骤S202、启动摄像头,利用摄像头获取实时环境内整体的图像;
步骤S203、确定整体的图像为实时图像。
上述技术方案的有益效果为:全方位的采集实时环境内的图像,可以无死角的得到实时图像内所有的图像内容,避免错失一些重要的图像内容而使得后边无法有效的确定多个声源方向,提高了精度和准确率。
在一个实施例中,分析实时图像,从实时图像确定出多个声源方向,包括:
利用目标检测算法识别出实时图像内的能够发音的物体,能够发音的物体包括用户在内;
记录能够发音的物体中每个物体的具体位置;
基于具体位置,利用波向传达算法确定出各物体的声源方向。
上述技术方案的有益效果为:根据具体位置来判断声源方向使得判断的结果更加准确,并且确定每个物体的具体位置可以判断其声源方向是否有重叠或者交叉进而可以选择性的剔除某些声源方向。
在一个实施例中,根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪,包括:
利用固定方向波束形成算法对声音数据作增强处理;
将增强处理后的声音数据中的人声数据确认为当前带噪信号;
将增强处理后的声音数据中的噪声数据确认为噪声参考信号;
将当前带噪信号和噪声参考信号输入到波束形成器中作自适应降噪处理。
上述技术方案的有益效果为:通过对声音数据作增强处理可以更直观的分辨出声音数据中的人声数据和噪声数据,并且噪声数据更明显可以更好的作为噪声参考信号,波束形成器可以进行自适应噪声抵消处理,相比于现有技术具有更加完善的去噪效果,提高了用户的体验感。
在一个实施例中,输出降噪后的声音数据,包括:
利用波束形成器将当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除当前噪声成分,保留当前人声成分;
降噪完成,输出当前人声成分。
上述技术方案的有益效果为:明显的去除了当前带噪语音中的噪音成分,只保留当前人声成分,使得当前带噪信号的去噪效果实现完美,无任何噪音成分,进一步使得最终的去噪效果更加明显和高效。
在一个实施例中,包括:
1.通过摄像头,采集360度的图像信息;
2.基于图像目标检测算法分析图像,识别出人和一些典型的能发声的物体,比如电视机、音箱等,并记录它们的方位;
3.波束形成算法开始工作时,基于此前一个很短时刻的声学信息,利用DOA(波达方向)估计算法,估计出多个可能的声源方向;
4.利用第2步中的信息,将第3步中估计出的几个方向分别标注为人声或噪声方向;
利用第4步的标注,采用固定方向波束形成算法,分别对人声和噪声方向做增强,之后将对人声增强后的数据作为下一级的含噪信号输入,对噪声方向做增强之后的数据作为噪声参考信号,进一步进行GSC波束形成器中的自适应噪声抵消(ANC)处理,从而获得低信噪比环境下更为理想的噪声抑制效果。
上述技术方案的有益效果为:通过图像识别,不但获得人的方位,同时获得可能的噪声源的方位,在构建波束时,可以同时精准地增强人声和抑制噪声,解决了现有技术在低信噪比场景下无法准确降噪的问题。
本实施例还公开了一种语音信号降噪装置,如图3所示,该装置包括:
获取模块301,用于获取实时图像;
确定模块302,用于分析实时图像,从实时图像确定出多个声源方向;
标注模块303,用于对声源方向进行标注以区分人声方向信息和噪声方向信息;
降噪模块304,用于根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪;
输出模块305,用于输出降噪后的声音数据。
在一个实施例中,如图4所示,获取模块,包括:
设置子模块3011,用于在实时环境中心设置一个能够360°旋转的摄像头;
获取子模块3012,用于启动摄像头,利用摄像头获取实时环境内整体的图像;
第一确定子模块3013,用于确定整体的图像为实时图像。
在一个实施例中,确定模块,包括:
识别子模块,用于利用目标检测算法识别出实时图像内的能够发音的物体,能够发音的物体包括用户在内;
记录子模块,用于记录能够发音的物体中每个物体的具体位置;
第二确定子模块,用于基于具体位置,利用波向传达算法确定出各物体的声源方向。
在一个实施例中,降噪模块,包括:
处理子模块,用于利用固定方向波束形成算法对声音数据作增强处理;
第一确认子模块,用于将增强处理后的声音数据中的人声数据确认为当前带噪信号;
第二确认子模块,用于将增强处理后的声音数据中的噪声数据确认为噪声参考信号;
降噪子模块,用于将当前带噪信号和噪声参考信号输入到波束形成器中作自适应降噪处理。
在一个实施例中,输出模块,包括:
分离子模块,用于利用波束形成器将当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除子模块,用于剔除当前噪声成分,保留当前人声成分;
输出子模块,用于降噪完成,输出当前人声成分。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种语音信号降噪方法,其特征在于,包括以下步骤:
获取实时图像;
分析所述实时图像,从所述实时图像确定出多个声源方向;
对所述声源方向进行标注以区分人声方向信息和噪声方向信息;
根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;
输出降噪后的声音数据。
2.根据权利要求1所述语音信号降噪方法,其特征在于,所述获取实时图像,包括:
在实时环境中心设置一个能够360°旋转的摄像头;
启动所述摄像头,利用所述摄像头获取所述实时环境内整体的图像;
确定所述整体的图像为所述实时图像。
3.根据权利要求1所述语音信号降噪方法,其特征在于,所述分析所述实时图像,从所述实时图像确定出多个声源方向,包括:
利用目标检测算法识别出所述实时图像内的能够发音的物体,所述能够发音的物体包括用户在内;
记录所述能够发音的物体中每个物体的具体位置;
基于所述具体位置,利用波向传达算法确定出所述各物体的声源方向。
4.根据权利要求1所述语音信号降噪方法,其特征在于,所述根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪,包括:
利用固定方向波束形成算法对所述声音数据作增强处理;
将增强处理后的所述声音数据中的人声数据确认为当前带噪信号;
将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号;
将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。
5.根据权利要求4所述语音信号降噪方法,其特征在于,所述输出降噪后的声音数据,包括:
利用所述波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除所述当前噪声成分,保留所述当前人声成分;
降噪完成,输出所述当前人声成分。
6.一种语音信号降噪装置,其特征在于,该装置包括:
获取模块,用于获取实时图像;
确定模块,用于分析所述实时图像,从所述实时图像确定出多个声源方向;
标注模块,用于对所述声源方向进行标注以区分人声方向信息和噪声方向信息;
降噪模块,用于根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪;
输出模块,用于输出降噪后的声音数据。
7.根据权利要求6所述语音信号降噪装置,其特征在于,所述获取模块,包括:
设置子模块,用于在实时环境中心设置一个能够360°旋转的摄像头;
获取子模块,用于启动所述摄像头,利用所述摄像头获取所述实时环境内整体的图像;
第一确定子模块,用于确定所述整体的图像为所述实时图像。
8.根据权利要求6所述语音信号降噪装置,其特征在于,所述确定模块,包括:
识别子模块,用于利用目标检测算法识别出所述实时图像内的能够发音的物体,所述能够发音的物体包括用户在内;
记录子模块,用于记录所述能够发音的物体中每个物体的具体位置;
第二确定子模块,用于基于所述具体位置,利用波向传达算法确定出所述各物体的声源方向。
9.根据权利要求6所述语音信号降噪装置,其特征在于,所述降噪模块,包括:
处理子模块,用于利用固定方向波束形成算法对所述声音数据作增强处理;
第一确认子模块,用于将增强处理后的所述声音数据中的人声数据确认为当前带噪信号;
第二确认子模块,用于将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号;
降噪子模块,用于将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。
10.根据权利要求9所述语音信号降噪装置,其特征在于,所述输出模块,包括:
分离子模块,用于利用所述波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离;
剔除子模块,用于剔除所述当前噪声成分,保留所述当前人声成分;
输出子模块,用于降噪完成,输出所述当前人声成分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099456.3A CN111402912A (zh) | 2020-02-18 | 2020-02-18 | 一种语音信号降噪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099456.3A CN111402912A (zh) | 2020-02-18 | 2020-02-18 | 一种语音信号降噪方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111402912A true CN111402912A (zh) | 2020-07-10 |
Family
ID=71428493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099456.3A Pending CN111402912A (zh) | 2020-02-18 | 2020-02-18 | 一种语音信号降噪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402912A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012029209A (ja) * | 2010-07-27 | 2012-02-09 | Hitachi Ltd | 音処理システム |
US20150088500A1 (en) * | 2013-09-24 | 2015-03-26 | Nuance Communications, Inc. | Wearable communication enhancement device |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106338711A (zh) * | 2016-08-30 | 2017-01-18 | 康佳集团股份有限公司 | 一种基于智能设备的语音定向方法及系统 |
CN106340305A (zh) * | 2016-11-04 | 2017-01-18 | 北京声智科技有限公司 | 自校准的远场语音交互设备及远场语音自校准方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
CN108039179A (zh) * | 2017-12-13 | 2018-05-15 | 重庆邮电大学 | 一种用于麦克风阵列广义旁瓣消除器的高效自适应算法 |
CN109141620A (zh) * | 2017-06-23 | 2019-01-04 | 卡西欧计算机株式会社 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
CN110085247A (zh) * | 2019-05-06 | 2019-08-02 | 上海互问信息科技有限公司 | 一种针对复杂噪声环境的双麦克风降噪方法 |
CN110661510A (zh) * | 2019-10-18 | 2020-01-07 | 出门问问信息科技有限公司 | 波束形成器形成方法、波束形成方法、装置及电子设备 |
CN110716180A (zh) * | 2019-10-17 | 2020-01-21 | 北京华捷艾米科技有限公司 | 一种基于人脸检测的音频定位方法及装置 |
-
2020
- 2020-02-18 CN CN202010099456.3A patent/CN111402912A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012029209A (ja) * | 2010-07-27 | 2012-02-09 | Hitachi Ltd | 音処理システム |
US20150088500A1 (en) * | 2013-09-24 | 2015-03-26 | Nuance Communications, Inc. | Wearable communication enhancement device |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106338711A (zh) * | 2016-08-30 | 2017-01-18 | 康佳集团股份有限公司 | 一种基于智能设备的语音定向方法及系统 |
CN106340305A (zh) * | 2016-11-04 | 2017-01-18 | 北京声智科技有限公司 | 自校准的远场语音交互设备及远场语音自校准方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN109141620A (zh) * | 2017-06-23 | 2019-01-04 | 卡西欧计算机株式会社 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
CN108039179A (zh) * | 2017-12-13 | 2018-05-15 | 重庆邮电大学 | 一种用于麦克风阵列广义旁瓣消除器的高效自适应算法 |
CN110085247A (zh) * | 2019-05-06 | 2019-08-02 | 上海互问信息科技有限公司 | 一种针对复杂噪声环境的双麦克风降噪方法 |
CN110716180A (zh) * | 2019-10-17 | 2020-01-21 | 北京华捷艾米科技有限公司 | 一种基于人脸检测的音频定位方法及装置 |
CN110661510A (zh) * | 2019-10-18 | 2020-01-07 | 出门问问信息科技有限公司 | 波束形成器形成方法、波束形成方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
毛维等: "双微阵列语音增强算法在说话人识别中的应用", vol. 37, no. 37, pages 253 - 260 * |
闫 杰等: "基于 B o tt l en e ck 特征和 i -v e c to r 的 说话人年龄分类", pages 1 - 6 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
CN111370014B (zh) | 多流目标-语音检测和信道融合的系统和方法 | |
WO2016183791A1 (zh) | 一种语音信号处理方法及装置 | |
US8781156B2 (en) | Voice-body identity correlation | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
CN112185408B (zh) | 音频降噪方法、装置、电子设备以及存储介质 | |
CN111048113A (zh) | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 | |
Yu et al. | Audio-visual multi-channel integration and recognition of overlapped speech | |
Navarathna et al. | Multiple cameras for audio-visual speech recognition in an automotive environment | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN113053402B (zh) | 一种语音处理方法、装置和车辆 | |
CN113539288A (zh) | 一种语音信号去噪方法及装置 | |
CN110992971A (zh) | 一种语音增强方向的确定方法、电子设备及存储介质 | |
CN111402912A (zh) | 一种语音信号降噪方法及装置 | |
CN112487246A (zh) | 一种多人视频中发言人的识别方法和装置 | |
CN115174959B (zh) | 视频3d音效设置方法及装置 | |
CN112530452B (zh) | 一种后置滤波补偿方法、装置和系统 | |
Gogate et al. | Towards robust real-time audio-visual speech enhancement | |
JP5535746B2 (ja) | 音データ処理装置及び音データ処理方法 | |
JP2015155982A (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
CN112788278B (zh) | 视频流的生成方法、装置、设备及存储介质 | |
WO2023054047A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110335607B (zh) | 一种语音指令的执行方法、装置及电子设备 | |
Tanaka et al. | Identification of Utterance Content Using Lip Movement Features | |
Taguchi et al. | KIKIWAKE: Sound source separation system for children-computer interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |
|
RJ01 | Rejection of invention patent application after publication |