CN108615534A - 远场语音降噪方法及系统、终端以及计算机可读存储介质 - Google Patents
远场语音降噪方法及系统、终端以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108615534A CN108615534A CN201810297312.1A CN201810297312A CN108615534A CN 108615534 A CN108615534 A CN 108615534A CN 201810297312 A CN201810297312 A CN 201810297312A CN 108615534 A CN108615534 A CN 108615534A
- Authority
- CN
- China
- Prior art keywords
- lip
- value
- feature
- audio signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 230000003068 static effect Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 12
- 230000001815 facial effect Effects 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出一种远场语音降噪方法及系统、终端以及计算机可读存储介质。该远场语音降噪方法包括:采集用户的唇部特征,并识别唇部特征的特征位置值;比对所述特征位置值与标准位置值,判断唇部是否处于活动状态;确定处于活动状态的唇部在空间上的空间位置值;根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号;以及对所述音频信号进行音频处理;其中,所述标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。通过本发明的远场语音降噪方法,能够识别出实际说话人,并向实际说话人的方位收音,再进行音频处理操作,提高了在噪声环境下对远场语音的降噪性能。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种远场语音降噪方法及系统、终端以及计算机可读存储介质。
背景技术
远场语音识别,即远距离语音识别,在以智能家居为代表的多种领域的诉求越来越明显。
目前,远场语音识别技术主要通过麦克风阵列向声源方位拾音。但是,在某些应用场景中,例如声源附近有电视噪声、电话噪声等,尤其是说话人距离麦克风3至5米的距离,由于噪声和/或混响等的干扰,会明显影响远场麦克风阵列的收音效果。
因此,如何对远场语音的降噪性能,是大家十分关注的问题。
发明内容
本发明实施例提供一种远场语音降噪控制方法及系统、终端以及计算机可读存储介质,以解决现有技术中的以上的一个或多个技术问题,或至少提供一种有益的选择。
第一方面,本发明实施例提供了一种远场语音降噪方法,所述方法包括:
采集用户的唇部特征,并识别所述唇部特征的特征位置值;
比对所述特征位置值与标准位置值,判断唇部是否处于活动状态;
确定处于活动状态的唇部在空间上的空间位置值;
根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号;以及
对所述音频信号进行音频处理;
其中,所述标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。
结合第一方面,本发明在第一方面的第一种实施方式中,所述识别用户的唇部特征,包括:
通过人像采集算法,采集用户的面部特征;以及
通过色度识别算法,识别所述用户的唇部特征。
结合第一方面、第一方面的第一种实施方式,本发明在第一方面的第二种实施方式中,所述特征位置值包括特征坐标值,所述标准位置值包括标准坐标值;
所述比对所述唇部特征的特征位置值与标准位置值,判断唇部是否处于活动状态,包括:
计算所述唇部特征的特征坐标值与标准坐标值之间的位置偏差;以及当所述位置偏差超过所述阈值范围时,判断唇部处于活动状态;
其中,所述标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。
结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式,本发明在第一方面的第三种实施方式中,所述根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号,包括:
根据所述空间位置值,设置波束成形算法中的指向角度值;以及
通过所述波束成形算法和所述指向角度值,麦克风阵列指向性的收取音频信号。
结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式,本发明在第一方面的第四种实施方式中,所述根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号,还包括:
通过回声消除算法,消除所述音频信号中的回声。
结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式、第一方面的第四种实施方式,本发明在第一方面的第五种实施方式中,所述对所述音频信号进行音频处理,包括:
对所述音频信号进行抑制噪音处理;以及
去除所述音频信号中的混响。
结合第一方面及上述任何一种实施方式,本发明在第一方面的第六种实施方式中,所述方法还包括:
将处理后的音频信号输出至远场语音识别引擎。
第二方面,本发明实施例提供了一种远场语音降噪系统,所述系统包括:
唇部识别单元,配置用于采集用户的唇部特征,并识别所述唇部特征的特征位置值;
活动判断单元,配置用于比对所述唇部特征的特征位置值与标准位置值,判断唇部是否处于活动状态;
位置确定单元,配置用于确定处于活动状态的唇部在空间上的空间位置值;
音频收取单元,配置用于根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号;以及
音频处理单元,配置用于对所述音频信号进行音频处理;
其中,所述标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。
结合第二方面,本发明在第二方面的第一种实施方式中,所述唇部识别包括:
人像采集单元,配置用于通过人像采集算法,采集用户的面部特征;以及
色度识别单元,配置用于通过色度识别算法,识别所述用户的唇部特征。
结合第二方面、第二方面的第一种实施方式,本发明在第二方面的第二种实施方式中,所述特征位置值包括特征坐标值,所述标准位置值包括标准坐标值;
所述活动判断单元包括:
偏差计算单元,配置用于计算所述唇部特征的特征坐标值与标准坐标值之间的位置偏差;以及
状态判断单元,配置用于当所述位置偏差超过所述阈值范围时,判断唇部处于活动状态;
其中,所述标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。
结合第二方面、第二方面的第一种实施方式和第二方面的第二种实施方式,本发明在第二方面的第三种实施方式中,所述音频收取单元包括:
角度设置单元,配置用于根据所述空间位置值,设置波束成形算法中的指向角度值;以及
指向收取单元,配置用于通过所述波束成形算法和所述指向角度值,麦克风阵列指向性的收取音频信号。
结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式、第二方面的第三种实施方式,本发明在第二方面的第四种实施方式中,所述音频收取单元还包括:
回声消除单元,配置用于通过回声消除算法,消除所述音频信号中的回声。
结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式、第二方面的第三种实施方式、第二方面的第四种实施方式,本发明在第二方面的第五种实施方式中,所述音频处理单元包括:
抑制噪音单元,配置用于对所述音频信号进行抑制噪音处理;以及
去除混响单元,配置用于去除所述音频信号中的混响。
结合第二方面及上述任何一种实施方式,本发明在第二方面的第六种实施方式中,所述系统还包括:
音频输出单元,配置用于将处理后的音频信号输出至远场语音识别引擎。
第三方面,本发明实施例提供了一种远场语音降噪终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一所述远场语音降噪方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一种所述远场语音降噪方法。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过本发明的远场语音降噪方法,能够识别出实际说话人,并向实际说话人的方位收音,再进行音频处理操作,提高了在噪声环境下对远场语音的降噪性能。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出了根据本发明一个实施例的远场语音降噪方法100的流程图;
图2示出了根据本发明另一个实施例的远场语音降噪方法200的流程图;
图3示出了根据本发明另一个实施例的远场语音降噪方法300的流程图;
图4示出了根据本发明另一个实施例的远场语音降噪方法400的流程图;
图5示出了根据本发明另一个实施例的远场语音降噪方法500的流程图;
图6示出了根据本发明另一个实施例的远场语音降噪方法600的流程图;
图7示出了根据本发明另一个实施例的远场语音降噪方法700的流程图;
图8示出了根据本发明一个实施例的远场语音降噪系统800的结构框图;
图9示出了根据本发明另一个实施例的远场语音降噪系统900的结构框图;
图10示出了根据本发明另一个实施例的远场语音降噪系统1000的结构框图;
图11示出了根据本发明另一个实施例的远场语音降噪系统1100的结构框图;
图12示出了根据本发明另一个实施例的远场语音降噪系统1200的结构框图;
图13示出了根据本发明另一个实施例的远场语音降噪系统1300的结构框图;
图14示出了根据本发明另一个实施例的远场语音降噪系统1400的结构框图;以及
图15示出了根据本发明的远场语音降噪终端的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下面结合图1至图14所示,对本发明的远场语音降噪方法、系统和终端进行描述。
参见图1所示,本发明的远场语音降噪方法100,包括步骤S101至步骤S105。
首先,通过唇部识别步骤S101,采集用户的唇部特征,其中,对用户的唇部特征的采集,可以通过摄像头来完成,但并不仅限于此。唇部特征可以包括但不限于上唇、下唇、唇弓、唇尾和唇峰等。
并且,根据采集到的唇部特征,识别出唇部特征的特征位置值。其中,上唇、下唇、唇弓、唇尾和唇峰等特征位置值的确定,可以是以摄像头的取景框为基准的。
接着,进入活动判断步骤S102,比对唇部特征的特征位置值与标准位置值,判断唇部是否处于活动状态。
其中,标准位置值是通过统计得出的,当唇部处于静止状态时,即,相对于摄像头取景框静止时,唇部特征的位置值。
当特征位置值与标准位置值之间存在偏差时,可以判断唇部处于活动状态。
当判断出某一用户的唇部处于活动状态时,可以在位置确定步骤S103中,确定处于活动状态的唇部在空间上的空间位置值。该空间位置值可以是相对于房间空间而确定的。并且,该空间位置值会被发送给收音设备,例如麦克风阵列。
在音频收取步骤S104中,麦克风阵列可以根据接收到的空间位置值,朝向处于活动状态的唇部的方位收取音频信号。其中,麦克风阵列可以通过波束成形技术,朝向处于活动状态的唇部的方位,进行指向性的收音。
最后,在音频处理步骤S105中,对收取到的音频信号进行音频处理,从而,实现对音频的降噪处理。其中,音频处理可以包括噪声抑制,去混响等。
根据本发明的远场语音降噪方法100,能够识别出实际说话人,并向实际说话人的方位收音,避免在嘈杂环境中受到其他噪音的影响。并且,在收音之后,进行音频处理操作,进一步提高了在噪声环境下对远场语音的降噪性能。
参见图2所示,本发明一个实施例的远场语音降噪方法200,在方法100的基础上,唇部识别步骤S101包括人像采集步骤S1011和色度识别步骤S1012。
在人像采集步骤S1011中,可以使用摄像头等设备,并通过人像采集算法,采集用户的面部特征。
色度识别单元S1012中,可以基于面部中唇部颜色较深,通过色度识别算法,识别出用户的唇部特征。
参见图3所示,本发明一个实施例的远场语音降噪方法300,在方法200的基础上,活动判断步骤S102可以包括偏差计算步骤S1021和状态判断步骤S1022。
在一种实施例中,特征位置值可以包括特征坐标值,标准位置值可以包括标准坐标值,其中,标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。具体地,特征坐标值包括但不限于采集到的上唇、下唇、唇弓、唇尾和唇峰等,相对于摄像头取景框的坐标值。标准坐标值包括但不限于处于静止状态的上唇、下唇、唇弓、唇尾和唇峰等,相对于摄像头取景框的坐标值。
在偏差计算步骤S1021中,可以计算出唇部特征的特征坐标值与标准坐标值之间的位置偏差。
接着在状态判断步骤S1022中,当位置偏差超过阈值范围时,判断唇部处于活动状态。
在状态判断时,并不要求唇部处于非静止状态时,即,唇部有微动作时,就判断其活动,因此,允许唇部在一定的阈值范围内的微动作,并且,该阈值范围可以预先设定。
因此,当唇部特征的特征坐标值与标准坐标值之间的位置偏差,超过阈值范围时,判断唇部处于活动状态。
参见图4所示,在一种实施例中,本发明一个实施例的远场语音降噪方法400,在方法300的基础上,音频收取步骤S104可以包括角度设置步骤S1041和指向收取步骤S1042。
通过角度设置步骤S1041,可以根据空间位置值,设置波束成形算法中的指向角度值。
并且,在指向收取步骤S1042中,通过波束成形算法和指向角度值,使麦克风阵列能够指向性的收取音频信号。
通过本发明的方法400,收音设备,例如麦克风阵列,可以向实际说话人的方位,实现指向性地收音。在嘈杂环境中,例如附近有电视或广播声音时,指向性收音可以避免在受到其他噪音的影响。
参见图5所示,本发明一个实施例的远场语音降噪方法500,在方法400的基础上,在进行音频收取步骤S104时,还可以进行回声消除步骤S1043。
在回声消除步骤S1043中,可以通过回声消除算法,消除音频信号中的回声。
通过本发明的方法500,可以在收音的同时消除音频中的回声,从而,对音频进行了初步降噪,提高了对音频信号的降噪效果。
参见图6所示,本发明一个实施例的远场语音降噪方法600,在方法500的基础上,音频处理步骤S105可以包括抑制噪音步骤S1051和去除混响步骤S1052。
在抑制噪音步骤S1051中,可以对音频信号进行抑制噪音处理。
在去除混响步骤S1052中,可以去除音频信号中的混响。
通过本发明的方法600,在收音之后,可以对音频进行抑制噪音和去混响处理,实现对音频的二次降噪,进一步提高了在噪声环境下对远场语音的降噪性能。当然,也可以采用非线性处理,例如信号放大等,以提高降噪性能。
参见图7所示,本发明一个实施例的远场语音降噪方法700,在方法600的基础上,进一步包括了音频输出步骤S106。
在音频输出步骤S106中,可以将处理后的音频信号输出至远场语音识别引擎。通过远场语音识别引擎,可以进行语音交互,并对音频中的语音进行识别。
通过本发明的方法700,通过结合上述方法100至方法600,先对远场语音进行指向性收音,并进行降噪处理,再对处理后的音频进行语音识别,可以提高远场语音识别率,进而提升用户体验。
参见图8所示,一种远场语音降噪系统800,包括:唇部识别单元801、活动判断单元802、位置确定单元803、音频收取单元804和音频处理单元805。
唇部识别单元801,配置用于采集用户的唇部特征,并识别唇部特征的特征位置值。
其中,对用户的唇部特征的采集,可以通过摄像头来完成,但并不仅限于此。唇部特征可以包括但不限于上唇、下唇、唇弓、唇尾和唇峰等。
活动判断单元802,配置用于比对特征位置值与标准位置值,判断唇部是否处于活动状态。
其中,标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。当特征位置值与标准位置值之间存在偏差时,可以判断唇部处于活动状态。
位置确定单元803,配置用于确定处于活动状态的唇部在空间上的空间位置值。
该空间位置值可以是相对于房间空间而确定的。并且,该空间位置值会被发送给收音设备,例如麦克风阵列。
音频收取单元804,配置用于根据空间位置值,朝向处于活动状态的唇部的方位收取音频信号。其中,可以采用麦克风阵列作为收音设备,通过波束成形技术,朝向处于活动状态的唇部的方位,进行指向性的收音。
音频处理单元805,配置用于对音频信号进行音频处理。其中,音频处理可以包括噪声抑制,去混响等。
根据本发明的远场语音降噪系统800,能够识别出实际说话人,并向实际说话人的方位收音,避免在嘈杂环境中受到其他噪音的影响。并且,在收音之后,进行音频处理操作,进一步提高了在噪声环境下对远场语音的降噪性能。
具体地,图8所示的远场语音降噪系统800与图1所示的远场语音降噪方法100相对应。图8所示的系统的具体实现方式参照图1所示的方法的实施例中的描述。
参见图9所示,一种远场语音降噪系统900,在系统800的基础上,唇部识别单元801进一步包括人像采集单元8011和色度识别单元8012。
人像采集单元8011,配置用于通过人像采集算法,采集用户的面部特征。其中,采集人像可以通过摄像头来完成,但不限于此。
色度识别单元8012,配置用于通过色度识别算法,识别用户的唇部特征。由于面部中唇部颜色较深,可以采用色度识别算法来识别用户的唇部。
具体地,图9所示的远场语音降噪系统900与图2所示的远场语音降噪方法200相对应。图9所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。
参见图10所示,一种远场语音降噪系统1000,在系统900的基础上,活动判断单元802进一步包括偏差计算单元8021和状态判断单元8022。
其中,特征位置值包括特征坐标值,所述标准位置值包括标准坐标值。标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。
偏差计算单元8021,配置用于计算唇部特征的特征坐标值与标准坐标值之间的位置偏差。
状态判断单元8022,配置用于当位置偏差超过所述阈值范围时,判断唇部处于活动状态。
在状态判断时,并不要求唇部处于非静止状态时,即,唇部有微动作时,就判断其活动,因此,允许唇部在一定的阈值范围内的微动作,并且,该阈值范围可以预先设定。
具体地,图10所示的远场语音降噪系统1000与图3所示的远场语音降噪方法300相对应。图10所示的系统的具体实现方式参照图3所示的方法的实施例中的描述。
参见图11所示,一种远场语音降噪系统1100,在系统1000的基础上,音频收取单元804进一步包括角度设置单元8041和指向收取单元8042。
角度设置单元8041,配置用于根据空间位置值,设置波束成形算法中的指向角度值。
指向收取单元8042,配置用于通过波束成形算法和所述指向角度值,麦克风阵列指向性的收取音频信号。
通过本发明的系统1100,收音设备,例如麦克风阵列,可以向实际说话人的方位,实现指向性地收音。在嘈杂环境中,例如附近有电视或广播声音时,指向性收音可以避免在受到其他噪音的影响。
具体地,图11所示的远场语音降噪系统1100与图4所示的远场语音降噪方法400相对应。图11所示的系统的具体实现方式参照图4所示的方法的实施例中的描述。
参见图12所示,一种远场语音降噪系统1200,在系统1100的基础上,音频收取单元804进一步包括回声消除单元8043。
回声消除单元8043,配置用于通过回声消除算法,消除音频信号中的回声。
通过本发明的系统1200,可以在收音的同时消除音频中的回声,从而,对音频进行了初步降噪,提高了对音频信号的降噪效果。
具体地,图12所示的远场语音降噪系统1200与图5所示的远场语音降噪方法500相对应。图12所示的系统的具体实现方式参照图5所示的方法的实施例中的描述。
参见图13所示,一种远场语音降噪系统1300,在系统1200的基础上,音频处理单元805进一步包括抑制噪音单元8051和去除混响单元8052。
抑制噪音单元8051,配置用于对音频信号进行抑制噪音处理。
去除混响单元8052,配置用于去除音频信号中的混响。
通过本发明的系统1300,在收音之后,可以对音频进行抑制噪音和去混响处理,实现对音频的二次降噪,进一步提高了在噪声环境下对远场语音的降噪性能。当然,也可以采用非线性处理,例如信号放大等,以提高降噪性能。
具体地,图13所示的远场语音降噪系统1300与图6所示的远场语音降噪方法600相对应。图13所示的系统的具体实现方式参照图6所示的方法的实施例中的描述。
参见图14所示,一种远场语音降噪系统1400,在系统1300的基础上,系统1400进一步包括音频输出单元806。
音频输出单元806,配置用于将处理后的音频信号输出至远场语音识别引擎
通过本发明的系统1400,通过结合上述系统800至方法系统1300,先对远场语音进行指向性收音,并进行降噪处理,再对处理后的音频进行语音识别,可以提高远场语音识别率,进而提升用户体验。
具体地,图14所示的远场语音降噪系统1400与图7所示的远场语音降噪方法700相对应。图14所示的系统的具体实现方式参照图7所示的方法的实施例中的描述。
参见图15所示,一种远场语音降噪控制终端包括存储器1510和处理器1520。存储器1510内存储有可在处理器1520上运行的计算机程序。处理器1520执行计算机程序时实现上述实施例中的远场语音降噪方法。存储器1510和处理器1520的数量可以为一个或多个。
该服务器还包括:
通信接口1530,用于与外界设备进行通信,进行数据交互传输。
存储器1510可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1510、处理器1520和通信接口1530独立实现,则存储器1510、处理器1520和通信接口1530可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图15中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1510、处理器1520及通信接口1530集成在一块芯片上,则存储器1510、处理器1520及通信接口1530可以通过内部接口完成相互间的通信。
在一种实施例中,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一种所述远场语音降噪方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种远场语音降噪方法,其特征在于,所述方法包括:
采集用户的唇部特征,并识别所述唇部特征的特征位置值;
比对所述特征位置值与标准位置值,判断唇部是否处于活动状态;
确定处于活动状态的唇部在空间上的空间位置值;
根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号;以及
对所述音频信号进行音频处理;
其中,所述标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。
2.根据权利要求1所述的方法,其特征在于,所述识别用户的唇部特征,包括:
通过人像采集算法,采集用户的面部特征;以及
通过色度识别算法,识别所述用户的唇部特征。
3.根据权利要求2所述的方法,其特征在于,所述特征位置值包括特征坐标值,所述标准位置值包括标准坐标值;
所述比对所述唇部特征的特征位置值与标准位置值,判断唇部是否处于活动状态,包括:
计算所述唇部特征的特征坐标值与标准坐标值之间的位置偏差;以及
当所述位置偏差超过所述阈值范围时,判断唇部处于活动状态;
其中,所述标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号,包括:
根据所述空间位置值,设置波束成形算法中的指向角度值;以及
通过所述波束成形算法和所述指向角度值,麦克风阵列指向性的收取音频信号。
5.根据权利要求4所述的方法,其特征在于,所述根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号,还包括:
通过回声消除算法,消除所述音频信号中的回声。
6.根据权利要求5所述的方法,其特征在于,所述对所述音频信号进行音频处理,包括:
对所述音频信号进行抑制噪音处理;以及
去除所述音频信号中的混响。
7.根据权利要求1-6任一项权利要求所述的方法,其特征在于,所述方法还包括:
将处理后的音频信号输出至远场语音识别引擎。
8.一种远场语音降噪系统,其特征在于,所述系统包括:
唇部识别单元,配置用于采集用户的唇部特征,并识别所述唇部特征的特征位置值;
活动判断单元,配置用于比对所述特征位置值与标准位置值,判断唇部是否处于活动状态;
位置确定单元,配置用于确定处于活动状态的唇部在空间上的空间位置值;
音频收取单元,配置用于根据所述空间位置值,朝向处于活动状态的唇部的方位收取音频信号;以及
音频处理单元,配置用于对所述音频信号进行音频处理;
其中,所述标准位置值是通过统计得出的,当唇部处于静止状态时,唇部特征的位置值。
9.根据权利要求8所述的系统,其特征在于,所述唇部识别单元包括:
人像采集单元,配置用于通过人像采集算法,采集用户的面部特征;以及
色度识别单元,配置用于通过色度识别算法,识别所述用户的唇部特征。
10.根据权利要求9所述的系统,其特征在于,所述特征位置值包括特征坐标值,所述标准位置值包括标准坐标值;
所述活动判断单元包括:
偏差计算单元,配置用于计算所述唇部特征的特征坐标值与标准坐标值之间的位置偏差;以及
状态判断单元,配置用于当所述位置偏差超过所述阈值范围时,判断唇部处于活动状态;
其中,所述标准坐标值是通过统计得出的,当唇部处于静止状态时,唇部特征的坐标值。
11.根据权利要求10所述的系统,其特征在于,所述音频收取单元包括:
角度设置单元,配置用于根据所述空间位置值,设置波束成形算法中的指向角度值;以及
指向收取单元,配置用于通过所述波束成形算法和所述指向角度值,麦克风阵列指向性的收取音频信号。
12.根据权利要求11所述的系统,其特征在于,所述音频收取单元还包括:
回声消除单元,配置用于通过回声消除算法,消除所述音频信号中的回声。
13.根据权利要求12所述的系统,其特征在于,所述音频处理单元包括:
抑制噪音单元,配置用于对所述音频信号进行抑制噪音处理;以及
去除混响单元,配置用于去除所述音频信号中的混响。
14.根据权利要求8-13任一项权利要求所述的系统,其特征在于,所述系统还包括:
音频输出单元,配置用于将处理后的音频信号输出至远场语音识别引擎。
15.一种远场语音降噪终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810297312.1A CN108615534B (zh) | 2018-04-04 | 2018-04-04 | 远场语音降噪方法及系统、终端以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810297312.1A CN108615534B (zh) | 2018-04-04 | 2018-04-04 | 远场语音降噪方法及系统、终端以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615534A true CN108615534A (zh) | 2018-10-02 |
CN108615534B CN108615534B (zh) | 2020-01-24 |
Family
ID=63659493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810297312.1A Active CN108615534B (zh) | 2018-04-04 | 2018-04-04 | 远场语音降噪方法及系统、终端以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615534B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111249691A (zh) * | 2018-11-30 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 一种基于形体识别的运动员训练方法和系统 |
CN111883130A (zh) * | 2020-08-03 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种融合式语音识别方法、装置、系统、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4961177A (en) * | 1988-01-30 | 1990-10-02 | Kabushiki Kaisha Toshiba | Method and apparatus for inputting a voice through a microphone |
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
CN104581460A (zh) * | 2013-10-25 | 2015-04-29 | 现代摩比斯株式会社 | 考虑驾驶席位置的波束形成麦克风控制装置及方法 |
CN106611600A (zh) * | 2016-12-02 | 2017-05-03 | 广州音书科技有限公司 | 用于远场拾音及移动充电的音频处理装置及系统 |
CN107123423A (zh) * | 2017-06-07 | 2017-09-01 | 微鲸科技有限公司 | 语音拾取装置及多媒体设备 |
CN107680593A (zh) * | 2017-10-13 | 2018-02-09 | 歌尔股份有限公司 | 一种智能设备的语音增强方法及装置 |
-
2018
- 2018-04-04 CN CN201810297312.1A patent/CN108615534B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4961177A (en) * | 1988-01-30 | 1990-10-02 | Kabushiki Kaisha Toshiba | Method and apparatus for inputting a voice through a microphone |
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
CN104581460A (zh) * | 2013-10-25 | 2015-04-29 | 现代摩比斯株式会社 | 考虑驾驶席位置的波束形成麦克风控制装置及方法 |
CN106611600A (zh) * | 2016-12-02 | 2017-05-03 | 广州音书科技有限公司 | 用于远场拾音及移动充电的音频处理装置及系统 |
CN107123423A (zh) * | 2017-06-07 | 2017-09-01 | 微鲸科技有限公司 | 语音拾取装置及多媒体设备 |
CN107680593A (zh) * | 2017-10-13 | 2018-02-09 | 歌尔股份有限公司 | 一种智能设备的语音增强方法及装置 |
Non-Patent Citations (3)
Title |
---|
姚鸿勋等: "《基于色度分析的唇动特征提取与识别》", 《电子学报》 * |
张志文等: "《基于色度分布差异性的唇部检测算法》", 《浙江大学学报(工学版)》 * |
王晓平等: "《一种自动的唇部定位及唇轮廓提取、跟踪方法》", 《模式识别与人工智能》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111249691A (zh) * | 2018-11-30 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 一种基于形体识别的运动员训练方法和系统 |
CN111249691B (zh) * | 2018-11-30 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 一种基于形体识别的运动员训练方法和系统 |
CN111883130A (zh) * | 2020-08-03 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种融合式语音识别方法、装置、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108615534B (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109102822B (zh) | 一种基于固定波束形成的滤波方法及装置 | |
CN102421050B (zh) | 使用麦克风的非均匀布局来增强音频质量的设备和方法 | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
US10827263B2 (en) | Adaptive beamforming | |
US8787587B1 (en) | Selection of system parameters based on non-acoustic sensor information | |
US9197974B1 (en) | Directional audio capture adaptation based on alternative sensory input | |
CN106782584B (zh) | 音频信号处理设备、方法和电子设备 | |
US9443532B2 (en) | Noise reduction using direction-of-arrival information | |
CN107910013B (zh) | 一种语音信号的输出处理方法及装置 | |
CN206349145U (zh) | 音频信号处理设备 | |
CN110379439B (zh) | 一种音频处理的方法以及相关装置 | |
US9232309B2 (en) | Microphone array processing system | |
CN110010126A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN108766456B (zh) | 一种语音处理方法及装置 | |
CN111063366A (zh) | 降低噪声的方法、装置、电子设备及可读存储介质 | |
CN109285557B (zh) | 一种定向拾音方法、装置及电子设备 | |
US9997170B2 (en) | Electronic device and reverberation removal method therefor | |
CN108717495A (zh) | 多波束波束成形的方法、装置及电子设备 | |
CN113903353A (zh) | 一种基于空间区分性检测的定向噪声消除方法及装置 | |
CN108615534A (zh) | 远场语音降噪方法及系统、终端以及计算机可读存储介质 | |
US20190348056A1 (en) | Far field sound capturing | |
CN111105811B (zh) | 声音信号的处理方法、相关设备及可读存储介质 | |
US20140376742A1 (en) | Sound field spatial stabilizer with spectral coherence compensation | |
CN113948101B (zh) | 一种基于空间区分性检测的噪声抑制方法及装置 | |
CN110661510B (zh) | 波束形成器形成方法、波束形成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |