CN106898348A - 一种出声设备的去混响控制方法和装置 - Google Patents

一种出声设备的去混响控制方法和装置 Download PDF

Info

Publication number
CN106898348A
CN106898348A CN201611242997.7A CN201611242997A CN106898348A CN 106898348 A CN106898348 A CN 106898348A CN 201611242997 A CN201611242997 A CN 201611242997A CN 106898348 A CN106898348 A CN 106898348A
Authority
CN
China
Prior art keywords
equipment
dereverberation
user
degree
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611242997.7A
Other languages
English (en)
Other versions
CN106898348B (zh
Inventor
楼厦厦
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bird Innovation Beijing Technology Co ltd
Original Assignee
Beijing Ninth Laboratory Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ninth Laboratory Technology Co Ltd filed Critical Beijing Ninth Laboratory Technology Co Ltd
Priority to CN201611242997.7A priority Critical patent/CN106898348B/zh
Publication of CN106898348A publication Critical patent/CN106898348A/zh
Priority to EP17208986.4A priority patent/EP3343559B1/en
Priority to US15/849,091 priority patent/US10410651B2/en
Application granted granted Critical
Publication of CN106898348B publication Critical patent/CN106898348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种出声设备的去混响控制方法和装置。该方法包括当设备播放音频时,实时采集来自用户的语音信号;获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数;根据相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。本方案能够提高语音指令识别率,增强用户交互体验。

Description

一种出声设备的去混响控制方法和装置
技术领域
本发明涉及语音交互技术领域,特别涉及一种出声设备的去混响控制方法和装置。
背景技术
随着智能技术的发展,很多厂商开始考虑在智能产品上设置语音识别功能等,例如,要求电脑、手机、音响、家电等产品支持无线连接、远程控制和语音交互等。
然而,当用户与智能产品进行语音交互时,用户发出的声音经房间反射后又被智能产品采集到,产生了混响,由于混响中包含了与正确信号相似的信号,对语音信息和语音特征提取的干扰较大,必须进行去混响操作。现有的去混响方案不能很好地适用于用户与智能产品交互的场景,要么去混响程度较低,导致混响残留较大,要么去混响程度过高,削弱了用户语音,导致产品对语音指令识别率严重下降,不能及时响应用户的指令,交互体验差。
发明内容
本发明实施例提供了一种出声设备的去混响控制方法和装置,以解决现有产品对语音指令的识别率低、交互体验差的问题等。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本发明实施例提供了一种出声设备的去混响控制方法。该方法包括:
当设备播放音频时,实时采集来自用户的语音信号;
获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数;
根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
又一方面,本发明实施例提供了一种出声设备的去混响控制装置。该装置包括:
语音采集器,用于当设备播放音频时,实时采集来自用户的语音信号;
因子获取单元,用于获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数;
去混响执行单元,用于根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
命令执行单元,用于获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
本发明实施例的技术方案,基于用户与设备的相对信息调整语音增强方式时,能够在去混响同时较好地增强或保护用户语音,提高语音识别率;基于关联于用户、设备的声学参数执行去混响时,能够根据声学参数指示的声学环境的变化,采用不同的语音增强方式,保证适当的去混响程度,解决了现有方案易于导致的混响残留大或削弱用户语音的问题,达到较高的语音识别率。可以理解,当同时结合用户信息和环境信息去混响时,能够进一步提升语音识别的准确率。
附图说明
图1为本发明一个实施例提供的一种出声设备的去混响控制方法示意图;
图2为本发明又一个实施例提供的出声设备的去混响控制装置结构示意图;
图3为本发明又一个实施例提供的又一种出声设备的去混响控制装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明一个实施例提供了一种出声设备的去混响控制方法。参见图1,该方法包括如下步骤:
S101:当设备播放音频时,实时采集来自用户的语音信号。
S102:获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数。
本实施例在选取控制去混响的参照量时,以用户相关量和空间相关量两个基本的因子为基础,并结合这两种基本因子衍生出同时体现了用户信息和空间信息的综合因子。
例如,获取用户相对于设备的方向信息和距离信息,作为相对位置信息,这属于用户相关量;而声学参数则既可属于基本因子,也可属于综合因子,如房间的混响时间(T60,T30或T20等)属于一种空间相关量;用户语音的直达混响比(设备采集到的用户语音中直达声与混响声的比例)、设备利用其内置的麦克风阵列采集用户语音并计算出的语音清晰度(如C50等),则同时与用户和空间关联,属于综合因子。
S103:根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
S104:获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
由上,本发明实施例的技术方案,基于用户与设备的相对信息调整语音增强方式时,能够在去混响同时较好地增强或保护用户语音,提高语音识别率;基于关联于用户、设备的声学参数执行去混响时,能够根据声学参数指示的声学环境的变化,采用不同的语音增强方式,保证适当的去混响程度,解决了现有方案易于导致的混响残留大或削弱用户语音的问题,达到较高的语音识别率。可以理解,当同时结合用户信息和环境信息去混响时,能够进一步提升语音识别的准确率。
在图1所示实施例的基础上,进一步的,为了更加匹配用户与设备语音交互的特点,本发明又一实施中,在执行步骤S102的同时包括但不局限于采用下述处理方式:根据设备采集到的语音信号判断检测到唤醒词时,控制设备停止音频播放;或者,根据该语音信号判断检测到唤醒词时,降低设备音频播放的音量至音量阈值以下。
这种处理方式,根据用户与设备语音交互场景的特点,在检测到唤醒词时,判断出用户此时有了新的需求,控制设备停止当前音频,等待用户的新指令,不但有助于进一步提高新指令的识别率,而且符合语音交互场景的使用习惯,提高了交互体验。
控制音频播放的操作与步骤S102同时执行,缩短响应时间,更及时地对用户进行响应。
进一步的,在步骤S104中,命令词包括控制设备自带功能的命令,如控制设备中喇叭的音量播放大小的命令,控制设备移动的命令,还可以包括控制设备中安装的应用程序的命令,但不局限于此。
由于相对于唤醒词,命令词数目多,内容复杂,为了降低设备负担,提高识别精度,本实施例对命令词采用云端处理的方式。在设备停止音频后,采集用户在唤醒词之后发出的语音信号;将语音信号传输至云端服务器,由云端服务器对该语音信号进行特征匹配,由匹配成功的语音信号得到命令词;接收云端服务器返回的命令词,根据该命令词控制设备执行相应功能,以对用户进行相应应答。
本发明又一实施例中主要对如何基于用户相关量和空间相关量进行去混响操作进行具体说明,本方案的其他内容参照其他实施例。
本发明各实施例中的出声设备为带麦克风阵列的出声设备,利用麦克风阵列采集用户语音,并执行去混响。在一次根据基本因子或综合因子去混响的过程中,根据产品需求和使用场景选取使用的麦克风会不相同,可以选用麦克风阵列中全部的麦克风,也可以选用麦克风阵列中的部分麦克风。例如,如果用户距离较近,语音比较响亮清晰,则可以只用一部分麦克风,就可以达到和使用全部麦克风时接近的效果,此时就没必要使用全部麦克风了。如果用户距离较远,语音较弱,混响较重,则需要选用全部麦克风来进行处理。
对需要利用多个因子去混响的场景,本实施例为相对位置信息和声学参数包括的各因子分别设置优先级;按照优先级从高到低,逐次基于相应因子,执行去混响操作,或者仅采用优先级高于预定级别的因子,执行去混响操作。采用分级别的处理方式,不但能根据不同场景提供有针对性的语音增强方式,达到较好的去混响效果,且能够降低计算复杂度,缩短响应时间。可以理解,也可以不分级别,同时采用所有因子进行去混响。
例如,设置相对位置信息的优先级高于声学参数的优先级,而相对位置信息中方向信息的优先级高于距离信息。去混响时,优先利用方向信息,然后是距离信息,最后采用声学参数。或者,为各因子优先级设置级别数值和阈值,如相对位置信息级别数值为5,声学参数级别数值为3,级别阈值为4,则根据规则采用优先级为4以上的因子时,仅采用相对位置信息执行去混响操作。可以理解,对声学参数中的各个因子,也可以分别设置多个级别等级,采用上述相似的处理方式。
本实施例在去混响时可以采用下述的一种或多种方式:
第一种方式
根据方向信息指示的用户相对于设备的方向,选取设备中相应的麦克风,调整语音增强方式所增强的声音方向,执行去混响操作。
第二种方式
当距离信息指示的用户相对于设备的距离小于第一距离阈值时,降低语音增强方式中的去混响程度和语音放大功能至第一增强等级;当距离信息指示的用户相对于设备的距离大于第二距离阈值时,提高语音增强方式中的去混响程度和语音放大功能至第二增强等级;当距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时,调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间。
当用户距离设备较近时,降低去混响程度以及对用户语音的音量放大程度;当用户距离设备较远时,提高去混响程度以及对用户语音的音量放大程度。
第三种方式
当声学参数指示房间中的混响程度大于第一混响阈值时,提高语音增强方式中的去混响程度至第一程度,当声学参数指示房间中的混响程度小于第二混响阈值时,降低语音增强方式中的去混响程度至第二程度,当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时,调整语音增强方式中的去混响程度在第一程度至第二程度之间。
当房间中混响程度较大时,提高去混响程度;当房间中混响程度较小时,降低去混响程度。
上述仅对语音增强方式中与本方案关联密切的操作进行了说明,但不局限于这些操作,例如,还会对语音信号进行均衡处理等。
上述混响阈值及程度的具体数值在此不作严格限定,可以在一定范围内出现浮动。
本发明又一实施例提供了一种出声设备的去混响控制装置200。参见图2,该装置200包括:
语音采集器201,用于当设备播放音频时,实时采集来自用户的语音信号。语音采集器可以由设备中的麦克风阵列实现。
因子获取单元202,用于获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数;
去混响执行单元203,用于根据相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
命令执行单元204,用于获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
在图2所示实施例的基础上,进一步的,参见图3,装置200还包括:检测控制单元205用于在获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数的同时,根据语音信号判断检测到唤醒词时,控制设备停止音频播放;或者,根据语音信号判断检测到唤醒词时,降低设备音频播放的音量至音量阈值以下。
去混响执行单元203,用于为相对位置信息和声学参数包括的各因子分别设置优先级;按照优先级从高到低,逐次基于相应因子,执行去混响操作,或者仅采用优先级高于预定级别的因子,执行去混响操作。
其中,去混响执行单元203,具体用于根据方向信息指示的用户相对于设备的方向,选取设备中相应的麦克风,调整语音增强方式所增强的声音方向,执行去混响操作;和/或,当距离信息指示的用户相对于设备的距离小于第一距离阈值时,降低语音增强方式中的去混响程度和语音放大功能至第一增强等级;当距离信息指示的用户相对于设备的距离大于第二距离阈值时,提高语音增强方式中的去混响程度和语音放大功能至第二增强等级;当距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时,调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间;和/或,当声学参数指示房间中的混响程度大于第一混响阈值时,提高语音增强方式中的去混响程度至第一程度,当声学参数指示房间中的混响程度小于第二混响阈值时,降低语音增强方式中的去混响程度至第二程度,当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时,调整语音增强方式中的去混响程度在第一程度至第二程度之间。
命令执行单元204,具体用于采集用户在唤醒词之后发出的语音信号;将语音信号传输至云端服务器,由云端服务器对该语音信号进行特征匹配,由匹配成功的语音信号得到命令词;接收云端服务器返回的命令词,根据该命令词控制设备执行相应功能。
出声设备的去混响控制装置200设置在出声设备中。该出声设备包括但不局限于智能便携终端和智能家电,智能便携终端至少包括智能手表、智能手机或智能音响;智能家电至少包括智能电视、智能空调或智能充电插座。
本发明装置实施例中各单元的具体工作方式,可以参见本发明方法实施例的相关内容,在此不再赘述。
由上所述,本发明实施例的技术方案,基于用户与设备的相对信息调整语音增强方式时,能够在去混响同时较好地增强或保护用户语音,提高语音识别率;基于关联于用户、设备的声学参数执行去混响时,能够根据声学参数指示的声学环境的变化,采用不同的语音增强方式,保证适当的去混响程度,解决了现有方案易于导致的混响残留大或削弱用户语音的问题,达到较高的语音识别率。可以理解,当同时结合用户信息和环境信息去混响时,能够进一步提升语音识别的准确率。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种出声设备的去混响控制方法,其特征在于,所述方法包括:
当设备播放音频时,实时采集来自用户的语音信号;
获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数;
根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
2.根据权利要求1所述的方法,其特征在于,在获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数的同时,还包括:
根据所述语音信号判断检测到唤醒词时,控制设备停止音频播放;或者,根据所述语音信号判断检测到唤醒词时,降低设备音频播放的音量至音量阈值以下。
3.根据权利要求1所述的方法,其特征在于,所述获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数包括:
获取用户相对于设备的方向信息和距离信息,作为所述相对位置信息;
获取设备所在房间环境的混响时间、用户语音的直达混响比、设备采集到的语音的清晰度指数作为所述声学参数。
4.根据权利要求1所述的方法,其特征在于,根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作包括:
根据所述相对位置信息和声学参数中的一种或多种,选取设备中所有麦克风作为当前使用的麦克风,并调用对应的语音增强方式,执行去混响操作;或者,
根据所述相对位置信息和声学参数中的一种或多种,选取设备中部分麦克风作为当前使用的麦克风,并调用对应的语音增强方式,执行去混响操作。
5.根据权利要求3所述的方法,其特征在于,根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作包括:
为相对位置信息和声学参数包括的各因子分别设置优先级;
按照优先级从高到低,逐次基于相应因子,执行去混响操作,或者仅采用优先级高于预定级别的因子,执行去混响操作。
6.根据权利要求4所述的方法,其特征在于,根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作包括:
根据所述方向信息指示的用户相对于设备的方向,选取设备中相应的麦克风,调整语音增强方式所增强的声音方向,执行去混响操作;和/或,
当所述距离信息指示的用户相对于设备的距离小于第一距离阈值时,降低语音增强方式中的去混响程度和语音放大功能至第一增强等级;当所述距离信息指示的用户相对于设备的距离大于第二距离阈值时,提高语音增强方式中的去混响程度和语音放大功能至第二增强等级;当所述距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时,调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间;和/或,
当声学参数指示房间中的混响程度大于第一混响阈值时,提高语音增强方式中的去混响程度至第一程度,当声学参数指示房间中的混响程度小于第二混响阈值时,降低语音增强方式中的去混响程度至第二程度,当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时,调整语音增强方式中的去混响程度在第一程度至第二程度之间。
7.根据权利要求2所述的方法,其特征在于,
采集用户在唤醒词之后发出的语音信号;
将所述语音信号传输至云端服务器,由云端服务器对该语音信号进行特征匹配,由匹配成功的语音信号得到命令词;
接收云端服务器返回的命令词,根据该命令词控制设备执行相应功能。
8.一种出声设备的去混响控制装置,其特征在于,所述装置包括:
语音采集器,用于当设备播放音频时,实时采集来自用户的语音信号;
因子获取单元,用于获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数;
去混响执行单元,用于根据所述相对位置信息和声学参数中的一种或多种,选取设备中相应的麦克风,并调用对应的语音增强方式,执行去混响操作;
命令执行单元,用于获取来自用户的语音命令词,控制设备执行相应功能,对用户作出应答。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
检测控制单元,用于在获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数的同时,根据所述语音信号判断检测到唤醒词时,控制设备停止音频播放;或者,根据所述语音信号判断检测到唤醒词时,降低设备音频播放的音量至音量阈值以下。
10.根据权利要求8所述的装置,其特征在于,
所述去混响执行单元,用于为相对位置信息和声学参数包括的各因子分别设置优先级;按照优先级从高到低,逐次基于相应因子,执行去混响操作,或者仅采用优先级高于预定级别的因子,执行去混响操作。
其中,所述去混响执行单元,具体用于根据所述方向信息指示的用户相对于设备的方向,选取设备中相应的麦克风,调整语音增强方式所增强的声音方向,执行去混响操作;和/或,当所述距离信息指示的用户相对于设备的距离小于第一距离阈值时,降低语音增强方式中的去混响程度和语音放大功能至第一增强等级;当所述距离信息指示的用户相对于设备的距离大于第二距离阈值时,提高语音增强方式中的去混响程度和语音放大功能至第二增强等级;当所述距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时,调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间;和/或,当声学参数指示房间中的混响程度大于第一混响阈值时,提高语音增强方式中的去混响程度至第一程度,当声学参数指示房间中的混响程度小于第二混响阈值时,降低语音增强方式中的去混响程度至第二程度,当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时,调整语音增强方式中的去混响程度在第一程度至第二程度之间。
CN201611242997.7A 2016-12-29 2016-12-29 一种出声设备的去混响控制方法和装置 Active CN106898348B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201611242997.7A CN106898348B (zh) 2016-12-29 2016-12-29 一种出声设备的去混响控制方法和装置
EP17208986.4A EP3343559B1 (en) 2016-12-29 2017-12-20 De-reverberation control method and device thereof
US15/849,091 US10410651B2 (en) 2016-12-29 2017-12-20 De-reverberation control method and device of sound producing equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611242997.7A CN106898348B (zh) 2016-12-29 2016-12-29 一种出声设备的去混响控制方法和装置

Publications (2)

Publication Number Publication Date
CN106898348A true CN106898348A (zh) 2017-06-27
CN106898348B CN106898348B (zh) 2020-02-07

Family

ID=59199242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611242997.7A Active CN106898348B (zh) 2016-12-29 2016-12-29 一种出声设备的去混响控制方法和装置

Country Status (3)

Country Link
US (1) US10410651B2 (zh)
EP (1) EP3343559B1 (zh)
CN (1) CN106898348B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454508A (zh) * 2017-08-23 2017-12-08 深圳创维-Rgb电子有限公司 麦克风阵列的电视机及电视系统
CN107527615A (zh) * 2017-09-13 2017-12-29 联想(北京)有限公司 信息处理方法、装置、设备、系统及服务器
CN108511000A (zh) * 2018-03-06 2018-09-07 福州瑞芯微电子股份有限公司 一种测试智能音箱唤醒词识别率的方法及系统
CN108520742A (zh) * 2018-01-24 2018-09-11 联发科技(新加坡)私人有限公司 提高语音识别率的方法、语音识别装置和播放装置
CN108806684A (zh) * 2018-06-27 2018-11-13 Oppo广东移动通信有限公司 位置提示方法、装置、存储介质及电子设备
CN109243456A (zh) * 2018-11-05 2019-01-18 珠海格力电器股份有限公司 一种控制设备的方法和设备
CN109243452A (zh) * 2018-10-26 2019-01-18 北京雷石天地电子技术有限公司 一种用于声音控制的方法及系统
CN110121048A (zh) * 2018-02-05 2019-08-13 青岛海尔多媒体有限公司 一种会议一体机的控制方法及控制系统和会议一体机
CN110475181A (zh) * 2019-08-16 2019-11-19 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113658601A (zh) * 2021-08-18 2021-11-16 开放智能机器(上海)有限公司 语音交互方法、装置、终端设备、存储介质及程序产品
WO2024087699A1 (zh) * 2022-10-28 2024-05-02 华为云计算技术有限公司 音频增强方法、装置、计算设备集群及可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114026638A (zh) * 2019-07-03 2022-02-08 惠普发展公司,有限责任合伙企业 音频信号去混响
EP3994874A4 (en) 2019-07-03 2023-01-18 Hewlett-Packard Development Company, L.P. ACOUSTIC ECHO CANCELLATION
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN110648680B (zh) * 2019-09-23 2024-05-14 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
US20210120353A1 (en) * 2020-12-23 2021-04-22 Intel Corporation Acoustic signal processing adaptive to user-to-microphone distances
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
CN114220448A (zh) * 2021-12-16 2022-03-22 游密科技(深圳)有限公司 语音信号生成方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100508029C (zh) * 2002-10-23 2009-07-01 皇家飞利浦电子股份有限公司 语音控制单元、方法及其控制的设备和消费类电子系统
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统
WO2016049403A1 (en) * 2014-09-26 2016-03-31 Med-El Elektromedizinische Geraete Gmbh Determination of room reverberation for signal enhancement
CN105957528A (zh) * 2016-06-13 2016-09-21 北京云知声信息技术有限公司 音频处理方法及装置
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613310B2 (en) 2003-08-27 2009-11-03 Sony Computer Entertainment Inc. Audio input system
US8963982B2 (en) * 2010-12-31 2015-02-24 Skype Communication system and method
US9717090B2 (en) * 2010-12-31 2017-07-25 Microsoft Technology Licensing, Llc Providing notifications of call-related services
US9408011B2 (en) * 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
US9615173B2 (en) * 2012-07-27 2017-04-04 Sony Corporation Information processing system and storage medium
KR101968920B1 (ko) * 2012-08-23 2019-04-15 삼성전자주식회사 음성신호의 세기를 감지하여 마이크를 선택하는 전자 장치 및 방법
CN105230044A (zh) 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
US9571930B2 (en) * 2013-12-24 2017-02-14 Intel Corporation Audio data detection with a computing device
US9947318B2 (en) 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9826599B2 (en) * 2015-12-28 2017-11-21 Amazon Technologies, Inc. Voice-controlled light switches

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100508029C (zh) * 2002-10-23 2009-07-01 皇家飞利浦电子股份有限公司 语音控制单元、方法及其控制的设备和消费类电子系统
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统
WO2016049403A1 (en) * 2014-09-26 2016-03-31 Med-El Elektromedizinische Geraete Gmbh Determination of room reverberation for signal enhancement
CN105957528A (zh) * 2016-06-13 2016-09-21 北京云知声信息技术有限公司 音频处理方法及装置
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454508A (zh) * 2017-08-23 2017-12-08 深圳创维-Rgb电子有限公司 麦克风阵列的电视机及电视系统
CN107527615B (zh) * 2017-09-13 2021-01-15 联想(北京)有限公司 信息处理方法、装置、设备、系统及服务器
CN107527615A (zh) * 2017-09-13 2017-12-29 联想(北京)有限公司 信息处理方法、装置、设备、系统及服务器
CN108520742A (zh) * 2018-01-24 2018-09-11 联发科技(新加坡)私人有限公司 提高语音识别率的方法、语音识别装置和播放装置
CN110121048A (zh) * 2018-02-05 2019-08-13 青岛海尔多媒体有限公司 一种会议一体机的控制方法及控制系统和会议一体机
CN108511000A (zh) * 2018-03-06 2018-09-07 福州瑞芯微电子股份有限公司 一种测试智能音箱唤醒词识别率的方法及系统
CN108511000B (zh) * 2018-03-06 2020-11-03 福州瑞芯微电子股份有限公司 一种测试智能音箱唤醒词识别率的方法及系统
CN108806684A (zh) * 2018-06-27 2018-11-13 Oppo广东移动通信有限公司 位置提示方法、装置、存储介质及电子设备
CN109243452A (zh) * 2018-10-26 2019-01-18 北京雷石天地电子技术有限公司 一种用于声音控制的方法及系统
CN109243456A (zh) * 2018-11-05 2019-01-18 珠海格力电器股份有限公司 一种控制设备的方法和设备
CN110475181A (zh) * 2019-08-16 2019-11-19 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN110475181B (zh) * 2019-08-16 2021-04-30 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113658601A (zh) * 2021-08-18 2021-11-16 开放智能机器(上海)有限公司 语音交互方法、装置、终端设备、存储介质及程序产品
WO2024087699A1 (zh) * 2022-10-28 2024-05-02 华为云计算技术有限公司 音频增强方法、装置、计算设备集群及可读存储介质

Also Published As

Publication number Publication date
US10410651B2 (en) 2019-09-10
EP3343559A1 (en) 2018-07-04
US20180190308A1 (en) 2018-07-05
CN106898348B (zh) 2020-02-07
EP3343559B1 (en) 2019-08-14

Similar Documents

Publication Publication Date Title
CN106898348A (zh) 一种出声设备的去混响控制方法和装置
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
CN107454508B (zh) 麦克风阵列的电视机及电视系统
US10733970B2 (en) Noise control method and device
US9905215B2 (en) Noise control method and device
WO2020062900A1 (zh) 一种声音处理方法、装置与设备
CN108346433A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN103886857B (zh) 一种噪声控制方法及设备
WO2015108794A1 (en) Dynamic calibration of an audio system
CN113676592B (zh) 录音方法、装置、电子设备及计算机可读介质
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN110767225B (zh) 一种语音交互方法、装置及系统
CN111863020A (zh) 语音信号处理方法、装置、设备及存储介质
CN106302974A (zh) 一种信息处理的方法及电子设备
CN114360546A (zh) 电子设备及其唤醒方法
CN105824597A (zh) 一种终端音频处理的方法及终端
CN104200817A (zh) 语音控制方法和系统
CN103544497A (zh) 一种智能设备模式的识别方法及系统
CN106791095A (zh) 一种自动改善通话音质的实现方法及实现系统
WO2020102979A1 (zh) 语音信息的处理方法、装置、存储介质及电子设备
US11917386B2 (en) Estimating user location in a system including smart audio devices
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质
CN110366068A (zh) 音频调节方法、电子设备以及装置
CN104427050B (zh) 一种信息处理方法及电子设备
CN114648987A (zh) 语音识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170717

Address after: 100191, room 1801, block D, real building, No. 7, Haidian District, Beijing, Zhichun Road

Applicant after: BEIJING XIAONIAO TINGTING TECHNOLOGY Co.,Ltd.

Address before: 100191, room 1903, block D, real building, No. 7, Haidian District, Beijing, Zhichun Road

Applicant before: Beijing Ninth Laboratory Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220921

Address after: Room R2172, 2nd Floor, Building 3, No. 18, Keyuan Road, Economic Development Zone, Daxing District, Beijing 100176

Patentee after: Bird innovation (Beijing) Technology Co.,Ltd.

Address before: Room 1801, block D, real building, No. 7, Haidian District, Beijing, Zhichun Road

Patentee before: BEIJING XIAONIAO TINGTING TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right