CN112911465A - 信号发送方法、装置及电子设备 - Google Patents
信号发送方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112911465A CN112911465A CN202110138609.5A CN202110138609A CN112911465A CN 112911465 A CN112911465 A CN 112911465A CN 202110138609 A CN202110138609 A CN 202110138609A CN 112911465 A CN112911465 A CN 112911465A
- Authority
- CN
- China
- Prior art keywords
- voice
- beams
- sound source
- far
- available
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002452 interceptive effect Effects 0.000 claims abstract description 60
- 230000003993 interaction Effects 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000004891 communication Methods 0.000 claims description 19
- 230000008054 signal transmission Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011664 signaling Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000003491 array Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供了信号发送方法、装置及电子设备,该方法包括:获取语音信号,其中,语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;获取远端音源信息,其中,远端音源信息用于指示交互现场中远端音源相对麦克风阵列的方向;从多个语音波束中,确定波束方向与远端音源信息所指示方向不同的语音波束,作为可用波束。通过本方案,可以提高语音交互系统的互动质量。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及信号发送方法、装置及电子设备。
背景技术
如图1所示,为传统的语音交互系统的示意图。在传统语音交互系统中,一般通过单麦克风采集本地交互现场的语音信号,当单麦克风采集到本地交互现场的语音信号后,可以先对采集到的语音信号分别进行回声消除、降噪和自动增益处理,再经过编码后,通过网络传输到发送到交互端。
然而,在某些场合下,当交互双方同时发声时,即交互现场出现本地音源和远端音源时,会导致交互现场的单麦克风同时采集到本地音源和远端音源的语音信号。此时,再对单麦克风采集到的语音信号进行回声消除等处理后,会导致源自本地音源的语音信号被严重损伤,进而使得交互端的扬声器无法清楚播放本地音源的语音信号,导致互动质量差。
发明内容
本发明实施例的目的在于提供信号发送方法、装置及电子设备,以提高语音交互系统的互动质量。具体技术方案如下:
第一方面,本发明实施例提供一种信号发送方法,所述方法包括:
获取语音信号,其中,所述语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
获取远端音源信息,其中,所述远端音源信息用于指示所述交互现场中远端音源相对所述麦克风阵列的方向;
从所述多个语音波束中,确定波束方向与所述远端音源信息所指示方向不同的语音波束,作为可用波束;
基于所述可用波束,向交互端进行信号发送。
在一实施例中,所述可用波束的数量为多个;
所述基于所述可用波束,向交互端进行信号发送,包括:
从多个可用波束中,选取能量最大的可用波束,作为目标波束;
向所述交互端发送所述目标波束的信号。
在一实施例中,在所述从多个可用波束中,选取能量最大的可用波束,作为目标波束之前,还包括:
对多个可用波束进行语音增强处理,得到多个增强波束;
所述从多个可用波束中,选取能量最大的可用波束,作为目标波束,包括:
从所述多个增强波束中,选取能量最大的增强波束,作为目标波束。
在一实施例中,所述获取远端音源信息,包括:
读取预设的远端音源信息;或者,
接收从所述多个波束方向中选择所述远端音源所在方向的方向配置操作,并基于所述方向配置操作所选择的波束方向,生成远端音源信息。
在一实施例中,所述基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束,包括:
针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
第二方面,本发明实施例提供一种信号发送装置,所述装置包括:
信号获取模块,用于获取语音信号,其中,所述语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
波束形成模块,用于基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
信息获取模块,用于获取远端音源信息,其中,所述远端音源信息用于指示所述交互现场中远端音源相对所述麦克风阵列的方向;
波束确定模块,用于从所述多个语音波束中,确定波束方向与所述远端音源信息所指示方向不同的语音波束,作为可用波束;
信号发送模块,用于基于所述可用波束,向交互端进行信号发送。
在一实施例中,所述可用波束的数量为多个;
所述信号发送模块,具体用于从多个可用波束中,选取能量最大的可用波束,作为目标波束;向所述交互端发送所述目标波束的信号。
在一实施例中,所述装置还包括:
波束增强模块,用于在所述信号发送模块从多个可用波束中,选取能量最大的可用波束,作为目标波束之前,对多个可用波束进行语音增强处理,得到多个增强波束;
所述信号发送模块,具体用于从所述多个增强波束中,选取能量最大的增强波束,作为目标波束。
在一实施例中,所述信息获取模块,具体用于读取预设的远端音源信息;或者,接收从所述多个波束方向中选择所述远端音源所在方向的方向配置操作,并基于所述方向配置操作所选择的波束方向,生成远端音源信息。
在一实施例中,所述波束形成模块,具体用于针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。
本发明实施例有益效果:
本发明实施例所提供的信号发送方法中,通过麦克风阵列所采集的语音信号,从而可以基于麦克风阵列采集的语音信号生成面向多个波束方向的语音波束,同时可以基于远端音源信息确定远端音源相对麦克风阵列的方向,该方向即为麦克风阵列接收到远端音源的语音信号的方向,从而可以从这多个波束方向的语音波束中确定波束方向与所述远端音源信息所指示方向不同的可用波束,由于可用波束的波束方向与远端音源的语音信号的方向不同,从而可用波束中远端音源的语音信号均被抑制,从而基于可用波束,向交互端进行信号发送时,可以减小远端音源的语音信号的影响,从而提高了语音交互系统的互动质量。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的语音交互系统的示意图;
图2为本发明另一实施例所提供的语音交互系统的示意图;
图3为本发明一种实施例所提供的信号发送方法的流程图;
图4为本发明实施例所提供的麦克风阵列的示意图;
图5为本发明实施例所提供的语音波束示意图;
图6为本发明另一实施例所提供的语音波束示意图;
图7为本发明另一实施例所提供的信号发送方法的流程图;
图8为本发明又一实施例所提供的信号发送方法的流程图;
图9为本发明实施例所提供的信号发送系统的流程示意图;
图10为本发明实施例所提供的信号发送装置的结构示意图;
图11为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高语音交互系统的互动质量,本发明实施例提供了信号发送方法、装置及电子设备。
本发明实施例提供的信号发送方法可以应用于各类电子设备,例如,个人电脑、服务器、手机以及其他具有数据处理能力的设备。并且,本发明实施例提供的数据处理方法可以通过软件、硬件或软硬件结合的方式实现。
在一种实现方式中,本发明实施例提供的信号发送方法可以应用于语音交互系统中信号处理装置。示例性的,可选的如图2所示,在一语音交互系统中,交互场景1中包括信号处理装置1、麦克风阵列1和扬声器1,交互场景2中包括信号处理装置2、麦克风阵列2和扬声器2。其中,麦克风阵列1采集交互场景1的语音信号后传输至信号处理装置1,信号处理装置1对麦克风阵列1采集的信号处理后发送至交互场景2中的信号处理装置2,信号处理装置2对信号处理装置1传输的语音信号处理后,通过扬声器2在交互现场2播放。相应的,麦克风阵列2采集交互场景2的语音信号后传输至信号处理装置2,信号处理装置2对麦克风阵列2采集的信号处理后发送至交互场景1中的信号处理装置1,信号处理装置1对信号处理装置2传输的语音信号处理后,通过扬声器1在交互现场1播放。
可选的,本发明实施例所提供的信号发送方法可以应用于上述示例中的信号处理装置1和信号处理装置2中,以抑制扬声器1和扬声器2对交互质量的影响。
可选的,本发明实施例所提供的信号发送方法可以应用于电子设备中的功能模块,该功能模拟可以通过软件、硬件或软硬件结合的方式实现。
如图3所示,本发明实施例提供的一种信号发送方法,可以包括如下步骤:
S301,获取语音信号,其中,语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
其中,上述交互现场可以为语音交互双方所处的空间。如在互动课堂中,交互现场可以为教室。交互现场预先有安装麦克风阵列,当交互方法进行语音互动时,通过麦克风阵列采集交互现场的语音信号。
上述麦克风阵列是由多个麦克风组成的语音采集设备。组成麦克风阵列的每一个麦克风均可以采集交互现场的语音信号,且组成麦克风阵列的所有麦克风均具有相同的频率响,采样时钟也是同步的。麦克风阵列按布局形状可以分为:线性阵列、平面阵列和立体阵列。
由于麦克风阵列是由多个麦克风组成的,因此,通过麦克风阵列所获取的语音信号是多路语音信号,麦克风阵列中的每一麦克风均生成一路语音信号。
示例性的,如图4所示,为本发明实施例提供的一种麦克风阵列的示意图,图中所示麦克风阵列由32个麦克风组成,每一黑点表示一个麦克风。通过该麦克风阵列可以同时采集32路的语音信号。
S302,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
其中,波束形成算法的作用是对多路语音信号进行合并处理,抑制非目标方向的语音信号,增强目标方向的语音信号,其原理是通过调整相位阵列的基本单元参数,使得某些角度的信号获得相长干涉,而另一些角度的信号获得相消干涉。对各个阵元输出信号加权求和、滤波,最终输出期望方向的语音信号,相当于形成一个“波束”。需要说明的是,预设的波束形成算法可以采用现有的多种波束形成算法,例如,可以为MVDR(Minimum VarianceDistortionless Response,最小方差无失真响应波束形成)、LCMV(Linearly ConstrainedMinimum Variance,线性约束最小方差)算法等。其中,MVDR算法是一种基于最大信干噪比准则的自适应波束形成算法。MVDR算法可以自适应的使阵列输出在期望方向上功率最小同时信干噪比最大,可以很好的适用于诸如互动课堂的场景等。
因此,通过波束形成算对所获取的多路语音信号进行处理,可以得到指定方向的语音波束。对于本申请实施例而言,则需要生成多个方向的语音波束,即需要生成多个波束方向的语音波束。需要说明的是,本发明实施例所提及的方向、波束方向均是针对麦克风阵列而言的。
可选的,在本发明的一种实现方式中,本步骤可以按照以下方式生成多个波束方向不同的语音波束,包括:
针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
其中,预设方向可以为根据需求和场景所设置的,例如,多个预设方向可以包括:前方、后方、左方、右方、左前方、右前方、左后方和右后方等方向。通过生成多个预设方向的语音波束,可以在本地音源移动时,也可以随时获得本地音源所在方向的语音波束。
示例性的,如图5所示,为本发明实施例提供的一种语音波束示意图。图中,中心位置的装置为麦克风阵列,标号为1-8的椭圆形区域表示通过波束显存算法对应所获取的语音信号进行波束生成,得到的语音波束。每一语音波束相对于麦克风阵列的方向即为该语音波束的波束方向。如标号为1的语音波束,其位于麦克风阵列正前方,则标号为1的语音波束的波束方向为正前方,其表示标号为1的语音波束中对源自于麦克风矩阵正前方的语音信号增强,而抑制其他方向的语音信号。其与标号的语音波束与标号为1的语音波束相似,不再赘述。
S303,获取远端音源信息,其中,远端音源信息用于指示交互现场中远端音源相对麦克风阵列的方向;
其中,远端音源可以为交互系统中位于交互现场的扬声器。如在图2所示语音交互系统中,对于交互现场1而言,其远端音源为扬声器1,而对于交互现场2而言,其远端音源为扬声器2。
上述用于指示交互现场中远端音源相对麦克风阵列的方向的远端音源信息可以为在搭建语音互动系统时即已知的,且一般而言,远端音源的位置很少变动。
因此,在一种实现方式中,可以读取预设的远端音源信息。
其中,当远端音源信息是预先生成的,则可以从保存远端音源信息的位置处读取远端音源信息。
可选的,通过配置文件、表格等文件的形式记录交互现场中远端音源相对麦克风阵列的方向。当需要是,可以读取文件中所记录的交互现场中远端音源相对麦克风阵列的方向。
可选的,在另一种实现方式中,交互现场中远端音源相对麦克风阵列的方向可以为实时配置的。例如,展示配置界面,在配置界面中用户可以手动设置交互现场中远端音源相对麦克风阵列的方向。
或者,用户可以从预先提供的几个波束方向中选择最靠近远端音源的一个或多波束方向,此时,本步骤可以按照以下方式获取远端音源信息,包括:
可以接收从多个波束方向中选择远端音源所在方向的方向配置操作,并基于方向配置操作所选择的波束方向,生成远端音源信息。
其中,方向配置操作可以为点击、勾选等选择操作,用于从多个波束方向中选择远端音源所在方向。
S304,从多个语音波束中,确定波束方向与远端音源信息所指示方向不同的语音波束,作为可用波束。
其中,通过远端音源信息可以确定交互现场中远端音源相对麦克风阵列的方向,来自该方向的语音信号中携带更多来自与远端音源的语音信号。为此,为了较小远端音源对交互质量的影响,可以从多个语音波束中,确定波束方向与远端音源信息所指示方向不同的语音波束,作为可用波束。
示例性的,如图6所示,为本发明实施例提供的另一种语音波束的示意图。图中,黑色方块表示麦克风阵列,标号为1-8的每一椭圆形区域表示一语音波束。图中左下方和右下方均存储一远端音源,则可以从8个语音波束中,将语音波束6和语音波束4确定为波束方向与远端音源信息所指示方向相同的语音波束,而语音波束1、语音波束2、语音波束3、语音波束5、语音波束7和语音波束8为波束方向与远端音源信息所指示方向不相同的语音波束。
S305,基于可用波束,向交互端进行信号发送。
其中,为了消除远端音源对交互质量的影响,可以基于可用波束,向交互端进行信号发送。上述交互端为与交互现场进行语音交互的另一交互现场的信号处理设备。
本实施例提供的方案中,可以通过麦克风阵列所采集的语音信号,从而可以基于麦克风阵列采集的语音信号生成面向多个波束方向的语音波束,同时可以基于远端音源信息确定远端音源相对麦克风阵列的方向,该方向即为麦克风阵列接收到远端音源的语音信号的方向,从而可以从这多个波束方向的语音波束中确定波束方向与所述远端音源信息所指示方向不同的可用波束,由于可用波束的波束方向与远端音源的语音信号的方向不同,从而可用波束中远端音源的语音信号均被抑制,从而基于可用波束,向交互端进行信号发送时,可以减小远端音源的语音信号的影响,从而提高了语音交互系统的互动质量。
基于图3实施例,如图7所示,本发明的另一实施例中,可用波束的数量为多个,此时,还提供一种信号发送方法,上述S305,可以包括:
S305A,从多个可用波束中,选取能量最大的可用波束,作为目标波束;
其中,一般而言,波束方向为交互现场中本地音源方向的语音波束的能量最大。因此,能量最大的可用波束可被认为对源自本地音源的语音信号进行增强的目标波束、该目标波束中,本地音源的语音信号被增强,从而可以进一步的提升交互质量。
示例性的,在图6所示示例中,话筒图标可以为本地音源,因此,话筒图标所在的方向为本地音源所在的方向。图中,本地音源在标号为1的语音波束的波束方向上,故而标号为1的语音波束的能量最大,即标号为1的语音波束为目标波束。
S305B,向交互端发送目标波束的信号。
其中,由于语音波束为被语音增强后语音信号,因此,可以向交互端发送目标波束的信号。
本实施例提供的方案中,可以通过麦克风阵列所采集的语音信号,从而可以基于麦克风阵列采集的语音信号生成面向多个波束方向的语音波束,同时可以基于远端音源信息确定远端音源相对麦克风阵列的方向,该方向即为麦克风阵列接收到远端音源的语音信号的方向,从而可以从这多个波束方向的语音波束中确定波束方向与所述远端音源信息所指示方向不同的可用波束,由于可用波束的波束方向与远端音源的语音信号的方向不同,从而可用波束中远端音源的语音信号均被抑制,从而基于可用波束,向交互端进行信号发送时,可以减小远端音源的语音信号的影响,从而提高了语音交互系统的互动质量。
另外,通过选择能量最大的可用波束作为目标波束,可以增强本地音源的语音信号,从而进一步的提升互动质量。
基于图7实施例,如图8所示,本发明的另一实施例中,还提供一种信号发送方法,在上述S305A之前,还可以包括:
S306,对多个可用波束进行语音增强处理,得到多个增强波束;
其中,对多个可用波束进行语音增强处理可以包括对对多个可用波束进行语音降噪,消除可用波束中的噪声。从而可以进一步提升交互质量。
相应的,上述S305A,可以包括:
S305A1,从多个增强波束中,选取能量最大的增强波束,作为目标波束。
其中,本步骤的实现方式与S305A相似,本步骤在此不再赘述。
本实施例提供的方案中,可以通过麦克风阵列所采集的语音信号,从而可以基于麦克风阵列采集的语音信号生成面向多个波束方向的语音波束,同时可以基于远端音源信息确定远端音源相对麦克风阵列的方向,该方向即为麦克风阵列接收到远端音源的语音信号的方向,从而可以从这多个波束方向的语音波束中确定波束方向与所述远端音源信息所指示方向不同的可用波束,由于可用波束的波束方向与远端音源的语音信号的方向不同,从而可用波束中远端音源的语音信号均被抑制,从而基于可用波束,向交互端进行信号发送时,可以减小远端音源的语音信号的影响,从而提高了语音交互系统的互动质量。
另外,通过进行语音增强处理,可以消除语音波束中的噪声,从而进一步的提升了互动质量。
可选的,如图9所示,本发明实施例还提供一种信号发送系统的流程示意图。图中,麦克风_1至麦克风_N为麦克风矩阵中的麦克风。本发明实施例所提供的信号发送方法可以应用与图9中的信号处理单元,可以信号处理单元可以根据麦克风_1至麦克风_N所采集的语音信号生成多个波束方向的语音波束,并从中筛选出目标波束,经过回声消除、降噪、自动增益后通过网络传输至交互端。
相应于所提供信号发送的方法,如图10所示,本发明实施例还提供了一种信号发送装置,装置包括:
信号获取模块1001,用于获取语音信号,其中,语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
波束形成模块1002,用于基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
信息获取模块1003,用于获取远端音源信息,其中,远端音源信息用于指示交互现场中远端音源相对麦克风阵列的方向;
波束确定模块1004,用于从多个语音波束中,确定波束方向与远端音源信息所指示方向不同的语音波束,作为可用波束。
信号发送模块1005,用于基于可用波束,向交互端进行信号发送。
进一步的,可用波束的数量为多个;
信号发送模块,具体用于从多个可用波束中,选取能量最大的可用波束,作为目标波束;向交互端发送目标波束的信号。
进一步的,装置还包括:
波束增强模块,用于在信号发送模块从多个可用波束中,选取能量最大的可用波束,作为目标波束之前,对多个可用波束进行语音增强处理,得到多个增强波束;
信号发送模块,具体用于从多个增强波束中,选取能量最大的增强波束,作为目标波束。
进一步的,信息获取模块,具体用于读取预设的远端音源信息;或者,接收从多个波束方向中选择远端音源所在方向的方向配置操作,并基于方向配置操作所选择的波束方向,生成远端音源信息。
进一步的,波束形成模块,具体用于针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
本实施例提供的方案中,可以通过麦克风阵列所采集的语音信号,从而可以基于麦克风阵列采集的语音信号生成面向多个波束方向的语音波束,同时可以基于远端音源信息确定远端音源相对麦克风阵列的方向,该方向即为麦克风阵列接收到远端音源的语音信号的方向,从而可以从这多个波束方向的语音波束中确定波束方向与远端音源信息所指示方向不同的可用波束,由于可用波束的波束方向与远端音源的语音信号的方向不同,从而可用波束中远端音源的语音信号均被抑制,从而基于可用波束,向交互端进行信号发送时,可以减小远端音源的语音信号的影响,从而提高了语音交互系统的互动质量。
本发明实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现上述所提供的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一信号发送方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一信号发送方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种信号发送方法,其特征在于,所述方法包括:
获取语音信号,其中,所述语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
获取远端音源信息,其中,所述远端音源信息用于指示所述交互现场中远端音源相对所述麦克风阵列的方向;
从所述多个语音波束中,确定波束方向与所述远端音源信息所指示方向不同的语音波束,作为可用波束;
基于所述可用波束,向交互端进行信号发送。
2.根据权利要求1所述的方法,其特征在于,所述可用波束的数量为多个;
所述基于所述可用波束,向交互端进行信号发送,包括:
从多个可用波束中,选取能量最大的可用波束,作为目标波束;
向所述交互端发送所述目标波束的信号。
3.根据权利要求2所述的方法,其特征在于,在所述从多个可用波束中,选取能量最大的可用波束,作为目标波束之前,还包括:
对多个可用波束进行语音增强处理,得到多个增强波束;
所述从多个可用波束中,选取能量最大的可用波束,作为目标波束,包括:
从所述多个增强波束中,选取能量最大的增强波束,作为目标波束。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取远端音源信息,包括:
读取预设的远端音源信息;或者,
接收从所述多个波束方向中选择所述远端音源所在方向的方向配置操作,并基于所述方向配置操作所选择的波束方向,生成远端音源信息。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束,包括:
针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
6.一种信号发送装置,其特征在于,所述装置包括:
信号获取模块,用于获取语音信号,其中,所述语音信号是针对交互现场进行语音采集的麦克风阵列所采集的;
波束形成模块,用于基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到多个波束方向不同的语音波束;
信息获取模块,用于获取远端音源信息,其中,所述远端音源信息用于指示所述交互现场中远端音源相对所述麦克风阵列的方向;
波束确定模块,用于从所述多个语音波束中,确定波束方向与所述远端音源信息所指示方向不同的语音波束,作为可用波束;
信号发送模块,用于基于所述可用波束,向交互端进行信号发送。
7.根据权利要求6所述的装置,其特征在于,所述可用波束的数量为多个;
所述信号发送模块,具体用于从多个可用波束中,选取能量最大的可用波束,作为目标波束;向所述交互端发送所述目标波束的信号。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
波束增强模块,用于在所述信号发送模块从多个可用波束中,选取能量最大的可用波束,作为目标波束之前,对多个可用波束进行语音增强处理,得到多个增强波束;
所述信号发送模块,具体用于从所述多个增强波束中,选取能量最大的增强波束,作为目标波束。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述信息获取模块,具体用于读取预设的远端音源信息;或者,接收从所述多个波束方向中选择所述远端音源所在方向的方向配置操作,并基于所述方向配置操作所选择的波束方向,生成远端音源信息。
10.根据权利要求6-8任一项所述的装置,其特征在于,所述波束形成模块,具体用于针对多个预设方向中的每一预设方向,基于预设的波束形成算法,对所获取的语音信号进行波束生成,得到波束方向为该预设方向的语音波束。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138609.5A CN112911465B (zh) | 2021-02-01 | 2021-02-01 | 信号发送方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138609.5A CN112911465B (zh) | 2021-02-01 | 2021-02-01 | 信号发送方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112911465A true CN112911465A (zh) | 2021-06-04 |
CN112911465B CN112911465B (zh) | 2022-09-02 |
Family
ID=76122673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110138609.5A Active CN112911465B (zh) | 2021-02-01 | 2021-02-01 | 信号发送方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112911465B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US20080285772A1 (en) * | 2007-04-17 | 2008-11-20 | Tim Haulick | Acoustic localization of a speaker |
US20130148821A1 (en) * | 2011-12-08 | 2013-06-13 | Karsten Vandborg Sorensen | Processing audio signals |
CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
US20150379990A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
WO2016103710A1 (ja) * | 2014-12-26 | 2016-06-30 | アイシン精機株式会社 | 音声処理装置 |
US9966059B1 (en) * | 2017-09-06 | 2018-05-08 | Amazon Technologies, Inc. | Reconfigurale fixed beam former using given microphone array |
CN108551625A (zh) * | 2018-05-22 | 2018-09-18 | 出门问问信息科技有限公司 | 波束成形的方法、装置及电子设备 |
CN109119092A (zh) * | 2018-08-31 | 2019-01-01 | 广东美的制冷设备有限公司 | 基于麦克风阵列的波束指向切换方法和装置 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
CN111627456A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 噪音排除方法、装置、设备及可读存储介质 |
CN111755021A (zh) * | 2019-04-01 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 基于二元麦克风阵列的语音增强方法和装置 |
CN111866665A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 麦克风阵列波束形成方法及装置 |
-
2021
- 2021-02-01 CN CN202110138609.5A patent/CN112911465B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US20080285772A1 (en) * | 2007-04-17 | 2008-11-20 | Tim Haulick | Acoustic localization of a speaker |
US20130148821A1 (en) * | 2011-12-08 | 2013-06-13 | Karsten Vandborg Sorensen | Processing audio signals |
US20150379990A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
CN104200813A (zh) * | 2014-07-01 | 2014-12-10 | 东北大学 | 基于声源方向实时预测跟踪的动态盲信号分离方法 |
WO2016103710A1 (ja) * | 2014-12-26 | 2016-06-30 | アイシン精機株式会社 | 音声処理装置 |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
US9966059B1 (en) * | 2017-09-06 | 2018-05-08 | Amazon Technologies, Inc. | Reconfigurale fixed beam former using given microphone array |
CN108551625A (zh) * | 2018-05-22 | 2018-09-18 | 出门问问信息科技有限公司 | 波束成形的方法、装置及电子设备 |
CN109119092A (zh) * | 2018-08-31 | 2019-01-01 | 广东美的制冷设备有限公司 | 基于麦克风阵列的波束指向切换方法和装置 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN111755021A (zh) * | 2019-04-01 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 基于二元麦克风阵列的语音增强方法和装置 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
CN111627456A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 噪音排除方法、装置、设备及可读存储介质 |
CN111866665A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 麦克风阵列波束形成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112911465B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9922663B2 (en) | Voice signal processing method and apparatus | |
US8233352B2 (en) | Audio source localization system and method | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
CN113470685B (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
CN110769352B (zh) | 一种信号处理方法、装置以及计算机存储介质 | |
JP2016046695A (ja) | 音響品質評価装置、音響品質評価方法、およびプログラム | |
CN111863011B (zh) | 音频处理方法及电子设备 | |
US20230055257A1 (en) | Sound capture for mobile devices | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN110096250B (zh) | 一种音频数据处理方法、装置、电子设备及存储介质 | |
CN112911465B (zh) | 信号发送方法、装置及电子设备 | |
US11640830B2 (en) | Multi-microphone signal enhancement | |
US10152985B2 (en) | Method for recording in video chat, and terminal | |
Comminiello et al. | Intelligent acoustic interfaces for immersive audio | |
US11523215B2 (en) | Method and system for using single adaptive filter for echo and point noise cancellation | |
CN112735455B (zh) | 声音信息的处理方法和装置 | |
US11120814B2 (en) | Multi-microphone signal enhancement | |
CN113113046A (zh) | 音频处理的性能检测方法、装置、存储介质及电子设备 | |
CN114449341B (zh) | 音频处理方法、装置、可读介质及电子设备 | |
CN111145793B (zh) | 音频处理方法和装置 | |
CN116013346A (zh) | 一种回音消除方法、装置、设备和介质 | |
US11722821B2 (en) | Sound capture for mobile devices | |
CN115472176A (zh) | 语音信号增强方法及装置 | |
CN117636928A (zh) | 一种拾音装置及相关音频增强方法 | |
CN116036591A (zh) | 音效优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |