CN109994125A

CN109994125A - 一种提高具有声音触发预设置的听力设备和系统触发精度的方法

Info

Publication number: CN109994125A
Application number: CN201711486970.7A
Authority: CN
Inventors: 张健钢
Original assignee: Audio Co Ltd
Current assignee: Audio Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-09
Anticipated expiration: 2037-12-29
Also published as: CN109994125B

Abstract

一种提高具有声音触发预设置的听力设备和系统触发精度的方法，其包括：接收一组外部设备的输入信号至听力设备或系统的音频数据接口；分离输入信号为含有目标干扰信号的频道和不含目标干扰信号的频道，用于听力设备或系统执行语音触发识别；根据分离得到的信号触发预设的声控指令，以便当前的听力设备或系统继续执行其功能。

Description

一种提高具有声音触发预设置的听力设备和系统触发精度的方法

技术领域

本公开涉及信号处理技术领域，尤其涉及一种提高具有声音触发预设置的听力设备和系统触发精度的方法。本发明的方法致力于提高具有视觉/运动传感器的听力设备和系统的声音触发精度。

背景技术

当前通过声音触发的听力设备和系统，目标声音经常会受到无用干扰信号(如其他人的语音)的干扰，因此面临的一个巨大挑战是如何提高用于触发听力设备和系统的预置声音信号的信噪比。消除这类干扰信号最常用的方法是利用模拟或数字形式的滤波器。但是，目标触发声音信号和干扰信号经常共用一个频段，滤波器很难将它们分离开来。

所幸的是，多数情况下目标触发声音和干扰信号来自于不同物理位置的发射源，这意味着目标触发声音和干扰信号到达观察点之前所经过的路径是不同的，这种传播路径的差异使得信号的衰减呈现出某种固定模式，从而有助于将目标触发声音信号和干扰信号分离开来。但实际上，信号的路径差异也会产生不同的时间延迟从而严重破坏衰减模式的稳定性，使得信号分离无法实现。

同样的问题也发生在具有视觉/运动传感器的听力设备和系统。例如产生360度全景视频和360度环绕音的设备，如果使用者的头部或身体的其他部位移动时，360度全景视频将随之移动。但是，360度环绕音无法根据当前用户所处的方位来放大对应位置的声音信号作为声音输入感知。

因此，当前急需一种能有效地将目标触发声音信号和干扰信号分离出来并通过选择性放大来提升目标触发信号感知的技术。同时也急需一种能根据用户头部或身体其他部位的移动将用户方位的声音放大的技术。

公开内容

鉴于现有技术中对目标触发声音信号和干扰信号分离的不足，本发明的致力于提供一种提高具有声音触发预设置的听力设备和系统触发精度的方法。

为实现上述目标，本公开的一方面是提供一种提高具有声音触发预设置的听力设备和系统触发精度的方法，其包括：接收一组外部设备的输入信号至听力设备或系统的音频数据接口；分离输入信号为含有目标干扰信号的频道和不含目标干扰信号的频道，用于听力设备或系统执行语音触发识别；根据分离得到的信号触发预设的声控指令，以便当前的听力设备或系统继续执行其功能。

基于上述方法，所述分离输入信号为含有目标干扰信号的频道和不含目标干扰信号的频道的步骤包括：

步骤301：提高所述每两个输入信号的独立性；

步骤302：计算提高所述独立性所产生的系数矩阵，所述系数处于实时持续预估状态中；

步骤303：检测干扰信号片段，或者先行预计优选的干扰信号的相对方向，或者选择来自所有相对方向的干扰信号；

步骤304：检测麦克风与音频重放装置的相对位置，以便计算实时的时间延迟；

步骤305：同步化处理每一组输入信号；

步骤306：通过同步化的信号矩阵和步骤202确定的系数矩阵的乘法运算，同步后的输入信号分离为含有目标干扰信号的频道和不含目标干扰信号的频道；

步骤307：智能选择不含目标干扰信号的频道作为信号输出。

基于上述方法，优选地，根据独立成分分析(ICA)提高所述输入信号的独立性。

基于上述方法，优选地，基于获取的时间延迟，或基于由预定方向的杂音段或干扰信号计算得来的时间延迟，或基于所有可能的相对方向计算的一整套的时间延迟，同步化处理每一组输入信号。

基于上述方法，优选地，所述输入信号由不同位置的麦克风接收。

本公开的另一方面是提供一种提高具有声音触发预设置的听力设备和系统触发精度的方法，包括：

步骤2001：运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2012的功能，否则，执行步骤2002；

步骤2002：经由听力设备或系统的音频数据接口接收一组外部设备的输入信号；

步骤2003，判定是否记录有优选的输入信号，如果有，执行步骤2004，否则执行步骤2009；

步骤2004，判定是否记录有优选的输入信号的时间延迟，如果有，执行步骤2005，否则执行步骤2007；

步骤2005，两种优选的输入信号根据优选的时间延迟ch1和ch2被分离到两个通道；

步骤2006，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，执行步骤2007；

步骤2007，每两种优选的输入信号根据所有可能的时间延迟ch1，ch2……ch_m，被分离到两个通道；

步骤2008，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，执行步骤2009；

步骤2009，每两种输入信号根据所有可能的时间延迟ch1，ch2……ch_n，被分离到两个通道；

步骤2010，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，终止程序执行；

步骤2011，如果检测到声音触发指令，则将触发的两条输入信号记录为步骤2003的优选输入信号，将触发的时间延迟记录为步骤2004中优选的输入信号的优选时间延迟；

步骤2012，听力设备或系统继续执行其功能。

所述方法可应用于具有多麦克风的智能扬声器或具有多麦克风的声控机器人，或其他智能声控设备。上述应用设备都包含有声控触发指令，该指令能识别预设的语音命令从而触发系统或设备继续执行其功能。

另一方面，本发明还披露一种提高具有视觉/运动传感器的听力设备和系统的音效的方法，包括：

步骤4100：接收一组外部设备的输入信号至听力设备或系统的音频数据接口；

步骤4200：接收来自于视觉/运动传感器的信号；

步骤4300：根据视觉/运动传感器的信号计算优选的时间延迟；

步骤4400：根据优选的时间延迟，用信号分离技术分离得到输入信号进入听力设备或系统；

步骤4500：选择性放大从优选方向传来的声音。

根据上述方法，优选地，所述输入信号包括多种彼此并不相同的干扰信号。

根据上述方法，优选地，优选的时间延迟根据使用者的视觉方向计算得出。

本发明的方法可应用于360度环绕音设备，VR音频设备，游戏视频设备或其他具有360度环绕音的产品和系统。

附图说明

下面将参照附图对本公开的实施方式进行示例而非限制性的描述。附图是示范性的且不受图中表现出来的比例尺的限制。不同附图中相同的或相似的元件采用相同的符号标记。

图1是本公开实施例的一种提高具有声音触发预设置的听力设备和系统触发精度的方法的操作流程图；

图2是本公开实施例的一种提高具有声音触发预设置的听力设备和系统触发精度的解决方案的操作流程图；

图3是本公开的将输入信号分离为含有用信号的频道和含杂音信号的频道的操作流程图；

图4是本公开实施例的一种提高来自优选方向的进入具有视觉/运动传感器的听力设备和系统的声音信号的方法流程图。

具体实施方式

下文将结合附图详细描述本公开的具体实施例。

图1是本公开实施例的一种提高具有声音触发预设置的听力设备和系统触发精度的方法1000的流程图。

在步骤100中，一组外部设备的输入信号经由听力设备或系统的音频数据接口接收，每条输入信号(观测信号)均含有目标触发声音。此外，该输入信号还可以包括多种彼此并不相同的干扰信号。可以理解的是，输入信号中的这些干扰信号也可以是相同的，本发明对此并无特殊限制。例如，就智能扬声器而言，智能扬声器通常包含至少两个麦克风以及声音触发指令。每个麦克风都可接收由发声源(包含预设的声音触发指令)和环境背景音效(干扰信号)构成的混合信号。由于麦克风通常安放在不同的位置，声音触发指令和干扰信号被两个或更多的麦克风在相互有间隔的不同位置接收，所以由不同的麦克风接收到的环境背景音效在时域和/或幅度上彼此是有差异的。再比如，对声控机器人而言，用两个或更多的麦克风接收声控指令，由于麦克风通常安放在不同的位置，因此声控指令和干扰信号被两个或更多的麦克风在相互有间隔的不同位置接收，由不同的麦克风接收到的环境背景音在时域和/或幅度上彼此是有差异的。又比如具有声控指令的汽车,汽车音响系统通常包含至少两个麦克风以及声音触发指令。在音频司法鉴定领域，至少设置两个麦克风探测来自受试者的声音信号，每个麦克风都会收到来自受试者和周围噪音的混合信号。对于声控开关，其预设声音指令控制开关的开闭，其麦克风也会收到来自受试者和周围噪音的混合信号。其他包含语音指令的听力设备或系统，如智能家居设备，智能水杯，智能窗帘，智能椅等。

在步骤200中，输入信号被分离为含有目标干扰信号的频道和不含目标干扰信号的频道，用于听力设备或系统执行语音触发识别。图3具体阐述了步骤200的实现过程。

如图3所示，在步骤301中，通过数学公式计算不同输入信号之间的时域和频域交互信息。在本实施例中，用独立成分分析(ICA)提高所述输入信号的独立性。本领域一般技术人员应当知道，也可以用其他适当的方式提高所述输入信号的独立性，本发明对此并没有特定的限制。

在步骤302中，计算提高所述独立性所产生的系数矩阵，所述系数处于实时持续预估状态中。

步骤303有三种不同的实现方式。第一种方式是检测干扰信号片段。每条输入信号中的干扰片段的检测可通过诸如模式识别的方式实现。本领域一般技术人员应该明白其他合理的方式也是可行的。只要在某一时间段检测到有嗓音从低电平到高电平(即，阶跃函数)的起始变化，余下的步骤就可以随之完成。该方法在很大程度上降低了对复杂的嗓音检测过程的要求由此降低了计算的复杂度及其成本。第二种实现方式是先行预计优选的干扰信号的相对方向。由于传感器通常安放在不同的位置，因此干扰信号从相互有间隔的位点接收。再或者，第三种方式，选择来自所有相对方向的干扰信号。

步骤304检测麦克风与音频重放装置的相对位置，以便计算实时的时间延迟。

在步骤305中，基于获取的时间延迟，或基于由预定方向的杂音段或干扰信号计算得来的时间延迟，或基于所有可能的相对方向计算的一整套的时间延迟，τ₁,τ₂,…,τ_n，同步化处理所述输入信号。例如，如果从第一输入信号f₁(t)中检测到的干扰信号和从第二输入信号f₂(t)中检测到的干扰信号的时间延迟记作δ，则第一输入信号f₁(t)被同步为f₁(t-δ)。在另一实施例中，如果从第一输入信号f₁(t)中检测到的干扰信号和从第二输入信号f₂(t)中检测到的干扰信号的时间延迟记作-δ，则第一输入信号f₁(t)被同步为f₁(t+δ)。

在步骤306中，通过同步化的信号矩阵和步骤302确定的系数矩阵的乘法运算，同步后的输入信号分离为含有目标干扰信号的频道和不含目标干扰信号的频道。

在步骤307中，基于步骤302中的系数或相对音量差，在步骤306中得到的含有目标干扰信号的频道和不含目标干扰信号的频道中做智能选择，选择出不含目标干扰信号的频道。进一步地，基于特征检测或相对音量差，将智能选择中相对音量最大的或者特征最匹配的频道作为信号输出。

参见图1，步骤300中，如果分离得到的信号触发了预设的声控指令，则当前的听力设备或系统继续执行其功能。

参见图2，一种精准提高听力设备或系统的预设语音触发信号的方法2000。

步骤2001，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2012的功能，否则，执行步骤2002。

步骤2002，经由听力设备或系统的音频数据接口接收一组外部设备的输入信号。

步骤2003，判定是否记录有优选的输入信号，如果有，执行步骤2004，否则执行步骤2009。

步骤2004，判定是否记录有优选的输入信号的时间延迟，如果有，执行步骤2005，否则执行步骤2007。

步骤2005，两种优选的输入信号根据优选的时间延迟ch1和ch2被分离到两个通道，分离过程如图3所示。

步骤2006，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，执行步骤2007。

步骤2007，每两种优选的输入信号根据所有可能的时间延迟ch1，ch2……ch_m，被分离到两个通道，分离过程如图3所示。

步骤2008，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，执行步骤2009。

步骤2009，每两种输入信号根据所有可能的时间延迟ch1，ch2……ch_n，被分离到两个通道，分离过程如图3所示。

步骤2010，运行预设的声音触发系统判定是否能触发听力设备或系统，如果能，听力设备或系统继续执行步骤2011的功能，否则，终止程序执行。

步骤2011，如果检测到声音触发指令，则将触发的两条输入信号记录为步骤2003的优选输入信号，将触发的时间延迟记录为步骤2004中优选的输入信号的优选时间延迟。

步骤2012，听力设备或系统继续执行其功能。

如图4所示，一种提高来自优选方向的进入具有视觉/运动传感器的听力设备和系统的声音信号的方法4000。

在步骤4100中，一组外部设备的输入信号经由听力设备或系统的音频数据接口接收，每条输入信号(观测信号)均含有来自优选方向的音频信号。此外，该输入信号还可以包括多种彼此并不相同的干扰信号。可以理解的是，输入信号中的这些干扰信号也可以是相同的，本发明对此并无特殊限制。例如，就VR音频来说，配备有运动检测传感器，可检测使用者的位置或方向。当使用者移动时，图像也随之移动，使用者所面对方向的音频会被记录在不同的音频通道。该组输入信号经由VR设备或系统的音频数据接口接收。类似地，在360环绕声电影领域，通常设置至少4个音频记录通道。当图像移动时，使用者所面对方向的音频会被记录在不同的音频通道。该组输入信号经由360环绕音频系统的音频数据接口接收。

步骤4200，接收来自于视觉/运动传感器的信号。由此知道使用者所面对的方向，使用者面对的方向即为视觉方向。

步骤4300，根据视觉/运动传感器的信号计算优选的时间延迟。优选的时间延迟可根据使用者的视觉方向计算得出。

步骤4400，根据优选的时间延迟，用图3所示的信号分离技术分离得到输入信号进入听力设备或系统。

步骤4500，选择性放大从优选方向传来的声音。

以上内容是结合具体的优选实施方式对本公开所作的进一步详细说明，不能认定本公开的具体实施只局限于这些说明。对于本公开所属技术领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本公开的保护范围。

Claims

1.一种提高具有声音触发预设置的听力设备和系统触发精度的方法，其特征在于，包括：

步骤100：接收一组外部设备的输入信号至听力设备或系统的音频数据接口；

步骤200：分离输入信号为含有目标干扰信号的频道和不含目标干扰信号的频道，用于听力设备或系统执行语音触发识别；

步骤300：根据分离得到的信号触发预设的声控指令，以便当前的听力设备或系统继续执行其功能。

2.根据权利要求1所述的方法，其特征在于，所述分离输入信号为含有目标干扰信号的频道和不含目标干扰信号的频道的步骤包括：

步骤301：提高所述每两个输入信号的独立性；

步骤305：同步化处理每一组输入信号；

步骤307：智能选择不含目标干扰信号的频道作为信号输出。

3.根据权利要求2所述的方法，其特征在于，基于独立成分分析(ICA)提高所述输入信号的独立性。

4.根据权利要求2所述的方法，其特征在于，基于获取的时间延迟，或基于由预定方向的杂音段或干扰信号计算得来的时间延迟，或基于所有可能的相对方向计算的一整套的时间延迟，同步化处理每一组输入信号。

5.根据权利要求1-4任一所述的方法，其特征在于，所述输入信号由不同位置的麦克风接收。

6.一种提高具有声音触发预设置的听力设备和系统触发精度的方法，其特征在于，包括：

步骤2012，听力设备或系统继续执行其功能。

7.一种提高来自优选方向的进入具有视觉/运动传感器的听力设备和系统的声音信号的方法，其特征在于，该方法包括：

步骤4200：接收来自于视觉/运动传感器的信号；

步骤4500：选择性放大从优选方向传来的声音。

8.根据权利要求7所述的方法，其特征在于，所述信号分离技术按以下步骤进行：

步骤301：提高所述每两个输入信号的独立性；

步骤305：同步化处理每一组输入信号；

步骤307：智能选择不含目标干扰信号的频道作为信号输出。

9.根据权利要求7或8所述的方法，其特征在于，所述输入信号包括多种彼此并不相同的干扰信号。

10.根据权利要求7或8所述的方法，其特征在于，优选的时间延迟根据使用者的视觉方向计算得出。