CN107103901A

CN107103901A - 人工耳蜗声音场景识别系统和方法

Info

Publication number: CN107103901A
Application number: CN201710215280.1A
Authority: CN
Inventors: 王宁远; 孙晓安; 田春; 黄穗; 李晓波; 唐国芳
Original assignee: Zhejiang Nurotron Neural Electronic Technology Co Ltd
Current assignee: Zhejiang Nurotron Neural Electronic Technology Co Ltd
Priority date: 2017-04-03
Filing date: 2017-04-03
Publication date: 2017-08-29
Anticipated expiration: 2037-04-03
Also published as: CN107103901B

Abstract

本发明公开了一种人工耳蜗声音场景识别系统和方法，其中系统包括前景背景分类器、前景特征提取模块、前景识别网络、背景特征提取模块、背景识别网络、综合场景判断模块和程序选择器，前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出；经前景背景分类器分类后，如为前景声音，则输入所述前景特征提取模块，提取声音特征后，将前景特征数组输出给所述前景识别网络；如为背景声音，则输入所述背景特征提取模块，提取声音特征后，将背景特征数组输出给背景识别网络；综合分析，输出当前场景的具体分类；选择输出的程序。本发明与传统的场景识别系统相比，能够识别更多的声音场景。

Description

人工耳蜗声音场景识别系统和方法

技术领域

本发明属于信号处理领域，特别涉及一种人工耳蜗声音场景识别系统和方法。

背景技术

人工耳蜗是一种可以帮助重度或极重度耳聋患者恢复听力的人造官能。它由体外佩戴的信号处理单元以及体内植入的植入体组成。其中，体外信号处理单元上的麦克风负责收集环境中的声音信号，然后由信号处理器(DSP，digital signal processor)进行处理和编码，再将编码好的信号通过射频的方式发送给体内的植入体，并在电极阵列产生相应的电脉冲信号来刺激听神经，最终帮助植入者恢复听力。

在不同的生活场景中，人工耳蜗的DSP需要启用不同的算法来处理相应的声音信号。比如在安静的环境中，系统需要进入省电模式来延长电池的续航时间；在复杂的噪声环境中，需要启用降噪算法来消除噪声对语音信号的干扰；在听音乐时，系统则需要加强中高频的信号强度，来提升用户的音乐体验。而这些程序的切换，如果由用户手动来完成，则会严重影响用户的体验。因为在日常生活中，周围环境时常会发生变化，比如从家里走到街道上，或者在家中打开电视等，都会彻底改变声音环境，同时也需要启动不同的程序。因此，一个能够自动识别声音场景的智能系统，不但可以减少用户的繁琐操作，还可以最大限度发挥DSP中不同程序的优势，起到提升人工耳蜗用户生活质量的作用。

目前的人工耳蜗与助听器的DSP系统中，一般能够自动识别4-6种(如安静，噪声，音乐，语音，带噪语音，风噪等)不同的声音场景，这是通过提取声音信号的特征，并设计相应的分类器来实现的。比如根据信号的能量来判断是否为安静环境，然后再根据信号的幅度标准差之类的一系列统计特征，来判断当前信号是否为语音，噪声还是音乐。最后，再启用相应的程序来处理当前信号。

这样分类的缺点在于一些特定场景被划分得不够细。比如带噪语音出现时，噪声是稳态的还是非稳态的，信噪比是高还是低，都决定着应该选择什么样的程序。再比如突然出现报警音(如汽车鸣笛，闹铃等)，系统的反应往往也不够迅速(因为这些声音不属于任何一类典型声音场景)。再比如出现语音信号时，若是低声耳语或者大声讲话，所采用的程序也应该是不同的，而这些不同也无法被目前的声音场景识别系统所区分。

发明内容

有鉴于此，本发明的目的在于提供一种人工耳蜗声音场景识别系统和方法，基于两个人工神经网络，分别对前景(特指包含重要信息的声音，如语音，音乐等)和背景(特指不包含信息的声音，如稳态噪声，风噪等)的声音场景进行识别。

为达到上述目的，本发明提供了一种人工耳蜗声音场景识别系统，包括前景背景分类器、前景特征提取模块、前景识别网络、背景特征提取模块、背景识别网络、综合场景判断模块和程序选择器，其中，

所述前景背景分类器与所述前景特征提取模块和背景特征提取模块分别连接，所述前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出；

经所述前景背景分类器分类后，如为前景声音，则输入所述前景特征提取模块，提取声音特征后，将前景特征数组输出给所述前景识别网络；如为背景声音，则输入所述背景特征提取模块，提取声音特征后，将背景特征数组输出给背景识别网络；

所述前景识别网络根据训练好的神经网络对前景特征数组进行计算，计算后将前景判别结果输出给综合场景判断模块；

所述背景识别网络根据训练好的神经网络对背景特征数组进行计算，计算后将背景判别结果输出给综合场景判断模块；

所述综合场景判断模块对所述前景识别网络和背景识别网络的判别结果判断类别，综合分析，输出当前场景的具体分类；

所述程序选择器与所述综合场景判断模块连接，根据当前场景的具体分类选择输出的程序。

优选地，所述前景背景分类器对输入系统的声音信号进行前景背景声音分类，将信号输入分类器，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

优选地，所述前景特征提取模块，提取的特征数组记为{λ}＝foregroundFeatureExtraction{Xn}。

优选地，所述背景特征提取模块，提取的特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

优选地，所述前景识别网络的输出记为C_f，由如下公式得出：

其中，w_f、b_f为提前训练好的前景网络参数，不同网络，不同层次中的参数不同，为第1层、第j节点的网络参数，g、h分别为第一层与第二层网络的激活函数，p_j为两层前景网络的中间节点，λ为前景特征提取模块提取的特征数组。

优选地，所述背景识别网络的输出记为C_b，由如下公式得出：

其中，w_b、d_b为提前训练好的背景网络参数，不同网络中的参数不同，g、h分别为第一层与第二层网络的激活函数，q_j为两层背景网络的中间节点，δ为背景特征提取模块提取的特征数组。

基于上述目的，本发明还提供了一种人工耳蜗声音场景识别方法，包括以下步骤：

前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出；

分类后如为前景声音，则输入所述前景特征提取模块，提取声音特征后，输出前景特征数组；

前景识别网络根据训练好的神经网络对前景特征数组进行计算，计算后输出前景判别结果；

分类后如为背景声音，则输入所述背景特征提取模块，提取声音特征后，输出背景特征数组；

背景识别网络根据训练好的神经网络对背景特征数组进行计算，计算后输出背景判别结果；

综合场景判断模块对前景判别结果和背景判别结果进行类别判断，综合分析，输出当前场景的具体分类；

程序选择器根据当前场景的具体分类选择输出的程序。

优选地，所述前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出，将信号输入分类器，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

优选地，所述前景特征数组记为{λ}＝foreground FeatureExtraction{Xn}。

优选地，所述背景特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

优选地，所述前景判别结果记为C_f，由如下公式得出：

其中，w_f、b_f为提前训练好的前景网络参数，不同网络，不同层次中的参数不同，为第1层、第j节点的网络参数，g、h分别为第一层与第二层前景网络的激活函数，p_j为两层网络的中间节点，λ为前景特征提取模块提取的特征数组。

优选地，所述背景判别结果记为C_b，由如下公式得出：

本发明的有益效果在于：自动识别周围的声音场景，使得人工耳蜗或助听器的DSP根据识别结果启动相应程序。因为此系统是基于两个(前景与背景)并行识别的神经网络的，因此具有识别准确，识别种类更加丰富等特点，可以实时地反映出人工耳蜗或助听器使用者所处的声音环境。然后DSP系统可以根据识别结果，及时启动最适合的程序，提升用户的生活质量。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例的一种人工耳蜗声音场景识别系统结构示意图；

图2为本发明实施例的一种人工耳蜗声音场景识别方法的步骤流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

参见图1，所示为本发明实施例的一种人工耳蜗声音场景识别系统，包括前景背景分类器10、前景特征提取模块20、前景识别网络30、背景特征提取模块40、背景识别网络50、综合场景判断模块60和程序选择器70，其中，

前景背景分类器10与前景特征提取模块20和背景特征提取模块40分别连接，前景背景分类器10对输入系统的声音信号进行前景背景声音分类后输出；

经前景背景分类器10分类后，如为前景声音，则输入前景特征提取模块20，提取声音特征后，将前景特征数组输出给前景识别网络30；如为背景声音，则输入背景特征提取模块40，提取声音特征后，将背景特征数组输出给背景识别网络50；

前景识别网络30根据训练好的神经网络对前景特征数组进行计算，计算后将前景判别结果输出给综合场景判断模块60；

背景识别网络50根据训练好的神经网络对背景特征数组进行计算，计算后将背景判别结果输出给综合场景判断模块60；

综合场景判断模块60对前景识别网络30和背景识别网络50的判别结果判断类别，综合分析，输出当前场景的具体分类；

程序选择器70与综合场景判断模块60连接，根据当前场景的具体分类选择输出的程序。

前景背景分类器10对输入系统的声音信号进行前景背景声音分类，将信号输入分类器，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

前景特征提取模块20，提取的特征数组记为{λ}＝foregroundFeatureExtraction{Xn}。

背景特征提取模块40，提取的特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

前景识别网络30的输出记为C_f，由如下公式得出：

其中，w_f、b_f为提前训练好的前景网络参数，不同网络，不同层次中的参数不同，为第1层、第j节点的网络参数，g、h分别为第一层与第二层网络的激活函数，p_j为两层前景网络的中间节点，λ为前景特征提取模块20提取的特征数组。

背景识别网络50的输出记为C_b，由如下公式得出：

其中，w_b、d_b为提前训练好的背景网络参数，不同网络中的参数不同，g、h分别为第一层与第二层网络的激活函数，q_j为两层背景网络的中间节点，δ为背景特征提取40模块提取的特征数组。

本系统由一个前景背景分类器10以及两个相应的人工神经网络构成。具体来说，首先，系统根据声音的统计特征，判断当前声音属于前景声还是背景声，也就是判断当前声音中是否包含了对人工耳蜗植入者有用的信息(前景声)，若当前声音信号包含前景声，则将声音信号传输到前景特征提取模块20，否则就传输至背景特征提取模块40；随后，在特征提取模块中，提取相应声音的特征，也就是相应识别网络的输入信号，提前训练好的神经网络会输出分类结果，判断当前声音到底属于哪一类的声音场景；然后，在一个时间窗(如5秒)内，系统会分别判断出当前前景与背景信号的种类，也就是综合两路神经网络的输出结果，综合判断出当前场景具体分类；最后，再根据此分类来选择具体的程序。

与上述系统对应的，还提供了一种人工耳蜗声音场景识别方法，其流程图参见图2，包括以下步骤：

S101，前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出；

S102，分类后如为前景声音，则输入所述前景特征提取模块，提取声音特征后，输出前景特征数组；

S103，前景识别网络根据训练好的神经网络对前景特征数组进行计算，计算后输出前景判别结果；

S104，分类后如为背景声音，则输入所述背景特征提取模块，提取声音特征后，输出背景特征数组；

S105，背景识别网络根据训练好的神经网络对背景特征数组进行计算，计算后输出背景判别结果；

S106，综合场景判断模块对前景判别结果和背景判别结果进行类别判断，综合分析，输出当前场景的具体分类；

S107，程序选择器根据当前场景的具体分类选择输出的程序。

具体实施例中，S101，前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出，为根据信号提取特征数组，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

S102中前景特征数组记为{λ}＝foregroundFeatureExtraction{Xn}。

S104中背景特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

S103中前景判别结果记为C_f，由如下公式得出：

S105中背景判别结果记为C_b，由如下公式得出：

具体实施例参照上述系统实施例，在此不赘述。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种人工耳蜗声音场景识别系统，其特征在于，包括前景背景分类器、前景特征提取模块、前景识别网络、背景特征提取模块、背景识别网络、综合场景判断模块和程序选择器，其中，

2.根据权利要求1所述的人工耳蜗声音场景识别系统，其特征在于，所述前景背景分类器对输入系统的声音信号进行前景背景声音分类，将信号输入分类器，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

3.根据权利要求1所述的人工耳蜗声音场景识别系统，其特征在于，所述前景特征提取模块，提取的特征数组记为{λ}＝foregroundFeatureExtraction{Xn}。

4.根据权利要求1所述的人工耳蜗声音场景识别系统，其特征在于，所述背景特征提取模块，提取的特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

5.根据权利要求3所述的人工耳蜗声音场景识别系统，其特征在于，所述前景识别网络的输出记为C_f，由如下公式得出：

<mrow> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>f</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msubsup> <mi>&lambda;</mi> <mo>+</mo> <msubsup> <mi>b</mi> <mi>f</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>C</mi> <mi>f</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </munderover> <mi>h</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>f</mi> <mn>2</mn> </msubsup> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>+</mo> <msubsup> <mi>b</mi> <mi>f</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

6.根据权利要求4所述的人工耳蜗声音场景识别系统，其特征在于，所述背景识别网络的输出记为C_b，由如下公式得出：

<mrow> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>b</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msubsup> <mi>&delta;</mi> <mo>+</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>C</mi> <mi>b</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </munderover> <mi>h</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>b</mi> <mn>2</mn> </msubsup> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>+</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

7.一种采用权利要求1-6之一的系统的人工耳蜗声音场景识别方法，其特征在于，包括以下步骤：

程序选择器根据当前场景的具体分类选择输出的程序。

8.根据权利要求7所述的人工耳蜗声音场景识别系统，其特征在于，所述前景背景分类器对输入系统的声音信号进行前景背景声音分类后输出，将信号输入分类器，记为{S}＝SignalClassification{Xn}，判别当前信号属于前景声音还是背景声音。

9.根据权利要求7所述的人工耳蜗声音场景识别系统，其特征在于，所述前景特征数组记为{λ}＝foreground FeatureExtraction{Xn}。

10.根据权利要求7所述的人工耳蜗声音场景识别系统，其特征在于，所述背景特征数组记为{δ}＝backgroundFeatureExtraction{Xn}。

11.根据权利要求9所述的人工耳蜗声音场景识别系统，其特征在于，所述前景判别结果记为C_f，由如下公式得出：

<mrow> <msub> <mi>C</mi> <mi>f</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </munderover> <mi>h</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>f</mi> <mn>2</mn> </msubsup> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>+</mo> <msubsup> <mi>b</mi> <mi>f</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow> 2

12.根据权利要求10所述的人工耳蜗声音场景识别系统，其特征在于，所述背景判别结果记为C_b，由如下公式得出：