CN101194304A

CN101194304A - 用于确定声音发生周期的音频信号处理装置和音频信号处理方法

Info

Publication number: CN101194304A
Application number: CNA2006800209311A
Authority: CN
Inventors: 吉冈靖雄
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-07-15
Filing date: 2006-06-28
Publication date: 2008-06-04
Anticipated expiration: 2026-06-28
Also published as: EP1906385A1; JP5388447B2; US8300834B2; WO2007017993A1; EP1906385A4; CN101194304B; KR20080009331A; US20090103740A1; JPWO2007017993A1

Abstract

本发明涉及一种用于确定声音发生周期的音频信号处理装置和音频信号处理方法，即使在环境噪声的变化不能被预测的情况，也能够高准确性地确定音频信号的声音发生周期。音频信号处理系统(1)所在的音频空间中的声音总是由扩音器(20)采集并作为音频信号输入到音频信号处理装置(10)中。在用户执行规定的操作之前，从扩音器(20)输入的音频信号被依次地存储在第一缓冲器(121)中。在规定的操作被执行后，音频信号被依次地存储在第二缓冲器(122)中。确定部分(114)把存储在第一缓冲器(121)中的音频信号的电平作为环境噪声的电平并把随后存储在第二缓冲器(122)中的音频信号的电平作为在当前时间产生的声音的电平来计算S/N比。确定部分(114)随后判断计算的S/N比是否满足规定的条件以确定音频信号中的声音发生周期。

Description

用于确定声音发生周期的音频信号处理装置和音频信号处理方法

技术领域

本发明涉及一种技术，其用来确定显示音频信号中的声音发生周期中的声音部分。

背景技术

在音频识别或基音检测等处理中，必须对声音发生周期(也就是乐器的音频或声音产生的周期)与非声音发生周期(也就是不产生乐器的音频或声音的周期)进行区别。由于在普通的音频空间中，即使在非声音发生周期也必然存在着环境噪声，如果没有区别声音发生周期和非声音发生周期而在所有周期中执行像音频识别或基音检测的处理，则由于非声音发生周期中的环境噪声，可能获得错误的处理结果。此外，从为了对非声音发生周期的声音执行音频识别或基音检测而不经济地消耗处理器的资源的观点来看，由于该过程原本不是必要的，所以其是无意义的或不可取的。

作为区别音频信号中声音发生周期与非声音发生周期的方法，获得的音频信号的S/N(信号-噪声)比超过预先确定的S/N比的阈值的周期被确定为声音发生周期的方法被广泛地使用。但是，在非声音发生周期中环境噪声电平在音频信号获得的环境中是以各种方式变化的。因此，当声音发生周期通过使用固定噪声电平的S/N比来确定时，在环境噪声电平高的环境中非声音发生周期被错误地确定为获得的音频信号的声音发生周期或者在环境噪声电平低的环境中声音发生周期被错误地确定为获得的音频信号的非声音发生周期。

为了解决上述的问题，比如，专利文献1公开了当从带有音频的视频信息中提取音频信息时根据带有音频的视频信息指明的内容的类型来使用不同的噪声电平的技术。

专利文献1：JP-A-2003-101939。

此外，比如，专利文献2公开了音频信号被分成具有确定的时间长度的多个帧并且用于在随后的帧中计算S/N比的噪声电平根据在过去被确定为声音发生周期的帧的属性值而被更新的技术。

专利文献2：JP-A-2001-265367。

有一种终端装置，其用于通过用户的讲话来验证用户。在这样的终端装置中，用户把确定的语音给至具有声音采集单元的终端装置。终端装置从显示用户讲话的音频信号中提取一定数量的特征并把先前存储的用户讲话的一定数量的相同特征同新提取的一定数量的特征进行对比以判断该用户是否是真正的用户。

在上述的情况中，终端装置需要在用户给出语音期间确定由声音采集单元获得的音频信号中的声音发生周期。但是，由于在音频空间中环境噪声电平在验证用户时是以不同的方式变化的，所以当通过使用固定噪声电平的S/N比来确定声音发生周期时，不能获得准确的结果。此外，由于变化的环境噪声电平不容易预测，所以很难为事先改变如专利文献1中说明的噪声电平提供参考。

而且，当专利文献2中说明的技术被使用时，上一帧是否是非声音发生周期需要用一种方法进行初始的判断，在判断中如何给出要使用的噪声电平成为一个问题。也就是，当噪声电平的初始值不合适时，声音发生周期的确定结果的准确性降低。

在用于检测用户用乐器表演的声音的基音的基音检测器中，存在着与上述的通过用户讲话来验证用户的终端装置相同的问题。

考虑到上述的情况，本发明的目标是提供一种音频信号处理装置和音频信号处理方法，即使在环境噪声的变化不能被预测的情况时，也能够高准确性地在音频信号中确定声音发生周期。

发明内容

为了获得上述目的，本发明提供一种音频信号处理装置，其包含：音频信号获取单元，用于连续地获取音频信号；存储单元，用于在当前时间被设置为其终点的规定周期中存储由音频信号获取单元获得的音频信号；触发信号获取单元，用于获得触发信号；以及确定单元，用于在触发信号获得后通过使用由音频信号获取单元获得的音频信号来计算声音电平的指标值，在触发信号由触发信号获取单元获得时通过使用存储在存储单元中的音频信号来计算噪声电平的指标值；用声音电平的指标值除以噪声电平的指标值来计算S/N比并判断S/N比是否满足规定的条件以确定触发信号获得后由音频信号获取单元获得的音频信号中显示声音发生周期的声音部分。

根据所述音频信号处理装置，把在触发信号获得前获得和存储的音频信号作为仅显示S/N比环境噪声的音频信号以计算信噪比，并且根据S/N比确定声音发生周期，这样能够获得具有高准确性的所确定结果。

在音频信号处理装置中，触发信号获取单元根据用户的规定操作可以获得由操作单元产生的触发信号，或者可以获得由通知用户要求用户给出语音的通知单元的信息所产生的触发信号。

此外，在音频信号处理装置中，确定单元可以使用显示在触发信号获得后由音频信号获取单元获得的音频信号的规定频率分量的功率的指标值和显示在触发信号由触发信号获取单元获得时存储在存储单元中的音频信号的规定频率分量的功率的指标值来分别计算声音电平的指标值和噪声电平的指标值。

而且，在音频信号处理装置中，确定单元可以使用在触发信号获得后由音频信号获取单元获得的音频信号的幅度值和触发信号由触发信号获取单元获得时存储在存储单元中的音频信号的幅度值来分别计算声音电平的指标值和噪声电平的指标值。

而且，在音频信号处理装置中，确定单元可以针对以规定的时间长度间隔对在触发信号获得后由音频信号获取单元获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并且把S/N比满足规定条件的帧的开始时间确定为声音发生周期的开始时间。在这个音频信号处理装置中，当针对规定的帧计算的S/N比不满足规定的条件时，确定单元可以使用规定的帧来更新存储在存储单元的音频信号并且当确定单元针对规定的帧的随后帧计算S/N比时可以使用存储在存储单元中的更新的音频信号。

此外，在音频信号处理装置中，确定单元可以针对以规定的时间长度间隔对在触发信号获得后由音频信号获取单元获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并且把S/N比满足规定条件的帧的终止时间确定为声音发生周期的终止时间。

而且，在音频信号处理装置中，确定单元可以针对以规定的时间长度间隔对存储在存储单元中的音频信号进行划分而获得的多个帧来分别计算规定的属性值，并且可以不使用其计算的属性值满足用于计算S/N比的规定条件的帧。

此外，本发明提供一种程序，其允许计算机执行由音频信号处理装置执行的处理。

而且，本发明提供的音频信号处理方法，其包含步骤：连续获得音频信号；存储在当前时间被设置为其终点的上一个规定周期中获得的音频信号；获得触发信号；使用在触发信号获得后获得的音频信号来计算声音电平的指标值；使用在触发信号获得后存储的音频信号来计算噪声电平的指标值；用声音电平的指标值除以噪声电平的指标值来计算S/N比；判断S/N比是否满足规定的条件并根据判断处理来确定在触发信号获得后获得的音频信号中显示声音发生周期的声音部分。

而且，本发明的音频信号处理方法，还包含根据用户操作产生规定的信号的步骤。在触发信号获得处理中，获得的触发信号是根据用户的规定操作由信号发生处理产生的。

此外，本发明的音频信号处理方法还包含通知用户要求用户给出语音并且根据信息产生触发信号的步骤。在触发信号获得处理中，获得的触发信号是由通知处理产生的。

在本发明的音频信号处理方法中，确定处理使用显示在触发信号获得后由音频信号获取处理获得的音频信号的规定频率分量的功率的指标值和显示在触发信号由触发信号获取单元获得时存储的音频信号的规定频率分量的功率的指标值来分别计算声音电平的指标值和噪声电平的指标值。

此外，本发明的音频信号处理方法中，确定处理使用在触发信号获得后由音频信号获取处理获得的音频信号的幅度值和在触发信号由触发信号获取处理获得时存储的音频信号的幅度值来分别计算声音电平的指标值和噪声电平的指标值。

此外，本发明的音频信号处理方法中，确定处理针对以规定的时间长度间隔对在触发信号获得后由音频信号获取处理获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并把S/N比满足规定条件的帧的开始时间确定为声音发生周期的开始时间。

此外，本发明的音频信号处理方法中，当针对规定的帧计算的S/N比不满足规定的条件时，确定处理使用规定的帧来更新存储的音频信号并在针对规定的帧的随后帧计算S/N比时使用更新并存储的音频信号。

此外，本发明的音频信号处理方法中，确定处理针对以规定的时间长度间隔对在触发信号获得后由音频信号获取处理获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并把S/N比满足规定条件的帧的终止时间确定为声音发生周期的终止时间。

此外，本发明的音频信号处理方法中，确定处理针对以规定的时间长度间隔划分存储的音频信号而获得的多个帧来分别计算规定的属性值，并且不使用其计算的属性值满足用于计算S/N比的规定条件的帧。

根据上述的音频信号处理装置和音频信号处理方法，把在触发信号获得前获得和存储的音频信号作为仅显示S/N比环境噪声的音频信号以计算信噪比，并且根据S/N比确定声音发生周期，这样可以获得高准确性的所确定结果。

附图说明

图1是示出本发明的实施例的音频信号处理系统的结构框图。

图2是示出本发明的实施例的第一缓冲器的结构的示意图。

图3是示出本发明的实施例的第二缓冲器的结构的示意图。

图4是示出本发明的实施例中频带各部分的示图。

图5是示出本发明的实施例中开始时间的确定处理的流程图的示图。

图6是示出本发明的实施例中终止时间的确定处理的流程图的示图。

图7是示出本发明的实施例中用于确定声音发生周期的方式的示意图。

文中附图标记为：1音频信号处理系统、10音频信号处理装置、11控制部分、12存储部分、13音频信号输出部分、14振荡器、20扩音器、30键盘、40音频信号识别装置、111音频信号获取部分、112 A/D转换器、113触发信号获取部分、114确定部分、121第一缓冲器、122第二缓冲器、123噪声电平数据、124声音电平数据、125声音发生周期数据、1141 FFT部分、1142信噪比计算部分、1143条件判断部分。

具体实施方式

图1是示出本发明的实施例的音频信号处理系统的结构框图。上述的音频信号处理系统1包括：音频信号处理装置10，其用于在获得的音频信号中确定声音发生周期以在确定的声音发生周期中输出音频信号；扩音器20，其采集扩音器所在的音频空间中的声音并把声音转换成音频信号以把音频信号输出到音频信号处理装置10；键盘30，其具有多个键用以根据用户对键的操作把规定的信号输出到音频信号处理装置10；以及音频信号识别装置40，其用于从音频信号处理装置10输出的音频信号中提取一定量的特征并把这些特征与先前存储的相同数量的特征进行对比，以确定音频信号所代表的语音的讲话者。

键盘30显示了一个用户向音频信号处理装置10给出指令的装置的示例，其它装置如鼠标指针也可以使用。此外，音频信号识别装置40显示了一个使用音频信号处理装置10输出的音频信号的装置的示例，其它装置如用于确定乐音的基音的装置也可以使用。

上述的音频信号处理装置10包括：控制部分11，其用于从扩音器20获得音频信号以执行各类的处理并控制音频信号处理装置10的其它结构部分；存储部分12，其存储用于指示控制部分11执行的各类处理的程序和控制部分11使用的各类数据并被用作控制部分11的工作区；音频信号输出部分13，其用于把音频信号输出到音频信号识别装置40；以及振荡器14，其用于在规定的时间间隔上产生时钟信号。音频信号处理装置10的结构部分按需要通过振荡器14产生的时钟信号对处理分别进行同步或定时。

上述的控制部分11包括：音频信号获取部分111，其从扩音器20接收音频信号；A/D(模拟到数字)转换器112，其用于把音频信号获取部分111接收的音频信号从模拟信号转换成数字信号并把信号划分成规定的时间长度的多个帧以允许存储部分12连续地存储信号；触发信号获取部分113，其用于从键盘30接收作为触发信号的规定的信号；以及确定部分114，其用于通过把触发信号获取部分113得到的触发信号作为触发来确定连续存储在存储部分12中的音频信号的声音发生周期。

对于存储部分12从A/D转换器112接收的帧，附加帧号以在时序上识别各个帧。在下面的说明中，帧号由四位的整数代表。具有帧号为“0001”的帧称为0001帧。在以下的说明中，假设由A/D转换器112产生的数字信号是PCM(脉冲编码调制)形式的声波类型的数据，但是，数字信号不仅限于此。此外，在下面的说明中，假设经由A/D转换器112被存储在存储部分12的音频信号的帧的长度是10毫秒，但是，帧的长度不仅限于此。

此外，确定部分114包括：FFT部分1141，其用于根据FFT(快速傅氏变换)算法分别对连续存储在存储部分12中的音频信号的帧执行处理以计算包含在帧中的频率分量；S/N比计算部分1142，其通过使用由FFT部分1141计算的频率分量的幅度来计算帧的S/N比；以及条件判断部分1143，其用于连续地判断由S/N比计算部分1142计算的S/N比是否满足规定的条件以确定声音发生周期的开始时间和终止时间。由S/N比计算部分1142和条件判断部分1143执行的处理的详细内容将在下述的操作说明中给出。

作为临时存储音频信号的帧的区域，存储部分12中提供有第一缓冲器121和第二缓冲器122。在音频信号处理装置10开始操作后直到触发信号由触发信号获取部分113获得，以及在上一次的声音发生周期的确定处理由用户操作完成后直到触发信号由触发信号获取部分113获得时，第一缓冲器121是用于存储由A/D转换器112在规定的上一个时间长度中连续形成的帧的区域。帧被存储在第一缓冲器121中的周期在后文中被称为“待机周期”。此外，在下面的说明中，假设能够被存储在第一缓冲器121中的帧的数量是10，也就是100毫秒的帧，但是，帧的数量不仅限于此。

图2是示出本发明的实施例的第一缓冲器121的结构的示意图。第一缓冲器121被分成10个区域。这些区域分别由号“-0010”到“-0001”来标识。比如，由号“-0010”标识的区域在后文中被称为区域“-0010”。在第一缓冲器121中，分别以获得帧的顺序把这些帧存储在这些区域中，这样，存储在区域“-0010”中的帧是最早的而存储在区域“-0001”中的帧是最新的。在图2中，帧“0085”到“0094”分别存储在区域“-0010”到“-0001”中的情况是作为例子说明用的。

在“待机周期”期间，存储部分12以10毫秒的间隔从A/D转换器112接收新帧，以通过FIFO(先入先出)连续更新第一缓冲器121的内容。在图2中，区域“-0010”到“-0001”显示在固定的位置处，但是，分别存储在存储部分12中的区域的物理位置不需要固定。如，第一缓冲器121可以通过指针引用存储在存储部分12的任意存储区域的帧来实现。如果是那样的话，指针被高速地更新来更新第一缓冲器121的内容。

在触发信号由触发信号获取部分113获得后直到声音发生周期的确定处理由用户的操作完成，第二缓冲器122用来存储由A/D转换器112在规定的上一个时间长度中连续形成的帧。帧被存储在第二缓冲器122中的周期在后文中被称为“判断周期”。在下面的说明中，假设能够被存储在第二缓冲器122中的帧的数量是6000，也就是针对60秒的帧的数量，但是，帧的数量不仅限于此。

图3是示出本发明的实施例的第二缓冲器122的结构的示意图。第二缓冲器122被分成6000个区域，也就是区域“0001”到“6000”。在第二缓冲器122中，分别以获得帧的顺序把这些帧存储在这些区域中，这样存储在区域“0001”中的帧是最早的而存储在区域“6000”中的帧是最新的。在图3中，帧“0095”、“0096”、“0097”……被分别存储在区域“0001”、“0002”、“0003”……中的情况是作为例子说明用的。由于图3显示的是在判断周期开始后还没经过60秒并且在接近第二缓冲器122的末尾处的区域中还没有存储帧的情况，因此如图3所示“5996”到“6000”的区域是空白的。

在“判断周期”期间，存储部分12以10毫秒的间隔从A/D转换器112接收新帧，以通过FIFO连续更新第二缓冲器122的内容。分别包含在第二缓冲器122中的区域的物理位置如第一缓冲器121中的情况一样，不需要固定。

在判断周期中由S/N比计算部分1142形成的噪声电平数据123和声音电平数据124也被临时存储在存储部分12中。噪声电平数据123显示了当触发信号由触发信号获取部分113获得时存储在第一缓冲器121中的帧的幅度的属性值的数据。在另一方面，声音电平数据124显示了在判断周期时连续存储在第二缓冲器122中的帧的幅度的属性值的数据。噪声电平数据123和声音电平数据124的详细内容将在下述的说明中给出。

而且，由条件判断部分1143在判断周期中形成的声音发生周期数据125被临时存储在存储部分12中。声音发生周期数据125显示了声音发生周期的第一个帧号和最后一个帧号的数据。第一个帧的开始时间由声音发生周期数据125确定为声音发生周期的开始时间。类似地，终止帧的终止时间确定为声音发生周期的终止时间。声音发生周期数据125的形成不仅限于使用帧号的形式，可以考虑各种形式，比如，声音发生周期的开始时间和终止时间由时间数据确定。

随后，将说明音频信号处理系统1的操作。假设音频信号处理系统1的用户需要通过音频信号识别装置40接受用户验证来使用终端装置(图示被省略)。

用户对键盘30执行规定的操作以接受用户的验证并指示音频信号处理装置10验证用户。但是，在用户操作之前，扩音器20总是把显示音频信号处理系统1所在的音频空间的声音的音频信号输出到音频信号处理装置10。当音频信号处理装置10的音频信号获取部分111接收来自扩音器20的音频信号时，音频信号获取部分111依次地把接收到的音频信号发送到A/D转换器112。然后，当A/D转换器112接收来自音频信号获取部分111的音频信号时，A/D转换器把接收的音频信号转换成数字信号，然后依次地向存储单元12发出数字信号以为每个帧存储信号。在这种情况中，由于触发信号获取部分113还没有接收触发信号，周期代表待机周期。同理，A/D转换器112指示存储部分12存储要被存储到第一缓冲器121中的传输的音频信号。结果，在待机周期中，最多为10帧的音频信号被不断地存储在第一缓冲器121中。如上所述，存储在第一缓冲器121中的音频信号是在用户还没给出语音(讲话)的状态下的音频空间中的声音，也就是显示环境噪声的声音的音频信号。

在上述状态中，当用户对键盘30执行规定的操作并指示音频信号处理装置10验证用户时，键盘30根据用户的操作产生触发信号，来向音频信号处理装置10输出触发信号。当音频信号处理装置10的触发信号获取部分113接收来自键盘30的触发信号时，触发信号获取部分传输接收到的触发信号到A/D转换器112和确定部分114。

当A/D转换器112从触发信号获取部分113接收触发信号然后把将要产生的音频信号存储在存储部分12中时，A/D转换器指示存储部分把音频信号存储在第二缓冲器122中。结果，在判断周期中，最多为6000帧的音频信号被不断地存储在第二缓冲器122中。此外，在判断周期中，待机周期时存储在第一缓冲器121的内容被保持。

在另一方面，当确定部分114从触发信号获取部分113接收触发信号时，确定部分114开始对连续存储在第二缓冲器122中的音频信号进行声音发生周期的确定处理。最初，FFT部分1141对存储在第一缓冲器121中的最新的帧，也就是存储在区域“-0001”中的帧，执行FFT处理以分别计算显示包含在帧的音频信号中的频率分量的复数。现在，为了说明，假设存储在第一缓冲器121的区域“-0001”中的帧是帧“0094”。

在下面的说明中，假设FFT部分1141计算显示FFT处理的多个频率(R1+l1i)、(R21+l2i)、(R3+l3i)……(RN+lNi)分量的复数。在这种情况中，“i”是虚数单位，Rn和ln(n是1到N并且N是FFTbin的数量)分别是实数部分和虚数部分的数值。

FFT部分1141把一组如上所述计算的频率分量的复数传输给S/N比计算部分1142。S/N比计算部分1142使用这组从FFT部分1141接收到的复数从包含在多个频带中的频率的这组复数中为先前划分的多个频带分别计算音频信号分量的幅度的指标。在下面的说明中，S/N比计算部分1142根据下面的方程(方程1到方程5)分别为图4所示的5个频带计算每个频带的功率：Fm(m代表频带号)。这里，bm：对应于想要的频带中最小频率的FFTbin的号；em：对应于想要的频带中最大频率的FFTbin的号；

[数学方程1]

F_{1} = Σ_{j = b_{1}}^{e_{1}} \sqrt{R_{j}^{2} + I_{j}^{2}}

…(方程1)

…(方程2)

F_{3} = Σ_{j = b_{3}}^{e_{3}} \sqrt{R_{j}^{2} + I_{j}^{2}}

…(方程3)

F_{4} = Σ_{j = b_{4}}^{e_{4}} \sqrt{R_{j}^{2} + I_{j}^{2}}

…(方程4)

F_{5} = Σ_{j = b_{5}}^{e_{5}} \sqrt{R_{j}^{2} + I_{j}^{2}}

…(方程5)

如上所述由FFT部分1141和S/N比计算部分1142为存储在帧“0094”中的帧计算的F1、F2、……F5在下文被称为F0094_1、F0094_2、……F0094_5。

之后，FFT部分1141和S/N比计算部分1142类似地分别为存储在第一缓冲器121中的区域“-0002”到“-0005”中的帧计算每个频带的功率，也就是，F0093_1到F0093_5、F0092_1到F0092_5、F0091_1到F0091_5和F0090_1到F0090_5。

然后，S/N比计算部分1142根据下面的(方程6)为每个频带计算噪声电平：NLm(m代表频带号)。在这种情况中，在(方程6)中的t指示帧号，并且在这种情况中，k＝0090。

(数学方程2)

{NL}_{m} = (Σ_{t = k}^{k + 4} F_{t_m}) / 5

…(方程6)

当S/N比计算部分1142如上所述计算NL1到NL5时，S/N比计算部分存储显示存储部分12中的一组作为噪声电平数据123的数值的数据。存储在存储部分12中的噪声电平数据123是每个规定的频带的环境噪声电平数据。

随后，FFT部分1141对新存储在第二缓冲器122中的帧执行相同的处理，也就是说，帧“0095”作为上述存储在第一缓冲器121中的帧来计算一组显示频率分量的复数的帧。S/N比计算部分1142根据上述的方程(方程1)到(方程5)使用由FFT部分1141为帧“0095”计算的该组复数来分别为频带计算功率，也就是F0095_1、F0095_2、……F0095_5。

当S/N比计算部分1142如上所述计算F0095_1到F0095_5，S/N比计算部分存储显示存储部分12中的一组作为声音电平数据124的数值的数据。如上所述存储在存储部分12中的声音电平数据124是显示了每个规定的频带在当前时间的音频空间中的声音的电平数据。

S/N比计算部分1142根据下述的(方程7)通过使用如上所述存储在存储部分12中的噪声电平数据123和声音电平数据124来计算S/N比：SNR。在(方程7)中的S是帧号，用于计算声音电平数据124，并且在这种情况中，S＝0095。

[数学方程3]

SNR = (Σ_{m = 1}^{5} \frac{F_{s_m}}{{NL}_{m}}) / 5

…(方程7)

FFT部分1141和S/N比计算部分1142根据上述的(方程7)在每次新帧被存储在第二缓冲器122时计算新存储的帧的SNR。由于存储在第一缓冲器121中的音频信号在判断周期中不变，当计算存储在第二缓冲器122的帧“0096”之后帧的SNR时，使用已经存储在存储部分12的噪声电平数据123。

如上所述，由S/N比计算部分1142计算的SNR是显示噪声电平在当前时间的音频空间中的声音电平相对于环境噪声电平的比率的指标。因此，当用户没有给出语音时计算的SNR显示1附近的值，而当用户给出语音时计算的SNR显示比1大得多的数值。这样，条件判断部分1143根据由S/N比计算部分1142连续计算出来的SNR以如下所示的方式确定声音发生周期。

由条件判断部分1143执行的确定处理分成确定声音发生周期的开始时间的处理和确定声音发生周期的终止时间的处理。图5示出开始时间的确定处理的流程图并且图6示出终止时间的确定处理的流程图。

起初，在声音发生周期的确定处理之前，条件判断部分1143在存储部分12中存储下述的常量作为参数。

(a)开始的阈值

(b)完成开始的次数

(c)延迟开始的次数

(d)终止的阈值

(e)完成终止的次数

开始的阈值是显示当SNR超过用于开始的阈值时的阈值，用于计算SNR的帧极可能对应于位于声音发生周期期间的帧。在下面的说明中，假设开始的阈值等于2.0。

完成开始的次数是用于判断的次数，当SNR超过开始的阈值多于完成开始的次数时，与首先超过开始的阈值的SNR相对应的帧将成为声音发生周期的第一帧。在下面的说明中，假设完成开始的次数等于5。

延迟开始的次数是当声音发生周期的开始时间的确定处理被暂时开始时用于为随后的SNR重新开始声音发生周期的开始时间的确定处理的次数，然后，在判断SNR是否超过了开始的阈值时，由于开始的次数超过了延迟开始的次数，开始时间没有被确定。在下面的说明中，假设延迟开始的次数等于10。

终止的阈值是显示了SNR低于终止的阈值时的阈值，用于计算SNR的帧极有可能对应于非声音发生周期的帧。在下面的说明中，假设终止的阈值等于1.2。

完成终止的次数是当SNR低于终止的阈值的次数多于完成终止的次数时，用于判断与首先低于终止阈值的帧相对应的帧是声音发生周期的终止帧的次数。在下面的说明中，假设完成终止的次数等于15。

条件判断部分1143首先在判断周期初始化下述的变量(步骤S100)。

(f)开始时间数据

(g)测试计数器

(h)超过开始阈值计数器

开始时间数据是其中存储声音发生周期的第一帧的帧号的变量，帧号对应的帧的开始时间是声音发生周期的开始时间。初始化时，比如，以显示为未确定的值的“NULL”替换开始时间数据。

测试计数器是用于计算在步骤S100的初始化处理之后SNR与开始的阈值“2.0”进行比较的次数的计数器。此外，超过开始阈值计数器是用于计算SNR超过开始的阈值“2.0”的次数的计数器。初始化时，分别把测试计数器和超过开始阈值计数器替换为“0”。

当条件判断部分1143从S/N比计算部分1142获得新的SNR(步骤S101)时，条件判断部分向测试计数器中加1(步骤S102)，然后判断在步骤S101中获得的SNR是否超过了开始的阈值“2.0”(步骤S103)。当SNR没有超过开始的阈值“2.0”时(步骤S103：否)，条件判断部分1143判断测试计数器是否超过延迟开始的次数“10”(步骤S104)。

当测试计数器没有超过延迟开始的次数“10”(步骤S104：否)时，条件判断部分1143返回处理到步骤S101为下一个SNR重复步骤S101之后的处理。

在另一方面，在开始时间没有被确定的状态下，当步骤S101之后的处理被重复并且测试计数器的值在步骤S102中被增加到11时，步骤S104的判断结果为“是”。在这种情况下，条件判断部分1143将处理返回到步骤S100为随后的多个SNR再重新开始声音发生周期的开始时间的确定处理。

由于SNR没有超过开始的阈值“2.0”而用户也没有给出语音，条件判断部分1143重复步骤S100到步骤S104的上述处理。在这样的状态下，当用户开始给出语音时，步骤S103的判断结果为“是”。如果是那样的话，条件判断部分1143随后判断超过开始阈值计数器是否为“0”(步骤S105)。由于超过开始阈值计数器是“0”(步骤S105：是)，条件判断部分113用计算最后获得的SNR的帧号替换开始时间数据(步骤S106)。以这种方式替换的帧号是显示声音发生周期的开始时间的帧号的候选。

之后，条件判断部分1143向超过开始阈值计数器加1(步骤S107)，判断超过开始阈值计数器是否超过了完成开始的次数“5”(步骤S108)。在这种情况中，由于超过开始阈值计数器是1并且步骤S108的判断结果为“否”，条件判断部分1143将处理返回到步骤S101为新的SNR重复步骤S101后面的处理。

通常，当用户开始给出语音或者发音并且在步骤S103中有一次的判断结果为“是”时，在步骤S103中随后的帧的多个SNR的判断结果有时也为“是”。当用户的连续讲话时间持续几秒钟时，每帧的长度同样短到10毫秒。结果，当步骤S103的判断结果又显示为“是”来执行步骤S105的判断时，由于超过开始阈值计数器已经是“1”或者更大，判断结果显示为“否”。如果是那样的话，条件判断部分1143不设置步骤S106的开始时间数据以执行步骤S107以后的处理。这是因为显示声音发生周期的开始的临时设置帧号不需要改变。

当由步骤S103中把SNR与开始的阈值相对比获得的判断结果重复地显示为“是”时，步骤S105后面的处理被重复并且超过开始阈值计数器的值在步骤S107中被增加为6，步骤S108的判断结果为“是”。如果是那样的话，条件判断部分1143决定存储在开始时间数据中的帧号作为当时显示声音发生周期的第一帧的帧号，以把处理转换到声音发生周期的终止时间的确定处理的流程中。

即使在步骤S103中的判断结果有一次显示为“是”时，比如，讲话可能被打断即使很短的时间或者讲话的电平可能在一个词的发音中音节间降低。在这样的情况中，步骤S103的判断结果暂时显示为“否”，但是，随后的SNR在步骤S103中的判断结果为“是”。同理，这些帧被判断是连续的声音发生周期的帧。

在另一方面，比如，因为用户的物品掉落，可能产生大的噪声，这样，由于没有给出语音或者发音，SNR暂时变高。在这种情况中，步骤S103的判断结果暂时显示为“是”，但是，由于随后的SNR的步骤S103的判断结果为“否”并且当测试计数器超过10时，将暂时设置为开始时间数据的帧号初始化，这样的噪声的产生时间不会被错误地判断为声音发生周期的开始时间。

声音发生周期的开始时间的确定处理如上所述完成，条件判断部分1143随后开始如图6所示声音发生周期的终止时间的确定处理。条件判断部分1143在开始初始化下述的变量(步骤S200)。

(i)终止时间数据

(j)低于终止阈值的计数器

终止时间数据是其中存储声音发生周期的终止帧的帧号的变量，并且帧号的终止时间表示声音发生周期的终止时间。初始化时，比如，以显示不确定值的“NULL”替换终止时间数据。

低于终止阈值的计数器是用于计算SNR比终止阈值“1.2”低的次数的计数器。初始化时，低于终止阈值的计数器替换为“0”。

当条件判断部分1143从S/N比计算部分1142获得新的SNR时(步骤S201)，条件判断部分判断在步骤S201中获得SNR是否比终止阈值“1.2”低(步骤S202)。当SNR不比终止阈值“1.2”低(步骤S202：否)，则条件判断部分1143判断SNR是否超过开始的阈值“2.0”(步骤S203)。

当用户给出语音或者发音，SNR极可能超过开始的阈值“2.0”。如果是那样的话，步骤S203的判断结果显示为“是”，这样条件判断部分1143将处理转换到步骤S200以再重新开始终止时间的确定处理。此外，即使当用户给出语音或者发音，当发音相当低时，SNR没有开始的阈值“2.0”大但终止阈值不小于“1.2”的情况可能出现。在这样的情况中(步骤S203：否)，条件判断部分1143不对变量初始化来把处理返回到步骤S201并对新的SNR重复步骤S201以后的处理。

当用户给出语音或者发音，由于SNR不比终止阈值“1.2”低，因此条件判断部分1143重复步骤S200到步骤S203的处理。当用户在这样的状态下完成发音，在步骤S202中的判断结果显示为“是”。如果是那样的话，条件判断部分1143随后判断低于终止阈值的计数器是否是“0”(步骤S204)。在这样的情况下，低于终止阈值的计数器是“0”(步骤S204：是)，条件判断部分1143用从用于计算最后获得的SNR的帧号中减去1获得的数来替换终止时间数据(步骤S205)。在这样的方式下替换的帧号是显示声音发生周期的终止时间的帧号的候选。

之后，条件判断部分1143向低于终止阈值的计数器中加1(步骤S206)，然后判断低于终止阈值的计数器是否超过完成终止的次数“15”(步骤S207)。在这样的情况下，低于终止阈值的计数器是“1”，这样步骤S207的判断结果显示为“否”。因此，条件判断部分1143将处理返回到步骤S201为新的SNR重复步骤S201以后的处理。

之后，除非用户立即开始给出语音或者发音，否则步骤S202的判断结果再次显示为“是”。如果是那样的话，由于在步骤S204的判断中低于终止阈值的计数器已经是“1”或者更大，判断结果显示为“否”。如果是那样的话，条件判断部分1143在步骤S205中不设置终止时间数据来执行步骤S206之后的处理。这是因为显示声音发生周期的终止的已经暂时设置的帧号不需要改变。

当在步骤S202把SNR与终止阈值进行对比获得的判断结果重复地显示为“是”时，在步骤S204之后的处理被重复并且低于终止阈值的计数器的值在步骤S206中增加到31，步骤S207的判断结果显示为“是”。如果是那样的话，条件判断部分1143把在终止时间数据中存储的帧号决定为显示当时的声音发生周期的终止帧的帧号，以把开始时间数据和终止时间数据的组合存储到存储部分12中作为声音发生周期的数据125(步骤S208)。然后，在条件判断部分1143指示音频信号输出部分13输出音频信号(步骤S209)之后，条件判断部分返回到图5所示的声音发生周期的确定处理以确定下一个声音发生周期。图7是示出由上述的确定部分114确定声音发生周期的状态的示意图。

当音频信号输出部分13被指示从条件判断部分1143输出音频信号时，音频信号输出部分读取一组连续的具有由包含在声音发生周期的数据125中开始时间数据显示的帧号的帧作为第一个部分，并且由第二缓冲器122中的终止时间数据显示的帧号作为终止部分，并输出音频信号到音频信号识别装置40。通过比如用户来指示确定部分114完成声音发生周期的确定处理，或者在触发信号获得之后，确定部分114在图5和6所示的判断周期中重复连续的处理，直到先前设置为最大的声音发生周期的确定处理的时间逝去。

音频信号识别装置40提取与音频信号输出部分13获得的音频信号相关的一定数量的特征，来把先前存储的一定数量的特征和新提取的用户语音的一定数量的特征进行对比，从而音频信号识别装置验证用户自身。如果是那样的话，由于由音频信号识别装置40从音频信号输出部分13接收的音频信号是其中对应于声音发生周期或者用户的发音周期的部分被准确地分割的音频信号，则能够高准确性地验证用户。

如上所述，根据音频信号处理系统1，即使在环境噪声的变化不能够被预测的状态下，由用户给出的验证用户的指示也被作为一个触发并且在触发产生之前直接获得的音频信号被用作显示环境噪声的音频信号，这样，能够高准确性地确定触发产生之后的音频信号中的声音发生周期。

上述的实施例可以用下述的各种方式改善。最初，在上述的说明中，触发信号根据用户对键盘30的操作产生。比如，音频信号处理装置10可以在其适当位置处具有通过图像或文字或用声音来通知用户信息的声音系统的通知单元，如用于通知用户信息的显示器。这样，这些通知单元可以使用在比如不用等待用户的操作而是先前确定的时间时来通知用户要求用户给出语音或发音，触发信号可以同时产生来传输和递送触发信号到触发信号获取部分113。

此外，如上所述，为多个频带分别计算显示噪声电平的NLm和显示声音电平的Fm，然后为每个频带计算Fm/NLm的平均值以计算SNR(参见方程1到7)。作为其的替代，比如，S/N比计算部分1142可以一个接一个地分别计算所有频带的NL和F，然后计算F/NL的SNR。也就是说频带划分的数量可以是1。

此外，如上所述，FFT部分1141对音频信号执行FFT处理并且S/N比计算部分1142计算每个频率的幅度来计算显示每个频带的功率的Fm。比如，确定部分114可以具有替换FFT部分1141的每个频带的通带滤波器并且分别由通带滤波器过滤的音频信号的幅度的平均值可以被用来替换在上述的(方程6)和(方程7)中的Fm以计算SNR。

此外，可以将包含在存储在第二缓冲器122中的帧中的音频信号的幅度平均值简单地除以包含在存储在第一缓冲器121中的帧中的音频信号的幅度的平均值来计算SNR。

此外，如上所述，S/N比计算部分1142根据上述的(方程1)到(方程5)计算显示各个频率分量的功率的Fm。比如，作为其的替代，Fm可以根据比如下述的(方程8)或者(方程9)计算。在这种情况下，在(方程9)中的“abs()”代表括号之内的数值的绝对值。

[数学方程4]

F_{m} = \underset{j}{Σ} (R_{j}^{2} + I_{j}^{2})

(方程8)

(方程9)

此外，如上所述，假设当计算SNR时，分别为频带计算的Fm/NLm只是简单地被平均(参见方程7)。作为其的替代，S/N比计算部分1142可以执行比如通过使用把预期其更可能包含在用户的发音中的频率分量的频带的Fm/NLm设置为具有较大值的权数来求Fm/NLm的加权平均从而计算SNR。

而且，如上所述，在触发信号获得之后，第一缓冲器121的内容不变。当显示噪声电平的NLm(参见方程6)被计算一次，NLm在之后的声音发生周期的确定处理中没有更新。作为其的替代，比如，当对SNR是否超过了开始的阈值的判断结果在图5的步骤S103中显示为“否”并且用于SNR的帧被决定为非声音发生周期的帧时，帧可以被存储在第一缓冲器121中作为显示周围的环境噪声的帧，以更新第一缓冲器121的内容。如果是那样的话，FFT部分1141和S/N比计算部分1142使用更新的第一缓冲器121的帧以重新计算NLm，并随后使用重计算的NLm来计算SNR。

而且，如上所述，当显示噪声电平的NLm(参见方程6)被计算，5个存储在第一缓冲器121中的邻近的帧被固定地选择。作为其的替代，比如，显示异常值的帧可以从存储在第一缓冲器121中的帧中排除，并且被认为合适的帧可以被选择并用于计算NLm。特别的例子在如下举例说明。FFT部分1141对所有存储在第一缓冲器121的10个帧执行FFT处理。然后，S/N比计算部分1142计算显示所有10个帧的频带的功率的Fm。然后S/N比计算部分1142可以排除由规定的阈值分离的或者超过如上所述计算的Fm的平均值的Fm，来使用没有被排除的Fm计算NLm。

此外，如上所述，为分别存储在第一缓冲器121中的帧计算的显示每个频带的功率的Fm被简单地求平均，以计算显示噪声电平的NLm(参见方程6)。作为其的替代，比如，更大的权数可以被应用到更新的帧，并且S/N比计算部分1142可以分别对帧的Fm执行加权平均以计算NLm。

此外，如上所述，开始的阈值、完成开始的次数、延迟开始的次数、终止的阈值和完成终止的次数被存储在音频信号处理装置10中，但是，比如，这些常量可以根据用户的操作改变。

此外，如上所述，扩音器20、键盘30和音频信号识别装置40被布置在与音频信号处理装置10不同的机壳内，但是，可以自由地改变布置。比如，音频信号处理装置10可以包含音频信号识别装置40作为其结构部件。

此外，音频信号处理装置10可以由专用硬件来实现，或者可以由允许能够输入及输出音频信号的通用计算机来根据应用程序完成处理来实现。当音频信号处理装置10由通用计算机来实现时，根据分别包含在应用程序中的并行模块通过允许通用计算机中的CPU(中央处理器)和在CPU的控制下操作的DSP(数字信号处理器)来同时执行处理来把控制部分11实现作为通用计算机的功能。

参照具体的实施例详细地说明了本发明。但是，对于本领域技术人员而言可以理解的是，可以在不脱离本发明的精神、领域或预期的范围的情况下对本发明做出各种修改或改进。

本发明基于2005年7月15日提交的日本专利申请(日本专利申请号为2000-207798)，并且其内容已经通过引用合并入本申请中。

根据本发明的音频信号处理装置和音频信号处理方法，把在触发信号获得前获得并存储的音频信号作为仅显示环境噪声的音频信号以计算S/N比。根据S/N比确定声音发生周期。这样，可以获得具有高准确性的所确定结果。

Claims

1.一种音频信号处理装置，其包含：

音频信号获取单元，其用于连续地获取音频信号；

存储单元，其用于在当前时间被设置为其终点的规定周期中存储由音频信号获取单元获得的音频信号；

触发信号获取单元，其用于获得触发信号；以及

确定单元，其在触发信号获得后通过使用由音频信号获取单元获得的音频信号来计算声音电平的指标值，当触发信号由触发信号获取单元获得时通过使用存储在存储单元中的音频信号来计算噪声电平的指标值；用声音电平的指标值除以噪声电平的指标值来计算S/N比并判断S/N比是否满足规定的条件以确定触发信号获得后由音频信号获取单元获得的音频信号中显示声音发生周期的声音部分。

2.根据权利要求1的音频信号处理装置，还包含操作单元，其根据用户的操作产生规定的信号；

其中触发信号获取单元根据用户的规定操作获得由操作单元产生的触发信号。

3.根据权利要求1的音频信号处理装置，还包含通知单元，其通知用户要求用户给出语音并且根据该信息产生触发信号；

其中触发信号获取单元获得由通知单元产生的触发信号。

4.根据权利要求1的音频信号处理装置，其中确定单元使用显示触发信号获得后由音频信号获取单元获得的音频信号的规定频率分量的功率的指标值和显示触发信号由触发信号获取单元获得时存储在存储单元中的音频信号的规定频率分量的功率的指标值来分别计算声音电平的指标值和噪声电平的指标值。

5.根据权利要求1的音频信号处理装置，其中确定单元使用在触发信号获得后由音频信号获取单元获得的音频信号的幅度值和在触发信号由触发信号获取单元获得时存储在存储单元中的音频信号的幅度值来分别计算声音电平的指标值和噪声电平的指标值。

6.根据权利要求1的音频信号处理装置，其中确定单元针对以规定的时间长度间隔对在触发信号获得后由音频信号获取单元获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并且把S/N比满足规定条件的帧的开始时间确定为声音发生周期的开始时间。

7.根据权利要求6的音频信号处理装置，其中当针对规定的帧计算的S/N比不满足规定的条件时，确定单元使用规定的帧来更新存储在存储单元中的音频信号并且在确定单元针对规定的帧的随后帧计算S/N比时使用存储在存储单元中更新的音频信号。

8.根据权利要求1的音频信号处理装置，其中确定单元针对以规定的时间长度间隔对在触发信号获得后由音频信号获取单元获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并且把S/N比满足规定条件的帧的终止时间确定为声音发生周期的终止时间。

9.根据权利要求1的音频信号处理装置，其中确定单元针对以规定的时间长度间隔对存储在存储单元中的音频信号进行划分而获得的多个帧来分别计算规定的属性值，并且不使用其计算的属性值满足用于计算S/N比的规定条件的帧。

10.一种音频信号处理方法，其包含步骤：

连续获得音频信号；

对在当前时间被设置为其终点的上一个规定周期中获得的音频信号进行存储；

获得触发信号；

使用在触发信号获得后获得的音频信号来计算声音电平的指标值；

使用在触发信号获得时存储的音频信号来计算噪声电平的指标值；

用声音电平的指标值除以噪声电平的指标值来计算S/N比；

判断S/N比是否满足规定的条件；以及

根据判断处理来确定在触发信号获得后获得的音频信号中显示声音发生周期的声音部分。

11.根据权利要求10的音频信号处理方法，还包含步骤：

根据用户操作产生规定的信号；

其中在触发信号获得处理中，获得了根据用户的规定操作由信号发生处理产生的触发信号。

12.根据权利要求10的音频信号处理方法，还包含步骤：

通知用户要求用户给出语音并且根据该信息产生触发信号；

其中在触发信号获得处理中，获得了由通知处理产生的触发信号。

13.根据权利要求10的音频信号处理方法，其中确定处理使用显示触发信号获得后由音频信号获取处理获得的音频信号的规定频率分量的功率的指标值和显示触发信号由触发信号获取单元获得时存储的音频信号的规定频率分量的功率的指标值来分别计算声音电平的指标值和噪声电平的指标值。

14.根据权利要求10的音频信号处理方法，其中确定处理使用在触发信号获得后音频信号获取处理获得的音频信号的幅度值和在触发信号由触发信号获取处理获得时存储的音频信号的幅度值来分别计算声音电平的指标值和噪声电平的指标值。

15.根据权利要求10的音频信号处理方法，其中确定处理针对以规定的时间长度间隔对在触发信号获得后由音频信号获取处理获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并把S/N比满足规定条件的帧的开始时间确定为声音发生周期的开始时间。

16.根据权利要求15的音频信号处理方法，其中当针对规定的帧计算的S/N比不满足规定的条件时，确定处理使用规定的帧来更新存储的音频信号并在针对规定的帧的随后帧计算S/N比时使用更新并存储的音频信号。

17.根据权利要求10的音频信号处理方法，其中确定处理针对以规定的时间长度间隔对在触发信号获得后由音频信号获取处理获得的音频信号进行划分而获得的多个帧来分别计算S/N比，并把S/N比满足规定条件的帧的终止时间确定为声音发生周期的终止时间。

18.根据权利要求10的音频信号处理方法，其中确定处理针对以规定的时间长度间隔划分存储的音频信号而获得的多个帧来分别计算规定的属性值，并且不使用其计算的属性值满足用于计算S/N比的规定条件的帧。