CN103370739A

CN103370739A - 用于辨识环境声音的系统和方法

Info

Publication number: CN103370739A
Application number: CN201280007505XA
Authority: CN
Inventors: 黄奎雄; 金泰殊; 延奇宣
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-03-04
Filing date: 2012-01-24
Publication date: 2013-10-23
Anticipated expiration: 2032-01-24
Also published as: JP2014510309A; KR20130117844A; WO2012121809A1; EP2681733A1; US20120224706A1; US9443511B2; CN103370739B; JP5813789B2

Abstract

本发明揭示一种用于在与服务器协作的客户端装置中辨识环境声音的方法。所述客户端装置包含客户端数据库，所述客户端数据库具有环境声音的多个声音模型和多个标记，所述多个标记中的每一者识别至少一个声音模型。所述客户端装置接收输入环境声音且基于所述输入环境声音而产生输入声音模型。在所述客户端装置处，确定所述输入声音模型与所述声音模型中的每一者之间的相似度值，以从所述客户端数据库识别类似于所述输入声音模型的一个或一个以上声音模型。从与所述所识别的声音模型相关联的标记中选择一标记，且基于所述选定标记的置信度水平而使所述选定标记与所述输入环境声音相关联。

Description

用于辨识环境声音的系统和方法

根据35U.S.C.§119主张优先权

本申请案是基于2011年3月4日申请的第61/449,475号美国临时专利申请案，且主张所述申请案的优先权权益，所述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明大体上涉及声音辨识。更具体来说，本发明涉及用于辨识与服务器通信的客户端装置的环境声音的系统和方法。

背景技术

已经在现代的移动通信系统中使用基于声音的环境辨识技术以用于提供用户服务。举例来说，例如移动装置等装置可经配置以检测周围声音，且辨识环绕所述装置的声音环境。可使用所辨识的声音环境来向装置的用户提供针对性信息，例如广告信息和社交连网信息。

在日常生活中，移动装置用户可能经受大量的不同声音环境。在许多情况下，所述装置可能归因于有限的存储容量或处理能力而不能够存储或处置声音环境数据。此外，如果装置用于仅辨识其周围环境的周围声音，那么所述装置可能不能够准确地辨识新周围环境的周围声音。举例来说，如果移动装置用于俘获且辨识新地点(例如，度假胜地)处的周围声音，那么所述装置可能不准确地辨识周围环境的声音环境。

另外，用户可能将其移动装置携带到相似的声音环境，例如教室、会议室、会堂等。在此些情况下，移动装置可能不能够区分且准确地辨识不同的声音环境。

因此，需要一种使得移动装置能够辨识比装置可能可用的环境声音的范围更广范围的环境声音同时增加环境声音辨识的准确度的方法和设备。

发明内容

本发明提供用于辨识与服务器通信的装置的环境声音的系统和方法。

根据本发明的一个方面，揭示一种用于在客户端装置中辨识环境声音的方法。所述方法包含提供客户端数据库，所述客户端数据库具有环境声音的多个声音模型和多个标记，所述多个标记中的每一者识别至少一个声音模型。接收输入环境声音，且基于所述输入环境声音而产生输入声音模型。确定输入声音模型与所述声音模型中的每一者之间的相似度值，以从所述客户端数据库识别类似于所述输入声音模型的一个或一个以上声音模型。此外，从与所述所识别的声音模型相关联的标记中选择一标记。基于所述选定标记的置信度水平而使所述选定标记与所述输入环境声音相关联。本发明还描述与此方法相关的装置、设备、装置的组合，以及计算机可读媒体。

根据本发明的另一方面，揭示一种用于在服务器中辨识从客户端装置接收的环境声音的方法。所述方法包含提供服务器数据库，所述服务器数据库具有环境声音的多个声音模型和多个标记，所述多个标记中的每一者识别至少一个声音模型。所述方法进一步包含接收表示来自所述客户端装置的输入环境声音的输入声音模型。确定所述输入声音模型与所述声音模型中的每一者之间的相似度值，以从所述服务器数据库识别类似于所述输入声音模型的一个或一个以上声音模型。随后，从与所述所识别的声音模型相关联的标记中选择一标记。基于选定水平的置信度水平而使所述选定标记与所述输入环境声音相关联。本发明还描述与此方法相关的服务器、计算机系统、装置的组合，以及计算机可读媒体。

附图说明

图1说明包含经由网络进行通信的多个客户端装置与一服务器的示范性系统。

图2描绘根据本发明的一个实施例的用于辨识环境声音的客户端装置的示范性配置。

图3描绘根据本发明的一个实施例的用于辨识环境声音的服务器的示范性配置。

图4A说明根据本发明的一个实施例通过客户端装置执行的用于辨识环境声音的方法的流程图。

图4B到4D为根据本发明的一些实施例的用于选择输入环境声音的标记并确定所述标记的置信度水平的图4A中的408的更详细流程图。

图5说明根据本发明的一个实施例的用于通过基于从输入环境声音提取的特征向量建构直方图来产生声音模型的方法的流程图。

图6说明根据本发明的一个实施例通过客户端装置执行的用于通过使用与输入环境声音相关联的信息来辨识输入环境声音的方法的流程图。

图7是位置相依和/或时间相依声音模型的数据库结构的示意图。

图8展示根据本发明的一个实施例的声音模型和与所述声音模型相关联的信息的示范性客户端或服务器数据库。

图9说明根据本发明的一个实施例通过服务器执行的用于辨识环境声音的方法的流程图。

图10说明根据本发明的一个实施例的用于通过使用与声音模型相关联的位置和/或时间信息来更新声音模型的数据库的方法的流程图。

图11展示在无线通信系统中的示范性移动装置的配置。

具体实施方式

现参看图式描述各种实施例，其中相同参考数字始终用以指代相同元件。在以下描述中，出于解释的目的，阐述许多特定细节以便提供对一个或一个以上实施例的彻底理解。然而，可显而易见，可在无这些特定细节的情况下实践此类实施例。在其它例子中，以框图形式展示众所周知的结构和装置以便促进描述一个或一个以上实施例。

图1说明包含经由网络140进行通信的多个客户端装置120、150、160、170和180与一服务器130的示范性系统100。客户端装置120、150、160、170和180中的每一者经配置以存储用于辨识环境声音的声音模型的数据库。服务器130存储可提供到客户端装置120、150、160、170和180中的任一者的声音模型的数据库。客户端装置120、150、160、170和180中的每一者经配置以经由声音传感器(例如，麦克风)俘获周围环境的环境声音(即，输入环境声音)，且基于所存储的数据库辨识所述环境声音以产生用于所俘获环境声音的标记。如果任何客户端装置不能够辨识其所俘获的声音，那么所述装置将请求发送到服务器130以辨识所述声音。服务器130经配置以从一个或一个以上客户端装置接收环境声音，且通过产生相关联标记来辨识所述环境声音。所述标记接着被发射到所述请求客户端装置。

本发明可在群智框架中加以实践，所述群智框架聚集来自客户端装置120、150、160、170和180中的任一者的声音模型，且在客户端装置120、150、160、170和180之间共享所述经聚集声音模型。群智框架通过利用服务器130共享声音模型而改进客户端装置120、150、160、170和180的声音辨识准确度。

客户端装置120、150、160、170和180可为配备有声音俘获能力(例如，麦克风)和经由数据和/或通信网络进行通信的能力的任何合适的移动装置，例如蜂窝电话、膝上型计算机、汽车配件等。或者，客户端装置120、150、160、170和180可为固定在特定位置的任何装置，例如安全相机、桌上型计算机等。

图2描绘根据本发明的一个实施例的用于辨识环境声音的客户端装置120的示范性配置。客户端装置120包含声音传感器210、声音辨识单元220、通信单元230、用户接口240、数据库更新单元250，和客户端数据库260。尽管在图2中说明客户端装置120，但其它客户端装置150、160、170和180可实施相似配置。客户端装置120中的上述单元可通过硬件、在一个或一个以上处理器中执行的软件和/或其组合来实施。

声音传感器210经配置以俘获输入环境声音。声音传感器210可包含例如用以测量、记录或以其它方式传达客户端装置120的环境声音的任何方面的一个或一个以上麦克风或任何其它类型的声音传感器。此类声音传感器210可使用适于客户端装置120中的声音俘获能力的软件和/或硬件。声音传感器210还可为提供于客户端装置120中的用于电话呼叫或视频记录的麦克风。

在一个实施例中，客户端装置120可经配置以执行用于经由声音传感器210连续地检测环境声音的后台程序。或者，客户端装置120可经配置以在预定时间、以预定间隔或响应于用户的命令而检测环境声音。

由客户端装置120检测到的环境声音可包含客户端装置120的周围环境的任何声音。此类声音可包含例如引擎噪音、按喇叭声、地铁噪音、动物声音、人的话音、脚步声、敲击、餐具声音、口哨，等等。

客户端数据库260存储表示环境声音的声音模型。声音模型用于将声音辨识为构成每一辨识目标声音的环境声音的统计表示。可通过使用此项技术中众所周知的任何技术来基于训练声音数据库而产生声音模型，所述技术包含但不限于高斯混合模型(GMM)或隐式马尔可夫模型(HMM)。在一些实施例中，声音模型可表示为将在下文详细描述的高斯直方图。可使用所述高斯直方图减小声音模型的存储大小和处理时间。客户端数据库260包含预定声音模型，且还可包含相关联信息，例如反模型、标记、阈值、位置、时间、先前出现信息等。在此类信息中，标记可用于识别输入环境声音。举例来说，可例如通过指示环境声音的活动(或背景)的位置和类型(例如，街道和交通信息)而使由客户端装置120检测到的输入环境声音与识别一个或一个以上声音模型的标记相关联。环境声音的位置可指示街道、办公室、地铁站、汽车、餐馆等。并且，环境声音的活动信息可指示音乐、语音、电视、行走、交通，等等。因此，与位置相关联的声音模型可根据在所述相同位置中发生的不同活动而以不同方式表示，且与活动相关联的声音模型可根据产生所述活动的不同位置而以不同方式表示。

声音辨识单元220通过存取客户端数据库260来辨识由声音传感器210俘获的输入环境声音，以产生用于输入环境声音的标记作为其辨识结果。具体地说，声音辨识单元220产生用于输入环境声音的声音模型，并确定所述输入声音模型与存储在客户端数据库260中的预定声音模型中的每一者之间的相似度值，以从客户端数据库260中识别类似于输入声音模型的一个或一个以上声音模型。此外，声音辨识单元220在所识别的声音模型中选择与最大数目的声音模型相关联的标记，并确定所述选定标记的置信度水平，如下文参考图4B到4D所详细描述。声音辨识单元220接着基于所述选定标记的置信度水平输出所述选定标记。举例来说，如果所述置信度水平等于或大于预定置信度阈值，那么声音辨识单元220使所述选定标记与输入环境声音相关联以作为辨识结果输出给用户。

通信单元230经配置以在所述置信度水平小于所述预定置信度阈值的情况下经由网络140将请求发送到服务器130以辨识所述输入环境声音。在此情况下，通信单元230从服务器130接收用于输入环境声音的标记和/或对应于所述输入环境声音的一个或一个以上声音模型。通信单元230还可从所述服务器130接收额外信息，例如位置、时间、反模型、先前出现信息和/或与从所述服务器130接收的一个或一个以上声音模型中的每一者相关联的阈值。

通信单元230可进一步经配置以将输入声音模型发射到服务器130以请求服务器130辨识所述输入环境声音。此外，通信单元230可发射与所述输入声音模型相关联的输入位置和输入时间。输入位置指示检测到输入环境声音的特定位置，且输入时间指示检测到输入环境声音的特定时间。可经由网络使用例如全球定位系统(GPS)等位置服务来获得输入位置。此外，可从客户端装置120中的时钟单元(未图示)或网络服务提供商获得输入时间。

用户接口240经配置以允许用户确认从声音辨识单元220或从服务器130提供的标记是否正确。通过用户接口240，用户可提供输入以确认所述标记的准确度，或在所提供的标记不正确的情况下提供正确标记。

数据库更新单元250用如上所述的一个或一个以上声音模型和额外信息(包含从服务器130接收的标记)更新客户端数据库260。在一些实施例中，数据库更新单元250进一步经配置以基于通过用户接口240提供的用户输入来更新客户端数据库260。

图3描绘根据本发明的一个实施例的用于辨识环境声音的服务器130的示范性配置。服务器130包含声音辨识单元310、通信单元320、数据库更新单元330，和服务器数据库340。

服务器数据库340存储表示环境声音的声音模型。在一些实施例中，所述声音模型可表示为高斯直方图。服务器数据库340可包含预定声音模型和相关联信息，例如反模型、标记、阈值、位置、时间、先前出现信息，等等。在此类信息中，标记可用于识别输入环境声音。

通信单元320经配置以经由网络140从客户端装置120接收辨识输入环境声音的请求。此外，通信单元320从客户端装置120接收表征输入环境声音的输入声音模型。在一些实施例中，通信单元320接收输入声音模型和相关联信息，包含位置、时间和标记，等等。

声音辨识单元310通过存取服务器数据库340而辨识输入环境声音，以确定用于所述输入环境声音的标记作为其辨识结果。具体地说，声音辨识单元310确定输入声音模型与存储在服务器数据库340中的预定声音模型中的每一者之间的相似度值，以从所述服务器数据库340中识别类似于所述输入声音模型的一个或一个以上声音模型。此外，声音辨识单元310在所识别的声音模型中选择与最大数目的声音模型相关联的标记，并确定所述选定标记的置信度水平，如下文参考图4B到4D所详细描述。

通信单元320进一步经配置以经由网络140将所述选定标记和/或类似于所述输入声音模型的一个或一个以上声音模型提供到客户端装置120。并且，通信单元320可将与所述一个或一个以上声音模型中的每一者相关联的额外信息(例如反模型、标记、阈值、位置、时间、先前出现信息)提供到客户端装置120。包含声音模型的以上信息可由客户端装置120用于声音辨识。

如上文所描述，客户端装置120的用户接口240可从用户接收输入以确认来自服务器130的所述选定标记是否正确。客户端装置120可经由网络140将用户输入发送到服务器130。数据库更新单元330接着基于所述选定标记上的用户输入来更新服务器数据库340。

在一些实施例中，声音辨识单元310基于与输入声音模型的位置和时间匹配的相关联位置和时间来识别存储在服务器数据库340中的一个或一个以上声音模型。在声音辨识单元310中，在所述一个或一个以上声音模型中识别对所述输入声音模型来说具有最大相似度的声音模型。数据库更新单元330通过添加输入声音模型或合并输入声音模型与具有最大相似度的所述声音模型而更新服务器数据库340，此将参考图10加以详细描述。

图4A说明根据本发明的一个实施例的通过客户端装置执行的用于辨识环境声音的方法的流程图。在402处，客户端装置120的声音传感器210通过检测并俘获周围环境的环境声音而接收输入环境声音。在404处，客户端装置120的声音辨识单元220基于所述输入环境声音而产生输入声音模型。可基于从所述输入环境声音提取的声音特征产生所述输入声音模型。

可使用任何合适的信号处理方案从所述输入环境声音提取所述声音特征，所述信号处理方案包含语音压缩、增强、辨识和合成方法。举例来说，此类信号处理方案可使用MFCC(梅尔频率倒谱系数)、LPC(线性预测译码)和/或LSP(线谱对)技术，所述技术为用于语音辨识或语音编解码器的众所周知的方法。举例来说，可如下根据MFCC方法从输入环境声音提取声音特征。将时域中的输入环境声音的帧(例如，原始声音信号)乘以例如汉明窗(hamming window)等开窗函数。接着，将所述声音信号傅立叶变换到频域，并针对频域中的经变换信号的频谱中的每一频带计算一功率。对每一计算出的功率执行对数运算和离散余弦变换(DCT)运算以获得DCT系数。从每一系数减去在预定时间周期内的平均值以进行二进制化，且一组二进制化结果构成所述声音特征。

此外，在406处，客户端装置120的声音辨识单元220确定所述输入声音模型与存储在客户端数据库260中的声音模型中的每一者之间的相似度值，以识别类似于所述输入声音模型的一个或一个以上声音模型。为易于参考，识别为类似于所述输入声音模型的一个或一个以上声音模型在本文还称为相似声音模型。可由一个声音模型对应于另一声音模型的概率来表示相似度值。举例来说，可通过所述输入声音模型与客户端数据库260中的声音模型中的每一者之间的距离来确定相似度值。在此情况下，将具有距输入声音模型小于预定距离的距离的一个或一个以上声音模型识别为类似于所述输入声音模型。另外或替代地，可将具有距输入声音模型的最小距离的预定数目个声音模型识别为类似于所述输入声音模型。

在一些实施例中，通过预定直方图(例如，高斯直方图)来表示声音模型。在此状况下，可通过对表示输入声音模型的直方图(“输入直方图”)与预定直方图中的每一者之间的直方图计数的差进行求和来计算所述距离。

在一些其它实施例中，可通过使用库尔贝克-莱伯尔(KL)发散度来计算直方图之间的距离。KL发散度被定义为两个直方图之间的加权对数比率，其中更频繁出现的直方图具有较大权重。在一些实施例中，分别表示声音片段A_m与A_n的两个直方图H(A_m)与H(A_n)之间的KL发散度D_KL给出如下：

D_{KL} (H (A_{m}) | | H (A_{n})) = \underset{k}{Σ} h_{k} (A_{m}) \log \frac{h_{k} (A_{m})}{h_{k} (A_{n})}

(等式1)

其中h_k(A_m)与h_k(A_n)表示直方图计数，且k为GMM中表示整组声音特征的高斯群集的索引。

应注意，以上等式1对于H(A_m)与H(A_n)不对称，且因此，距离计算将受到使用哪些直方图作为输入直方图与预定直方图之间的H(A_m)或H(A_n)的影响。举例来说，可通过将H(A_m)设定为预定直方图且将H(A_n)设定为输入直方图来计算第一KL发散度。可通过将H(A_m)设定为输入直方图且将H(A_n)设定为预定直方图来计算第二KL发散度。在一些实施例中，可计算两个KL发散度，且可使用所述两个KL发散度的平均值作为所述距离。应注意，还可使用用于计算两个声音模型的相似度的其它方案，而不脱离本发明的精神和范围。

在408处，客户端装置120的声音辨识单元220接着选择用于输入环境声音的标记，并确定所述选定标记的置信度水平。在下文参考图4B到4D详细描述用于选择所述标记并确定所述置信度水平的特定操作。

在410处，客户端装置120的声音辨识单元220比较所述置信度水平与预定置信度阈值，所述预定置信度阈值可对于所有预定声音模型被设定为固定值。或者，可将不同置信度阈值指派给不同预定声音模型。此外，所述阈值可根据用户输入而变化。举例来说，如果用户指示选定标记不正确，那么可将对应于辨识到的声音模型的阈值调整到较高值。

如果确定置信度水平等于或大于预定置信度阈值(410处的“否”)，则在416处，声音辨识单元220将所述选定标记输出到用户。否则，如果所述置信度水平小于所述预定置信度阈值(410处的“是”)，则在412处，客户端装置120的通信单元230将所述输入声音模型发射到服务器130以请求辨识所述输入环境声音。响应于所述请求，服务器130辨识客户端装置120的输入环境声音，以选择用于所述输入环境声音的标记和/或一个或一个以上声音模型，如下文进一步详细描述。

在414处，客户端装置120的通信单元230从服务器130接收所述选定标记和/或一个或一个以上声音模型以用于更新客户端数据库260。或者，如果服务器130未能辨识所述输入环境声音，则通信单元230可接收未能辨识输入环境声音的指示。

在从服务器130接收到所述选定标记和/或一个或一个以上声音模型之后，在416处，客户端装置120将所述选定标记输出到用户并接收用户输入。在此操作中，允许用户验证所述选定标记的准确度。举例来说，用户可确认所述选定标记是否正确，或在所述选定标记不准确的情况下提供正确标记。在一个实施例中，如果用户未能提供对所述选定标记的响应，则可假设所述选定标记正确。

在418处，基于从服务器130接收的所述选定标记、所述一个或一个以上声音模型和/或关于所述选定标记的用户输入，更新客户端数据库260。举例来说，可通过将所述选定标记与相关联声音模型添加为客户端数据库260中的新条目来实施所述更新操作，使得可在稍后辨识输入环境声音时使用所述新添加的声音模型和选定标记。或者，可通过合并客户端数据库260中的预定声音模型和与所述选定标记相关联的声音模型或用与所述选定标记相关联的声音模型替换客户端数据库260中的预定声音模型来实施所述更新操作。在一些实施例中，将客户端装置120中的来自用户的输入发射到服务器130，使得服务器130可以类似于更新客户端数据库260的方式更新服务器数据库340。在一些其它实施例中，可基于所接收的声音模型和上文所描述的其它类型的信息来实施更新操作。

图4B是根据本发明的一个实施例通过声音辨识单元220执行的用于选择用于输入环境声音的标记并确定所述选定标记的置信度水平的图4A中的408的更详细流程图。在422处，声音辨识单元220在被识别为类似于输入声音模型的一个或一个以上声音模型中选择与最大数目的声音模型相关联的第一标记。为选择所述标记，可检验相似声音模型的标记，且可针对每一标记确定相似声音模型的数目。因此，第一标记为归于最大数目的声音模型的标记。接着，在424处，选择相似声音模型中的与第二最大数目的声音模型相关联的第二标记。可基于结合422而确定的相似声音模型的数目来选择所述第二标记。在426处，声音辨识单元220接着计算输入声音模型和与所述第一标记相关联的声音模型之间的相似度值(例如，概率或距离)的总和，且在428处，计算输入声音模型和与所述第二标记相关联的声音模型之间的相似度值的总和。在430处，将以上两个总和之间的差确定为置信度水平。在替代实施例中，可将与所述第一标记相关联的所述总和确定为所述置信度水平。

图4C是根据另一实施例通过声音辨识单元220执行的图4A中的408的更详细流程图。起初，在432处，基于相似声音模型的相关联标记将相似声音模型分组为一组或一组以上声音模型，使得每一组声音模型与唯一标记相关联。在434处，对于每一组声音模型，声音辨识单元220计算输入声音模型与所述声音模型中的每一者之间的相似度值的总和。在436处，在相似度值的所述总和中，声音辨识单元220确定并选择与最大总和相关联的标记。在438处，在相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述选定标记的置信度水平。在替代实施例中，可将所述最大总和确定为所述置信度水平。

图4D是根据一个实施例通过声音辨识单元220执行的图4A中的408的更详细流程图。在442处，声音辨识单元220在相似声音模型中选择与最大数目的声音模型相关联的标记，如上文参考图4B的422所描述。或者，可选择与具有相似度值的最大总和的所述组声音模型相关联的标记，如上文参考图4C的432到436所描述。接着，在444处，在与所述选定标记相关联的声音模型中识别对所述输入声音模型来说具有最大相似度的声音模型。

在446处，计算所识别的声音模型与其反模型之间的相似度值。所述反模型可为预定的且从客户端数据库260加载，客户端数据库260包含声音模型和其反模型两者。可基于类似于反模型但可与和反模型相关联的声音模型区别开的声音模型来产生反模型，以便改进辨识准确度。当使用描述性标记时，用户可验证用于声音模型中的一些声音模型的所辨识标记是正确还是不正确。所辨识标记已确定为不正确的声音模型可与所辨识标记已确定为正确的声音模型合并或求平均为与所述标记相关联的反模型。在448处，设定在446处确定的所计算的相似度值且将其用作置信度水平。

如上所述，可由直方图表示输入声音模型。在一些实施例中，通过基于输入环境声音的声音特征建构直方图(例如，高斯直方图)来从所述输入环境声音产生输入声音模型。在不同环境中获得的环境声音可具有不同声音特征分布。可由“直方图”表示所述声音特征分布。因此，在表示声音环境的过程中可使用声音特征的直方图而非相应声音特征。一般来说，直方图可表示数据点(例如，表示声音特征的特征向量)的频率分布的近似。

在相对长的时间周期(例如，若干秒)内俘获的环境声音一般比在较短的时间周期内俘获的环境声音提供对声音环境的更佳表示。另外，从环境声音提取的声音特征一般展现所述声音环境的特性分布。举例来说，在喧闹的餐馆中获得的环境声音可展现与餐具声音、人的话音、背景音乐等有关的较大数目的声音特征，但展现与例如引擎噪音、风噪音等室外声音有关的较少数目的声音特征。因此，声音特征的直方图可用以表示声音模型。

图5说明根据本发明的一个实施例的用于通过基于从输入环境声音提取的特征向量建构直方图来产生声音模型的方法的流程图。可在图4A中的404处执行图5中展示的方法以产生直方图作为输入声音模型。

在510处，接收由声音传感器210检测到的输入环境声音并将其分段为预定时间周期的声音片段。在520处，接着将所述声音片段划分成若干帧。在一些实施例中，帧为非重叠波形信号，且每一帧具有指定时间周期的长度。在530处，从帧中的每一者提取包含MFCC作为分量的特征向量。

在于530处从每一帧提取特征向量之后，在540处，计算用于每一特征向量的每一高斯群集的概率。在此操作中，确定表示出现在由GMM表示的整个分布中的特征向量x_i的概率的P(x_i)。举例来说，给定由L个帧构成的声音片段A_m，可如下计算来自由通用GMM表示的第i个帧的特征向量x_i：

P (x_{i}) = \underset{j}{Σ} f_{j} (x_{i}) = \underset{j}{Σ} w_{j} N (x_{i} | μ_{j}, Σ_{j})

(等式2)

其中P(x_i)表示x_i出现在由GMM表示的整个分布中的概率，f_j(x_i)表示用于x_i的第j个高斯群集的可能性，N表示具有平均值μ与方差∑的高斯群集的正态分布，且w_j表示第j个高斯群集的先前概率。

接着，使用f_j(x_i)来表示用于x_i的第j个高斯群集的可能性，可由以下等式表示用于每一特征向量的每一高斯群集的概率：

P (f_{j} | x_{i}) = \frac{f_{j} (x_{i})}{\underset{j}{Σ} f_{j} (x_{i})}

(等式3)

以上等式3表示特征向量x_i出现在高斯群集f_j中的概率，或高斯群集f_j包含特征向量x_i的概率。

在550处，接着针对每一高斯群集对从声音片段提取的特征向量的概率进行求和，以获得用于每一高斯群集的直方图计数。因此，高斯群集f_j的直方图计数为对应于声音片段A_m中的所有帧的所有特征向量上的P(f_j|x_t)的总和。在一些实施例中，可通过声音片段长度或声音片段中的帧的数目L来正规化所述直方图计数。举例来说，可由以下等式表示用于声音片段A_m的高斯群集f_j的直方图计数：

h_{j} (A_{m}) = \frac{1}{L} Σ_{i = 1}^{L} P (f_{j} | x_{i})

(等式4)

以上等式4可理解为表示高斯群集f_j出现在整个声音片段A_m中的近似频率。

在550处，基于高斯群集的直方图计数，产生表示所述声音片段的直方图。在一些实施例中，可如下给出声音片段A_m的正规化直方图表示：

H(A_m)＝[h₁(A_m)h₂(A_m)...h_K(A_m)] (等式5)

其中K为表示GMM中的整组声音特征的高斯群集的数目。

此外，如上所述，可使输入环境声音与检测到所述输入环境声音的位置和/或检测到所述输入环境声音的时间相关联。还可使例如用户的性别或年龄、装置信息等其它类型的信息与输入环境声音相关联。可利用所述位置和/或时间来改进在辨识输入环境声音方面的准确度，如图6中所描述。

图6说明根据本发明的一个实施例通过客户端装置120执行的用于通过使用与输入环境声音相关联的信息来辨识输入环境声音的方法的流程图。在610处，客户端装置120的声音辨识单元220接收由声音传感器210检测到的输入环境声音。在610处，声音辨识单元220还接收与输入声音模型相关联的输入位置和/或时间。如上所述，可在内部或通过网络在外部获得输入位置和时间。

在620处，客户端装置120的声音辨识单元220基于所述输入环境声音而产生输入声音模型。在一些实施例中，客户端装置120通过基于输入环境声音如上所述建构高斯直方图而获得输入声音模型。

在630处，接着比较所述输入位置和/或时间与和客户端数据库260中的预定声音模型相关联的预定位置和/或时间。在此操作中，可采用任何类型的一般已知匹配方法(例如字符串匹配方法)来用于使所述输入位置和/或时间匹配于所述预定位置和/或时间中的任一者。

在640处，基于630处的比较结果，客户端装置120的声音辨识单元220比较输入声音模型与来自客户端数据库260的预定声音模型，以便识别类似于所述输入声音模型的一个或一个以上预定声音模型。在一些实施例中，在640处，在与所述输入声音模型进行比较之前滤除与不匹配所述输入位置和/或时间的预定位置和/或时间相关联的预定声音模型。因此，在辨识输入环境声音的过程中仅考虑与和所述输入位置和/或时间匹配的预定位置和/或时间相关联的预定声音模型。此类过滤操作通过减少将与输入声音模型进行比较的预定声音模型的数目而减小输入环境声音的辨识时间。所述过滤操作还通过忽略在位置或时间方面与输入声音模型巧合地相似但不相关的预定声音模型而提高辨识的准确度。在一些实施例中，作为过滤的替代，可在声音辨识中给予一些预定声音模型比与所述输入位置和/或时间匹配的那些预定声音模型低的偏好或权重。可通过计算预定声音模型中的每一者与所述输入声音模型之间的距离来执行声音模型的比较，如上文参考图4A所描述。

在650处，客户端装置120基于比较结果和来自客户端数据库260的先前出现信息而选择标记。除所述位置和/或时间之外，此操作在辨识输入环境声音的过程中还考虑与环境声音的先前出现有关的统计数据作为先前概率。一般来说，相同类型的环境声音可能会在特定位置和/或时间占优势地且定期地出现。举例来说，人口众多的城市中在高峰时间期间，交通声音可能具有比其它类型的声音被检测到的较高概率。因此，可假设在特定位置和/或时间可比其它声音模型更频繁地辨识到一组特定声音模型。基于此观察，可预期特定位置和/或时间中的输入环境声音具有与在此类位置或时间中频繁辨识到的声音模型匹配的较高概率。因此，利用先前出现统计数据可改进辨识准确度。

在使用先前出现信息时，客户端数据库260还可包含先前出现信息，所述先前出现信息包含在特定时间或位置处的声音出现概率信息。在先前出现信息中，可给予具有较高先前出现的预定声音模型比具有较低出现的预定声音模型高的偏好或权重。

在一些实施例中，通过如上参考图4B到4D所述确定选定标记的置信度水平来实施图6中的选择标记的操作。尽管上文已将图6的方法描述为在客户端装置120中执行，但在一些实施例中，所述方法还可以相似方式由服务器130执行。

图7是位置相依和时间相依声音模型的示范性数据库结构的示意图。可在客户端数据库260中或在服务器数据库340中的任一者中实施图7中所示的数据库。位置相依和时间相依声音模型可连同相关联的位置和时间一起存储在数据库中。

如图7中所示，可针对不同位置和时间产生并存储表示相同类型的环境声音(例如，交通声音)的声音模型。举例来说，首尔(Seoul)的交通声音可能不同于圣地亚哥(SanDiego)。因此，可能存在与不同位置相关联的一个以上相似交通声音模型，一者与位置“首尔”相关联，且另一者与位置“圣地亚哥”相关联。因此，可由与不同位置和时间相关联的相似声音模型来表示在不同位置或时间处检测到的相似环境声音。

在一些实施例中，如果从相似位置或相似时间获得的声音模型在统计上彼此相似，则那些声音模型可彼此合并，此将在下文参考图10加以详细描述。举例来说，可通过简单地对所述声音模型求平均来执行所述合并。

在一些实施例中，由于可能存在巨大数目个声音模型，因此可对所述声音模型进行分类，且根据时间与位置的多级结构化类别将其存储在数据库中，这可用以节省在所存储的声音模型中查找特定声音模型的时间。在一些实施例中，可使表示不同声音模式的多个声音模型与相似位置与时间中的相同种类的情况相关联。举例来说，可能存在在同一城市中行进的多个类型的火车或公共汽车，其产生不同声音模式。

图8是根据本发明的一个实施例的声音模型和与所述声音模型相关联的信息的示范性客户端或服务器数据库。所述数据库包含声音模型，例如直方图、对应反模型、标记、位置、时间和先前出现信息。在此状况下，先前出现信息指示在相关联的时间和位置中辨识出的相应声音模型的出现次数。

在一些实施例中，与相同类型的环境声音有关的声音模型与具有不同数据分级层级的位置和/或时间相关联地存储在客户端或服务器数据库中。举例来说，直方图A(标记为“街道-交通”)与位置“首尔”相关联，而直方图D与位置“城市”相关联，其是比直方图A的位置“首尔”高的层级。

在一些实施例中，每一标记可识别至少一个声音模型。举例来说，标记“街道-交通”识别由直方图A到D表示的声音模型，而标记“办公室-语音”识别由直方图E表示的声音模型，如图8中所示。可选择此类标记以在由客户端装置执行的声音辨识中辨识由相关联声音模型表示的环境声音，如上文参考图4A到4D所描述。并且，可选择与声音模型相关联的标记将且在由服务器执行的环境声音辨识中使用，此将在下文参考图9加以描述。

图9说明根据本发明的一个实施例通过服务器130执行的用于辨识环境声音的方法的流程图。

在910处，服务器130的通信单元320从客户端装置120接收输入声音模型。或者，通信单元130可从客户端装置120接收输入环境声音，且服务器130可基于所述输入环境声音而建构输入声音模型。在此状况下，如上所述基于从输入环境声音提取的声音特征来建构输入声音模型。此外，通信单元320可从客户端装置120接收额外信息，例如输入位置和/或时间。

在920处，服务器130的声音辨识单元310例如通过使用如上参考图4A所描述的方法来从服务器数据库340识别类似于输入声音模型的一个或一个以上声音模型。在一些实施例中，服务器数据库340包含预定声音模型和相关联信息，例如反模型、标记、阈值、位置、时间、先前出现信息，如图8中所示。在此状况下，在声音辨识单元310中，通过以类似于上文参考图6所描述的方法的方式比较输入位置和/或时间与和预定声音模型相关联的位置和/或时间来识别所述一个或一个以上声音模型。

在930处，服务器130的声音辨识单元310接着选择用于输入环境声音的标记，并确定所述选定标记的置信度水平。可与上文参考图4B到4D所描述的方法类似地执行此操作。在950处，如果确定置信度水平等于或大于预定置信度阈值(940处的“否”)，则服务器130的通信单元320将所述选定标记提供到客户端装置120。服务器130的通信单元320还可将与所述选定标记相关联的一个或一个以上声音模型提供到客户端装置120，使得基于所提供的声音模型和所述选定标记对客户端装置120的客户端数据库260进行更新。另外，通信单元320可发射与声音模型相关联的额外信息，例如位置、时间、反模型、先前出现信息等，所述额外信息可稍后用于在客户端装置120中辨识输入环境声音。

在于950处提供所述选定标记和相关联声音模型之后，在970处，服务器130的通信单元320可从客户端装置120的用户接收关于所述选定标记的准确度的输入。举例来说，所述用户输入可包含关于所述选定标记是否正确的信息，或如果所述选定标记不正确，则正确标记。在980处，基于来自客户端装置120的用户输入，服务器130的数据库更新单元330更新存储在服务器数据库340中的声音模型和/或相关联信息，例如先前出现信息。举例来说，如果用户输入指示所述选定标记正确，则可更新与所述标记相关联的先前出现信息以指示将相关联声音模型的出现次数调整为更高。

另一方面，如果置信度水平小于预定置信度阈值(940处的“是”)，则在960处，服务器130的通信单元320将未能辨识输入环境声音的指示发射到客户端装置120。在970处，在接收到此类指示之后，客户端装置120可即刻请求用户提供用于输入环境声音的正确标记。在此状况下，当用户提供正确标记时，客户端装置120将所提供标记发射到服务器130。在980处，基于所接收标记和输入声音模型，服务器130更新服务器数据库340中的声音模型和/或相关联信息，使得可将输入声音模型存储为服务器数据库340中的新条目。

图10说明根据本发明的一个实施例通过服务器130执行的用于通过使用与声音模型相关联的位置和/或时间来更新数据库中的声音模型的方法的流程图。尽管图10中所示的方法被描述为用以更新服务器数据库340，但此方法还可用以更新客户端数据库260。具体地说，此方法可用于在图4A中所示的方法的418处更新客户端数据库260或在图9中所示的方法的980处更新服务器数据库340。

在1010处，由服务器130的通信单元320接收输入声音模型和与所述输入声音模型相关联的输入位置和/或时间。在1020处，服务器130的声音辨识单元310接着从服务器数据库340识别与和所述输入位置和/或时间匹配的位置和/或时间相关联的一个或一个以上声音模型。

如果识别出任何声音模型(1030处的“是”)，则在1040处，声音辨识单元310在所识别的声音模型中识别对所述输入声音模型来说具有最大相似度的声音模型。在一些实施例中，可如上参考图4A所描述基于所述输入声音模型与所述声音模型中的每一者之间的距离来确定相似度。

在1050处，服务器130的声音辨识单元310接着比较所述相似度与预定相似度阈值。如果确定所述相似度等于或大于所述预定相似度阈值(1050处的“是”)，则在1070处，数据库更新单元330合并所述输入声音模型与对所述输入声音模型来说具有最大相似度的所识别的声音模型。在一些实施例中，可通过简单地对声音模型求平均来执行所述合并。

另一方面，如果未从服务器数据库340识别出与和所述输入位置和/或时间匹配的位置和/或时间相关联的任何声音模型(1030处的“否”)，则在1060处，将所述输入声音模型和所述输入位置和/或时间存储为服务器数据库340中的新条目。并且，如果确定所述相似度小于所述预定相似度阈值(1050处的“否”)，则在1060处，执行相同操作。

图11展示无线通信系统中的示范性移动装置1100的配置。可在客户端装置120、150、160、170和180中实施所述移动装置1100的配置。所述移动装置1100可为蜂窝电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话，等等。所述无线通信系统可为码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、LTE高级系统，等等。此外，移动装置1100可例如使用Wi-Fi直接、蓝牙或FlashLinq技术直接与另一移动装置通信。

移动装置1100能够经由接收路径和发射路径提供双向通信。在接收路径上，由基站发射的信号被天线1112接收且被提供到接收器(RCVR)1114。接收器1114调节并数字化所接收信号，且将例如经调节和经数字化数字信号等样本提供到数字区段以供进一步处理。在发射路径上，发射器(TMTR)1116接收将从数字区段1120发射的数据、处理并调节所述数据，且产生调制信号，所述调制信号经由天线1112而被发射到基站。接收器1114和发射器1116可为可支持CDMA、GSM、LTE、LTE高级等的收发器的部分。

数字区段1120包括各种处理、接口和存储器单元，例如，调制解调器处理器1122、精简指令集计算机/数字信号处理器(RISC/DSP)1124、控制器/处理器1126、内部存储器1128、一般化音频编码器1132、一般化音频解码器1134、图形/显示处理器1136和外部总线接口(EBI)1138。调制解调器处理器1122可执行用于数据发射和接收的处理，例如，编码、调制、解调和解码。RISC/DSP1124可执行移动装置1100的通用和专门处理。控制器/处理器1126可执行数字区段1120内的各种处理和接口单元的操作。内部存储器1128可存储用于数字区段1120内的各种单元的数据和/或指令。

一般化音频编码器1132可执行对来自音频源1142、麦克风1143等的输入信号的编码。一般化音频解码器1134可执行对经译码音频数据的解码，且可将输出信号提供到扬声器/头戴式耳机1144。图形/显示处理器1136可执行对可呈现到显示单元1146的图形、视频、图像和文本的处理。EBI1138可促进数据在数字区段1120与主存储器1148之间的转移。

可用一个或多个处理器、DSP、微处理器、RISC等实施数字区段1120。还可在一个或一个以上专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制造数字区段1120。

一般来说，本文所述的任何装置均可表示各种类型的装置，例如无线电话、蜂窝电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等。装置可具有各种名称，例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远端台、远端终端、远程单元、用户装置、用户设备、手持式装置等。本文所述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。

本文中所描述的技术可由各种装置实施。举例来说，可以硬件、固件、软件或其组合来实施这些技术。所属领域的技术人员将进一步了解，结合本文中的揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚说明硬件与软件的此可互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性，但所述实施决策不应被解释为导致偏离本发明的范围。

对于硬件实施方案来说，用以执行所述技术的处理单元可实施于一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合中。

因而，结合本文中的揭示内容而描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所述的功能的任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合，或任何其它此配置。

对于固件和/或软件实施方案来说，所述技术可体现为存储于计算机可读媒体上的指令，计算机可读媒体例如为随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、快闪存储器、压缩光盘(CD)、磁性或光学数据存储装置等。所述指令可由一个或一个以上处理器执行且可致使所述处理器执行本文中所描述的功能性的某些方面。

如果实施于软件中，则可将功能作为计算机可读媒体上的一个或一个以上指令或代码而加以存储或传输。计算机可读媒体包括计算机存储媒体与包括促进将计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。举例来说(且并非限制)，所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文所使用，磁盘和光盘包含CD、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各者的组合也应包括在计算机可读媒体的范围内。

软件模块可驻存在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸磁盘、CD-ROM，或此项技术中已知的任一其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息并将信息写入到存储媒体。或者，存储媒体可与处理器成一体。处理器及存储媒体可驻存于ASIC中。ASIC可驻存于用户终端中。或者，处理器与存储媒体可作为离散组件驻存在用户终端中。

提供本发明的先前描述以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将容易了解对本发明的各种修改，且本文中界定的一般原理可应用于其它变化而不背离本发明的精神或范围。因此，本发明无意受限于本文中所描述的实例，而是将被赋予与本文中所揭示的原理和新颖特征一致的最广泛范围。

尽管示范性实施方案可能涉及利用在一个或一个以上独立计算机系统的背景中的目前揭示的标的物的方面，但所述标的物不受如此限制，而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者，目前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置而实施，且可以类似地跨越多个装置实现存储。此类装置可包含PC、网络服务器和手持式装置。

尽管已用结构特征和/或方法动作特有的语言描述了标的物，但应理解，所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。相反，上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。

Claims

1.一种用于在客户端装置中辨识环境声音的方法，所述方法包括：

提供客户端数据库，所述客户端数据库包含环境声音的多个声音模型和多个标记，其中每一标记识别至少一个声音模型；

接收输入环境声音且基于所述输入环境声音而产生输入声音模型；

确定所述输入声音模型与所述声音模型中的每一者之间的相似度值，以从所述客户端数据库识别类似于所述输入声音模型的一个或一个以上声音模型；

从与所述所识别的声音模型相关联的一个或一个以上标记中选择一标记；以及

基于所述选定标记的置信度水平而使所述选定标记与所述输入环境声音相关联。

2.根据权利要求1所述的方法，其中基于从所述输入环境声音提取的声音特征而产生所述输入声音模型。

3.根据权利要求1所述的方法，其中使所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

4.根据权利要求3所述的方法，其中使另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

5.根据权利要求1所述的方法，其中选择所述标记包括：

基于与所述所识别的声音模型相关联的所述标记而将所述所识别的声音模型分组为一组或一组以上声音模型；

计算所述组中的每一者中的声音模型的所述相似度值的总和以确定最大总和；以及

选择与所述组中的具有所述最大总和的一个组相关联的标记。

6.根据权利要求5所述的方法，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

7.根据权利要求1所述的方法，其中基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定所述置信度水平。

8.根据权利要求1所述的方法，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

9.根据权利要求1所述的方法，其进一步包括：

在所述置信度水平小于预定置信度阈值的情况下，

将所述输入声音模型发射到服务器以辨识所述输入环境声音；以及

从所述服务器接收识别所述输入环境声音的标记。

10.根据权利要求9所述的方法，其进一步包括：

从所述服务器接收类似于所述输入声音模型的一个或一个以上声音模型；以及

用从所述服务器接收的所述标记和所述声音模型来更新所述客户端数据库。

11.根据权利要求10所述的方法，其进一步包括：

从所述服务器接收与从所述服务器接收的所述一个或一个以上声音模型中的每一者相关联的位置和时间中的至少一者；以及

用来自所述服务器的位置和时间中的所述至少一者来更新所述客户端数据库。

12.根据权利要求10所述的方法，其中更新所述客户端数据库包括：

将所述所接收的标记提供给所述客户端装置的用户；

从所述用户接收关于所述所接收的标记是否与所述输入环境声音匹配的输入；以及

基于来自所述用户的所述输入来更新所述客户端数据库。

13.根据权利要求1所述的方法，其进一步包括：

接收与所述输入声音模型相关联的位置和时间中的至少一者，

其中所述客户端数据库进一步包括与环境声音的所述声音模型中的每一者相关联的位置和时间中的至少一者。

14.根据权利要求13所述的方法，其中确定所述相似度值包括：

基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述客户端数据库的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

15.根据权利要求13所述的方法，其中所述客户端数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述客户端数据库的所述一个或一个以上声音模型。

16.一种用于在服务器中辨识从客户端装置接收的输入环境声音的方法，所述方法包括：

提供服务器数据库，所述服务器数据库包含环境声音的多个声音模型和多个标记，其中每一标记识别至少一个声音模型；

从所述客户端装置接收表示输入环境声音的输入声音模型；

确定所述输入声音模型与所述声音模型中的每一者之间的相似度值，以从所述服务器数据库识别类似于所述输入声音模型的一个或一个以上声音模型；

17.根据权利要求16所述的方法，其进一步包括：

在所述置信度水平大于或等于预定置信度阈值的情况下，将所述选定标记和所述一个或一个以上声音模型提供给所述客户端装置。

18.根据权利要求17所述的方法，其进一步包括：

将与所述一个或一个以上声音模型中的每一者相关联的位置和时间信息中的至少一者提供给所述客户端装置。

19.根据权利要求17所述的方法，其进一步包括：

从所述客户端装置的用户接收关于所述所提供的标记是否与所述输入环境声音匹配的输入；以及

用来自所述用户的所述输入来更新所述服务器数据库。

20.根据权利要求17所述的方法，其进一步包括：

从所述客户端装置接收与所述输入声音模型相关联的位置和时间中的至少一者，

其中所述服务器数据库包括与环境声音的所述声音模型中的每一者相关联的位置和时间中的至少一者。

21.根据权利要求20所述的方法，其中确定所述相似度值包括：

基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述服务器数据库的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

22.根据权利要求20所述的方法，其中所述服务器数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述服务器数据库的所述一个或一个以上声音模型。

23.根据权利要求20所述的方法，其进一步包括：

在所述置信度水平小于所述预定置信度阈值的情况下，

向所述客户端装置提供未能辨识所述输入环境声音的指示；

用与和所述输入声音模型相关联的位置和时间中的所述至少一者匹配的位置和时间中的至少一者来识别一组声音模型；

从所述组声音模型中识别对所述输入声音模型来说具有最大相似度的一声音模型；以及

在所述输入声音模型与具有所述最大相似度的所述所识别的声音模型之间的所述相似度大于或等于预定相似度阈值的情况下，将所述输入声音模型和所述所识别的声音模型合并在所述服务器数据库中。

24.根据权利要求23所述的方法，其进一步包括：

在所述输入声音模型与所述所识别的声音模型之间的所述相似度小于所述预定相似度阈值的情况下，将所述输入声音模型存储在所述服务器数据库中。

25.根据权利要求16所述的方法，其中使所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

26.根据权利要求25所述的方法，其中使另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

27.根据权利要求16所述的方法，其中选择所述标记包括：

28.根据权利要求27所述的方法，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

29.根据权利要求16所述的方法，其中基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定所述置信度水平。

30.根据权利要求16所述的方法，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

31.一种用于辨识环境声音的装置，其包括：

客户端数据库，其经配置以存储环境声音的多个声音模型和多个标记，其中每一标记识别至少一个声音模型；

声音传感器，其经配置以俘获输入环境声音；以及

声音辨识单元，其经配置以：

从所述输入环境声音产生输入声音模型；

32.根据权利要求31所述的装置，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

33.根据权利要求32所述的装置，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

34.根据权利要求31所述的装置，其中所述声音辨识单元进一步经配置以：

35.根据权利要求34所述的装置，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

36.根据权利要求31所述的装置，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

37.根据权利要求31所述的装置，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

38.根据权利要求31所述的装置，其进一步包括通信单元，所述通信单元经配置以：

在所述置信度水平小于预定置信度阈值的情况下，将所述输入声音模型发射到服务器以辨识所述输入环境声音；以及

从所述服务器接收识别所述输入环境声音的标记。

39.根据权利要求38所述的装置，其中所述通信单元进一步经配置以从所述服务器接收类似于所述输入声音模型的一个或一个以上声音模型，且

其中所述装置进一步包括数据库更新单元，所述数据库更新单元经配置以用从所述服务器接收的所述标记和所述声音模型来更新所述客户端数据库。

40.根据权利要求39所述的装置，其中所述通信单元进一步经配置以从所述服务器接收与从所述服务器接收的所述一个或一个以上声音模型中的每一者相关联的位置和时间中的至少一者，且所述数据库更新单元进一步经配置以用来自所述服务器的位置和时间中的所述至少一者来更新所述客户端数据库。

41.根据权利要求39所述的装置，其进一步包括用户接口，所述用户接口经配置以将所述所接收的标记提供给所述客户端装置的用户，且从所述用户接收关于所述所接收的标记是否与所述输入环境声音匹配的输入，

其中所述数据库更新单元进一步经配置以基于来自所述用户的所述输入来更新所述客户端数据库。

42.根据权利要求31所述的装置，其中所述通信单元进一步经配置以接收与所述输入声音模型相关联的位置和时间中的至少一者，且其中所述客户端数据库包括与环境声音的所述声音模型中的每一者相关联的位置信息和时间中的至少一者。

43.根据权利要求42所述的装置，其中所述声音辨识单元进一步经配置以基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述客户端数据库的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

44.根据权利要求42所述的装置，其中所述客户端数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述客户端数据库的所述一个或一个以上声音模型。

45.一种用于辨识从客户端装置接收的输入环境声音的服务器，所述服务器包括：

服务器数据库，其经配置以存储环境声音的多个声音模型和多个标记，其中每一标记识别至少一个声音模型；

通信单元，其经配置以从所述客户端装置接收表示输入环境声音的输入声音模型；以及

声音辨识单元，其经配置以：

46.根据权利要求45所述的服务器，其中所述通信单元进一步经配置以在所述置信度水平大于或等于预定置信度阈值的情况下，将所述选定标记和所述一个或一个以上声音模型提供给所述客户端装置。

47.根据权利要求46所述的服务器，其中所述通信单元进一步经配置以将与所述一个或一个以上声音模型中的每一者相关联的位置和时间信息中的至少一者提供给所述客户端装置。

48.根据权利要求46所述的服务器，其中所述通信单元进一步从所述客户端装置的用户接收关于所述所提供的标记是否与所述输入环境声音匹配的输入；且所述服务器进一步包括数据库更新单元，所述数据库更新单元经配置以用来自所述用户的所述输入来更新所述服务器数据库。

49.根据权利要求46所述的服务器，其中所述通信单元进一步经配置以从所述客户端装置接收与所述输入声音模型相关联的位置和时间中的至少一者，且所述服务器数据库进一步包括与环境声音的所述声音模型中的每一者相关联的位置和时间中的至少一者。

50.根据权利要求49所述的服务器，其中所述声音辨识单元进一步经配置以基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述服务器数据库的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

51.根据权利要求49所述的服务器，其中所述服务器数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述服务器数据库的所述一个或一个以上声音模型。

52.根据权利要求49所述的服务器，其中所述通信单元进一步经配置以在所述置信度水平小于所述预定置信度阈值的情况下，向所述客户端装置提供未能辨识所述输入环境声音的指示，

其中所述声音辨识单元进一步经配置以：

用与和所述输入声音模型相关联的位置和时间中的所述至少一者匹配的位置和时间中的至少一者来识别一组声音模型；以及

从所述组声音模型中识别对所述输入声音模型来说具有最大相似度的一声音模型，

其中所述数据库更新单元进一步经配置以在所述输入声音模型与具有所述最大相似度的所述所识别的声音模型之间的所述相似度大于或等于预定相似度阈值的情况下，将所述输入声音模型和所述所识别的声音模型合并在所述服务器数据库中。

53.根据权利要求52所述的服务器，其中所述数据库更新单元进一步经配置以在所述输入声音模型与所述所识别的声音模型之间的所述相似度小于所述预定相似度阈值的情况下，将所述输入声音模型存储在所述服务器数据库中。

54.根据权利要求45所述的服务器，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

55.根据权利要求54所述的服务器，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

56.根据权利要求45所述的服务器，其中所述声音辨识单元进一步经配置以：

57.根据权利要求56所述的服务器，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

58.根据权利要求45所述的服务器，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

59.根据权利要求45所述的服务器，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

60.一种计算机可读媒体，其包括用于在客户端装置中辨识环境声音的指令，所述指令致使处理器执行以下操作：

61.根据权利要求60所述的媒体，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

62.根据权利要求61所述的媒体，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

63.根据权利要求60所述的媒体，其中选择所述标记包括：

64.根据权利要求63所述的媒体，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

65.根据权利要求60所述的媒体，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

66.根据权利要求60所述的媒体，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

67.根据权利要求60所述的媒体，其中所述操作进一步包括：

在所述置信度水平小于预定置信度阈值的情况下，

从所述服务器接收识别所述输入环境声音的标记。

68.根据权利要求67所述的媒体，其中所述操作进一步包括：

69.根据权利要求68所述的媒体，其中所述操作进一步包括：

70.根据权利要求68所述的媒体，其中更新所述客户端数据库包括：

将所述所接收的标记提供给所述客户端装置的用户；

基于来自所述用户的所述输入来更新所述客户端数据库。

71.根据权利要求60所述的媒体，其中所述操作进一步包括：

72.根据权利要求71所述的媒体，其中确定所述相似度值包括：

73.根据权利要求71所述的媒体，其中所述客户端数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述客户端数据库的所述一个或一个以上声音模型。

74.一种计算机可读媒体，其包括用于在服务器中辨识从客户端装置接收的输入环境声音的指令，所述指令致使处理器执行以下操作：

从所述客户端装置接收表示输入环境声音的输入声音模型；

75.根据权利要求74所述的媒体，其中所述操作进一步包括：

76.根据权利要求75所述的媒体，其中所述操作进一步包括：

77.根据权利要求75所述的媒体，其中所述操作进一步包括：

用来自所述用户的所述输入来更新所述服务器数据库。

78.根据权利要求75所述的媒体，其中所述操作进一步包括：

79.根据权利要求78所述的媒体，其中确定所述相似度值包括：

80.根据权利要求78所述的媒体，其中所述服务器数据库进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述服务器数据库的所述一个或一个以上声音模型。

81.根据权利要求78所述的媒体，其中所述操作进一步包括：

在所述置信度水平小于所述预定置信度阈值的情况下，

向所述客户端装置提供未能辨识所述输入环境声音的指示；

82.根据权利要求81所述的媒体，其中所述操作进一步包括：

83.根据权利要求74所述的媒体，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

84.根据权利要求83所述的媒体，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

85.根据权利要求74所述的媒体，其中选择所述标记包括：

86.根据权利要求85所述的媒体，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

87.根据权利要求74所述的媒体，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

88.根据权利要求74所述的媒体，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

89.一种用于辨识环境声音的设备，其包括：

用于存储环境声音的多个声音模型和多个标记的装置，其中每一标记识别至少一个声音模型；

用于俘获输入环境声音的装置；

用于从所述输入环境声音产生输入声音模型的装置；

用于确定所述输入声音模型与所述声音模型中的每一者之间的相似度值以从所述存储装置识别类似于所述输入声音模型的一个或一个以上声音模型的装置；

用于从与所述所识别的声音模型相关联的一个或一个以上标记中选择一标记的装置；以及

用于基于所述选定标记的置信度水平而使所述选定标记与所述输入环境声音相关联的装置。

90.根据权利要求89所述的设备，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

91.根据权利要求90所述的设备，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

92.根据权利要求89所述的设备，其中所述选择装置基于与所述所识别的声音模型相关联的所述标记而将所述所识别的声音模型分组为一组或一组以上声音模型、计算所述组中的每一者中的声音模型的所述相似度值的总和以确定最大总和，以及选择与所述组中的具有所述最大总和的一个组相关联的标记。

93.根据权利要求92所述的设备，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

94.根据权利要求89所述的设备，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

95.根据权利要求89所述的设备，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

96.根据权利要求89所述的设备，其进一步包括：

用于在所述置信度水平小于预定置信度阈值的情况下将所述输入声音模型发射到服务器以辨识所述输入环境声音的装置；以及

用于从所述服务器接收识别所述输入环境声音的标记的装置。

97.根据权利要求96所述的设备，其中所述接收装置进一步从所述服务器接收类似于所述输入声音模型的一个或一个以上声音模型，且

其中所述设备进一步包括用于用从所述服务器接收的所述标记和所述声音模型来更新所述客户端数据库的装置。

98.根据权利要求97所述的设备，其中所述接收装置进一步从所述服务器接收与从所述服务器接收的所述一个或一个以上声音模型中的每一者相关联的位置和时间中的至少一者，且所述更新装置进一步用来自所述服务器的位置和时间中的所述至少一者来更新所述存储装置。

99.根据权利要求97所述的设备，其进一步包括用于将所述所接收的标记提供给所述设备的用户且从所述用户接收关于所述所接收的标记是否与所述输入环境声音匹配的输入的装置，

其中所述更新装置进一步基于来自所述用户的所述输入来更新所述存储装置。

100.根据权利要求89所述的设备，其中所述接收装置进一步接收与所述输入声音模型相关联的位置和时间中的至少一者，且所述存储装置进一步存储与环境声音的所述声音模型中的每一者相关联的位置信息和时间中的至少一者。

101.根据权利要求100所述的设备，其中所述确定装置基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述存储装置中的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

102.根据权利要求100所述的设备，其中所述存储装置进一步包括与环境声音的所述声音模型中的每一者相关联的先前出现信息，且其中基于所述先前出现信息来识别来自所述存储装置的所述一个或一个以上声音模型。

103.一种用于辨识从客户端装置接收的输入环境声音的计算机系统，所述计算机系统包括：

用于存储环境声音的多个声音模型和多个标记的装置，其中每一标记识别至少一个所述声音模型；用于从所述客户端装置接收表示输入环境声音的输入声音模型的装置；

用于确定所述输入声音模型与所述声音模型中的每一者之间的相似度值以从所述服务器数据库识别类似于所述输入声音模型的一个或一个以上声音模型的装置；

104.根据权利要求103所述的计算机系统，其进一步包括：

用于在所述置信度水平大于或等于预定置信度阈值的情况下将所述选定标记和所述一个或一个以上声音模型提供给所述客户端装置的装置。

105.根据权利要求104所述的计算机系统，其中所述提供装置进一步将与所述一个或一个以上声音模型中的每一者相关联的位置和时间信息中的至少一者提供给所述客户端装置。

106.根据权利要求104所述的计算机系统，其中所述接收装置进一步从所述客户端装置接收与所述输入声音模型相关联的位置和时间中的至少一者，且所述存储装置进一步存储与环境声音的所述声音模型中的每一者相关联的位置和时间中的至少一者。

107.根据权利要求106所述的计算机系统，其中所述确定装置基于与所述输入声音模型相关联的位置和时间中的所述至少一者来过滤所述存储装置的所述多个声音模型，以识别针对其来确定所述输入声音模型的所述相似度值的所述声音模型。

108.根据权利要求106所述的计算机系统，其中所述存储装置进一步存储与环境声音的所述声音模型中的每一者相关联的先前出现信息，其中基于所述先前出现信息来识别来自所述存储装置的所述一个或一个以上声音模型。

109.根据权利要求106所述的计算机系统，其中所述提供装置进一步在所述置信度水平小于所述预定置信度阈值的情况下，向所述客户端装置提供未能辨识所述输入环境声音的指示，

其中所述确定装置进一步用与和所述输入声音模型相关联的位置和时间中的所述至少一者匹配的位置和时间中的至少一者来识别一组声音模型，且从所述组声音模型中识别对所述输入声音模型来说具有最大相似度的一声音模型，

其中所述更新装置在所述输入声音模型与具有所述最大相似度的所述所识别的声音模型之间的所述相似度大于或等于预定相似度阈值的情况下，合并所述输入声音模型和具有所述最大相似度的所述所识别的声音模型。

110.根据权利要求109所述的计算机系统，其中所述更新装置在所述输入声音模型与所述所识别的声音模型之间的所述相似度小于所述预定相似度阈值的情况下，将所述输入声音模型存储在所述存储装置中。

111.根据权利要求103所述的计算机系统，其中所述选定标记与所述所识别的声音模型中的最大数目的声音模型相关联。

112.根据权利要求111所述的计算机系统，其中另一标记与来自所述所识别的声音模型的第二最大数目的声音模型相关联，且其中基于在和所述最大数目相关联的所述声音模型的所述相似度值的总和与和所述第二最大数目相关联的所述声音模型的所述相似度值的总和之间的差来确定所述置信度水平。

113.根据权利要求103所述的计算机系统，其中所述选择装置基于与所述所识别的声音模型相关联的所述标记而将所述所识别的声音模型分组为一组或一组以上声音模型、计算所述组中的每一者中的声音模型的所述相似度值的总和以确定最大总和，以及选择与所述组中的具有所述最大总和的一个组相关联的标记。

114.根据权利要求113所述的计算机系统，其中在所述相似度值的所述总和中识别第二最大总和，且基于所述最大总和与所述第二最大总和之间的差来确定所述置信度水平。

115.根据权利要求103所述的计算机系统，其中所述置信度水平是基于与所述选定标记相关联的所述声音模型的所述相似度值的总和来确定。

116.根据权利要求103所述的计算机系统，其中在与所述选定标记相关联的所述声音模型中识别对所述输入声音模型来说具有最大相似度值的一声音模型，且基于具有所述最大相似度值的所述声音模型与相关联的反模型之间的相似度来确定所述置信度水平。

117.根据权利要求104所述的计算机系统，其中所述接收装置进一步从所述客户端装置的用户接收关于所述所提供的标记是否与所述输入环境声音匹配的输入，且所述计算机系统进一步包括用于用来自所述用户的所述输入来更新所述服务器数据库的装置。