CN101996630B

CN101996630B - 基于二进时频单元的自动声音识别

Info

Publication number: CN101996630B
Application number: CN201010262636.5A
Authority: CN
Inventors: M·S·彼德森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2009-08-24
Filing date: 2010-08-24
Publication date: 2014-10-29
Anticipated expiration: 2030-08-24
Also published as: EP2306457A1; US20110046948A1; AU2010204470A1; US8504360B2; AU2010204470B2; EP2306457B1; CN101996630A; DK2306457T3

Abstract

本发明公开了一种自动声音识别方法，包括：提供包括多个模型的培训数据库，每一模型表示下述形式的声音元素：包括二进时频单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或从二进掩模提取的特性特征或统计量；提供包括输入声音元素的输入信号；基于培训数据库的模型估计输入声音元素以提供输出声音元素。本发明具有相对简单及可适应所涉及应用的优点。本发明可用在包括自动声音识别如装置的声音控制的装置中或用在听音装置如助听器中以改善语音可懂度。

Description

基于二进时频单元的自动声音识别

技术领域

本发明涉及声音识别，尤其涉及自动声音识别的方法和系统。

此外，本发明涉及分别用于运行和存储实施自动声音识别如自动语音识别方法的软件指令的数据处理系统和计算机可读介质。

本发明用在如包括自动声音识别的装置的应用中，用于装置的声音如话音控制，或用在听音装置如助听器中，用于改善语音感知。

背景技术

语音识别已在多种装备中涉及并使用多种途径和方法用于多种不同的目的。本申请涉及时频掩蔽的概念，其已用于在混合听觉环境中使语音与噪声分开。该领域的评论及其用于助听器的潜力在[Wang，2008]中提供。

US 2008/0183471 A1描述了一种识别语音的方法，包括提供多个所存储音素的培训数据库并基于奇异值分解将每一音素变换为正交形式。接收的音频语音信号分为单个音素并基于奇异值分解变换为正交形式。所接收的变换后的音素与所存储的变换后的音素比较以确定哪些所存储的音素最接近地对应于所接收的音素。

[Srinivasan et al.，2005]描述了用于音素恢复的模型。该模型的输入为具有包含掩蔽音素的词的掩蔽说话，所使用的掩蔽器例如为宽带声源。掩蔽音素转换为声谱图及该声谱图的二进掩模以识别可靠的部分(即主要包含语音能量的时频单元)，(否则)产生不可靠的部分。二进掩模用于将声谱图分为纯净部分和有噪声部分。识别基于词级模板及隐Markov模型(HMM)计算。

发明内容

最近已发现，提供比较纯净语音信号和语音形式的噪声估计的二进掩模包含足够的关于语音可懂度的信息。

在现实世界应用中，只有二进掩模的估计量可用。然而，如果估计的掩模被识别为某一语音元素，如词或音素，估计的掩模(模式)(如语音元素的能量的增益或其它表示)可进行修改以更像所估计的语音元素如音素的模式。藉此可增加语音可懂度和语音质量。

本申请描述一种方法或声音识别系统，其中声音识别培训数据基于二进掩模，即指示高能时间和频率区域的二进时频单元。

在本说明书中，术语“掩蔽”意为“加权”或“滤波”，不应与其在心理声学领域的含义(“阻塞”或“堵塞”)混淆。

已知语音的词可由有限数量的不同声音元素如音素如30-50个元素组成。每一声音元素可由模型(如统计模型)或模板表示。必要的有限数量的模型可保存在相当小的存储器中，因此根据本发明的语音识别系统可用于低功率、小尺寸、便携装置如通信装置中，例如听音装置如助听器。

本发明的目标在于提供自动识别声音如人类语音的备选方案。

方法

本发明的目标由自动声音识别方法实现，该方法包括：

-提供包括多个模型的培训数据库，每一模型表示下述形式的声音元素：

■包括二进时频(TF)单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或

■从二进掩模提取的特性特征或统计量；

-提供包括输入声音元素的输入信号；

-基于培训数据库的模型估计输入声音元素以提供输出声音元素。

本发明方法具有相对简单及适应所涉及应用的优点。

术语“估计输入声音元素”指试图在有限数量的已知声音元素之中确定(识别)输入声音元素的过程。术语“估计”意图指示前述过程中因已知声音元素的非精确表示引起的元素不准确度(已知声音元素可以多种方式表示，没有哪一种可称为“唯一正确的方式”)。如果成功，则声音元素得以识别。

在实施例中，表示声音元素的一组培训数据通过将声音元素转换为(如使用输入变换器如传声器)电输入信号进行提供。在实施例中，(模拟)电输入信号以采样频率f_s进行采样(如通过模数(AD)转换器)以提供数字化电输入信号，其包括输入信号(振幅)在连续时间点t_n＝n*(1/f_s)的数字时间样本s_n，n＝1，2，...。因此，样本的持续时间由T_s＝1/f_s给出。

优选地，输入变换器包括传声器系统，该传声器系统包括多个用于分离环境中的声源的传声器。

在实施例中，数字化电输入信号按时频表示提供，其中信号的时间表示对构成处理所考虑的频率范围(从最小频率f_min到最大频率f_max，例如从10Hz到20kHz如从20Hz到12kHz)的每一频带均存在。这样的表示可通过滤波器组实现。

在实施例中，电输入信号的多个连续样本s_n安排成时间帧F_m(m＝1，2，...)，每一时间帧包括预定数量N_ds的、对应于帧时间长度L＝N_ds/f_s，＝N_ds·T_s的数字时间样本s_nds(nds＝1，2，...，N_ds)，每一时间样本包括信号振幅在给定采样时间t_n(或n)的数字化值s_n(或s[n])。作为备选，例如根据预定方案，时间帧F_m的长度可不同。

在实施例中，相继的时间帧(F_m，F_m+1)具有预定的数字时间样本重叠。总的来说，该重叠可包括≥1的任何数量的样本。在实施例中，从一帧F_m到下一帧F_m+1，帧的Q个样本的四分之一或一半同样。

在实施例中，提供每一帧中的信号(m)的频谱。在给定时间(m)的频谱由跨所考虑频率范围的多个时频单元(p＝1，2，...，P)表示。时频单元TF(m，p)包括信号在特定时间(m)和频率(p)单元中的(通常复)值。在实施例中，只考虑信号的实数部分(量值，|TF(m，p)|)，而忽视虚数部分(相位，Arg(TF(m，p)))。时间到时频的变换可通过傅立叶变换算法进行，例如快速傅立叶变换(FFT)算法。

在实施例中，传声器系统的DIR单元适于检测特定时频区或TF单元源自空间上不同方向的哪一方向。这可以多种不同的方式实现，如US 5,473,701或EP 1 005 783中描述的方式。EP 1 005 783涉及通过比较不同的波束成形器模式而估计基于方向的时频增益。两个传声器之间的时间延迟可用于确定音频信号的频率加权(滤波)。在实施例中，空间上不同的方向自适应确定，例如参见US 5,473,701或EP 1 579 728B1。

在根据本发明的语音识别系统中，二进培训数据(包括不同语音元素的模型或模板)可通过将来自不同人(例如包括不同的男人和/或女人)讲出来的音素、词或整句的一组培训(纯净语音)时频单元(TF单元，TF(f，t)，f为频率，t为时间)与类似变换为时频单元的语音形式的噪声单元比较例如参见下面的等式(2)而进行估计(或类似地，与每一频带中的固定阈值比较，例如参见下面的等式(1)；理想情形下，固定阈值应与每一频带中的目标语音信号的长期能量估计量成正比)。当多个不同的男人和女人(例如具有不同的年龄和/或基频)讲话时，记录基本语音元素(如音素)。对同一基本语音元素的多个版本求平均或进行处理以提取所涉及语音元素的特性从而提供该语音元素的模型或模板。对其它基本语音元素执行相同的处理以对每一基本语音元素提供模型或模板。培训数据库可进行组织以包括与将要识别的二进掩模类似的二进掩模(对频率)的矢量。比较应在一阈值范围进行，其中阈值跨产生所有0二进掩模到产生所有1二进掩模的区域。前述比较的例子由下面的二进掩模BM(f，t)的表达式(固定阈值)给出：

其中τ为随频率而变的固定阈值[dB]，其可被使得与输入信号水平有关；及LC为局部判据，其可跨如30dB的范围变化。TF(f，t)为特定语音元素的时频表示，f为频率及t为时间。因此，|TF(f，t)|²表示语音元素的按dB测量的能含量。

作为备选，时频分布可和与输入信号TF(f，t)具有相同频谱的语音形式的噪声SSN(f，t)比较。该比较可由下面的表达式给出：

|TF(f，t)|²和|SSN(f，t)|²均表示信号在对数域的功率分布。假定TF和SSN的功率一样强，LC的典型值应在[-20；+10]dB内(例如参见[Brungart et al.，2006]中的图3)。

在培训数据库框架下的上述比较(即从“原始”培训输入数据提取所涉及声音元素的模型二进掩模的过程)另外可在声音识别过程中进行。在后一情形下，其中纯净的目标信号不可用，在上述跨阈值范围(等式(1))或关于语音形式的噪声(等式(2))的比较之前，可有利地对有噪声目标输入信号进行初始降噪过程。

通常，频率(f)和时间(t)指数被量化，在下面，p用于频率单元p(p＝1，2，3，...)及m用于时间单元m(m＝1，2，3，...)。

在实施例中，TF-＞BM计算的阈值LC随输入信号水平而变。在嘈杂环境中，相比于安静的环境人们趋于提高他们的话音(Lombard效应)。提高的话音相较正常情形讲出的语音具有不同的长期频谱。在实施例中，LC随输入水平的增加而增加。

当识别估计的二进时频模式时，去除输入信号的非信息性TF单元是有利的。去除非信息性低能TF单元的一种方式是迫使TF单元变成0，当该单元的总能量低于某一阈值时，例如如果|TF(m，p)|²＜|X(m，p)|²则使得TF(m，p)＝0，其中m表示时间指数及p表示频率指数，因此(m，p)定义唯一的TF单元。例如，X(m，p)可以是语音类噪声信号或等于恒定的(如实数)阈值LC，可能加上随频率而变的期间τ(例如参见上面的等式(1)、(2))。这样，语音信号的低能单元将被设定为等于0。这可对所接收或所记录的信号直接进行，或可在估计二进掩模之后处理后进行。换言之，估计的二进掩模和从阈值LC(可能+τ)确定的二进掩模“与”，使从估计的掩模去除非信息性低能单元。

当估计的二进TF掩模已识别为某一音素时，估计的TF掩模可以这样的方式修改，使得估计的音素的模式变得更接近表示允许的音素模式的模式之一。实现此的一种方式是简单地用培训数据库中与估计的二进模式最相似的模式替代二进模式。藉此只有培训数据库中存在的二进模式将被允许。然后，该重构的TF掩模可转换为时频变化的增益，其可应用于声音信号。增益转换可以是线性或非线性的转换。在实施例中，二进值1转换为0dB的增益，而等于0的二进值转换为20dB的衰减。衰减量可被使得随输入水平而变，及增益可跨时间或频率滤波以防止从一时频单元到相继(相邻)时频单元的增益出现太大的变化。藉此可增加语音可懂度和/或声音质量。

在实施例中，定向传声器系统用于向声音识别系统提供输入信号。在实施例中，二进掩模(BM_ss)从另一算法进行估计，使得只有单一声源由该掩模呈现，例如通过使用包括两个空间上接近的传声器的传声器系统产生两个Cardoid方向性模式C_F(t，f)和C_B(t，f)，分别表示前(F)和后(B)cardoid中输入信号的能量的时间(t)和频率(f)相干性，例如参见[Boldt et al.，2008]。之后，BM中的非信息性单元可通过使BM_ss乘以BM进行去除。

基于二进掩模的自动语音识别可通过隐Markov模型方法实现。先验信息可内置在音素模型中。在该方式下，模型可被使得随任务而变如随语音而变，因为某一音素的概率跨不同的任务或语言变化，例如参见[Harper et al.，2008]，具体参见第801页。在实施例中，特性特征使用统计模型如隐Markov模型从二进掩模提取。

在实施例中，产生对应于最常预期的声音元素的二进(培训)掩模模式的码本。在实施例中，该码本为培训数据库。在实施例中，该码本用于估计输入声音元素。在实施例中，码本包括预定数量的二进掩模模式，例如适应所涉及的应用(功耗、存储器大小等)，例如小于500个声音元素，如小于200个元素，如小于30个元素，如小于10个元素。

在实施例中，与输入声音元素相对于(如所述码本或培训数据库中提供的)培训数据集或模型的估计有关的模式识别使用适合提供时间和速率变化的两个模式或序列之间的相似度测量的方法进行，例如统计方法，如隐Markov模型(HMM)[Rabiner，1989]或动态时间规整(DTW)[Sakoe et al.，1978]。

在特定实施例中，基于所识别的输出声音元素(如语音元素)采取行动。在特定实施例中，该行动包括控制装置的功能，例如助听器或头戴式耳机的音量或程序切换。包括控制功能的前述行动的其它例子为电池状态、程序选择、来自哪一方向的声音应被放大的控制、附属设备控制，例如与移动电话、音频选择设备、TV等有关的控制。作为前述或其它装置的话音控制的备选或其之外的方案，本发明可用于帮助听音装置中的话音识别。

在特定实施例中，本发明方法还包括通过根据所确定的培训声音元素和预定准则修改每一输入声音元素的二进掩模而提供输出声音元素的二进掩模。前述准则可以是测量所估计掩模和培训数据之间的相似性的距离测量。

在特定实施例中，本发明方法还包括使(随后的)输出声音元素集合为输出信号。

在特定实施例中，本发明方法还包括将每一输出声音元素的二进掩模转换为对应的增益模式并将该增益模式应用于输入信号从而提供输出信号。换言之，提供增益模式G(m，p)＝BM(m，p)*G_HA(m，p)，其中BM(m，p)为(所估计的)二进掩模在特定时间(m)和频率(p)单元的值，及G_HA(m，p)表示同一时频单元中随时间和频率而变的增益(如由信号处理单元请求补偿用户的听力受损)。*表示两个m×p矩阵的元素方面的积(例如使得G(m，p)的g₁₁等于BTF(m，p)的btf₁₁乘以G_HA(m，p)的g_HA，11)。总的来说，增益模式G(m，p)计算为G(m，p)＝F[BM(m，p)]+G_HA(m，p)[dB]，其中F表示BM(m，p)的线性或非线性函数(例如F表示二进制到对数的变换)。因而可产生输出信号OUT(m，p)＝IN(m，p)+G(m，p)[dB]，其中IN(m，p)为输入信号的时频表示(TF(m，p))。

在特定实施例中，本发明方法还包括将输出信号例如经扬声器(或其它输出变换器)呈现给用户。

在特定实施例中，声音元素包括语音元素。在实施例中，将由自动声音识别系统分析的输入信号包括语音或用人力发出的声音，包括词元素(如唱出的词或语音元素)。作为备选，声音可以是动物发出的声音或来自环境如来自机动装置或机器的特有声音或可与特定物品或事件相关联的其它特有声音。在这种情形下，将在所涉及的特有声音之间选择培训数据集。在实施例中，自动声音识别方法集中于人类语音以提供自动语音识别(ASR)方法。

在特定实施例中，每一语音元素为音素。在特定实施例中，每一声音元素为音节。在特定实施例中，每一声音元素为词。在特定实施例中，每一声音元素为形成句子或句子的一部分的多个词。在实施例中，本发明方法可包括在下组之中选择的语音元素：音素、音节、词、形成句子或句子的一部分的多个词、及其组合。

系统

此外，本发明提供自动声音识别系统，该系统包括：

-包括培训数据库的存储器，培训数据库包括多个模型，每一模型表示下述形式的声音元素：

■从二进掩模提取的特性特征或统计量；

-输入装置，提供包括输入声音元素的输入信号；

-处理单元，适于基于输入信号和存储器中保存的培训数据库的模型估计输入声音元素以提供输出声音元素。

在实施例中，本发明系统包括输入变换器单元。在实施例中，输入变换器单元包括定向传声器系统，用于产生试图使声源分离如隔离一个或多个目标声源的定向输入信号。

当所涉及的过程特征由对应的结构特征适当替代时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的过程特征可与系统结合，反之亦然。系统的实施例具有与对应方法一样的优点。

ASR系统的用途

此外，本发明提供上面描述的、“具体实施方式”中详细描述的及权利要求中限定的自动声音识别系统的用途。提供在在便携式通信或听音装置如听力仪器或头戴式耳机或电话如移动电话中的使用。还提供在播音系统如教室声音系统中的使用。

数据处理系统

本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分步骤。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分步骤。除了保存在有形介质如磁盘、CD-ROM、DVD、或硬盘、或任何其它机器可读的介质上，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序的使用

本发明进一步提供包括程序代码的计算机程序的使用，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分步骤。还提供计算机程序经网络如因特网的使用。

听音装置

另一方面，本发明提供包括上面描述的、“具体实施方式”中详细描述的或权利要求中限定的自动声音识别系统的听音装置。在实施例中，听音装置还包括用于提供表示声音元素的电输入信号的单元(例如输入变换器，如传声器，或用于接收有线或无线信号的收发器)。在实施例中，听音装置包括自动语音识别系统。在实施例中，听音装置还包括用于将输入声音元素的估计量呈现给系统的一个或多个用户的输出变换器(例如用于其它音频装置的听力仪器的一个或多个扬声器、用于耳蜗植入的电极、或用于骨导装置的振动器)或用于将包括输入声音元素的估计量的信号传给另一装置的收发器。在实施例中，听音装置包括便携式通信或听音装置，例如听力仪器或头戴式耳机或电话，如移动电话，或播音系统如教室声音系统。

在实施例中，听音装置的自动声音识别系统特别适应用户自己的话音。在实施例中，听音装置包括自音检测器，适于识别听音装置的佩戴者的话音。在实施例中，前述系统仅适于提供控制信号CTR以在自音检测器已检测到形成控制信号的基础的所涉及声音元素源自佩戴者(用户)的话音时控制系统的功能。

本发明的进一步的目标通过从属权利要求和本发明的详细描述中限定的实施方式实现。

除非明确指出，在此所用的单数形式的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。此外，如在此使用的“连接”或“耦合”可包括无线连接或耦合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

附图说明

下面参考附图、结合优选实施例更充分地阐释本发明，其中：

图1示出了自动声音识别方法的第一实施例的原理。

图2示出了自动声音识别方法的第二实施例的原理。

图3示出了包括根据本发明的自动声音识别系统的听音装置的实施例。

图4示出了包括根据本发明实施例的语音识别系统的听音装置的多个实施例。

图5示出了由三个不同的人讲出的特定声音元素(在此为词“eight”)的示例性二进掩模，图5a示出了用第一算法阈值LC₁产生的二进掩模，图5b示出了用第二算法阈值LC₂产生的二进掩模。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出，因为，对于本领域的技术人员来说，通过这些详细说明在本发明精神和范围内做出各种变化和修改是显而易见的。

具体实施方式

图1示出了自动声音识别方法的第一实施例的原理。图1的流程图示出了方法的两个通路或模式，第一培训数据通路包括从优选无噪声的目标信号IN(T)产生包括多个基本声音元素的二进掩模表示形式的模型的培训数据的数据库(模块“产生二进掩模模型库”)，及第二输入数据通路用于提供输入信号 IN(T+N)(包括目标(T)和噪声(N)，T+N)形式的有噪声输入声音元素，以通过与培训数据库的声音元素模型比较而进行识别(第二输入数据通路包括模块“估计的二进掩模”和“去除非信息性TF单元”)。例如，培训数据通过记录多个不同源(如不同的男性和/或女性成年人和/或儿童)提供的同一声音元素SE₁(如音素或词)然后形成包括所涉及声音元素的共同最特有元素的统一版本而进行提供。比照记录多个不同的声音元素SE₂，SE₃，...，SE_Q。表示不同的统一声音元素SE₁，SE₂，...，SE_Q的能量的时间(m)-频率(p)分布的二进掩模BM_q(m，p)，q＝1，2，...，Q由适当的算法提供，从而产生包括二进掩模模型库的培训数据库(参见模块“产生二进掩模模型库”)。作为备选，对于每一声音元素SE_Q，培训数据库可包括多个不同的二进掩模表示，而不是一个统一的表示。声音元素与环境声音如来自其它话音、机器或自然现象的噪声混合(T+N)形式的输入数据IN(T+N)由传声器系统记录或接收为处理后的声音信号，如来自降噪系统，及使用适当的算法(如比较彼此的定向模式以从单一方向提取声源，如[Boldt et al.，2008]中所述)从输入声音元素的时频表示提供估计的二进掩模。在可选步骤中，非信息性时频单元根据适当的算法(例如通过比较输入声音信号和语音形式的噪声去除低能单元(参见上面的等式(2)))设定为0或设定为随固定频率而变的阈值并迫使低于该阈值的所有TF单元为0(模块“去除非信息性TF单元”，例如参见上面的等式(2))。前述方法的第一和第二通路分别提供基本声音元素的二进掩模模型表示的库(适于所涉及应用)及将通过与培训数据库的模型库(通常逐一)比较进行识别的连续(如有噪声)输入声音元素的一系列二进掩模表示(例如参见模块“所估计掩模的ASR”)。该比较及在培训数据库保存的模型之中选择输入声音元素的最适当的表示可通过统计方法进行，例如使用隐Markov模型，例如参见[Young，2008]。直接从模块“去除非信息性TF单元”到模块“基于识别结果修改所估计的掩模”的箭头意指在输入二进掩模和培训数据库的二进掩模模型之间没有发现匹配的情形。在所保存的培训数据库中确定最适当的二进掩模模型之后，输入声音元素的二进掩模可被修改以提供输入声音元素的修改后的估计量(参见模块“基于识别结果修改所估计的掩模”)。例如，修改可包括完全按培训数据库中所保存的调整所识别声音元素的二进掩模。作为备选，所识别的声音元素的隔离特有元素(特有TF单元)可传给输入声音元素的二进掩模估计，而其它TF单元保持不变。最后，输入声音元素SE_x的(可能修改后的)二进掩模估计BM_x(m，p)可转换为增益模式G_x(m，p)并应用于输出信号(参见模块“将修改后的掩模转换为增益模式并应用于信号”)，OUT_x(m，p)＝TF_x(m，p)*G_x(m，p)(*表示逐元素乘)。在实施例中，输入声音元素SE_x的所确定的二进掩模估计BM_x(m，p)用于控制装置的功能性活动(例如选择特定活动或改变参数)。

图2示出了自动声音识别方法或系统的基本原理。其包括由变换器拾取的声波输入，如时变波形符号所示(培训数据声音元素处理为声音元素模型的形式或进行识别(估计)的声音元素的形式)。变换器(例如可能定向的传声器系统)将声波输入信号转换为电输入信号，其馈给二进掩模提取模块，其中每一声音元素的二进掩模根据适当的算法从电输入信号的时频表示产生。电输入信号的时频表示例如通过快速傅立叶变换(FFT)算法或短时傅立叶变换(STFT)算法产生，这些算法可实施在变换器模块中或二进掩模提取模块中。特定声音元素的二进掩模馈给可选单元以从特定声音元素的二进掩模提取特性或特征(参见模块“可能的进一步的特征提取”)。例如，这可包括组合多个频带以确定是大体上说出还是未说出声音元素，或二进掩模的密度的度量，即为1的数量与为0的数量的比较。前述方法或系统的实施例还包括培训通路和识别通路，二者基于选择从可能的进一步的特征提取模块接收其输入(或者，如果前述模块不存在，则从二进掩模提取模块接收输入)。在图2所示的“培训”模式下，“可能的进一步的特征提取”模块的输出馈给培训通路(模块“模式培训”)。在正常“工作模式”下，“可能的进一步的特征提取”模块的输出馈给识别通路(模块“模式分类器”(如DTW或HMM))。培训通路包括模块“模式培训”和“模板或模型数据库”。“模式培训”模块包括培训各个声音元素的二进掩模表示的功能(例如包括确定对所涉及声音元素SE_q特有的TF单元，不管其来源如何)。图5示出了三个不同的人(从左到右为说话人1、说话人2、说话人3)讲的特定声音元素(在此为词“eight”)的示例性二进掩模，图5a示出了使用第一算法阈值LC₁产生的二进掩模，图5b示出了用第二算法阈值LC₂产生的二进掩模。二进TF掩模表示从0到5kHz的频率范围分为32个通道，每第二个通道的中心频率(Hz)指示在纵向频率轴[Hz]上(100，164，241，333，...，3118，3772，4554[Hz])。通道的宽度随频率的增加而增加。水平轴表示时间[s]。时间刻度分为0.01s的帧，每一声音元素表示在从0到约0.4s的时间间隔中。在这两个图中，TF单元中的0由黑色部分(指示不重要的能含量)表示，而TF单元中的1由白色部分(指示重要的能含量)表示。声音元素的三个版本之间的某些相似性很清楚。图5b的二进掩模为使用不同的算法阈值LC₂(LC₂＝LC₁+5dB)的结果，图5b的声音元素的所有三个版本中为1的数量相较图5a中的对应版本更小(例如参见上面的等式(1)或(2))。在实践中，前述培训可基于隐Markov模型方法的使用(例如参见[Rabiner，1989]或[Young，2008])。“模板或模型数据库”模块包括存储培训数据集，培训数据集包括表示用于识别的各个声音元素SE₁，SE₂，...，SE_Q的二进掩模模式。识别通路包括功能模块“模式分类器(如DTW或HMM)”和“决定”。“模式分类器(如DTW或HMM)”模块使用模板或模型数据库及统计模型如隐Markov模型(HMM)或动态时间规整(DTW)方法执行识别(分类)输入声音元素的二进掩模的任务。输入声音元素的结果或估计馈给“决定”单元，其执行选择最可能的词/音素/句子(或可能该模式太不可能以致于不属于这些组中的任一组)并提供输出的任务。输出可以是所识别的音素/词/句子(或其表示)或最可能的二进模式。输出可用作进一步的处理的输入，如声音控制功能的输入。

图3a中的听音装置如听力仪器实施例包括用于将声音输入(在此由词“yes”形式的声音元素指示，指示为Yees！)转换为电输入信号IN的传声器或传声器系统，电输入信号IN馈给可选的信号处理模块SP1，其执行任务：放大和/或数字化信号和/或提供定向信号(如隔离不同的声源)和/或将该信号从时域表示转换为时频域表示及将对应于声学声音元素的电输入声音元素ISE提供为输出。电输入声音元素ISE馈给声学声音识别系统(ASR系统)，例如以时频(TF)表示。ASR系统包括二进时频掩模提取单元(BTFMX)，其根据预定算法将所涉及声音元素的输入时频(TF)表示转换为二进时频掩模。输入声音元素的所估计二进掩模(BM)馈给可选的特征提取模块(FEATX)以提取所涉及输入声音元素的所估计二进掩模(BM)的特性特征(参见图2中的“可能的进一步的特征提取”模块)。所提取的特征馈给识别模块(REC)以执行所涉及输入声音元素的二进掩模(或从其提取的特征)的识别，其通过与预期出现为将要识别的输入声音元素的多个不同声音元素的二进掩模模型模式(或从其提取的特征)的培训数据库比较进行。二进掩模模型模式(MEM)的培训数据库保存在听音装置的存储器中(在模块MEM中，对多个不同的声音元素SE1，SE2，SE3，...，在图3a中由二进序列000111000...指示)。识别模块(REC)和ASR系统的输出为输入声音元素ISE的估计量形式的输出声音元素OSE。模式识别过程可使用统计方法执行，如隐Markov模型，例如参见[Young，2008]。输出声音元素OSE馈给处理单元模块SP2中的可选的进一步的处理(例如根据用户需要和/或其它信号增强应用随频率而变的增益和/或执行时频到时间的变换，和/或执行数字到模拟的变换)，其输出OUT馈给输出变换器以将电输出信号转换为输出声音(在此指示为估计的词元素YES)。图3a的实施例也可形成播音系统如教室声音系统的一部分。

图3b中所示的听音装置如听力仪器实施例与图3a的类似。然而，在自动声音识别之前及随后的处理在图3b中更具体。声音元素，指示为se_x，由用于将声音输入转换为模拟电输入信号ISE_x-A的传声器或传声器系统拾取，其馈给模数转换器(AD)以提供输入信号的数字化版本ISE_x-D。输入声音元素的数字化版本ISE_x-D馈给时间到时频转换单元(T-＞TF)以将输入信号从时域表示转换为时频域表示并将时频掩模TF_x(m，p)提供为输出，每一单元(m，p)包括在特定单元(m，p)时间和频率时输入声音元素的复值。时频映射在[Vaidyanathan，1993]和[Wang，2008]中描述。时频掩模TF_x(m，p)在单元TF-＞BM中使用预定算法转换为二进时频表示BM(m，p)(例如参见EP 2 088 802 A1和[Boldt et al.；2008])。输入声音元素的估计的二进掩模BM_x(m，p)馈给识别模块(REC)以执行所涉及输入声音元素的二进掩模(或从其提取的特征)的识别，其通过与预期出现为将要识别的输入声音元素的多个不同声音元素(SE₁，SE₂，...)的二进掩模模型模式(或从其提取的特征)的培训数据库比较进行。在实施例中，培训数据库的声音元素模型的数量和/或内容适应应用的任务(如适应特定声音(如话音)控制应用、适应特定语言等)。使有噪声二进掩模与培训数据库的二进掩模模型之一匹配的过程受统计方法控制，如隐Markov模型(HMM)(例如参见[Rabiner，1989]或[Young，2008])或动态时间规整(DTW)(例如参见[Sakoe et al.，1978])。二进掩模模型模式的培训数据库(图3b中的培训数据库)保存在听音装置的存储器中(在图3b中由标记为BM₁，BM₂，...，BM_r，...，BM_Q的多个二进序列000111000...指示并在培训数据库模块中表示对应声音元素SE₁，SE₂，...，SE_r，...，SE_Q的二进掩模模型)。识别模块(REC)的输出为输入声音元素SE_x的估计的二进掩模元素BM_r(m，p)形式的输出声音元素。估计的二进掩模元素BM_r(m，p)(表示输出声音元素OSE_r)馈给可选的处理单元(SP)，以根据用户需要和/或其它信号增强应用随频率而变的增益。信号处理单元SP的输出为输出声音元素OSE_r，其馈给单元(TF-＞T)以执行时频到时间的变换、提供随时间而变的输出信号OSE_r-D。数字输出信号OSE_r-D馈给DA单元以执行数模变换，其输出OSE_r-A馈给输出变换器以将电输出信号转换为给用户的声音的信号表示(在此指示为估计的声音元素SE_r)。

图4示出了包括根据本发明实施例的语音识别系统的听音装置的多个实施例。图4a、4b、4c中所示的实施例均包括从输入变换器(图4a)或收发器(图4b、4c)到输出变换器的正向通路。

图4a示出了听音装置如听力仪器的实施例，与上面结合图3所述的类似。图4a的实施例包括与图3的实施例一样的功能单元。图3的信号处理单元SP1(或其部分)在图4a中体现在用于数字化来自传声器的模拟输入IN的模数转换单元AD及用于提供数字化输入信号IN的时频表示ISE的时间到时频转换单元T-＞TF中。输入信号IN的时频表示ISE(与图3中一样)馈给结合图3所述的自动声音识别系统ASR。ASR系统的包括所识别的声音元素的输出OSE馈给信号处理单元SP。此外，由ASR系统基于所识别的输入声音元素提供的控制信号CTR馈给信号处理单元SP以控制处理单元的功能或活动(例如改变参数设置，如音量设置或程序改变)。在实施例中，听音装置包括自音检测器，适于识别听音装置的佩戴者的话音。在实施例中，前述系统仅适于在自音检测器已检测到声音元素源自佩戴者(用户)的话音时提供控制信号CTR(以避免其它偶然的话音输入影响听音装置的功能)。例如，自音检测器可实施为ASR系统的一部分或实施在与ASR系统无关的功能单元中。自音检测器可以多种不同的方式实施，如WO 2004/077090A1或EP 1 956 589 A1中所述。信号处理单元SP适于根据用户需要和/或其它信号增强如噪声抑制、反馈抵消等应用随频率而变的增益。来自信号处理单元SP的处理后的输出信号馈给TF-＞T单元以执行时频到时间的变换，其输出馈给DA单元以执行信号的数模变换。图3实施例的信号处理单元SP2(或其部分)在图4a的实施例中体现在单元SP、TF-＞T和DA中。DA单元的输出OUT馈给输出变换器(在此为扬声器单元)以将处理后的电输出信号变换为输出声音，在此为输入声音元素Yees！的(放大)估计YES的形式。

图4b示出了听音装置的实施例，例如通信装置如头戴式耳机或电话。图4b的实施例与上面结合图4a描述的类似。然而，图4b实施例的正向通路包括接收器电路(Rx，在此包括天线)，用于电(在此为无线)接收及可能解调输入信号IN，而不是图4a实施例的传声器(及AD转换器)。除此之外，正向通路包括与图4a实施例一样的功能单元。在图4b的实施例中，信号处理单元SP可以也可不适于根据特定用户的需要提供随频率而变的增益。在实施例中，信号处理单元为标准音频处理单元，其功能不是特别适应特定用户的听力受损。该实施例可用在电话或头戴式耳机应用中。除了无线(如图所示)或有线接收电输入的正向通路之外，听音装置包括用于拾取人的话音(如佩戴者自己的话音)的传声器。在图4b中，话音输入由声音Noo！指示。来自传声器的电输入信号馈给信号处理单元SPm。接收传声器信号的信号处理单元SPm的功能为执行任务：放大和/或数字化信号和/或提供定向信号(例如隔离不同的声源)和/或将信号从时域表示转换为时频域表示，和/或检测用户自己的话音，及将输出提供给收发器电路以将(可能增强的)传声器信号经无线(如在此所示的)或有线连接传给另一装置(如PC或电话基站)。给无线链路(包括发射器和天线电路Tx及进一步由粗Z形箭头指示)的(可能调制的)话音输出由标记(Noo！)指示。

图4c示出了与上面结合图4b所述类似的听音装置的实施例，例如通信装置如头戴式耳机或电话或播音系统。传声器通路另外包括自动声音识别系统ASR，以识别传声器拾取的输入声音元素。传声器通路包括与上面关于图4a实施例的正向通路所述一样的功能单元(AD，T-＞TF，ASR，SP，TF-＞T)。时频到时间单元(TF-＞T)的包括输入声音元素IN2的估计Noo！的输出馈给收发器和天线电路(Tx)以将输入声音信号IN2的(可能调制的)估计OUT2(由(NO)指示)传给另一装置(如图4b实施例中的装置)。正向和传声器通路的ASR和SP及SPm单元之间的电连接CTR2可用于控制正向通路和/或传声器通路的功能(例如基于所识别的包括用户自我话音的声音元素ISE2的估计的声音元素OSE2)。在该实施例中，听音装置可在传声器通路中包括自音检测器，适于识别听音装置的佩戴者的话音。

在图4的实施例中，输出变换器被示为扬声器(接收器)。作为备选，输出变换器可适合产生适当的用于耳蜗植入或骨导装置的输出。此外，在其它实施例中，除图4a-4c中所示的模块之外，听音装置还可包括另外的功能模块(例如插入在所示的任何两个模块之间)。

本发明由独立权利要求的特征限定。从属权利要求限定优选实施例。权利要求中的任何附图标记不意于限定其范围。

一些优选实施例已经在上述内容中进行了说明，但是应当强调的是，本发明不受这些实施例的限制，而是可以权利要求限定的主题内的其它方式实现。

参考文献

●[Wang，2008]D.L.Wang，Time-Frequency Masking for Speech Separationand Its Potential for Hearing Aid design，Trends in Amplification，Vol.12，2008，pp.332-353

●US 2008/0183471(AT&T)31-07-2008

●[Srinivasan et al.，2005]S.Srinivasan，D.L.Wang，A schema-based model forphonemic restoration，Speech Communication，Vol.45，2005，pp.63-87

●[Harper et al.，2008]M.P.Harper and M.Maxwell，Spoken LanguageCharacterization，Chapter 40 in Springer Handbook on Speech Processing，J.Benesty，M.M Sondhi，and Y.Huang(eds.)，2008，pp 797-809

●US 5,473,701(AT&T)05-12-1995

●EP 1 005 783(PHONAK)07-06-2000

●EP 1 579 728B1(OTICON)08-07-2004

●[Boldt et al.，2008]J.B.Boldt，U.Kjems，M.S.Pedersen，T.Lunner，and D.L.Wang，Estimation of the ideal binary mask using directional systems.In Proceedingsof the 11th International Workshop on Acoustic Echo and Noise Control，Seattle，WA，September 2008

●[Brungart et al.，2006]D.S.Brungart，P.S.Chang，B.D.Simpson，D.L.Wang，Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation，J.Acoust.Soc.Am.Vol.120，No.6，December 2006，pp. 4007-4018

●[Rabiner，1989]L.R.Rabiner，A Tutorial on Hidden Markov Models andSelected Applications in Speech Recognition，Proceedings of the IEEE，Vol.77，No.2，February 1989，pp.257-286

●[Sakoe et al.，1978]Hiroaki Sakoe and Seibi Chiba，Dynamic programmingalgorithm optimization for spoken word recognition，IEEE Trans.Acoust.，Speech，Signal Processing，Vol.26，pp.43-49，February 1978

●[Young，2008]S.Young，HMMs and Related Speech RecognitionTechnologies，Chapter 27 in Springer Handbook on Speech Processing，J.Benesty，M.M Sondhi，and Y.Huang(eds.)，2008，pp.539-557

●EP 2 088 802 A1(OTICON)12-08-2009

●[Vaidyanathan，1993]P.P.Vaidyanathan，Multirate Systems and Filter Banks，Prentice Hall Signal Processing Series，1993.

●WO 2004/077090A1(OTICON)10-09-2004

●EP 1 956 589 A1(OTICON)13-08-2008。

Claims

1.自动声音识别方法，包括：

包括二进时频单元的二进掩模，二进时频单元指示所涉及声音元素的高能时间和频率区域；或

从二进掩模提取的特性特征或统计量；

-提供包括输入声音元素的输入信号；

-基于培训数据库的模型估计输入声音元素以提供输出声音元素；

-提供表示输入声音元素的下述形式的输入数据集：

指示所涉及声音元素的高能时间和频率区域的二进时频单元；或

从二进掩模提取的特性特征；

-通过根据所确定的培训声音元素和预定判据修改每一相应输入声音元素的二进掩模而提供输出声音元素的二进掩模。

2.根据权利要求1的方法，包括通过将表示输入声音元素的输入数据集与培训数据库的多个模型进行比较而估计输入声音元素，从而根据预定判据确定最相似的培训声音元素以提供估计输入声音元素的输出声音元素。

3.根据权利要求1的方法，包括将输出声音元素组合为输出信号。

4.根据权利要求1的方法，包括：

-将每一输出声音元素的二进掩模转换为对应的增益模式；

-将所述增益模式应用于输入信号从而提供输出信号。

5.根据权利要求3的方法，包括将输出信号呈现给用户。

6.根据权利要求1的方法，其中基于所确定的输出声音元素的行动包括控制一装置的功能。

7.根据权利要求1的方法，其中声音元素包括语音元素。

8.根据权利要求7的方法，其中语音元素选自下组：音素、音节、词、形成句子或句子的一部分的多个词、及其组合。

9.根据权利要求1的方法，其中产生对应于最常预期的声音元素的二进掩模模式码本并用于估计输入声音元素，所述码本包括少于50个的元素。

10.自动声音识别系统，包括：

从二进掩模提取的特性特征或统计量；

-输入装置，提供包括输入声音元素的输入信号；及

-处理单元，适于

基于输入信号和存储器中保存的培训数据库的模型估计输入声音元素以提供输出声音元素；

提供表示输入声音元素的下述形式的输入数据集：

从二进掩模提取的特性特征；

通过根据所确定的培训声音元素和预定判据修改每一相应输入声音元素的二进掩模而提供输出声音元素的二进掩模。