CN102292766B

CN102292766B - 用于语音处理的方法和装置

Info

Publication number: CN102292766B
Application number: CN201080005155.4A
Authority: CN
Inventors: J·奥尔森
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2009-01-21
Filing date: 2010-01-21
Publication date: 2015-07-01
Anticipated expiration: 2030-01-21
Also published as: US20100185444A1; EP2389672A4; CN102292766A; EP2389672A1; US9418662B2; WO2010084410A1; EP2389672B1

Abstract

一种用于提供用于语音识别自适应的符合模型的装置，包括处理器。该处理器可以被配置用于接收对应于特定发音者的语音信号，至少部分地基于特定发音者的语音特征选择包括发音者无关部分和发音者相关部分两者的群集模型，并且使用所选择的群集模型处理该语音信号。同样地，提供了相应的方法和计算机程序产品。

Description

用于语音处理的方法和装置

技术领域

本发明的实施方式总体上涉及语音处理技术，并且更具体地，涉及用于提供用于语音识别自适应的复合模型的架构的方法、装置和计算机程序产品。

背景技术

现代通信时代已经引起了有线和无线网络的极大扩张。计算机网络、电视网络和电话网络正在经历由消费者需求所激起的空前的技术扩张。无线和移动组网技术已经满足了相关的消费者需求，并提供了对于信息传递的更多的灵活性和及时性。

当前和未来的组网技术继续促进对用户的信息传递的容易性以及便利性。在其中存在对增加信息传递容易性的一个领域涉及对移动终端用户的服务的递送。该服务可以采取用户所期望的特定媒体或通信应用的形式，诸如音乐播放器、游戏机、电子书、短消息、电子邮件等。该服务也可以采取交互应用的形式，在其中用户可以对网络设备做出响应，以便执行任务、玩游戏或实现目标。可以从网络服务器或其他网络设备，乃至从诸如例如移动电话、移动电视、移动游戏系统之类的移动终端提供该服务。

在许多应用中，用户需要从网络或移动终端接收诸如口头反馈或指令之类的音频信息，或者用户需要向网络或移动终端提供口头指令或反馈。此类应用可以提供并不依赖实质上手动用户活动的用户接口。换言之，用户可以在免提或半免提环境中与应用交互。此类应用的示例可以是支付账单、订购程序、请求和接收驾驶指令等。其他应用可以将口头语音转换为文本或基于所识别的语音执行某些其他功能，诸如口授文档、短信服务(SMS)消息或电子邮件等。为了支持这些和其他应用，语音识别应用、从文本产生语音的应用以及其他语音处理设备正变得更加普遍。

语音识别(也可以被称为自动语音识别(ASR))可以由可以将所识别的语音转换为文本的许多不同类型的应用(例如，语音文本转换系统)实施。当前的ASR和/或语音文本转换系统通常基于隐藏式马可夫模型(HMM)，该模型是概率地描述语音模式的统计模型。在某些实例中，可能会期望语音模型忽略诸如性别、年龄、口音之类的发音者特征。然而，在实践中，忽略此类特征通常是不现实的，因而语音模型可以为发音者和环境因素二者以及为了识别而期望的“纯粹的”语言模式进行建模。因此，举例来说，针对特定发音者的语音而训练的“发音者相关”(SD)声学模型通常比在不同发音者群体上概括的“发音者无关”(SI)声学模型更加准确。然而，纯粹的SD模型的不便之处在于必须针对每个发音者单独地训练此类模型。这可能要求相当于若干小时的转录的语音记录对于给定发音者是可用的。

因此，可能存在对开发解决上述问题的改进的语音处理技术的需要。

发明内容

为此，提供了用于提供用于语音识别自适应的复合模型的架构的方法、装置和计算机程序产品。根据本发明的某些示例性实施方式，可以提供可以改进语音处理技术的复合模型。在此方面，复合模型可以结合成簇技术，该成簇技术可以以使得能够快速分辨关于将应用哪些簇的方式来采用，同时降低存储器使用。该簇可以包括SI和SD部分两者，其中SI部分在多个SD部分之中共享，以便降低存储器消耗。相应地，本发明的实施方式可以适用于具有不同口音、性别和其他特征的多个不同发音者。作为结果，基于可以改进语音处理设备的效率和能力两者的复合模型，由于更高的质量，语音处理可以被改进。

在一个示例性实施方式中，提供了一种提供用于语音识别自适应的复合模型的方法。该方法包括接收对应于特定发音者的语音信号，至少部分地基于特定发音者的语音特征选择包括发音者无关部分和发音者相关部分两者的簇模型，以及使用所选择的簇模型处理语音信号。

在另一示例性实施方式中，提供了一种用于提供用于语音识别自适应的复合模型的计算机程序产品。该计算机程序产品可以包括至少一个计算机可读存储介质，该计算机可读存储介质具有存储在其上的计算机可读程序代码指令。该计算机可读程序代码指令包括用于执行以下操作的可执行部分：接收对应于特定发音者的语音信号，至少部分地基于特定发音者的语音特征选择包括发音者无关部分和发音者相关部分两者的簇模型，以及使用所选择的簇模型处理语音信号。

在另一示例性实施方式中，提供了一种用于提供用于语音识别自适应的复合模型的装置。该装置可以包括配置用于执行以下操作的处理器：接收对应于特定发音者的语音信号，至少部分地基于特定发音者的语音特征选择包括发音者无关部分和发音者相关部分两者的簇模型，以及使用所选择的簇模型处理语音信号。

在另一示例性实施方式中，提供了用于提供用于语音识别自适应的复合模型的设备。该装置可以包括：用于接收对应于特定发音者的语音信号的装置，用于至少部分地基于特定发音者的语音特征选择包括发音者无关部分和发音者相关部分两者的簇模型的装置，以及用于使用所选择的簇模型处理语音信号的装置。

本发明的实施方式可以提供用于在要求语音处理的系统中使用的方法、装置和计算机程序产品。因此，举例来说，移动终端和其他电子设备可以得益于以下能力：在不使用分离的模块和/或大的和笨重的模型的情况下，经由足够健壮以针对众多发音者提供语音处理的单一架构来执行语音处理。

附图说明

已经如此概括地描述了本发明的实施方式，现在将对附图进行参考，该附图不必按比例绘制，并且其中：

图1是根据本发明的示例性实施方式的移动终端的示意框图；

图2是根据本发明的示例性实施方式的用于提供用于语音识别自适应的复合模型的装置的示意框图；

图3图示了根据本发明的示例性实施方式的复合模型的架构的框图；以及

图4是根据用于提供用于根据本发明的示例性实施方式的语音识别自适应的复合模型的示例性方法的框图。

具体实施方式

现在将在下文参考附图更充分地描述本发明的某些实施方式，其中示出了本发明的某些但非全部的实施方式。实际上，本发明的各种实施方式可以被体现为许多不同形式并且不应当被解释为被限定到在此阐明的实施方式。相同的参考号自始至终指代相同元素。正如在此所使用的，术语“数据”、“内容”、“信息”和类似的术语可以被可交换地使用以指代能够根据本发明的实施方式而被传递、接收和/或存储的数据。此外，正如在此所使用的，术语“示例性”并非被提供以表达任何定性评价，而是作为替代仅仅表达示例的说明。因此，对任何此类术语的使用不应当被用来限制本发明实施方式的精神和范围。

如以上指出的，使用纯粹的SD或纯粹的SI模型可能引出相应的不利情况。然而，在SD模型和SI模型的两个极端之间，可以训练各自覆盖较小“簇”发音者的模型。有用的簇可以包括：男性、女性、孩子、地方口音等。簇还可以包括与声学环境有关的非发音者因素。例如，与声学环境有关的因素可以包括家、街道、办公室、酒吧或其他场所乃至影响声学记录的其他因素，例如在创建声学记录时使用的麦克风或其他记录设备的类型。与使用单一SD模型集合相比，使用若干簇特定模型可以提高存储需求。附加地，在给定情况中，可以要求用户选择特定模型集合以用于识别，这是由于关于给定发音者属于哪个簇可能预先是未知的，这是由于可能不方便或不可能询问发音者的性别、口音、年龄和/或其他因素。本发明的某些实施方式可以在使用簇模式时提供存储器使用的减少，并且可以使得能够以未受监管的方式来快速地(例如具有低的计算要求)将给定发音者分类到特定的簇。

图1图示了可以得益于本发明的实施方式的移动终端10的框图。然而，应当理解，如所图示的并且在下文描述的移动终端仅仅说明了可以得益于本发明的实施方式的移动终端的一种类型，并且因此不应当被用作限制本发明的实施方式的范围。虽然示出并且将出于示例的目的在下文描述移动终端10的若干实施方式，但其他类型的移动终端，诸如移动电话、便携式数字助理(PDA)、寻呼机、移动电视、游戏设备、膝上型计算机、相机、录像机、音频/视频播放器、无线电、全球定位系统(GPS)设备，或上述的任何组合，以及其他类型的通信系统，都可以容易地采用本发明的实施方式。此外，非移动型的设备也可以容易地采用本发明的实施方式。

在图1中示出了在其上可以运用本发明的实施方式的移动设备的示例，其图示了可以得益于本发明的示例性实施方式的移动终端10的框图。在一个示例性实施方式中，移动终端10包括与发射器14和接收器16可操作通信的天线12(或多个天线)。移动终端10还可以包括诸如控制器20(例如，处理器70)或其他处理单元之类的装置，该装置分别向发射器14提供信号和从接收器16接收信号。在某些情况下，该信号包括根据可适用蜂窝系统的空中接口标准的信令信息，和/或还可以包括对应于语音、所接收的数据和/或用户生成/传递的数据的数据。在此方面，举例来说，移动终端10可以能够使用一种或多种空中接口标准、通信协议、调制类型和接入类型进行操作。通过示例的方法，移动终端10可以能够根据多个第一、第二、第三和/或第四代通信协议等中的任意协议进行操作。例如，移动终端10可以能够根据以下进行操作：第二代(2G)无线通信协议IS-136(时分多址(TDMA))、GSM(全球移动通信系统)、以及IS-95(码分多址(CDMA))，或第三代(3G)无线通信系统，诸如通用移动电信系统(UMTS)、CDMA2000、宽带CDMA(WCDMA)以及时分同步CDMA(TD-CDMA)，3.9G无线通信协议，诸如E-UTRAN(演进型通用陆地无线接入网络)，第四代(4G)无线通信协议等。作为备选(或附加地)，移动终端10可以能够根据非蜂窝式通信机制进行操作。例如，移动终端10可以能够在无线局域网(WLAN)或其他通信网络中通信。

在示例性实施方式中，控制器20包括用于实现移动终端10的音频/视频和逻辑功能等的电路。例如，控制器20可以包括数字信号处理器设备、微处理器设备，以及各种模数转换器、数模转换器，和/或其他支持电路。可以将移动终端10的控制和信号处理功能根据这些设备的各自的能力在它们之间分配。因此，控制器20还可以包括在调制和传输之前对消息进行编码和交织的功能。控制器20可以附加地包括内部语音编码器，并且可以包括内部数据调制解调器。在某些情况下，控制器20还包括用以操作可以被存储在存储器中的一个或多个软件程序的功能。例如，控制器20可以能够操作连接性程序，诸如传统的web浏览器。连接性程序接下来可以允许移动终端10根据例如无线应用协议(WAP)、超文本传输协议(HTTP)等传递和接收web内容，诸如基于位置的内容和/或其他web页面内容。

移动终端10还可以包括可以可操作地耦合到控制器20的用户输入接口和用户接口，该用户接口包括诸如耳机或扬声器24、麦克风26、显示器28之类的输出设备。用户输入接口允许移动终端10接收数据，该用户输入接口可以包括诸如小键盘30、触摸屏(未显示)或其他输入设备之类的允许移动终端10接收数据的多种设备中的任意设备。在包括小键盘30的实施方式中，小键盘30可以包括数字(0-9)和相关键(#、*)，以及用于操作移动终端10的其他硬键和软键。备选地，在某些实施方式中，小键盘30包括QWERTY小键盘布置。小键盘30还可以包括具有相关功能的各种软键。附加地或备选地，移动终端10可以包括诸如控制杆或其他用户输入接口之类的接口设备。移动终端10还包括电池34，诸如振动电池组，其用于为用于操作移动终端10的各种电路供电，以及可选地提供机械振动作为可检测输出。

在某些实施方式中，移动终端10还包括用户身份模块(UIM)38。UIM38通常是具有内嵌处理器的存储器设备。UIM38可以包括例如用户识别模块(SIM)、通用集成电路卡(UICC)、通用用户识别模块(USIM)、可移除用户身份模块(R-UIM)等。在某些情况下，UIM38存储与移动用户有关的信息元素。除了UIM38之外，也可以为移动终端10装备存储器。移动终端10可以包括易失性存储器40和/或非易失性存储器42。例如，易失性存储器40可以包括随机存取存储器(RAM)(包括动态和/或静态RAM)、芯片上或芯片外高速缓冲存储器等。非易失性存储器42可以是嵌入式的和/或可移除的，其可以包括例如只读存储器、闪存、磁存储设备(例如，硬盘、然盘驱动器、磁带等)、光盘驱动器和/或介质、非易失性随机存取存储器(NVRAM)等。与易失性存储器40一样，非易失性存储器42可以包括用于数据的临时存储的高速缓冲存储器区域。存储器可以存储由移动终端10使用以实现移动终端10的功能的数据以及许多条信息中的任意信息。例如，存储器可以包括能够唯一标识移动终端10的标识符，诸如国际移动设备识别(IMEI)代码。此外，存储器可以存储用于确定小区id信息的指令。特别地，存储器可以存储用于由控制器20执行的应用程序，其确定移动终端10与之通信的当前小区的身份，即，小区id身份或小区id信息。

在示例性实施方式中，可以提供可以在执行本发明的示例性实施方式的设备处使用的装置50。装置50可以体现为例如主管、包含、控制或以其他方式包括采用本发明的示例性实施方式的设备、模块或语音处理单元的任何设备。因此，举例来说，装置50可以是移动终端10，或移动终端10的一部分，或可以采用本发明的实施方式的任何其他设备(移动的或固定的)。然而，实施方式还可以体现在多种其他设备上，诸如例如其中装置50(或其一部分)的实例可以体现在客户端侧和服务器侧两者上的设备。因此，将以通称术语来描述装置50，以便使广泛的应用包括客户端侧或服务器侧设备。同样地，图2的装置50仅仅是示例，并且可以包括比图2中示出的组件更多的(或在某些情况下，更少的)组件。

现在参考图2，提供了用于提供用于语音识别自适应的复合模型的架构的装置50。装置50可以包括处理器70、用户接口72、通信接口74和存储器设备76或以其他方式与处理器70、用户接口72、通信接口74和存储器设备76通信。存储器设备76可以包括例如易失性存储器和/或非易失性存储器。存储器设备76可以被配置用于存储信息、数据、文件、应用、指令等。例如，存储器设备76可以被配置用于缓存用于由处理器70处理的输入数据。附加地或备选地，存储器设备76可以被配置用于存储用于由处理器70执行的指令。作为又一备选，存储器设备76可以是存储信息和/或媒体内容的多个存储位置或多个数据库之一。

处理器70可以体现为多种不同方式。例如，处理器70可以体现为各种处理装置，诸如处理单元、协处理器、控制器或包括诸如例如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、硬件加速器等的集成电路的各种其他处理设备。在示例性实施方式中，处理器70可以被配置用于执行存储在存储器设备76中或以其他方式可由处理器70访问的指令。同样地，无论是由硬件方法、软件方法或它们的组合进行配置，处理器70可以代表当被相应的配置后，能够执行根据本发明的实施方式的操作的实体。因此，举例来说，当处理器70体现为ASIC、FPGA等时，处理器70可以是用于实施在此描述的操作的特别配置的硬件。备选地，作为另一示例，当处理器70体现为软件指令的执行器时，该指令可以特别地配置处理器70以执行在此描述的算法和操作，如果不是针对由指令提供的特定配置，则处理器70还可以是通用处理单元。然而，在某些情况下，处理器70也可以是通过由用于执行在此描述的算法和操作的指令进一步配置处理器70而适合于使用本发明的实施方式的特定设备(例如，移动终端)的处理器。

同时，通信接口74可以是被配置用于从网络接收数据和/或向网络传递数据的诸如体现为硬件或软件或硬件和软件的组合的电路和设备之类的任何装置，和/或与装置50通信的任何其他设备或模块。在此方面，通信接口74可以包括例如用于支持与无线通信网络的通信的支持软件和/或支持硬件和天线(或多个天线)。在固定环境中，通信接口74可以备选地或同样地支持有线通信。同样地，通信接口74可以包括通信调制解调器和/或用于支持经由电缆的通信的其他硬件/软件、数字用户回路(DSL)、通用串行总线(USB)、以太网、高清多媒体接口(HDMI)或其他机构。此外，通信接口74可以包括用于支持诸如蓝牙、红外、UWB、WiFi之类的通信机制的硬件和/或软件。

用户接口72可以与处理器70通信，以在用户接口72处接收用户输入的指示和/或向用户提供可听的、可见的、机械式或其他输出。同样地，用户接口72可以包括例如键盘、鼠标、控制杆、显示器、触摸屏、麦克风、扬声器或其他输入/输出机构。在该装置体现为服务器或某些其他网络设备的示例性实施方式中，用户接口72可以是受限的、位于远程的或被去除。在示例性实施方式中，用户接口72可以包括或者可以语音处理器78进行通信，该语音处理器78可以被配置用于接收并且处理从麦克风或另一个音频接收或记录设备接收的语音。

相应地，在示例性实施方式中，处理器70可以体现为、包括或以其他方式控制语音处理器78。根据某些实施方式，语音处理器78是诸如体现为被配置用于执行在此描述的语音处理功能的硬件、软件或硬件和软件的组合的电路或设备之类的任何装置。在此方面，举例来说，语音处理器78可以是诸如体现为被配置用于执行如在此描述的语音处理器78的相应操作的硬件、软件或硬件和软件的组合的电路或设备之类的任何装置。

在示例性实施方式中，语音处理器78可以包括多个簇模型(例如，第一簇模型80、第二簇模型82和第n簇模型84)以及簇选择器90。簇选择器90可以是诸如体现为被配置用于执行如在此描述的簇选择器90的相应操作的硬件、软件或硬件和软件的组合的电路或设备之类的任何装置。在此方面，举例来说，簇选择器90可以是诸如体现为被配置用于选择(自动基于正被处理的输入语音的语音特征，或者基于根据对用户自己的语音特征的用户评估而来自用户的手动输入或选择)将用于进行语音处理的相应的簇模式之一的硬件、软件或硬件和软件的组合的电路或设备之类的任何装置。每个簇模型可以与相应的发音者簇相关联，并且由于每个簇可以包括发音者无关(SI)以及发音者相关(SD)部分这一事实，每个簇模式可以被认为是“复合簇”。在示例性实施方式中，可以在每个簇模型(或至少多个簇模型)之间共享SI部分。然而，每个相应的簇模型的SD部分对于由相应簇模型所代表的发音者的簇(例如特定性别、口音、年龄组等等)而言可以是唯一的

本发明的某些实施方式可以提供对发音者自适应方面的使用，与对簇特定模型的使用结合，其可以被视为对训练簇特定模型的备选。在此方面，发音者自适应可以采取SI模型集合以及SD模型变换的形式，其中模型变换的大小和复杂性可以变化。本发明的某些实施方式凭借使用针对每个簇模型的SD部分和SI部分，支持对发音者适配后簇模型的使用。

HMM可以被视为有限状态网络。换言之，HMM可以被视为由过渡连接的状态，包括从一个状态回到其自身的自过渡。概率密度函数(PDF)可以与每个状态相关联。PDF通常被实现为高斯(常态)PDF分布的混合。在示例性实施方式中，可以通过使用语音状态共享(phonetic state-tying)来控制HMM模型集合的大小。在此方面，举例来说，理论上每个不同的声音对应于唯一的状态或多个状态。然而，在实践中，许多状态非常相似，并且因此可以通过重新使用(或共享(tying))对应于理论上不同的声音单元的状态，来创建更为紧凑的模型集合。在某些实例中，语音规则和统计技术可以用于执行共享。

本发明的某些实施方式假定状态共享是每种语言的特征。换言之，大体上相同的共享可以被用于特定语言而无需考虑该语言的发音者。作为一个示例，如果语境/tak/中的声音/a/类似于语境/pak/中的声音/a/，那么这很可能是针对该群体中的全部发音者的情况，即使他们的语音听起来不同(例如，男性发音者对比女性发音者)。此外，可以假定表征特定语音信号的大多数非语言特征(性别、口音、麦克风以及其他非语言特定特征)可以与同对应状态相关联的PDF函数相关联。相应地，本发明的实施方式可以包括被分为包括发音者相关高斯混合PDF的SD部分以及SI部分(例如，定义状态以及状态如何被连接或联系到一起的状态网络(其如上所述可以被假定为针对给定语言的全部发音者而言是通用的))以形成复合模型。每个复合模型可以包括相同的共享SI部分以及对应的特定SD部分。由于SI部分可以在针对给定语言的全部簇模型之间共享，因此用于存储若干簇模型存储需求被减小。

图3示出了用于本发明的示例性实施方式的簇模型的示例架构。在此方面，可以在多个SD PDF之间共享SI状态网络92。SI状态网络92因而包括复合模型的共享SI部分。例如，当与SI状态网络92组合时，第一SD PDF 94可以限定第一簇模型80(例如，针对特定性别、口音或年龄组)。同时，当与SI状态网络92组合时，第二SD PDF 96可以限定第二簇模型82(例如，针对与第一簇模型80的性别、口音或年龄组不同的另一特定性别、口音或年龄组)。附加地，当与SI状态网络92组合时，第n SD PDF 98可以限定第n簇模型84(例如，针对与第一簇模型80和第二簇模型82的性别、口音或年龄组不同的特定性别、口音或年龄组)。

在示例性实施方式中，簇选择器90可以被配置用于基于输入语音的特征或基于用户选择，选择第一SD PDF 94、第二SD PDF 96或第n SD PDF 98中的相应的一个以与共享的SI状态网络92组合。这样，簇选择器90可以被配置用于针对正被处理的语音来选择适当的簇模型。换言之，簇选择器90可以被配置用于至少部分地基于相对于发音者相关部分的输入语音的特征，选择包括发音者无关部分和发音者相关部分的复合簇。

可以针对每个不同发音者存储复合簇的SD部分(例如，SDPDF)。在示例性实施方式中，简单阵列结构可以被限定为包括针对各种发音者的SD PDF，并且可以提供参考(或指针)以识别将针对给定簇使用的PDF阵列。这样，可以能够基于指导簇选择器90的参考来改变针对每个相应发音者的模型集合的“簇”特定部分，以使用适当的对应的SD PDF。

在示例性实施方式中，所使用的HMM可以是传统的HMM或者是使用量化以实现与传统的HMM相比的较小存储器占用面积(memory foot print)以及较少处理使用两者的子空间HMM。在某些情况下，只有对应于一个特定簇(例如，当前发音者的簇)的PDF可以在任何给定时间被使用，并且因而本地存储器资源(例如，存储器设备76)可以被限制为存储直接对应于当前发音者的复合簇的SD部分，而其他SD部分可以被存储在远程服务器、盘、闪存或其他存储设备上。当遇到另一发音者时，可以从本地存储器资源删除未使用的SD部分(例如，PDF阵列)并且对应于新近遇到的发音者的SD部分可以被输入到本地存储器资源(例如，存储器设备76)。

如以上指出的，在某些情况下，簇选择器90可以通过支持用户显式地选择簇模型之一(例如，经由用户接口72)来进行操作。然而，在某些实施方式中，可能期望簇选择器90自动为当前发音者选择的适当的簇。自动选择可以为用户提供便利，并且在某些情况下，由于用户可能发现难于获知哪个簇最佳地表征用户语音，因此也可以提供增加的准确性。

在某些示例中，簇选择器90可以被配置用于通过在来自特定发音者的输入语音上运行一次或多次运行识别算法或操作来选择簇模型(或有效地选择将连同共享的SI部分进行使用的SD部分)。在此方面，举例来说，可以针对每个发音者簇运行一次识别算法或操作，并且可以基于结果选择复合模型。例如，可以将在运行识别操作预定次数后为给定发音者提供最高随机可能性得分(例如，最佳匹配)的模型选择作为将针对当前发音者使用的簇模型。然而，在某些情况下，可能期望仅仅运行识别操作或算法一次。这样，某些实施方式可以针对具有通用SI模型集合(例如，诸如SI状态网络92的共享SI部分)的每个SD部分使用识别算法一次，并且继而使用子簇模型对一个最佳识别结果进行重新评分。重新评分可能会花费进行完全识别所花费时间的一个非常小的部分(例如，1％)。

相应地，本发明的实施方式的簇选择器90可以被配置用于通过至少部分地基于发音者特征选择SD部分来选择簇模型，以随全部簇模型之间共享的SI部分(针对给定语言)包括进来。所选择的簇模型此后可以被用于改进的语音处理或识别，以供在语音文本转换或其他应用中使用。作为一个示例，性别相关模型可以包括共享的SI部分和针对相应性别的特定SD部分。类似的SD部分可以针对其他发音者特定类别而存在，并且相应的SD部分可以与共享的SI部分组合，该共享的SI部分可以使用共享的HMM系统，该HMM系统使用相同的状态共享而无需考虑发音者。

可以在众多语音识别环境中实现本发明的实施方式。作为一个示例，听写引擎(例如，用于在文档、电子邮件或SMS生成中使用)或众多其他语音ASR应用可以连同子空间HMM或其他HMM模块来采用本发明的实施方式。存储包括共享组件(例如，SI状态网络92)的簇模型可以提供改进的准确度和性能，同时，相对于完全发音者相关的模型而言节省存储器消耗。

图4是根据本发明的示例性实施方式的系统、方法和程序产品的流程图。应当理解，流程图的每个块或步骤，以及流程图中的快的组合，可以由诸如包括一个或多个计算机程序指令的软件、固件和/或硬件之类的各种装置实现。例如，上述过程中的一个或多个可以体现为计算机程序指令。在此方面，在示例实施方式中，体现上述过程的计算机程序指令由存储器设备(例如，存储器设备76)存储并且由处理器(例如，处理器70)执行。正如将领会的，任何此类计算机程序指令可以被加载到计算机或其他可编程装置(即，硬件)上以产生机器，从而使得在计算机或其他可编程装置上执行的指令创建用于实现在该流程图块或步骤中指定的功能的装置。在某些实施方式中，计算机程序指令存储在计算机可读存储器中，该计算机可读存储器可以指导计算机或其他可编程装置以特定方式运行，从而使得存储在计算机可读存储器中的指令产生包括实现在该流程图块或步骤中指定的功能的指令装置的制品。计算机程序指令还可以被加载到计算机或其他可编程装置上，以引起在计算机或其他可编程装置上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程装置上执行的指令提供用于实现在该流程图块或步骤中指定的功能的步骤。

根据某些实施方式，该流程图的块或步骤支持用于执行所指定功能的装置的组合、用于执行所指定功能的步骤的组合以及用于执行所指定功能的程序指令装置。还应当理解，该流程图的一个或多个块或步骤，以及该流程图中的块或步骤的组合，可以由以下实现：执行指定功能或步骤的基于硬件的专用计算机系统、或专用硬件和计算机指令的组合。

在此方面，如图4中提供的用于提供用于语音识别自适应的复合模型的方法的一个实施方式可以包括在操作100处接受对应于特定发音者的语音信号。该方法还可以包括在操作110处至少部分地基于特定发音者的语音的特征选择(例如，经由处理器70)包括发音者无关部分和发音者相关部分两者的簇模型，以及在操作120处使用所选择的集成模型处理该语音。

在某些实施方式中，该方法可以包括其他可选操作，在图4中以虚线示出了其示例。可选操作可以在各种备选实施方式中以任何顺序执行和/或相互结合执行。由此，举例来说，该方法还可以包括在操作115处，仅本地存储所选择的簇模型的发音者相关部分并且远程存储不同的发音者相关部分。

在某些实施方式中，以上操作中的某些操作可以如下所述进行修改或进一步扩增。应当理解，以下每个修改或扩增可以通过上述操作单独包含进来，或者结合在此描述的特征中的任何其他特征而包含进来。在此方面，举例来说，选择簇模式可以包括针对多个簇模型中的每一个执行关于特定发音者的识别操作，以及基于表示特定发音者和所选择簇模型之间的匹配程度的、针对所选择簇模型的可能性评分来选择簇模型之一。附加地或备选地，选择簇模型可以包括基于每个发音者相关部分的对应的发音者特征与特定发音者的语音特征的比较，在其中每个发音者相关部分与对应的发音者特征相关联的多个不同发音者相关部分之中选择发音者相关部分。在此类情况中，选择簇模型可以包括通过使用所选择的发音者相关部分和限定在多个发音者相关部分之中共享的发音者无关部分的发音者无关状态网络，形成复合簇模型。在某些情况下，选择簇模型可以包括基于表示性别、口音、年龄或语言的发音者特征，选择簇模型的发音者相关部分。

在示例性实施方式中，用于执行以上图4的方法的装置可以包括被配置用于执行上述操作(100-120)中的某些或每一个的处理器(例如，处理器70)。该处理器可以例如被配置用于通过执行硬件实现的逻辑功能、执行存储的指令或执行用于执行操作(100-120)中的每一个的算法，来执行操作(100-120)。备选地，该装置可以包括用于执行每个上述操作的装置。在此方面，根据示例实施方式，用于执行操作100-1210的装置的示例可以包括例如处理器70、语音处理器78、簇选择器90和/或由处理器70用于处理上述信息而执行的算法。

对于本领域技术人员可以理解的是，上述本发明的很多修改和其他实施方式具有在前述描述和附图中所给出的教导的益处。因此，将理解的是，本发明并非被限制到所公开的特定实施方式，并且其修改和其他实施方式意在被包括在所附权利要求书的范围内。此外，虽然前述描述和相关附图在元件和/或功能的某些示例性组合的上下文中描述示例性实施方式，但应当领会，元件和/或功能的不同组合可以有备选实施方式提供而不会背离所附权利要求书的范围。在此方面，举例来说，与以上显示描述的那些不同的元件和/或功能的组合也被预期可以在某些所附权利要求书中阐明。虽然在此使用了特定的术语，但它们仅仅是在类属和描述性的意义中使用，并且并非出于限制的目的。

Claims

1.一种用于语音处理的方法，包括：

接收对应于特定发音者的语音信号；

经由处理器，选择包括发音者相关部分以及定义多个状态和多个状态共享的发音者无关部分两者的簇模型，其中所述发音者无关部分至少部分地基于识别操作的识别结果而被选择，并且其中所述发音者相关部分是子空间隐马尔可夫模型，所述子空间隐马尔可夫模型至少部分地基于所述特定发音者的语音特征和所述识别结果的重新评分而被选择；以及

使用所选择的所述簇模型处理所述语音信号。

2.根据权利要求1所述的方法，其中选择所述簇模型包括针对多个簇模型中的每个执行关于所述特定发音者的识别操作以及基于表示所述特定发音者和所选择的所述簇模型之间的匹配程度的、针对所选择的所述簇模型的可能性评分来选择所述簇模型之一。

3.根据权利要求1所述的方法，其中选择所述簇模型包括，基于每个发音者相关部分的对应的发音者特征与所述特定发音者的语音特征的比较，在其中每个发音者相关部分关联有对应的发音者特征的多个不同发音者相关部分之中选择所述发音者相关部分。

4.根据权利要求3所述的方法，其中选择所述簇模型包括通过使用所选择的所述发音者相关部分和限定在多个发音者相关部分之中共享的所述发音者无关部分的发音者无关状态网络，来形成复合簇模型。

5.根据权利要求1所述的方法，还包括仅本地存储所选择的所述簇模型的所述发音者相关部分并且远程存储不同的发音者相关部分。

6.根据权利要求1所述的方法，其中选择所述簇模型包括基于表示性别、口音、年龄或语言的发音者特征，选择所述簇模型的所述发音者相关部分。

7.根据权利要求1-6中任一所述的方法，其中所述发音者相关部分包括发音者相关概率密度函数。

8.一种用于语音处理的设备，包括：

用于接收对应于特定发音者的语音信号的装置；

用于选择包括发音者相关部分以及定义多个状态和多个状态共享的发音者无关部分两者的簇模型的装置，其中所述发音者无关部分至少部分地基于识别操作的识别结果而被选择，并且其中所述发音者相关部分是子空间隐马尔可夫模型，所述子空间隐马尔可夫模型至少部分地基于所述特定发音者的语音特征和所述识别结果的重新评分而被选择；以及

用于使用所选择的所述簇模型处理所述语音信号的装置。

9.根据权利要求8所述的设备，其中用于选择所述簇模型的装置包括用于针对多个簇模型中的每个执行关于所述特定发音者的识别操作的装置，以及用于基于表示所述特定发音者和所选择的所述簇模型之间的匹配程度的、针对所选择的所述簇模型的可能性评分来选择所述簇模型之一的装置。

10.根据权利要求8所述的设备，其中用于选择所述簇模型的装置包括，用于基于每个发音者相关部分的对应的发音者特征与所述特定发音者的语音特征的比较、在其中每个发音者相关部分关联有对应的发音者特征的多个不同发音者相关部分之中选择所述发音者相关部分的装置。

11.根据权利要求10所述的设备，其中用于选择所述簇模型的装置包括用于通过使用所选择的所述发音者相关部分和限定在多个发音者相关部分之中共享的所述发音者无关部分的发音者无关状态网络以形成复合簇模型的装置。

12.根据权利要求8所述的设备，还包括用于仅本地存储所选择的所述簇模型的所述发音者相关部分并且远程存储不同的发音者相关部分的装置。

13.根据权利要求8所述的设备，其中用于选择所述簇模型的装置包括用于基于表示性别、口音、年龄或语言的发音者特征而选择所述簇模型的所述发音者相关部分的装置。

14.根据权利要求8-13中任一所述的设备，其中所述发音者相关部分包括发音者相关概率密度函数。