CN106233374B

CN106233374B - 用于检测用户定义的关键字的关键字模型生成

Info

Publication number: CN106233374B
Application number: CN201580020007.2A
Authority: CN
Inventors: 尹宋克; 金泰殊
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-04-17
Filing date: 2015-04-08
Publication date: 2020-01-10
Anticipated expiration: 2035-04-08
Also published as: BR112016024086A2; US9953632B2; EP3132442B1; KR20160145634A; JP2017515147A; US20150302847A1; WO2015160586A1; CN106233374A; EP3132442A1

Abstract

根据本发明的一方面，揭示一种用于在电子装置中生成用户定义的关键字的关键字模型的方法。所述方法包含：接收指示所述用户定义的关键字的至少一个输入；从所述至少一个输入确定子字序列；基于所述子字序列和所述子字的子字模型而生成与所述用户定义的关键字相关联的关键字模型，其中所述子字模型经配置以基于语音数据库而对所述子字的多个声学特征建模；和将与所述用户定义的关键字相关联的所述关键字模型提供到经配置有与预定关键字相关联的关键字模型的话音激活单元。

Description

用于检测用户定义的关键字的关键字模型生成

对相关申请案的交叉参考

本申请案基于且要求2014年8月22日申请的标题为“用于检测用户定义的关键字的关键字模型生成(KEYWORD MODEL GENERATION FOR DETECTING USER-DEFINEDKEYWORD)”的美国专利申请案第14/466,644号和2014年4月17日申请的标题为“用于生成在检测用户定义的关键字时使用的关键字模型的方法和设备(METHOD AND APPARATUS FORGENERATING KEYWORD MODEL FOR USE IN DETECTING USER-DEFINED KEYWORD)”的美国临时专利申请案第61/980,911号的优先权益，所述专利申请案的整个内容以引用的方式并入本文中。

技术领域

本发明大体上涉及电子装置中的语音辨识，且更确切地说，涉及生成在检测用户定义的关键字时使用的关键字模型。

背景技术

近年来，例如智能电话、平板计算机、可穿戴电子装置、智能TV和类似者的电子装置在消费者中正变得日益普及。这些装置通常提供经由无线或有线网络的话音和/或数据通信功能性。另外，此类电子装置通常包含可提供多种经设计以提高用户便利性的功能的其它特征。

常规电子装置通常包含用于从用户接收话音命令的语音辨识功能。此类功能允许电子装置在接收且辨识来自用户的话音命令(例如，关键字)时执行与所述话音命令相关联的功能。举例来说，电子装置可响应于来自用户的话音命令而激活话音辅助应用程序，播放音频文件，或拍摄照片。

在具有语音辨识特征的电子装置中，制造商或运营商通常为装置配备可在检测输入声音中的关键字时使用的预定关键字和相关联声音模型。一些电子装置还可允许用户将关键字指定为话音命令。举例来说，电子装置可从用户接收关键字的数种发声且从所述发声生成用于指定的关键字的关键字模型。

一般来说，关键字模型的检测性能与借以生成关键字模型的发声的数目有关。也就是说，关键字模型的检测性能可随着发声的数目增加而改进。举例来说，制造商可在电子装置中提供已从数千种或更多种发声生成的关键字模型。

然而，在常规电子装置中，从用户接收的关键字的发声的数目相对较少(例如，五个)。因此，从此类有限数目个发声生成的关键字模型可不产生充足的检测性能。另一方面，从用户接收相当大数目个发声以生成可提供足够检测性能的关键字模型可为费时的且对于用户来说不方便。

发明内容

本发明涉及生成在检测用户定义的关键字时使用的关键字模型。

根据本发明的一个方面，揭示一种用于在电子装置中生成用户定义的关键字的关键字模型的方法。在此方法中，接收指示所述用户定义的关键字的至少一个输入。从所述至少一个输入确定子字序列。基于所述子字序列和所述子字的子字模型，生成与所述用户定义的关键字相关联的关键字模型。所述子字模型经配置以基于语音数据库而对所述子字的多个声学特征建模或表示所述子字的多个声学特征。将与所述用户定义的关键字相关联的关键字模型提供到经配置有与预定关键字相关联的关键字模型的话音激活单元。本发明还描述了涉及此方法的设备、装置、系统、装置的组合以及计算机可读媒体。

根据本发明的另一方面，揭示一种用于生成用户定义的关键字的关键字模型的电子装置。所述电子装置包含输入单元、话音激活单元，以及用户定义的关键字模型生成单元。所述输入单元经配置以接收指示所述用户定义的关键字的至少一个输入。所述话音激活单元经配置有与预定关键字相关联的关键字模型。所述用户定义的关键字模型生成单元经配置以从所述至少一个输入确定子字序列，基于所述子字序列和所述子字的子字模型而生成与所述用户定义的关键字相关联的关键字模型，以及将与所述用户定义的关键字相关联的关键字模型提供到所述话音激活单元。所述子字模型经配置以基于语音数据库而对所述子字的多个声学特征建模或表示所述子字的多个声学特征。

附图说明

当结合附图阅读时，通过参考以下详细描述将理解本发明的发明性方面的实施例。

图1说明根据本发明的一个实施例的经配置以从指示用户定义的关键字的至少一个样本声音生成在检测用户定义的关键字时使用的关键字模型的电子装置。

图2说明根据本发明的一个实施例的用于基于指示用户定义的关键字的一或多个样本声音和一或多种类型的噪声而生成一或多个混合样本声音的方法的图式。

图3说明根据本发明的一个实施例的经配置以从用户定义的关键字的文本生成在检测用户定义的关键字时使用的关键字模型的电子装置。

图4说明根据本发明的一个实施例的经配置以调整可在生成用于检测用户定义的关键字的关键字模型时使用的子字模型的电子装置。

图5说明根据本发明的一个实施例的经配置以基于输入声音而调整用于检测用户定义的关键字的阈值得分的电子装置。

图6说明根据本发明的一个实施例响应于检测来自输入声音的关键字而激活电子装置中的话音辅助应用程序。

图7说明根据本发明的一个实施例的经配置以基于包含用户定义的关键字的输入声音辨识用户的电子装置。

图8说明根据本发明的一个实施例的经配置以生成用于用户定义的关键字的关键字模型且基于关键字模型而检测输入声音流中的用户定义的关键字的电子装置的框图。

图9为根据本发明的一个实施例的在电子装置中执行的用于从指示用户定义的关键字的至少一个输入生成用户定义的关键字的关键字模型的示例性方法的流程图。

图10为根据本发明的一个实施例的在电子装置中执行的用于从指示用户定义的关键字的至少一个样本声音生成用户定义的关键字的关键字模型的示例性方法的流程图。

图11为根据本发明的一个实施例的在电子装置中执行的用于调整在生成用于检测用户定义的关键字的关键字模型时使用的子字模型的示例性方法的流程图。

图12为根据本发明的一个实施例的在电子装置中执行的用于基于输入声音而调整用于检测用户定义的关键字的阈值得分的示例性方法的流程图。

图13为根据本发明的一些实施例的其中可实施用于生成在检测用户定义的关键字时使用的关键字模型的方法和设备的示例性电子装置的框图。

具体实施方式

现在将详细参考各种实施例，在附图中说明所述实施例的实例。在以下详细描述中，陈述众多具体细节以便提供对本发明主题的透彻理解。然而，对于所属领域的一般技术人员将是显而易见的是，可在没有这些具体细节的情况下实践本发明主题。在其它情况下，未详细描述众所周知的方法、过程、系统和组件，以便不会不必要地混淆各种实施例的各方面。

图1说明根据本发明的一个实施例的经配置以从指示用户定义的关键字的至少一个样本声音生成在检测用户定义的关键字时使用的关键字模型的电子装置100。电子装置100可为配备有声音捕获和处理能力的任何适合装置，例如蜂窝式电话、智能电话、个人计算机、膝上型计算机、平板个人计算机、智能电视、游戏装置、多媒体播放机等。如本文所使用，术语“关键字”可指可用以激活电子装置100中的功能或应用程序的一或多个字或声音的任何数字或模拟表示。

电子装置100可存储一组预定关键字和/或另一组用户定义的关键字。如本文所使用，术语“预定关键字”可指已经预定用于激活电子装置100中的功能或应用程序的关键字。用于预定关键字的关键字模型或经训练关键字模型可指在从到电子装置100的输入声音检测预定关键字时使用的关键字检测模型。在一些实施例中，用于多个预定关键字的多个关键字模型可由电子装置100的第三方提供商或制造商生成且预存储在电子装置100中和/或从外部服务器或装置(未示出)下载。另外，术语“用户定义的关键字”可指可由电子装置100的用户定义或指定用于激活功能或应用程序的关键字。用于用户定义的关键字的关键字模型可指在从到电子装置100的输入声音检测用户定义的关键字时使用的关键字检测模型。在一些实施例中，用于用户定义的关键字的关键字模型可由用户基于预定组子字模型生成或更新，此将在下文参考图4进行更详细描述。

在一个实施例中，电子装置100可经配置有用于响应于存储在电子装置100中的多个预定关键字以及用户120所输入的一或多个样本声音而指定用户定义的关键字的功能或应用程序。为指定用户定义的关键字，电子装置100可提供用户接口以从用户120接收指示用户定义的关键字的一或多个样本声音。举例来说，可在电子装置100的显示屏幕110上显示消息“记录模式…说出关键字5次”以从用户120接收指示用户定义的关键字的样本声音。虽然在所说明的实施例中请求用户定义的关键字的五个发声，但用户定义的关键字的发声的数目可取决于例如用户的便利性、性能要求和类似者的许多因素而变化。举例来说，可将用户定义的关键字的发声的数目确定为三到五次。

基于指示用户定义的关键字的所接收样本声音，电子装置100可生成用于检测用户定义的关键字的关键字模型，如下文将参考图8详细地描述。所生成的关键字模型可存储于电子装置100中且提供到电子装置100中的话音激活单元(未示出)。话音激活单元可为电子装置100中的任何适合处理单元，其经配置以检测到电子装置100的输入声音中的特定关键字(例如，使用定义的关键字或预定关键字)或特定用户的话音。在一个实施例中，话音激活单元可存取所生成的关键字模型以用于关键字辨识。在辨识用户说出的关键字时，话音激活单元可在用于用户定义的关键字以及预定关键字的关键字模型当中搜索最佳匹配。

根据一个实施例，电子装置100可提供用户接口以从用户120接收与用户定义的关键字所关联的功能或应用程序有关的输入。举例来说，在从用户120接收到指示用户定义的关键字的样本声音之后，电子装置100可从用户120接收用于选择功能或应用程序的输入且将用户定义的关键字指派给选定功能或应用程序。

图2说明根据本发明的一个实施例的用于基于指示用户定义的关键字的一或多个样本声音210和一或多种类型的噪声而生成一或多个混合样本声音220的方法的图式200。如上文参考图1所描述，为指定用户定义的关键字，电子装置100可从用户120接收指示用户定义的关键字的样本声音210。在接收样本声音210后，电子装置100即可通过将至少一种类型的噪声添加到样本声音210来生成混合样本声音220，以增加可用于生成与样本声音210相关联的用户定义的关键字的关键字模型的样本声音的数目。举例来说，可将汽车噪声230添加到样本声音210中的每一者以生成一或多个嵌入汽车噪声的样本声音250。类似地，可将嘈杂语噪声240添加到样本声音210中的每一者以生成一或多个嵌入嘈杂语噪声的样本声音260。在一个实施例中，可将任何合适类型的噪声(例如汽车噪声、嘈杂语噪声、街道噪声、风噪声和类似者，或其任何组合)添加到样本声音210以生成任何合适数目个嵌入噪声的样本声音。如下文将参考图8描述，可当在包含基本上无噪声环境和有噪声环境的各种声音环境中检测与样本声音210相关联的用户定义的关键字时，使用包含样本声音210和嵌入噪声的样本声音250和260的混合样本声音220。

在一些实施例中，混合样本声音220还可包含样本声音210的一或多个复本样本声音270。将复本样本声音270添加到混合样本声音220可增加样本声音210的数目，以提供较大数目个样本声音210。混合样本声音220中的较大数目个样本声音210可平衡样本声音210的数目与嵌入噪声的样本声音250和260的数目的比，以提供平衡的检测性能。举例来说，如果嵌入噪声的样本声音的数目大于样本声音210的数目，那么在无噪声或基本上无噪声的环境中可能不会准确地检测与样本声音210相关联的用户定义的关键字。在一个实施例中，混合样本声音220可包含任何合适数目个复本样本声音270。

图3说明根据本发明的一个实施例的经配置以从用户定义的关键字的文本生成在检测用户定义的关键字时使用的关键字模型的电子装置100。为指定用户定义的关键字，电子装置100可提供用户接口以从用户120接收用户定义的关键字的文本。举例来说，可在电子装置100的显示屏幕110上显示消息“记录模式…键入关键字”以从用户120接收用户定义的关键字的文本(例如，一或多个字)。

基于所接收的用户定义的关键字的文本，电子装置100可将用户定义的关键字的文本转换成指示用户定义的关键字的子字序列。如本文所使用，术语“子字”或“子字单元”可指基本声音单元，例如音素、音位、三音素、音节等。例如用户定义的关键字或预定关键字的关键字可表示为一或多个子字或子字单元的组合。电子装置100接着可从指示用户定义的关键字的声音数据生成在检测用户定义的关键字时使用的关键字模型，如将参考图8更详细地描述。在一个实施例中，电子装置100还可提供用户接口以从用户120接收指示用户定义的关键字的一或多个样本声音，如上文参考图1所描述。在此情况下，电子装置100可基于指示用户定义的关键字的声音数据和指示用户定义的关键字的所接收样本声音而生成用于检测用户定义的关键字的关键字模型。

图4说明根据本发明的一个实施例的经配置以调整可在生成用于检测用户定义的关键字的关键字模型时使用的子字模型的电子装置100。电子装置100可最初存储至少一个子字模型。术语“子字模型”可指表示或指示多个子字或子字单元的声学特征的声学模型，可依据例如隐式马尔可夫模型(hidden Markov model；HMM)、半马尔可夫模型(semi-Markov model；SMM)或其组合的图形模型生成且更新所述声学模型。

电子装置100可最初包含预存储在电子装置100中和/或从外部服务器或装置(未示出)下载的一或多个子字模型。可基于语音数据库(其也可被称作语音语料库)而生成所述子字模型。语音数据库可包含大数目个样本声音数据(例如，数千语音样本或更多)和/或文本。可通过从样本声音数据提取多个声学特征来从此类大数目个样本声音数据生成子字模型，且可基于一或多个子字模型和来自用户的指示用户定义的关键字的样本声音而生成用于用户定义的关键字的关键字模型。因此生成的关键字模型可允许对用户定义的关键字的高度准确的检测，即使来自用户的指示用户定义的关键字的输入样本声音的数目可相对较少(例如，五个)也会如此。

在一个实施例中，最初存储于电子装置100中的子字模型可为用户独立的且可不反映用户的特定话音特征。在此情况下，电子装置100可经配置有用于预调适的功能或应用程序，以基于用户输入声音而调整子字模型。可在生成用于检测用户定义的关键字的关键字模型之前执行用于子字模型的预调适的功能。另外或替代地，可在已生成用于检测用户定义的关键字的关键字模型之后执行用于预调适的功能。

为进行预调适，电子装置100可提供用户接口以从用户120接收指示预定语句(例如，短语)的输入声音。预定语句可为在发音学上平衡的语句(例如，哈佛语句(Havardsentence))中的至少一者，所述语句可使用处于与特定音位可在语言中表现的频率相同或类似的频率下的所述音位。举例来说，在发音学上平衡的语句可包含例如以下语句：“橡树生命力顽强，且还给人荫凉”、“猫和狗都厌恶彼此”、“管道在还崭新的时候就开始生锈”、“打开板条箱但别打碎玻璃”和类似者。电子装置100可存储预定语句和其子字序列或网络。

在所说明的实施例中，可在电子装置100的显示屏幕110上显示消息“预调适模式…橡树生命力顽强，且还给人荫凉…朗读上述语句”，以从用户120接收指示预定语句“橡树生命力顽强，且还给人荫凉”的输入声音。基于所接收的输入声音，电子装置100可以如下文将参考图8详细地描述的此方式调整子字模型。举例来说，电子装置100可从所接收的输入声音提取声学特征，且基于所提取的声学特征和所存储的预定语句的子字序列或网络而调整子字模型中的声学参数。在一个实施例中，电子装置100可从所接收的输入声音辨识子字单元序列且使用所辨识的子字序列更新所存储的预定语句的子字序列或网络。

图5说明根据本发明的一个实施例的经配置以基于输入声音而调整用于检测用户定义的关键字的阈值得分的电子装置100。如本文所使用，术语“匹配得分”可指指示输入声音与任何关键字(例如，用户定义的关键字或预定关键字)之间的类似性程度的值。此外，术语“阈值得分”可指确保检测输入声音中的关键字时的所要准确性的匹配得分的阈值。举例来说，如果阈值得分过高，那么电子装置100可不检测来自包含关键字的输入声音的关键字。另一方面，如果阈值得分过低，那么电子装置100可不正确地检测不包含关键字的输入声音中的关键字。因此，在生成用于用户定义的关键字的关键字模型之后，用户定义的关键字的阈值得分可经更新以确保所要检测准确性。

在一个实施例中，电子装置100可经配置有用于调整阈值得分以进一步改进检测输入声音中的用户定义的关键字的准确性的功能或应用程序。可在生成用于用户定义的关键字的关键字模型且确定关键字模型的阈值得分之后，激活用于调整阈值得分的功能。为调整阈值得分，电子装置100可提供用户接口以从用户120接收指示用户定义的关键字的测试输入声音。举例来说，可在电子装置100的显示屏幕110上显示消息“测试模式…说出关键字”，以从用户120接收指示用户定义的关键字的测试输入声音。

从指示用户定义的关键字的所接收的测试输入声音，电子装置100可基于用户定义的关键字的关键字模型而计算测试输入声音的匹配得分。基于所计算的测试输入声音的匹配得分，电子装置100可调整用户定义的关键字的阈值得分。举例来说，当所计算的匹配得分低于阈值得分时，电子装置100可减少阈值得分。

图6说明根据本发明的一个实施例响应于检测来自输入声音的关键字而激活电子装置100中的话音辅助应用程序600。最初，电子装置100可存储用于预定关键字和/或用户定义的关键字的关键字模型。为激活话音辅助应用程序600，用户120可说出关键字(例如，用户定义的关键字或预定关键字)，电子装置100接收所述关键字。当电子装置100检测到关键字时，话音辅助应用程序600可被激活且在显示屏幕上或经由电子装置100的扬声器单元输出消息，例如“我可以帮助你吗？(MAY I HELP YOU？)”。

作为响应，用户120可通过说出其它话音命令而经由话音辅助应用程序600激活电子装置100的各种功能。举例来说，用户120可通过说出话音命令“播放音乐”而激活音乐播放器610。虽然所说明的实施例说明响应于检测关键字而激活话音辅助应用程序600，但可响应于检测相关联关键字而激活另一应用程序或功能。

图7说明根据本发明的一个实施例的经配置以基于包含用户定义的关键字的输入声音辨识用户的电子装置100。用于用户定义的关键字的关键字模型可併入有可在辨识用户时使用的用户特定的声学特征。在一个实施例中，电子装置100可经配置有用于使用包含在用于用户定义的关键字的关键字模型中的此类用户特定的声学特征进行用户验证的功能或应用程序。另外，除了用于用户定义的关键字的关键字模型以外，电子装置100还可包含用以验证用户的语音的用户验证模型。

为了用户验证，电子装置100可提供用户接口以从用户120接收指示用户定义的关键字的输入声音。举例来说，可在电子装置100的显示屏幕110上显示消息“用户验证…说出关键字”以从用户120接收指示用户定义的关键字的输入声音。从输入声音，电子装置100可基于用于用户定义的关键字的关键字模型而检测用户定义的关键字，且计算输入声音的匹配得分。当匹配得分高于关键字检测阈值时，电子装置100可确定输入声音包含用户定义的关键字。电子装置100接着可基于用户验证模型而对输入声音执行用户验证过程，且计算输入声音的用户验证得分。当用户验证得分高于用户验证阈值时，电子装置100可确定输入声音包含所记录用户的语音。替代地，电子装置100可在执行关键字检测过程之前执行用户验证过程。在一些实施例中，电子装置100可基于用于检测用户定义的关键字且验证所记录用户的语音的一个模型而执行关键字检测过程和用户验证过程。

图8说明根据本发明的一个实施例的经配置以生成用于用户定义的关键字的关键字模型且基于关键字模型而检测输入声音流中的用户定义的关键字的电子装置100的框图。电子装置100可包含声音传感器800、处理器810、I/O(输入/输出)单元830、通信单元832以及存储单元840。处理器810可包含混合声音生成单元828、子字辨识单元812、预调适单元814、用户定义的关键字模型生成单元816、语音检测器822、话音激活单元824以及话音辅助单元826。I/O单元830可包含显示屏幕110。显示屏幕110可为经配置以从用户接收触摸式输入的触摸显示器屏幕。

声音传感器800可经配置以从用户接收输入声音流。如本文所使用，术语“声音流”可指一或多个声音信号或声音数据序列。声音传感器800可包含一或多个麦克风或可用以接收、捕获、感测和/或检测输入到电子装置100的声音的任何其它类型的声音传感器。另外，声音传感器800可使用任何适合软件和/或硬件以执行此类功能。所接收的用户的输入声音流可存储于存储单元840中。声音传感器800可将所接收的用户的输入声音流提供到处理器810以用于处理。

在一个实施例中，声音传感器800可从用户接收包含指示用户定义的关键字的一或多个样本声音的输入声音流。在接收输入声音流后，声音传感器800即可通过使用任何适合终点检测算法检测输入声音流中的样本声音或独立发声中的每一者的起点和终点，来检测来自输入声音流的样本声音中的每一者。所检测到的样本声音可经提取且存储于存储单元840中。所提取的样本声音可提供到混合声音生成单元和/或子字辨识单元812。替代地，声音传感器800可将输入声音流提供到混合声音生成单元828，所述混合声音生成单元828可通过将至少一种类型的噪声添加到输入声音流来生成至少一个混合声音流。子字辨识单元812可从混合声音生成单元828接收混合声音流，且检测并提取来自混合声音流的嵌入有一或多种类型的噪声的样本声音中的每一者。

处理器810中的混合声音生成单元828可经配置以基于来自声音传感器800的所提取样本声音而生成一或多个混合样本声音。举例来说，可通过将至少一种类型的噪声添加到所提取样本声音来生成混合样本声音。所生成的混合样本声音可存储于存储单元840中。所生成的混合样本声音和/或来自声音传感器800的所提取样本声音可提供到子字辨识单元812。在一个实施例中，混合样本声音还可包含所提取样本声音的一或多个复本声音。

存储单元840可经配置以存储用于操作声音传感器800、处理器810、I/O单元830以及通信单元832的数据和指令，以及由声音传感器800所接收的输入声音流。存储单元840还可存储包含字典字词的发音数据的发音字典数据库。发音字典数据库可预存储在存储单元840中和/或经由通信单元832从外部服务器或装置(未示出)下载。存储单元840可使用例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)的任何合适存储装置或存储器装置实施。

存储单元840还可存储至少一个子字模型。子字模型可包含预存储在存储单元840中和/或经由通信单元832从外部服务器或装置(未示出)下载的至少一个子字模型。另外，子字模型可包含已通过预调适单元814从最初存储的子字模型调整的至少一个经调整子字模型。

在一些实施例中，根据由子字模型表示的子字的类型，子字模型可为基于音素的模型、基于音位的模型、基于三音素的模型、基于音节的模型等，且可包含子字单元列表和用于各子字单元的模型参数。可基于从子字的语音数据提取的特征向量而获得或估计所述模型参数。所述特征向量可包含梅尔(mel)频率倒谱系数(MFCC)、倒谱差分系数(ΔMFCC)、线性预测译码(LPC)系数、线谱对(LSP)系数和类似者中的至少一者。子字模型还可包含指示可合併到单个子字单元(例如，在子字经识别为类似的情况下，经合併子字单元中的一者)中的两个或多于两个子字单元的子字系结信息。当子字模型经预调适单元814调整时，除了子字模型以外，存储单元840还可存储经调整子字模型。

存储单元840还可存储用于检测预定关键字的一或多个关键字模型和用于检测用户定义的关键字的一或多个关键字模型。用于检测预定关键字的关键字模型可预存储在存储单元840中或经由通信单元832从外部服务器或装置(未示出)下载。在一个实施例中，关键字模型可包含子字序列，其包含多个部分(即，多个子字或子字单元)，所述子字序列可通过用户定义的关键字模型生成单元816从指示用户定义的关键字的一或多个样本声音确定。关键字模型还可包含与子字序列中的多个子字中的每一者相关联的模型参数，以及用于检测关键字的阈值得分。

在另一实施例中，关键字模型可包含子字网络。子字网络可包含多个节点和可连接多个节点的至少两个节点的多个线。关键字模型还可包含对应于子字网络的节点的至少一个图形模型，例如高斯混合模型(GMM)、隐式马尔可夫模型(HMM)、半马尔可夫模型(SMM)，和类似者。图形模型可包含许多状态和参数，例如转移概率、状态输出概率等。

存储单元840还可存储包含样本声音和用于样本声音的检测标记的检测历史数据库。举例来说，用于样本声音的检测标记可指示样本声音已被正确地检测为关键字语音还是非关键字语音。以类似方式，用于样本声音的检测标记可指示样本声音已被不正确地检测为关键字语音还是非关键字语音。检测标记可由用户经由I/O单元830提供，或在关键字检测过程期间确定。检测历史数据库可在对用于用户定义的关键字的关键字模型的区别训练中使用。存储单元840还可存储一或多个在发音学上平衡的语句(例如，哈佛语句)及其对应子字序列或网络。

处理器810中的子字辨识单元812可经配置以使用存储于存储单元840中的至少一个子字模型执行一或多个样本声音的子字辨识。在一个实施例中，子字辨识单元812可从声音传感器800接收包含一或多个样本声音的输入声音流，且使用任何适合终点检测算法从输入声音流提取样本声音中的每一者。替代地，可从混合声音生成单元828接收至少一个混合声音流，以使用任何适合终点检测算法从至少一个混合声音流提取可包含一或多种类型的噪声的样本声音中的每一者。在另一实施例中，子字辨识单元812可从声音传感器800接收一或多个样本声音，所述声音传感器800可从输入声音流提取样本声音。替代地，可从混合声音生成单元828接收一或多个混合样本声音。

对于所接收或提取的样本声音或混合样本声音，子字辨识单元812可对样本声音或混合样本声音中的每一者执行子字辨识。在一个实施例中，子字辨识单元812可对样本声音或混合样本声音中的每一者执行单音辨识，以生成样本声音或混合样本声音中的每一者的子字序列。举例来说，子字辨识单元812可分别从五个样本声音生成五个子字序列，如表1中所展示。

表1

序列号	子字序列
		序列1	sil a g i l m jv g c ju s i n sil
序列2	sil c ju n ju n o g c wi sil
		序列3	a g i n z u oi g sil
序列4	sil a n ju r o c ss i ng
		序列5	g a i g ee wv d c wi

在表1中，各序列中的两个子字之间的间距可区分两个子字。在所说明的子字序列中，子字单元“sil”可指示静默、静音或不存在声音。所生成的序列可提供到预调适单元814和用户定义的关键字模型生成单元816中的至少一者。

在一些实施例中，子字辨识单元812可在执行子字辨识时使用与用户定义的关键字的文本相关联的发音信息。举例来说，当从I/O单元830接收用户定义的关键字的文本时，子字辨识单元812可从存储于存储单元840中的发音字典数据库检索与用户定义的关键字相关联的发音信息。替代地，子字辨识单元812可与存储字典字词的发音数据或信息的外部服务器或装置(未示出)通信以检索与用户定义的关键字相关联的发音信息。接着可使用与用户定义的关键字的文本相关联的发音信息，来确定用于样本声音或混合样本声音中的每一者的用户定义的关键字的各子字序列。

预调适单元814可经配置以基于指示预定语句的至少一个样本声音而调整存储于存储单元840中的至少一个子字模型。预定语句可为在发音学上平衡的语句(例如，哈佛语句)中的至少一者，所述语句可使用处于与特定音位可在语言中呈现的频率相同或类似的频率下的所述音位。为了子字模型的预调适，声音传感器800可接收包含指示预定语句的至少一个样本声音的输入声音流。举例来说，可提示用户朗读可在显示屏幕110上显示的预定语句。当用户朗读预定语句时，预调适单元814可接收包含用户所朗读的预定语句的输入声音流，且从输入声音流提取声学特征。从所提取的声学特征，预调适单元814可调整来自存储单元840的子字模型，且将经调整的子字模型存储在存储单元840中。在一个实施例中，预调适单元814可基于所提取的声学特征和存储于存储单元840中的预定语句的子字序列而调整子字模型的模型参数。

在一些实施例中，当已生成用于用户定义的关键字的关键字模型而未预调适在生成用户定义的关键字中所使用的子字模型时，预调适单元814可基于经调整子字模型生成用于用户定义的关键字的新关键字模型。举例来说，预调适单元814可将信号传输到子字辨识单元812，以从存储单元840检索指示用户定义的关键字的一或多个样本声音且使用经调整子字模型对样本声音执行子字辨识。一旦子字辨识单元812生成样本声音的子字序列，预调适单元814便可传输指示用户定义的关键字模型生成单元816从子字辨识单元812接收所生成的子字序列且使用经调整子字模型生成用于用户定义的关键字的新关键字模型的信号。

用户定义的关键字模型生成单元816可经配置以基于来自子字辨识单元812的所生成子字序列而生成用于用户定义的关键字的关键字模型。用户定义的关键字模型生成单元816可从子字辨识单元812接收子字序列且从所接收的序列确定子字序列。在一个实施例中，可确定所述序列中的每一者的长度，且可选择具有最长长度的序列中的一者作为子字序列。各子字序列的长度可为各序列中的子字的数目。举例来说，可选择表1中的在五个序列当中具有最长长度的序列1作为子字序列。

另外或替代地，用户定义的关键字模型生成单元816可组合来自子字序列中的至少两者的多个部分(例如，多个子字)以生成子字序列。举例来说，给定两个子字序列，可识别序列中的一或多个相同子字和相关联位置。另外，可识别一个序列中的不在另一序列中的一或多个子字以及此类子字在序列中的位置。在此情况下，可根据相关联位置将相同子字序列化，且可基于相关联位置而将在一个序列中但不在另一序列中的一或多个子字插入到所述序列中。以此方式，用户定义的关键字模型生成单元816可通过根据序列中的相关联位置组合来自两个序列的经识别子字来确定子字序列。应了解，用户定义的关键字模型生成单元816还可从任何合适数目个子字序列生成子字序列。

在一些实施例中，一旦已确定子字序列，用户定义的关键字模型生成单元816便可通过将针对静默的子字添加到子字序列的开始处或结束处来修改子字序列。举例来说，当针对静默的子字在子字序列的开始处不存在时，可将针对静默的子字添加到子字序列的开始处。类似地，当针对静默的子字在子字序列的结束处不存在时，可将针对静默的子字添加到子字序列的结束处。

基于子字序列和来自存储单元840的至少一个子字模型，用户定义的关键字模型生成单元816可生成用于与一或多个样本声音相关联的用户定义的关键字的关键字模型。在此过程中，用户定义的关键字模型生成单元816可从子字模型检索与子字序列中的子字中的每一者相关联的模型参数。子字序列和与所确定的子字序列中的子字中的每一者相关联的所检索模型参数接着可经指定且输出为用于用户定义的关键字的关键字模型。在一个实施例中，用户定义的关键字模型生成单元816可基于子字序列和/或指示用户定义的关键字的一或多个样本声音而调整来自存储单元840的至少一个子字模型，且将经调整子字模型存储在存储单元840中。

用户定义的关键字模型生成单元816可通过基于从子字辨识单元812接收的多个子字序列生成子字网络，来生成用于用户定义的关键字的关键字模型。在一个实施例中，用户定义的关键字模型生成单元816可通过依据例如隐式马尔可夫模型(HMM)、半马尔可夫模型(SMM)或其组合的图形模型，将子字序列组合成包含多个节点和可连接所述多个节点的至少两个节点的多个线的单个网络，来生成子字网络。用户定义的关键字模型生成单元816还可通过基于任何适合图表合并算法将两个或多于两个类似节点合并成单个节点(例如，类似节点中的一者)，来修剪(例如，减小)子字网络。子字网络中的多个节点和对应于子字网络中的节点的至少一个图形模型(例如，高斯混合模型(GMM)、隐式马尔可夫模型(HMM)、神经网络和类似者)接着可经指定且输出为用于用户定义的关键字的关键字模型。

在一些实施例中，I/O单元830可从用户接收指定供在生成关键字模型时使用的用户定义的关键字的文本。用户定义的关键字的文本接着可提供到用户定义的关键字模型生成单元816。在接收指定用户定义的关键字的文本后，用户定义的关键字模型生成单元816即可将用户定义的关键字的文本转换成指示用户定义的关键字的子字序列。在一个实施例中，可通过存取存储于存储单元840中的发音字典数据库，基于与用户定义的关键字的文本相关联的发音信息而确定用于用户定义的关键字的子字序列。替代地，用户定义的关键字模型生成单元816可与存储字典字词的发音数据或信息的外部服务器或装置(未示出)通信，以接收与用户定义的关键字的文本相关联的发音信息。当用户定义的关键字的文本不匹配发音字典数据库中的任何字典字词时，用户定义的关键字模型生成单元816可通过基于任何适合语言和/或发音规则而确定发音且基于发音而确定子字序列，来生成子字序列。

为提高检测用户定义的关键字的准确性，用户定义的关键字模型生成单元816可确定指示检测用户定义的关键字的置信度水平的阈值得分。最初，用户定义的关键字模型生成单元816可基于与用户定义的关键字相关联的关键字模型而计算指示从用户接收的用户定义的关键字的一或多个样本声音中的每一者的匹配得分。基于所计算的各样本声音的匹配得分，可确定检测用户定义的关键字的阈值得分。举例来说，表1中的五个序列的匹配得分可分别经确定为9.5、9.0、8.3、6.5和6。在此情况下，阈值得分可经确定为小于五个匹配得分的得分(例如，5.0)且用于检测输入声音流中的用户定义的关键字。

在另一个实施例中，混合声音生成单元828可通过将至少一种类型的噪声添加到从用户接收且指示用户定义的关键字的样本声音来生成一或多个混合样本声音。用户定义的关键字模型生成单元816可接收混合样本声音且计算混合样本声音中的每一者的匹配得分。接着可基于所计算的样本声音和混合样本声音中的每一者的匹配得分而确定用于检测用户定义的关键字的阈值得分。在此情况下，阈值得分可经确定为小于样本声音和混合样本声音的所有匹配得分的得分。

用户定义的关键字模型生成单元816可调整用户定义的关键字的阈值得分。为调整阈值得分，声音传感器800可接收指示用户定义的关键字的输入声音流作为测试输入声音。在接收测试输入声音后，用户定义的关键字模型生成单元816可从测试输入声音依序提取多个声音特征且计算所提取的声音特征与用于用户定义的关键字的关键字模型中的子字序列或网络之间的匹配得分。基于所计算的匹配得分，可调整用于检测用户定义的关键字的阈值得分。举例来说，当所计算的匹配得分为4.5时，用户定义的关键字模型生成单元816可将阈值得分从5.0调整到小于4.5的得分(例如，4)。

在一个实施例中，用户定义的关键字模型生成单元816可传输指示子字辨识单元812对指示用户定义的关键字的测试输入声音执行子字辨识的信号。作为响应，子字辨识单元812可基于测试输入声音而生成子字序列。用户定义的关键字模型生成单元816接着可从子字辨识单元812接收所生成的子字序列，且基于所生成的子字序列而更新用于用户定义的关键字的关键字模型。

一旦已生成用于检测用户定义的关键字的关键字模型，用户定义的关键字模型生成单元816便可执行对关键字模型的区别训练以提高检测用户定义的关键字的准确性。在此过程中，用户定义的关键字模型生成单元816可从存储单元840存取检测历史数据库，且基于样本声音的检测标记而识别与预定关键字相关联且经不正确地检测为包含用户定义的关键字的一或多个样本声音。另外，可基于样本声音的检测标记而识别与用户定义的关键字相关联但未被正确地检测为包含用户定义的关键字的一或多个样本声音。用户定义的关键字模型生成单元816接着可配置关键字模型以使得与预定关键字相关联的已经不正确地检测的样本声音不被检测为包含用户定义的关键字，且与用户定义的关键字相关联的未经正确地检测到的样本声音被检测为包含用户定义的关键字。

语音检测器822可经配置以确定声音传感器800所接收的输入声音流是否包含所关注的声音(例如，语音)。在一个实施例中，声音传感器800可根据工作循环周期性地接收指示用户定义的关键字或预定关键字的输入声音流。举例来说，声音传感器800可在10％工作循环上操作，以使得声音传感器800在10％的时间(例如，200ms周期中的20ms)接收输入声音流。在此情况下，声音传感器800可分析输入声音流的所接收的部分的信号特性且确定输入声音流的所接收的部分是否超过阈值声音强度。当输入声音流的所接收的部分经确定为超过阈值声音强度的声音时，声音传感器800可激活语音检测器822且将所接收的部分提供到语音检测器822。替代地，在不确定所接收的部分是否超过阈值声音强度的情况下，声音传感器800可周期性地接收输入声音流的一部分且激活语音检测器822以将所接收的部分提供到语音检测器822。

语音检测器822在被激活时可从声音传感器800接收输入声音流的部分。在一个实施例中，语音检测器822可从所接收的部分提取一或多个声音特征，且通过使用任何适合声音分类方法(例如，基于高斯混合模型(GMM)的分类器、神经网络、HMM、图形模型和支持向量机(SVM)技术)来确定所提取的声音特征是否指示所关注的声音(例如语音)。如果所接收的部分被确定为所关注的声音，那么语音检测器822可激活话音激活单元824，且输入声音流的所接收的部分和剩余部分可提供到话音激活单元824。在一些其它实施例中，可在处理器中省略语音检测器822。在此情况下，当所接收的部分超出阈值声音强度时，声音传感器800可激活话音激活单元824并且将输入声音流的所接收的部分和其余部分直接提供给话音激活单元824。

话音激活单元824在被激活时可经配置以接收输入声音流，且基于用于至少一个用户定义的关键字和至少一个预定关键字的关键字模型而检测至少一个用户定义的关键字或至少一个预定关键字。举例来说，话音激活单元824可从输入声音流依序提取多个声音特征且基于关键字模型而确定至少一个关键字(包含至少一个用户定义的关键字和至少一个预定关键字)的匹配得分。如果至少一个关键字的匹配得分超过与至少一个关键字相关联的阈值得分，那么话音激活单元824可将输入声音流检测为包含至少一个关键字。根据一个实施例，话音激活单元824可将输入声音流和输入声音流的检测标记存储在存储单元840的检测历史数据库中。举例来说，当匹配得分超过可经设置为高于阈值得分的值的高置信度阈值时，可生成指示样本声音已经正确地检测为关键字语音的检测标记，并且将所述检测标记与输入声音流一起存储在存储单元840中。以类似方式，当匹配得分低于可经设置为低于阈值得分的值的低置信度阈值时，可生成指示样本声音已经正确地检测为非关键字语音的检测标记，并且将所述检测标记与输入声音流一起存储在存储单元840中。另外，可由用户经由I/O单元830提供输入声音流的检测标记。

在检测到关键字后，话音激活单元824可执行与关键字相关联的功能或激活与关键字相关联的应用程序。另外或替代地，话音激活单元824可生成且传输激活信号以接通可与所检测到的关键字相关联的话音辅助单元826。可响应于来自话音激活单元824的激活信号而激活话音辅助单元826。一旦激活，话音辅助单元826便可通过在显示屏幕110上和/或经由I/O单元830的扬声器输出消息(例如“我可以帮助你吗？”)来执行话音辅助功能。作为响应，用户可说出话音命令以激活电子装置100的各种相关联功能。举例来说，当接收用于因特网搜索的话音命令时，话音辅助单元826可将话音命令辨识为搜索命令且经由通信单元832执行网络搜索。

图9为根据本发明的一个实施例的在电子装置100中执行的用于从指示用户定义的关键字的至少一个输入生成用户定义的关键字的关键字模型的方法900的流程图。最初，在910处，电子装置100可接收指示用户定义的关键字的至少一个输入。所述至少一个输入可包含用户定义的关键字的文本和指示用户定义的关键字的至少一个样本声音中的至少一者。在920处，电子装置100可从所述至少一个输入确定子字序列。在930处，电子装置100可基于子字序列和子字的子字模型而生成与用户定义的关键字相关联的关键字模型。在940处，电子装置100可将与用户定义的关键字相关联的关键字模型提供到经配置有与预定关键字相关联的关键字模型的话音激活单元。

图10为根据本发明的一个实施例的在电子装置100中执行的用于从指示用户定义的关键字的至少一个样本声音生成用户定义的关键字的关键字模型的方法1000的流程图。最初，在1010处，电子装置100可接收指示用户定义的关键字的至少一个样本声音。在1020处，电子装置100可基于子字模型而从至少一个样本声音生成至少一个子字序列。在1030处，电子装置100可基于至少一个子字序列而确定子字序列。在1040处，电子装置100可基于子字序列和子字模型而生成与用户定义的关键字相关联的关键字模型。在1050处，电子装置100可将与用户定义的关键字相关联的关键字模型提供到经配置有用于预定关键字的经训练关键字模型的话音激活单元。

图11为根据本发明的一个实施例的在电子装置100中执行的用于调整在生成用于检测用户定义的关键字的关键字模型时使用的子字模型的方法1100的流程图。在1110处，电子装置100可在电子装置100的显示屏幕110上输出至少一个语句。所述至少一个语句可为在发音学上平衡的语句(例如，哈佛语句)中的至少一者，所述语句可使用处于与特定音位在语言中呈现的频率相同或类似的频率下的所述特定音位。在1120处，电子装置100可接收至少一个语句的输入声音。在1130处，电子装置100可基于所述输入声音而调整子字模型。

图12为根据本发明的一个实施例的在电子装置100中执行的用于基于输入声音而调整用于检测用户定义的关键字的阈值得分的方法1200的流程图。在1210处，电子装置100可确定与用户定义的关键字相关联的关键字模型的阈值得分。在1220处，电子装置100可接收指示用户定义的关键字的测试输入声音。在1230处，电子装置100可基于与用户定义的关键字相关联的关键字模型而确定测试输入声音的匹配得分。在1240处，基于匹配得分，电子装置100可调整与用户定义的关键字相关联的关键字模型的阈值得分。

图13为根据本发明的一些实施例的其中可实施用于生成在检测用户定义的关键字时使用的关键字模型的方法和设备的示例性电子装置1300的框图。可根据参考图1到12描述的上述实施例，在电子装置中实施电子装置1300的配置。电子装置1300可为蜂窝式电话、智能电话、平板计算机、膝上型计算机、终端、手机、个人数字助理(PDA)、无线调制解调器、无线电话等。无线通信系统可为码分多址接入(CDMA)系统、移动通信(GSM)系统的广播系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、高级LTE系统等。另外，电子装置1300可(例如)使用Wi-Fi Direct或蓝牙直接与另一移动装置通信。

电子装置1300能够经由接收路径和发射路径提供双向通信。在接收路径上，基站所发射信号被天线1312接收且提供到接收器(RCVR)1314。接收器1314调节且数字化所接收的信号且将样本(例如经调节且经数字化的数字信号)提供到数字区段以用于进一步处理。在发射路径上，发射器(TMTR)1316从数字区段1320接收待发射的数据，处理并调节所述数据，且生成经调制信号，所述经调制信号经由天线1312发射到基站。接收器1314和发射器1316可为可支持CDMA、GSM、LTE、高级LTE等的收发器的一部分。

数字区段1320包含各种处理、接口和存储器单元，例如，调制解调器处理器1322、精简指令集计算机/数字信号处理器(RISC/DSP)1324、控制器/处理器1326、内部存储器1328、广义音频/视频编码器1332、广义音频解码器1334、图形/显示处理器1336，以及外部总线接口(EBI)1338。调制解调器处理器1322可执行用于数据发射和接收的处理，例如，编码、调制、解调和解码。RISC/DSP 1324可执行针对电子装置1300的通用和专用处理。控制器/处理器1326可执行数字区段1320内的各个处理和接口单元的操作。内部存储器1328可将用于各个单元的数据和/或指令存储在数字区段1320内。

广义音频/视频编码器1332可执行对来自音频/视频源1342、麦克风1344和图像传感器1346等的输入信号的编码。广义音频解码器1334可执行对经译码音频数据的解码且可将输出信号提供到扬声器/耳机1348。图形/显示处理器1036可执行对可呈现给显示单元1350的图形、视频、图像和文本的处理。EBI 1338可促进数字区段1320与主存储器1352之间的数据传送。

数字区段1320可通过一或多个处理器、DSP、微处理器、RISC等实施。数字区段1320还可制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。

一般来说，本文中所描述的任何装置可表示各种类型的装置，例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等。装置可具有各种名称，例如存取终端(AT)、存取单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。

可通过各种手段实施本文中所描述的技术。举例来说，这些技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解，结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的此可互换性，上文已大体上关于其功能性描述了各种说明性组件、块、模块、电路和步骤。此功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为引起偏离本发明的范围。

对于硬件实施方案，用以执行所述技术的处理单元可实施在以下各者内：一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合。

因此，结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心，或任何其它此类配置。

如果实施于软件中，那么可将功能作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。计算机可读媒体包含计算机存储媒体与通信媒体两者，所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可以是可由计算机存取的任何可用媒体。借助于实例而非限制，此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以携载或存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外，任何连接都恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射软件，则同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

提供本发明的前述描述以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改，且本文中定义的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此，本发明并不意在限于本文中所描述的实例，而应符合与本文中所揭示的原理和新颖特征相一致的最广泛范围。

尽管参考了在一或多个独立计算机系统的背景下利用当前揭示的主题的方面的示例性实施方案，但所述主题不受如此限制，而是可结合任何计算环境(例如网络或分布式计算环境)来实施。此外，当前揭示的主题的方面可以在多个处理芯片或装置中或跨越多个处理芯片或装置实施，且可类似地跨越多个装置实现存储。此类装置可包含PC、网络服务器和手持式装置。

尽管已经以特定地针对结构特征和/或方法动作的语言来描述主题，但应理解，所附权利要求书中所界定的主题未必限于上文所描述的具体特征或动作。事实上，上文所描述的特定特征和动作是被揭示作为实施权利要求书的实例形式。

Claims

1.一种在电子装置中执行的用于生成用户定义的关键字的关键字模型的方法，所述方法包括：

接收指示所述用户定义的关键字的至少一个语音输入；

从所述至少一个语音输入确定至少一个子字序列；

获得一组子字模型，所述组子字模型包含针对所述至少一个子字序列的每一子字的子字模型；

通过基于所述至少一个语音输入调节所述组子字模型的至少一个子字模型而生成一组经修改的子字模型；

基于所述组经修改的子字模型而生成与所述用户定义的关键字相关联的关键字模型；以及

将与所述用户定义的关键字相关联的所述关键字模型提供到话音激活单元，

其中，在基于所述组经修改的子字模型而生成与所述用户定义的关键字相关联的关键字模型之后，所述方法还包括：

存取检测历史数据库；

基于所述检测历史数据库中的样本声音的检测标记而识别与预定关键字相关联且经不正确地检测为包含所述用户定义的关键字的一个或多个样本声音并且识别与所述用户定义的关键字相关联但未被正确地检测为包含所述用户定义的关键字的一个或多个样本声音；

配置所述关键字模型以使得与所述预定关键字相关联且经不正确地检测的一个或多个样本声音不被检测为包含所述用户定义的关键字，且与所述用户定义的关键字相关联但未被正确地检测的一个或多个样本声音被检测为包含所述用户定义的关键字。

2.根据权利要求1所述的方法，其进一步包括：

接收输入声音；以及

基于与所述用户定义的关键字相关联的所述关键字模型而检测所述输入声音中的所述用户定义的关键字。

3.根据权利要求2所述的方法，其进一步包括：

执行与所述用户定义的关键字相关联的功能以激活与所述用户定义的关键字相关联的应用程序。

4.根据权利要求1所述的方法，其进一步包括从所述至少一个语音输入提取至少一个声学特征。

5.根据权利要求1所述的方法，其中生成与所述用户定义的关键字相关联的所述关键字模型包括确定与所述用户定义的关键字相关联的所述关键字模型的阈值得分。

6.根据权利要求5所述的方法，其中通过以下步骤调整与所述用户定义的关键字相关联的所述关键字模型：

接收指示所述用户定义的关键字的测试输入声音；

基于与所述用户定义的关键字相关联的所述关键字模型而确定所述测试输入声音的匹配得分；以及

基于所述匹配得分而调整与所述用户定义的关键字相关联的所述关键字模型的所述阈值得分。

7.根据权利要求1所述的方法，其进一步包括将与所述用户定义的关键字相关联的所述关键字模型存储在存储单元处。

8.根据权利要求1所述的方法，其中所述至少一个语音输入包含指示所述用户定义的关键字的至少一个样本声音。

9.根据权利要求8所述的方法，其中确定所述至少一个子字序列包括从所述至少一个样本声音生成所述至少一个子字序列。

10.根据权利要求9所述的方法，其中所述至少一个子字序列中的每一子字包含音素、音位和音节中的至少一者。

11.根据权利要求8所述的方法，其进一步包括：

通过混合所述至少一个样本声音与至少一种类型的噪声生成至少一个混合样本声音。

12.根据权利要求11所述的方法，其中从所述至少一个语音输入确定所述至少一个子字序列进一步基于所述至少一个混合样本声音。

13.根据权利要求11所述的方法，其中生成与所述用户定义的关键字相关联的所述关键字模型包括：

基于所述组经修改的子字模型和所述至少一个混合样本声音而生成与所述用户定义的关键字相关联的所述关键字模型。

14.根据权利要求1所述的方法，其中生成所述组经修改的子字模型进一步包括将静默部分作为子字单元添加到所述至少一个子字序列的开始处或结束处。

15.根据权利要求3所述的方法，其中所述应用程序包括经配置以输出消息的话音辅助应用程序。

16.根据权利要求4所述的方法，其中所述调节所述组子字模型的所述至少一个子字模型是基于经提取的至少一个声学特征。

17.一种用于生成用户定义的关键字的关键字模型的电子装置，其包括：

输入单元，其经配置以接收指示所述用户定义的关键字的至少一个语音输入；

话音激活单元，其经配置有与所述用户定义的关键字相关联的关键字模型；以及

用户定义的关键字模型生成单元，其经配置以：

从所述至少一个语音输入确定至少一个子字序列；

将与所述用户定义的关键字相关联的所述关键字模型提供到所述话音激活单元，

其中，在基于所述组经修改的子字模型而生成与所述用户定义的关键字相关联的关键字模型之后，所述用户定义的关键字模型生成单元进一步配置以：

存取检测历史数据库；

18.根据权利要求17所述的电子装置，其中所述输入单元包含声音传感器，所述声音传感器经配置以接收指示所述用户定义的关键字的至少一个输入。

19.根据权利要求18所述的电子装置，其进一步包括子字辨识单元，所述子字辨识单元经配置以基于与所述用户定义的关键字相关联的所述关键字模型而检测所述至少一个输入中的所述用户定义的关键字。

20.根据权利要求18所述的电子装置，其进一步包括混合声音生成单元，所述混合声音生成单元经配置以通过混合所述至少一个样本声音与至少一种类型的噪声来生成至少一个混合样本声音。

21.根据权利要求17所述的电子装置，其中所述话音激活单元经配置以基于与所述用户定义的关键字相关联的所述关键字模型而检测输入声音中的所述用户定义的关键字。

22.根据权利要求17所述的电子装置，其中所述话音激活单元经配置以执行与所述用户定义的关键字相关联的功能以激活与所述用户定义的关键字相关联的应用程序。

23.根据权利要求18所述的电子装置，其进一步包括预调适单元，所述预调适单元经配置以将静默部分作为子字单元添加到所述至少一个子字序列的开始处或结束处。

24.根据权利要求17所述的电子装置，其中所述用户定义的关键字模型生成单元经配置以确定与所述用户定义的关键字相关联的所述关键字模型的阈值得分。

25.根据权利要求24所述的电子装置，其中所述用户定义的关键字模型生成单元经配置以：

基于与所述用户定义的关键字相关联的所述关键字模型而确定声音传感器所接收的指示所述用户定义的关键字的测试输入声音的匹配得分；以及

26.根据权利要求17所述的电子装置，其中所述输入单元经配置以从所述至少一个语音输入提取至少一个声学特征。

27.一种存储用于在电子装置中生成用户定义的关键字的关键字模型的指令的非暂时性计算机可读存储媒体，所述指令致使处理器执行如权利要求1-16中任何一个所述的方法。

28.一种用于生成用户定义的关键字的关键字模型的电子装置，其包括：

用于接收指示所述用户定义的关键字的至少一个语音输入的装置；

用于从所述至少一个语音输入确定至少一个子字序列的装置；

用于获得一组子字模型的装置，所述组子字模型包含针对所述至少一个子字序列的每一子字的子字模型；

用于通过基于所述至少一个语音输入调节所述组子字模型的至少一个子字模型而生成一组经修改的子字模型的装置；

用于基于所述组经修改的子字模型而生成与所述用户定义的关键字相关联的关键字模型的装置；

用于将与所述用户定义的关键字相关联的所述关键字模型提供到话音激活单元的装置；

用于存取检测历史数据库的装置；

基于所述检测历史数据库中的样本声音的检测标记而识别与预定关键字相关联且经不正确地检测为包含所述用户定义的关键字的一个或多个样本声音并且识别与所述用户定义的关键字相关联但未被正确地检测为包含所述用户定义的关键字的一个或多个样本声音的装置；

用于配置所述关键字模型以使得与所述预定关键字相关联且经不正确地检测的一个或多个样本声音不被检测为包含所述用户定义的关键字，且与所述用户定义的关键字相关联但未被正确地检测的一个或多个样本声音被检测为包含所述用户定义的关键字的装置。

29.根据权利要求28所述的电子装置，其中所述至少一个语音输入包含指示所述用户定义的关键字的至少一个样本声音。

30.根据权利要求29所述的电子装置，其进一步包括：

用于通过混合所述至少一个样本声音与至少一种类型的噪声生成至少一个混合样本声音的装置。