CN1764943A

CN1764943A - 依赖于说话人识别语音的方法和语音识别系统

Info

Publication number: CN1764943A
Application number: CNA2004800078941A
Authority: CN
Inventors: R·奥保尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-03-25
Filing date: 2004-03-03
Publication date: 2006-04-26
Anticipated expiration: 2024-03-03
Also published as: KR20060014369A; ES2278308T3; KR100742408B1; EP1606794A1; JP4437119B2; DE502004002300D1; US20070100632A1; DE10313310A1; US7835913B2; JP2006514753A; EP1606794B1; WO2004086360A1; JP2009211103A; CN100559464C

Abstract

在一种用于利用语音识别系统来依赖于说话人识别语音的方法中，其中训练用户的语音表达并且给所训练的语音表达分配指令，通过以下方式来解决节省时间地执行训练新指令(5)的任务，即在未识别出(3)语音表达时，通过语音识别系统建议用户直接将语音表达分配给新的指令(9)。

Description

依赖于说话人识别语音的方法和语音识别系统

本发明涉及一种用于利用语音识别系统来依赖于说话人识别语音的方法，其中训练用户的语音表达(Sprachuβerung)并且给所训练的语音表达分配指令，以及涉及一种用于执行该方法的语音识别系统。

按照现有技术将这种方法划分成语音识别模式和训练模式。在语音识别模式下，采集用户的语音表达，于是在数据库中找到分配给该语音表达的指令，只要该语音表达显示出与属于该指令的并且在以前的时刻所录制和存储的语音表达的足够的一致性。在语音识别模式下，不能在新的语音表达和新的指令之间进行新的分配。更确切地说，在训练模式下实现这些过程，其中用户说出语音表达，并且在录制了这些语音表达之后给每个单个语音表达分配指令。在数据库中存储所获得的分配。所分配的指令例如可以是通信网用户的拨号过程，或者可以是语音控制指令。

按照现有技术的方法具有以下缺点，即就每次必须由用户主动地从语音识别模式转换到训练模式这点而言，新的指令的训练是麻烦的。这也负面地影响语音识别系统在市场上的认可度。

由此出发，本发明所基于的任务在于给出一种用于依赖于说话人识别语音的方法以及一种用于此的语音识别系统，其中可以节省时间地执行新的指令的训练。

该任务在文章开头所述的那种方法方面通过以下方式来解决，即在未识别出语音表达时，通过语音识别系统向用户建议，将该语音表达直接分配给新的指令。

在执行本方法时，语音识别系统总是处于语音识别模式下，其中但是提供以下选择，即在未识别出语音表达时直接进行新的指令分配。以此方式将新的指令的训练结合到语音识别本身中，并且当未识别出语音表达时，则可以进行新的指令的训练。如果例如用户恰好处于他想训练用于语音识别系统的新的指令的情况下，则清晰地说出迄今未使用的语音表达就足够了，在此之后语音识别系统确定未识别出该新的语音表达，然后提供将该新的语音表达分配给新的指令的选择。在进行了分配之后可以直接实施该指令。

在一种优选的实施形式中，在未识别出语音表达时，用户可以通过语音识别系统可选地重复语音表达或者将该语音表达分配给新的指令。该实施形式考虑到以下事实，即一种语音表达可能恰好位于与一种已经被分配给所希望的指令的语音表达的相似范围之外。在此情况下，不打算将新的语音表达分配给新的指令。更确切地说，必须重复该语音表达，以便与已经训练的指令相联系。

关于语音识别系统的初始状态，优选地针对本方法规定，在还未给语音表达分配指令的情况下，语音识别系统在其激活之后立即提供新的指令的训练。当语音识别系统自然地未识别出第一语音表达并且提供训练新的指令的选择时，这自动地发生。

在另一种实施形式中可以规定，在针对已经训练的指令而未识别出语音表达时，用户可以通过语音识别系统选择指令并且将该语音表达分配给该指令。这涉及以下情况，即在包含语音表达和所属的所训练的指令之间的分配的数据库中存在语音表达的“不良的”版本，以致语音识别常常失败。在此情况下，可以给已经训练的指令分配新的语音表达。

优选地为识别语音表达而生成分配给该语音表达的语音模型。于是在数据库中也采用这种语音模型，该语音模型基于语音表达的主要语音特征的提取，该数据库在此情况下包含语音模型和所训练的指令之间的分配。在语音表达的录制之后将每种语音表达转换成语音模型，然后进一步处理该语音模型，例如用于以下决策，即它是否是可识别的，也就是说它是否已经存在于数据库中的语音模型的相似范围之内。

在这方面，看作优选的是，在向语音表达分配指令之前检查，该语音表达是否与以前存储的语音表达相似。以此方式避免在语音识别时出现不同指令之间的混淆，因为分别所属的语音表达彼此太相似了。为此可以例如在采用语音模型的提取特征的情况下定义允许的相似范围。

上述任务在语音识别系统方面通过用于依赖于说话人识别语音的语音识别系统来解决，该语音识别系统具有：用于录制语音识别系统的用户的语音表达的语音录制设备；被构造用于访问包含语音表达和指令之间的分配的数据库以便找到分配给语音表达的指令的搜索机；用于转换基于语音表达所找到的指令的转换设备，其中如此来构造该语音识别系统，使得在未识别出语音表达时通过该语音识别系统来建议用户，将该语音表达直接分配给新的指令。

这种语音识别系统允许执行上述方法，并且相对于已知的语音识别系统其特征在于，在语音识别模式之内能够实现新的指令的训练。

语音录制设备优选地与存储器相连接，在该存储器中暂存语音表达，并且该存储器与数据库相连接，以便将语音表达读入数据库中。在已知的语音识别系统中情况不是如此，因为在那里对于训练模式而言直接访问数据库，而在语音识别模式下，虽然针对搜索机功能而暂存语音表达，但是之后所使用的存储器不是被构造/连接用于将语音表达读入数据库中。

优选地在语音录制设备和存储器之间设置用于由语音表达生成语音模型的特征提取设备，并且语音模型代替语音表达。

已经在上面借助用于依赖于说话人识别语音的方法的说明，阐述了语音识别系统的其它优点和特征。

以下还将借助附图详细地阐述本发明的实施例。唯一的图展示了用于依赖于说话人识别语音的方法的流程图。

从现在起，借助图1来阐述一种用于借助语音识别系统依赖于说话人来识别语音的方法。在启动例如被实现为具有显示设备的计算机系统的语音识别系统之后，首先给用户显示合适的用户界面，该用户界面还包含用于录制语音表达的激活(“按键通话”激活)。在第一方法步骤1中录制用户/说话人的语音表达，也就是借助合适的语音录制设备来实现。在第二步骤2中借助特征提取设备生成语音表达的语音模型，其中通过所提取的表示特征的语音特征的组合来定义语音模型。在存储器中暂存该语音模型。

在第三步骤3中，借助搜索机来询问，在数据库中是否包含所生成的语音模型，其中该数据库包含语音模型和指令之间的分配。该数据库在语音识别系统的训练模式下配备有内容，其中该训练模式被集成到语音识别的过程中。如果将语音模型识别为在数据库中已经存在并且找到了所属的指令，则在第四步骤中实施该指令，在此之后终止语音识别系统的运行过程。在此情况下，自动地进行本实施例中从步骤1直至步骤4的流程。

如果在步骤3中未识别出所生成的语音模型，用户则通过计算机系统的用户界面获得给未识别出的语音模型或未识别出的语音表达分配新的指令的选择。这在本方法的第五步骤5中实现。在此，只要新的指令的分配是所希望的或自动引起的，语音识别系统就被转换到训练模式下。替代第五步骤5，用户也可以借助用户界面来触发新的语音表达录制，使得返回到第一步骤1，以便重复语音表达。

如果选择向未识别出的语音模型分配新的指令，则在第六步骤6中进行语音表达的录制，该语音表达相当于第一步骤中未识别出的语音表达。紧接着在第七步骤7中，由在第六步骤6中所录制的语音表达生成语音模型，也就是以与在上述第二步骤2中相同的方式生成语音模型。

在第八步骤8中，执行来自第七步骤7的新的语音模型和来自第二步骤2的语音模型之间的相似性检查。如果在两个语音模型之间不存在所希望的一致性量度，则本方法重新开始，直至对于在第二步骤2中和在第七步骤7中所生成的语音模型的相似性而言存在令人满意的结果为止。在此情况下可以跳过第三步骤3和第五步骤5。

在第八步骤8中也可以如下进行相似性检查，即新录制的语音表达的语音模型是否相对于已经在数据库中存在的语音模型保持足够的距离。在否定的情况下，可以要求用户将另一种语音表达用于新指令的分配。针对该新的语音表达，本方法重新开始。

紧接着在第九步骤9中，给在第二步骤2中所生成的语音模型分配指令，也就是通过用户借助语音识别系统的用户界面进行合适的选择来实现。为此，从存储器中读出语音模型，其中该语音模型在第二步骤2中被暂存在该存储器中，使该语音模型与在步骤7中所生成的语音模型例如通过两个语音模型的各个特性的平均值计算而适当地相联系，并且与新的指令一起写入数据库中。

在最后的步骤10中实施新分配的指令，在此之后结束具有集成的训练模式的语音识别过程。

要强调的是，借助用于转换指令的转换设备来进行在第四和最后步骤中实现的指令实施。指令可以例如是通信网络中电话号码的拨打，或者可以是语音指令，利用该语音指令来控制连接到网络上的设备。

当然在本方法的一种简化的实施形式中，在按照第九步骤9分配指令时，可以舍弃前面的步骤6至8的执行。以此方式，直接按照来自第五步骤5的询问来进行指令的分配。也可以在执行本方法时舍弃新训练的指令的直接实施(第十步骤)。

Claims

1.用于利用语音识别系统来依赖于说话人识别语音的方法，其中训练用户的语音表达并且给所训练的语音表达分配指令，

其特征在于，

在未识别出语音表达时，通过所述语音识别系统来建议所述用户，直接将所述语音表达分配给新的指令。

2.按权利要求1的方法，其特征在于，在未识别出语音表达时，所述用户可以通过所述语音识别系统可选地重复所述语音表达或者将所述语音表达分配给新的指令。

3.按权利要求1或2之一的方法，其特征在于，在还未给语音表达分配指令的情况下，所述语音识别系统在其激活之后提供新的指令的训练。

4.按权利要求1至3之一的方法，其特征在于，在针对已经训练的指令而未识别出语音表达时，所述用户可以通过所述语音识别系统选择所述指令，并且可以给所述指令分配所述语音表达。

5.按权利要求1至4之一的方法，其特征在于，为了识别语音表达，生成分配给所述语音表达的语音模型。

6.按权利要求1至5之一的方法，其特征在于，在向语音表达分配指令之前检查，所述语音表达是否与以前存储的语音表达相似。

7.用于依赖于说话人识别语音的语音识别系统，具有：

语音录制设备，用于录制所述语音识别系统的用户的语音表达，

搜索机，该搜索机被构造用于访问包含语音表达和指令之间的分配的数据库，以便找到分配给所述语音表达的指令，

转换设备，用于转换基于所述语音表达所找到的指令，

其特征在于，

如此来构造所述语音识别系统，使得在未识别出语音表达时，通过所述语音识别系统建议所述用户，将所述语音表达直接分配给新的指令。

8.按权利要求7的语音识别系统，其特征在于，所述语音录制设备与存储器相连接，在所述存储器中暂存所述语音表达，并且所述存储器与所述数据库相连接，以便将所述语音表达读入所述数据库中。

9.按权利要求7或8之一的语音识别系统，其特征在于，在所述语音录制设备和所述存储器之间设置有用于由所述语音表达生成语音模型的特征提取设备，并且所述语音模型代替所述语音表达。