CN1282151C

CN1282151C - 语音识别设备和语音识别方法

Info

Publication number: CN1282151C
Application number: CN03138149.9A
Authority: CN
Inventors: 小林载; 外山聪一
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-05-27
Filing date: 2003-05-27
Publication date: 2006-10-25
Anticipated expiration: 2023-05-27
Also published as: EP1376537A3; US20030220792A1; EP1376537A2; CN1462995A; DE60327020D1; EP1376537B1

Abstract

一种语音识别装置包括：HMM模型数据库(106)，预存表示待识别关键词的特征图型的关键词HMM；似然性计算器，通过将每个帧中的语音信号的所提取特征值与关键词HMM和指定语音HMM进行比较来计算其似然性；无关语音似然性设置装置(108)，基于与指定语音HMM匹配的所计算似然性来设置无关语音似然性；匹配处理器，基于所计算的似然性和无关语音似然性来执行匹配过程；以及确定装置，基于匹配过程来确定包含在自然语音中的关键词。

Description

语音识别设备和语音识别方法

技术领域

本发明涉及有关通过HMM(隐马尔可夫模型)方法进行语音识别的技术领域，具体而言，涉及有关识别出自自然语音的关键词的技术领域。

背景技术

近些年来，已开发了识别人发出的自然语音的语音识别设备。当人说出预定词时，这些装置从其输入信号来识别所说的词。

例如，被配备有这种语音识别设备的各种装置，如安装在车辆中用于引导车辆移动的导航系统和个人计算机，将允许用户输入各种信息而无需手动的键盘或开关选择操作。

因此，例如，即使在操作者正用他/她的双手驾驶车辆的工作环境中，操作者亦可在导航系统中输入所需信息。

典型的语音识别方法包括采用被称为HMM(隐马尔可夫模型)的概率模型的方法。

在语音识别中，通过将自然语音的特征值图型与表示被称为关键词的候选词并事先被准备的语音的特征值图型进行匹配，自然语音被识别。

具体而言，在语音识别中，被分为预定持续时间段的所输入自然语音(输入信号)的特征值通过分析所输入自然语音而被提取，输入信号特征值和由预存在数据库中的HMM表示的关键词的特征值之间的匹配程度(以下被称为似然性)被计算，整个自然语音过程中的似然性被累计，并且有最高似然性的关键词被确定为所识别的关键词。

这样，在语音识别中，关键词在由人所发出自然语音的输入信号的基础上被识别。

顺便提及，HMM是被表示为一组转变状态的统计源模型。它表示待识别预定语音如关键词的特征值。此外，HMM是在事先采样的多个语音数据的基础上被生成的。

对于这种语音识别，重要的是如何提取包含在自然语音中的关键词。

除关键词以外，自然语音通常还包含无关语音(extraneousspeech)，即在识别中不必要的先前已知词(诸如关键词之前和之后的“er”或“please”的词)，并且在原则上，自然语音由无关语音所夹的关键词组成。

在常规上，语音识别常常采用“词识别”技术来识别待被语音识别的关键词。

在词识别技术中，不仅表示关键词模型而且表示无关语音模型(以下被称为无用信息模型(garbage model))的HMM被准备，并且通过识别其特征值具有最高似然性的关键词模型、无用信息模型或其组合，自然语音被识别。

这样，词识别技术基于所累计的似然性来识别其特征值具有最高似然性的关键词模型、无用信息模型或其组合，并将包含在自然语音中的任何关键词输出为所识别关键词。

在基于词识别的语音识别中，被称为Filler模型的概率模型可被用于构建无关语音模型。

如图7中所示，为建立整个语音的模型，Filler模型表示通过网络的元音和辅音的所有可能联系。对于词识别，每个关键词模型需要在两端与Filler模型联系。

具体而言，基于Filler模型的语音识别涉及计算所有可识别图型，即待识别的自然语音的特征值和每个音位的特征值之间的每个匹配，由此计算自然语音中的音位之间的联系，并使用形成联系的路径中的路径的最佳图型来识别无关语音。

发明内容

这种语音识别装置执行自然语音特征值和无关语音所有可能分量如音位的特征数据之间的匹配，从而识别无关语音。因此，其涉及大量的计算工作，从而导致大的计算负荷。

本发明已考虑到以上问题。其目的是提供一种语音识别装置，该装置通过减小在匹配过程中计算似然性所需的计算工作，从而以高速度正确地执行语音识别。

本发明的以上目的可通过本发明的语音识别设备来实现。用于识别所发出自然语音中包含的至少一个关键词的语音识别设备包括：提取装置，用于通过分析自然语音来提取自然语音的特征值，该特征值是自然语音的语音成分的特征值；数据库，用于存储关键词特征数据，该特征数据表示关键词语音成分的特征值；计算装置，用于基于从自然语音提取的至少一部分语音段和在数据库中存储的关键词特征数据来计算关键词概率，该概率表示自然语音特征值对应于关键词的概率；设置装置，用于在预设值的基础上设置无关语音概率，该概率表示从自然语音提取的至少一部分语音段对应于无关语音的概率，无关语音表示非关键词；以及确定装置，用于基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的关键词。

依照本发明，表示自然语音特征值对应于关键词特征数据所表示的关键词的概率的关键词概率被计算，基于预设值的无关语音概率被设置，并且基于所计算关键词概率和作为预设值的无关语音概率，包含在自然语音中的关键词被确定。

因此，可通过使用小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别设备被进一步提供有；其中设置装置基于提取装置所提取的自然语音特征值和作为预设值的表示语音成分特征值的多个指定语音特征值来设置无关语音概率。

依照本发明，基于自然语音特征值和作为预设值的多个指定语音特征值来设置无关语音概率，并且基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的关键词。

因此，可通过使用小量数据来计算无关语音概率而无需预设大量无关语音特征数据。例如，可通过使用组成典型无关语音的元音的语音特征值或包括多个预设指定语音特征值的多个关键词特征数据的一部分来计算无关语音概率。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别被进一步提供有；其中设置装置包括：指定语音概率计算装置，用于基于提取装置所提取的自然语音特征值和指定语音特征值来计算指定语音概率，该概率表示自然语音特征值对应于指定语音特征值的概率；以及无关语音概率设置装置，用于在所计算指定语音概率的基础上设置无关语音概率。

依照本发明，基于自然语音特征值和指定语音特征值来计算指定语音概率，并且基于所计算指定语音概率来设置无关语音概率。

因此，如果当通过使用组成典型无关语音的元音的语音特征值或包括多个预设指定语音特征值的多个关键词特征数据的一部分来计算指定语音概率并且通过使用包括表示多个指定语音概率的平均的值的典型语音特征值来计算无关语音概率时，可通过使用小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，在指定语音概率计算装置计算多个指定语音概率的情况下，本发明的语音识别设备被进一步提供有；其中无关语音概率设置装置设置多个指定语音概率的平均和无关语音概率。

依照本发明，由指定语音概率计算装置计算的指定语音概率的平均被设置为无关语音概率。

因此，如果当通过使用组成典型无关语音的元音的语音特征值或包括多个预设指定语音特征值的多个关键词特征数据的一部分来计算指定语音概率并且通过使用多个指定语音概率的平均来计算无关语音概率时，可通过使用小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别设备被进一步提供有：其中设置装置将数据库中存储的至少一部分关键词特征数据用作指定语音特征值。

依照本发明，通过将至少一部分所存关键词特征数据用作指定语音特征值来设置无关语音概率。

在本发明的一个方面中，本发明的语音识别设备被进一步提供有：其中设置装置将表示固定值的预设值设置为无关语音概率。

依照本发明，表示自然语音特征值对应于关键词特征数据的概率的关键词概率被计算，并且基于所计算的关键词概率和预设无关语音概率，包含在自然语音中的关键词被确定。

因此，无关语音和关键词可被识别，并且关键词可被确定，而无需计算包括自然语音特征值和无关语音特征数据的特征值的特性。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别设备被进一步提供有：其中：提取装置通过以预设时间间隔分析自然语音来提取自然语音特征值，并且由设置装置设置的无关语音概率表示该时间间隔内的无关语音概率；计算装置基于以所述时间间隔提取的自然语音特征值来计算关键词概率；并且确定装置基于所述时间间隔内的所计算关键词概率和无关语音概率来确定包含在自然语音中的关键词。

依照本发明，基于以一个时间间隔计算的关键词概率和无关语音概率，包含在自然语音中的关键词被确定。

因此，如果当通过使用组成典型无关语音的元音的语音特征值或包括多个预设指定语音特征值的多个关键词特征数据的一部分来计算指定语音概率并且通过使用包括表示多个指定语音概率的平均的值的典型语音特征值来计算无关语音概率时，可基于自然语音中的音位或其它语音声音来计算关键词概率和无关语音概率，并可通过使用小量数据来计算无关语音概率而无需预设大量无关语音特征数据。因此，有可能减小计算无关语音概率所需的处理负荷，并以高速度容易地识别包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别设备被进一步提供有：其中确定装置基于在所述时间间隔内的所计算关键词概率和无关语音概率来计算组合概率，该组合概率表示由存储在数据库中的关键词特征数据表示的每个关键词和无关语音概率的组合的概率，并且基于组合概率来确定包含在自然语音中的关键词。

依照本发明，基于在所述时间间隔内的所计算关键词概率和无关语音概率，表示每个关键词和无关语音的组合的概率的组合概率被计算，并且包含在自然语音中的关键词基于组合概率而被确定。

因此，通过考虑无关语音和关键词的每个组合，包含在自然语音中的关键词可被确定。因此，有可能以高速度容易地识别包含在自然语音中的关键词并防止误识别。

本发明的以上目的可通过本发明的语音识别方法来实现。所发出的自然语音中包含的至少一个关键词的语音识别方法包括：提取过程，通过分析自然语音来提取自然语音特征值，该特征值是自然语音的语音成分的特征值；计算过程，基于从自然语音提取的至少一部分语音段和在数据库中存储的关键词特征数据来计算关键词概率，该概率表示自然语音特征值对应于关键词的概率，关键词特征数据表示关键词的语音成分的特征值；设置过程，在预设值的基础上设置无关语音概率，该概率表示从自然语音提取的至少一部分语音段对应于无关语音的概率，无关语音表示非关键词；以及确定过程，基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的关键词。

在本发明的一个方面中，本发明的语音识别方法被进一步提供有；其中设置过程基于提取过程所提取的自然语音特征值和作为预设值的表示语音成分特征值的多个指定语音特征值来设置无关语音概率。

在本发明的一个方面中，本发明的语音识别设备方法被进一步提供有：其中设置装置将表示固定值的预设值设置为无关语音概率。

本发明的以上目的可通过本发明的记录介质来实现。记录介质是记录语音识别程序以由计算机读取的记录介质，该计算机被包括在语音识别设备中以识别所发出的自然语音中包含的至少一个关键词，所述程序使计算机起以下作用：提取装置，通过分析自然语音来提取自然语音特征值，该特征值是自然语音的语音成分的特征值；计算装置，用于基于从自然语音提取的至少一部分语音段和在数据库中存储的关键词特征数据来计算关键词概率，该概率表示自然语音特征值对应于关键词的概率，关键词特征数据表示关键词的语音成分的特征值；设置装置，用于在预设值的基础上设置无关语音概率，该概率表示从自然语音提取的至少一部分语音段对应于无关语音的概率，无关语音表示非关键词；以及确定装置，用于基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的关键词。

在本发明的一个方面中，语音识别程序使计算机起以下作用；其中设置装置基于提取装置所提取的自然语音特征值和作为预设值的表示语音成分特征值的多个指定语音特征值来设置无关语音概率。

在本发明的一个方面中，语音识别程序使计算机起以下作用：其中设置装置将表示固定值的预设值设置为无关语音概率。

附图说明

图1为示出识别网络的基于HMM的语音语言模型的图；

图2为示出依照本发明第一实施例使用词识别的语音识别装置的示意性配置的方块图；

图3为示出依照第一实施例的关键词识别过程的操作的流程图；

图4为示出用于识别两个关键词的识别网络的基于HMM的语音语言模型的图；

图5为示出依照本发明第二实施例使用词识别的语音识别装置的示意性配置的方块图；

图6为示出依照第二实施例的关键词识别过程的操作的流程图；以及

图7为示出基于Filler模型的识别网络的语音语言模型的图。

具体实施方式

现在将参照附图中所示的优选实施例来描述本发明。

以下所述的实施例是本发明被应用于语音识别设备的实施例。

〔第一实施例〕

图1到4是示出依照本发明的语音识别设备的第一实施例的图。

首先，将参照图1来描述依照本实施例的基于HMM的语音语言模型。

图1为示出依照本实施例的识别网络的基于HMM的语音语言模型的图。

本实施例假定了一个表示如图1中所示的基于HMM的识别网络的模型，即包含待识别的关键词的语音语言模型10。

语音语言模型10由在其两端与表示无关语音分量的无用信息模型(以下被称为无关语音的分量模型)12a和12b联系的关键词模型11。在被包含于自然语音中的关键词被识别的情况下，通过匹配关键词与关键词模型11来识别包含在自然语音中的关键词，并且通过匹配无关语音与无关语音的分量模型12a和12b来识别包含在自然语音中的无关语音。

实际上，关键词模型11和无关语音的分量模型12a和12b表示转变自然语音的每个任意段的一组状态。统计源模型“HMM”组成自然语音，该统计源模型“HMM”是由稳定源的组合表示的非稳定源。

关键词模型11的HMM(以下被称为关键词HMM)和无关语音分量模型12a和12b的HMM(以下为称为无关语音分量HMM)具有两个类型的参数。一个参数是表示从一个状态到另一个状态的状态转变的概率的状态转变概率，而另一个是输出概率，输出在状态从一个状态到另一个状态转变时将被观察的向量(每个帧的特征向量)的概率。这样，关键词模型11的HMM表示每个关键词的特征图型，而无关语音分量HMM 12a和12b表示每个无关语音分量的特征图型。

通常，由于即使相同的词或音节也因为各种原因而表现出声学上的变化，因此组成自然语音的语音声音随扬声器而大大变化。然而，即使由不同的扬声器发出，相同的语音声音亦可通过特性谱包络及其时间变化来大体表征。这种声学变化的时序序列图型的随机特性可由HMM精确地表示。

这样，如以下所述，依照本实施例，通过匹配所输入自然语音的特征值与关键词HMM和无关语音HMM并计算似然性，包含在自然语音中的关键词被识别。

依照本实施例，HMM是每个关键词的语音成分的特征图型或每个无关语音分量的语音成分的特征值。此外，HMM是一种概率模型，其具有表示每个规则时间间隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱(cepstrum)数据。

此外，通过采集由多人发出的每个音位的自然语音数据、提取每个音位的特征图型并基于所提取的音位特征图型来学习每个音位的特征图型数据，在每个数据库中事先生成并存储HMM。

依照本实施例，多个典型的无关语音分量HMM由无关语音分量模型12a和12b来表示，并且使用无关语音分量模型12a和12b来执行匹配。

例如，仅用于元音“a”、“i”、“u”、“e”和“o”的HMM以及关键词分量HMM(稍后描述)可被用作所述多个典型的无关语音分量HMM。然后使用这些无关语音分量HMM来执行匹配。

无关语音分量HMM和匹配过程的细节将在稍后描述。

当包含在自然语音中的关键词通过使用这种HMM来识别时，待识别的自然语音被分为预定持续时间的段，并且每个段被与HMM的每个预存数据进行匹配，然后从一个状态到另一个状态的这些段的状态转变的概率基于匹配过程的结果而被计算以识别待识别的关键词。

具体而言，在本实施例中，每个语音段的特征值被与HMM的预存数据的每个特征图型进行比较；匹配HMM特征图型的每个语音段的特征值的似然性(对应于依照本发明的关键词概率和无关语音概率)被计算；基于所计算的似然性和每个语音段的语音特征值与无关语音的特征值之间的匹配似然性的预设值以及表示所有HMM之间的联系即关键词和无关语音之间的联系的概率的累计似然性，匹配过程(稍后描述)被执行，其中似然性的值已在假定给定段包含无关语音的情况下被预设；并且通过检测有最高似然性的HMM联系，自然语音被识别。

接下来，将参照图2来描述依照本实施例的语音识别装置的配置。

图2为示出依照本发明使用词识别的语音识别装置的示意性配置的方块图。

如图2中所示，语音识别装置100包括：用于输入待识别的自然语音的话筒101；低通滤波器(以下被称为LPF)102；将从话筒101输出的模拟信号转换为数字信号的模拟/数字转换器(以下被称为A/D转换器)103；从所输入的语音信号提取对应于语音声音的语音信号并以预设时间间隔分割帧的输入处理器104；提取每个帧中的语音信号特征值的语音分析器105；预存表示待识别关键词的特征图型的关键词HMM和指定语音的HMM(以下被称为指定语音HMM)以便计算稍后描述的无关语音似然性的HMM模型数据库106；计算所提取的每个帧的特征值匹配每个所存HMM的似然性的似然性计算器107；基于在似然性计算器107中计算的似然性来设置表示所提取帧对应于无关语音的似然性的无关语音似然性的无关语音似然性设置装置108；基于在逐帧HMM的基础上计算的似然性来执行匹配过程(稍后描述)的匹配处理器109；以及基于匹配过程的结果来确定包含在自然语音中的关键词的确定部件110。

输入处理器和语音分析器105被用于本发明的提取装置，而HMM模型数据库106用作本发明的数据库。

此外，似然性计算器107被用于本发明的计算装置、设置装置、指定语音概率计算装置和采集装置，而无关语音似然性设置装置108被用于本发明的设置装置和无关语音概率设置装置。

此外，匹配处理器109和确定部件110被用于本发明的确定装置。

自然语音在话筒101中被输入，而话筒101基于所输入的自然语音而产生语音信号并将其输出到LPF 102。

由话筒101产生的语音信号在LPF 102中被输入。LPF 102从所接收的语音信号中去除谐波分量，并将被去除谐波分量的语音信号输出到A/D转换器103。

谐波分量已由LPF 102去除的语音信号在A/D转换器103中被输入。A/D转换器103将所接收的模拟语音信号转换为数字信号，并将数字语音信号输出到输入处理器104。

数字语音信号在输入处理器104中被输入。输入处理器104从所输入的数字语音信号中提取表示自然语音的语音段的语音信号的那些部分，将语音信号的所提取部分分为预定持续时间的帧，并将其输出给语音分析器105。

输入处理器104将语音信号分为例如10ms到20ms的间隔的帧。

在语音分析器105中，逐帧分析所输入的语音信号，提取每个帧中的语音信号的特征值，并将其输出到似然性计算器107。

具体而言，语音分析器105在逐帧的基础上将表示以规则时间间隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱数据提取为语音成分的特征值，将所提取的特征值转换为向量，并将向量输出到似然性计算器107。

HMM模型数据库106预存表示待识别关键词的特征值的图型数据的关键词HMM和计算无关语音似然性所需的指定语音HMM图型数据。

这些所存的多个关键词HMM的数据表示待识别的多个关键词的特征值的图型。

例如，如果在安装于汽车的导航系统中被使用，关键词模型数据库104被设计用于为汽车存储HMM，该HMM表示包括目的地名称或当前位置名称或设施名称如饭店名称的语音信号的特征值的图型。

如以上所述，依照本实施例，表示每个关键词的语音成分的特征图型的HMM表示概率模型，其具有表示规则时间间隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱数据。

由于关键词一般由多个音位或音节，如“present location”或“destination”的情况，依照本实施例，一个关键词HMM由多个关键词分量HMM组成，而似然性计算器107计算每个关键词分量HMM的似然性和逐帧特征值。

以这种方式，HMM模型数据库106存储待识别的关键词的每个关键词HMM，即关键词分量HMM。

此外，HMM模型数据库106将表示组成典型无关语音的元音的语音特征数据(以下被称为指定语音特征数据)的HMM(以下被称为指定语音HMM)预存为多个预设的指定语音特征值。

例如，由于即使在无关语音中，每个音节一般也包含元音，因此HMM模型数据库106存储表示元音“a”、“i”、“u”、“e”和“o”的语音信号特征值的指定语音HMM。在似然性计算器107中，执行与这些指定语音HMM的匹配。此外，这些元音“a”、“i”、“u”、“e”和“o”还表示日语的元音。

每个帧的特征向量在似然性计算器107中被输入，似然性计算器107比较每个所输入帧的特征值与HMM模型数据库106中存储的关键词HMM的每个特征值和指定语音特征数据模型(对应于依照本发明的指定语音特征值)的每个特征值，由此基于所输入帧和每个HMM之间的匹配来计算似然性，包括帧对应于HMM模型数据库106中存储的每个关键词HMM或每个指定语音HMM的概率，并且将与指定语音HMM匹配的所计算似然性输出给无关语音似然性设置装置108，而将与关键词HMM匹配的所计算似然性输出给匹配处理器109。

具体而言，似然性计算器107在逐帧的基础上计算输出概率。输出概率包括每个帧对应于每个关键词分量HMM的输出概率和每个帧对应于指定语音HMM的输出概率。此外，似然性计算器107计算状态转变概率。状态转变概率包括从任意帧到下一帧的状态转变对应于从关键词分量HMM到另一个关键词分量HMM或指定语音HMM的状态转变的概率，以及从任意帧到下一帧的状态转变对应于从指定语音HMM到另一个指定语音HMM或关键词分量HMM的状态转变的概率。此外，似然性计算器107将所计算的概率作为似然性输出给无关语音似然性设置装置108和匹配处理器109。

顺便提及，状态转变概率包括从关键词分量HMM到相同关键词分量HMM的状态转变以及从指定语音HMM到相同指定语音HMM的状态转变的概率。

似然性计算器107将为单独帧所计算的输出概率和状态转变概率输出给无关语音似然性设置装置108和匹配处理器109作为相应帧的似然性。

在无关语音似然性设置装置108中，输入为单独帧基于指定语音HMM而计算的输出概率和状态转变概率，无关语音似然性设置装置108计算所输入的输出概率和状态转变概率的平均，并将所计算的平均输出给匹配处理器109作为无关语音似然性。

例如，当指定语音HMM表示元音“a”、“i”、“u”、“e”和“o”的语音信号特征图型时，无关语音似然性设置装置108在逐帧的基础上为每个元音的HMM而平均输出概率和状态转变概率，并将平均输出概率和平均状态转变概率作为所述帧的无关语音似然性输出给匹配处理器109。

在匹配处理器109中，由似然性计算器107和无关语音似然性设置装置108计算的逐帧输出概率和每个状态转变概率被输入。匹配处理器109执行匹配过程以基于所输入的每个输出概率和每个状态转变概率来计算累计似然性(依照本发明的组合概率)，该累计似然性是每个关键词HMM和无关语音成分HMM的每个组合的似然性，并且将所计算的累计似然性输出给确定部件110。

具体而言，在匹配处理器109中，当假定给定帧包含无关语音时，从无关语音似然性设置装置108输出的无关语音似然性被用作表示每个帧中语音分量的特征值与无关语音分量的语音分量特征值之间的匹配似然性的无关语音似然性。此外，通过在逐帧的基础上累计似然性计算器107所计算的关键词似然性和无关语音似然性，匹配处理器109计算用于关键词和无关语音的每个组合的累计似然性。因此，匹配处理器109为每个关键词计算一个累计似然性(如稍后所述)。

顺便提及，由匹配处理器109执行的匹配过程的细节将在稍后描述。

在确定部件110中，由匹配处理器109计算的每个关键词的累计似然性被输入。确定部件110为每个关键词的词长度而归一化所输入的累计似然性。具体而言，确定部件110基于被用作计算所输入累计似然性的基础的关键词持续时间来归一化所输入的累计似然性。此外，确定部件110把有归一化似然性中的最高累计似然性的关键词输出为包含在自然语音中的关键词。

在做出对关键词的决定时，确定部件110亦单独使用无关语音似然性的累计似然性。如果单独被使用的无关语音似然性具有最高的累计似然性，则确定部件110确定在自然语音中不包含关键词并输出该结论。

接下来，将描述依照实施例由匹配处理器109执行的匹配过程。

依照本实施例的匹配过程使用维特比算法来计算关键词模型和无关语音分量模型的每个组合的累计似然性。

维特比算法是这样一种算法：其基于进入(enter)每个给定状态的输出概率和从每个状态到另一个状态的转变概率来计算累计似然性，然后输出在累计概率之后已被计算累计似然性的组合。

通常，累计似然性首先通过积分(integrate)每个帧的特征值表示的状态和每个HMM表示的状态的特征值之间的欧几里德距离来计算，然后通过计算累计距离来计算。

具体而言，维特比算法基于表示从任意状态i到下一个状态j的转变的路径来计算累计概率，由此提取通过它可发生状态转变的HMM的每个路径，即联系和组合。

在本实施例中，通过从首先被划分的帧开始到最后被划分的帧结束一个接一个地、将关键词模型或无关语音分量模型的输出概率和由此的状态转变概率匹配于所输入自然语音的帧，似然性计算器107和无关语音似然性计算部分108计算每个输出概率和每个状态转变概率；从首先被划分的帧到最后被划分的帧，计算关键词模型和无关语音分量的任意组合的累计似然性；通过每个关键词模型确定在每个关键词模型/无关语音分量组合中具有最高累计似然性的安排；并将所确定的关键词模型的累计似然性逐一输出给确定部件110。

例如，在待识别关键词为“present location”和“destination”而所进入的输入自然语音为“er，present location”的情况下，依照本实施例的匹配过程执行如下。

在此假定，无关语音为“er”，无关语音似然性已事先设置，关键词数据库包含“present”和“destination”的每个音节的HMM，并且由似然性计算器107和无关语音似然性设置装置108计算的每个输出概率和状态转变概率已在匹配处理器109中被输入。

在此情况下，依照本实施例，维特比算法基于输出概率和状态转变概率为关键词“present”和“destination”计算关键词和无关语音分量的每个组合中所有安排的累计似然性。

维特比算法为在此情况下是“present location”和“destination”的每个关键词从第一帧开始计算自然语音所有帧上的所有组合图型的累计似然性。

此外，在为每个关键词计算每个安排的累计似然性的过程中，对于具有低累计似然性的那些安排，维特比算法在中途停止计算，确定自然语音不匹配那些组合图型。

具体而言，在第一帧中，不是作为关键词“present location”的关键词分量HMM的“p”的HMM的似然性、就是事先设置的无关语音的似然性被包括在累计似然性的计算中。在此情况下，较高的累计似然性提供接下来的累计似然性的计算。

在此情况下，无关语音似然性比“p”的关键词分量HMM的似然性高，由此对“present#”的累计似然性的计算在“p”之后被终止(其中*表示无关语音似然性)。

这样，在这种类型的匹配过程中，对关键词“present”和“destination”的每个仅计算了一个累计似然性。

接下来，将参照图3来描述依照本实施例的关键词识别过程。

图3是示出依照本实施例的关键词识别过程的操作的流程图。

首先，当控制面板或控制器(未示出)命令每个部件开始关键词识别过程并且自然语音进入话筒101(步骤S11)时，自然语音通过LPF 102和A/D转换器103被输入，并且输入处理器104从所输入的语音信号提取自然语音的语音信号(步骤S12)。接下来，输入处理器104将所提取的语音信号分为预定持续时间的帧，并从第一帧开始在逐帧的基础上将语音信号输出给语音分析器105(步骤S13)。

然后，在该关键词识别过程中，以下过程是在逐帧的基础上进行的。

首先，控制器(未示出)判断语音分析器105中输入的帧是否为最后的帧(步骤S14)。如果是，流程转到步骤S20。另一方面，如果所述帧不是最后一个，进行以下过程。

然后，语音分析器105提取所接收帧中的语音信号的特征值，并将其输出给似然性计算器107(步骤S15)。

具体而言，基于每个帧中的语音信号，语音分析器105将表示规则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换获得的倒频谱信息提取为语音成分的特征值，将所提取的特征值转换为向量，并将向量输出给似然性计算器107。

接下来，似然性计算器107比较帧的所输入特征值与在HMM模型数据库106中存储的关键词HMM和指定语音HMM的特征值，为每个HMM计算帧的输出概率和状态转变概率，并将用于指定语音HMM的输出概率和状态转变概率输出给无关语音似然性设置装置108，而将用于关键词HMM匹配的输出概率和状态转变概率输出给匹配处理器109(步骤S16)。

接下来，无关语音似然性设置装置108基于用于指定语音HMM的所输入的输出概率和所输入的状态转变概率来设置无关语音似然性(步骤S17)。

例如，当指定语音HMM表示元音“a”、“i”、“u”、“e”和“o”的语音信号特征图型时，无关语音似然性设置装置108在逐帧的基础上平均基于每个帧的特征值和每个元音的HMM而计算的输出概率和状态转变概率，并将平均输出概率和平均状态转变概率作为所述帧的无关语音似然性输出给匹配处理器109。

接下来，基于由似然性计算器107计算的输出概率和状态转变概率以及由无关语音似然性设置装置108计算的的输出概率和状态转变概率，匹配处理器109执行匹配过程(以上所述)并计算每个关键词的累计似然性(步骤S18)。

具体而言，通过将关键词HMM的所输入累计似然性和无关语音似然性加给在此以前计算的累计似然性，匹配处理器109积分每个关键词的似然性，但最终仅计算每个关键词的最高累计似然性。

接下来，在控制器(未示出)的命令下，匹配处理器109控制接下来帧的输入(步骤S19)并返回步骤S14。

另一方面，如果控制器(未示出)判断给定帧是最后的帧，则每个关键词的最高累计似然性被输出给确定部件110，然后该确定装置为每个关键词的词长度而归一化累计似然性(步骤S20)。

最后，基于每个关键词的归一化累计似然性，确定部件110把有最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤S21)。由此结束操作。

这样，依照本实施例，由于自然语音特征值和语音段的每个帧的关键词特征数据之间匹配的似然性被计算，无关语音似然性基于指定语音特征数据如元音而被设置，并且包含在自然语音中的关键词基于这些似然性而被确定，因此可通过使用小量数据来计算无关语音似然性，而无需预设在常规上计算无关语音概率所需的大量无关语音特征数据。因此，在本实施例中，计算无关语音似然性所需的处理负荷可被减小。

此外，在本实施例中，由于无关语音似然性和所计算似然性的每个组合的累计似然性是通过累计无关语音似然性和每个所计算似然性来计算的，并且包含在自然语音中的关键词是基于所计算的累计似然性来确定的，因此可基于无关语音似然性和每个所计算似然性的每个组合来确定包含在自然语音中的关键词。

因此，有可能以高速度容易地识别自然语音中包含的关键词并防止误识别。

此外，在本实施例中，当识别包含在自然语音中的两个或多个关键词时，有可能以较高的速度较容易地识别包含在自然语音中的关键词并防止误识别。

例如，当使用如图4中所示的基于HMM的语音语言模型20来识别两个关键词时，如果在待识别的关键词模型中的词长度被归一化，则两个关键词可同时被识别。

具体而言，取代在匹配处理器109中计算每个关键词的累计似然性，如果匹配处理器109计算包含在HMM模型数据库106中包含的关键词的每个组合的累计似然性，并且确定部件110通过相加所有关键词的词长度来归一化词长度，则有可能同时识别两个或多个关键词，以高速度容易地识别包含在自然语音中的关键词，并防止误识别。

顺便提及，尽管仅用于元音“a”、“i”、“u”、“e”和“o”的指定语音HMM在本实施例中被使用，上述关键词分量HMM亦可被用作指定语音HMM并与以上元音的关键词分量HMM进行匹配。

在此情况下，似然性计算器107为每个所输入帧和每个关键词分量HMM计算输出概率和状态转变概率，并将概率的每个计算值输出给无关语音似然性设置装置108。然后，无关语音似然性设置装置108计算高(例如，前5个)输出概率和状态转变概率的平均，并将所计算的平均输出概率和平均状态转变概率作为无关语音似然性输出给匹配处理器109。

因此，同以上情况一样，由于可通过使用小量数据来设置无关语音概率，而无需预设在常规上计算无关语音似然性所需的大量无关语音特征数据，因此有可能减小计算无关语音概率所需的处理负荷并以高速度容易地识别包含在自然语音中的关键词。

此外，尽管关键词识别过程是由依照本实施例的语音识别装置来执行的，语音识别装置可被配备有计算机和记录介质，而类似的关键词识别过程可在计算机读取记录介质上存储的关键词识别程序时被执行。

在此，DVD或CD可被用作记录介质，而语音识别装置可被配备有用于从记录介质读取程序的读取器。

〔第二实施例〕

图5到6是示出依照本发明第二实施例的语音识别装置的图。

在本实施例中，取代在第一实施例中基于关键词HMM和表示无关语音似然性的指定语音HMM来识别关键词，关键词是基于关键词HMM和表示无关语音似然性的预定固定值来识别的。

具体而言，依照本实施例，对于每个关键词，关键词模型和无关语音似然性的每个组合的累计似然性是基于无关语音似然性输出概率和状态转变概率来计算的，并且匹配过程是通过使用维特比算法来执行的。

例如，为识别作为任意自然语音中的关键词的“present”和“destination”，通过基于无关语音似然性、输出概率和状态转变概率计算所有以下安排的累计似然性来执行匹配过程：“present”、“#present”、“present#”和“#present#”以及“destination”、“#destination”、“destination#”和“#destination#”(其中#表示无关语音似然性的固定值)。

在其它方面，本实施例的配置类似于第一实施例，除了基于关键词HMM和预定固定值来识别关键词。

如图5中所示，语音识别装置200包括：话筒101；LPF 102；A/D转换器103；输入处理器104；语音分析器105；预存表示待识别关键词的特征图型的关键词HMM的关键词模型数据库201；计算所提取的每个帧的特征值匹配关键词HMM的似然性的似然性计算器202；基于与每个关键词HMM匹配的所计算逐帧似然性和不构成任何关键词的无关语音的预设似然性来执行匹配过程的匹配处理器203；以及确定部件110。

输入处理器104和语音分析器105用作本发明的提取装置，而关键词模型数据库201用作本发明的第一数据库。

此外，似然性计算器202用作本发明的计算装置和第一采集装置，匹配处理器108用作第二数据库、第二采集装置和确定装置，而确定装置109用作本发明的确定装置。

关键词模型数据库201预存表示待识别关键词的特征图型数据的关键词HMM。所存的关键词HMM表示待识别的相应关键词的特征图型。

例如，如果在安装于汽车的导航系统中被使用，关键词模型数据库201被设计用于为汽车存储HMM，该HMM表示包括目的地名称或当前位置名称或设施名称如饭店名称的语音信号的特征值的图型。

如以上所述，依照本实施例，表示每个关键词的语音成分的特征图型的HMM表示一种概率模型，其具有表示规则时间间隔、每个频率的功率的谱包络数据或从功率谱算法的逆傅立叶变换获得的倒频谱数据。

由于关键词一般由多个音位或音节，如“present location”或“destination”的情况，依照本实施例，一个关键词HMM由多个关键词分量HMM组成，而似然性计算器202逐帧计算特征值和每个关键词分量HMM的似然性。

以这种方式，关键词模型数据库201存储待识别的关键词的每个关键词HMM，即关键词分量HMM。

在似然性计算器202中，每个帧的特征向量被输入，并且似然性计算器202通过基于每个帧的所输入特征向量在每个帧的每个所输入HMM和每个数据库中存储的HMM的每个特征值之间进行匹配来计算似然性，并且将所计算的似然性输出给匹配处理器203。

依照本实施例，似然性计算器202基于每个帧的特征值和关键词模型数据库201中存储的HMM的特征值来计算概率，其包括每个帧对应于关键词模型数据库201中存储的每个HMM的概率。

具体而言，似然性计算器202计算表示每个帧对应于每个关键词分量HMM的概率的概率。此外，它还计算状态转变概率，该状态转变概率表示从任意帧到下一帧的状态转变对应于从关键词分量HMM到另一个关键词分量HMM的状态转变的概率。然后，似然性计算器202将所计算的概率作为似然性输出给匹配处理器108。

顺便提及，状态转变概率包括从每个关键词分量HMM到相同关键词分量HMM的状态转变的状态转变概率。

似然性计算器202将为每个帧所计算的输出概率和状态转变概率作为帧的似然性输出给匹配处理器203。

在匹配处理器203中，由似然性计算器202计算的逐帧输出概率和状态转变概率被输入。匹配处理器203执行匹配过程以基于所输入的输出概率、所输入的输出状态转变概率和无关语音似然性来计算累计似然性，该累计似然性是关键词HMM和无关语音似然性的每个组合的似然性，并且将累计似然性输出给确定部件110。

具体而言，匹配处理器203预存表示无关语音似然性的输出概率和状态转变概率。当假定给定帧是无关语音分量的帧时，该无关语音似然性表示每个帧中自然语音所包含的语音分量的特征值与无关语音的语音分量特征值之间的匹配。此外，通过在逐帧的基础上累计似然性计算器202所计算的关键词似然性和无关语音似然性，匹配处理器203计算用于关键词和无关语音的每个组合的累计似然性。因此，匹配处理器203计算每个关键词的累计似然性(如稍后所述)以及没有关键词的累计似然性。

接下来，将参照图6来描述依照本实施例的关键词识别过程。

图6是示出依照本实施例的关键词识别过程的操作的流程图。

首先，当控制面板或控制器(未示出)命令每个部件开始关键词识别过程并且自然语音进入话筒101(步骤S31)时，自然语音通过LPF 102和A/D转换器103被输入，并且输入处理器104从所输入的语音信号提取自然语音的语音信号(步骤S32)。接下来，输入处理器104将所提取的语音信号分为预定持续时间的帧，并从第一帧开始在逐帧的基础上将语音信号输出给语音分析器105(步骤S33)。

首先，控制器(未示出)判断语音分析器105中输入的帧是否为最后的帧(步骤S34)。如果是，流程转到步骤S39。另一方面，如果所述帧不是最后一个，进行以下过程。

然后，语音分析器105提取所接收帧中的语音信号的特征值，并将其输出给似然性计算器202(步骤S35)。

具体而言，基于每个帧中的语音信号，语音分析器105将表示规则时间间隔、每个频率的谱包络信息或从功率谱算法的逆傅立叶变换获得的倒频谱信息提取为语音成分的特征值，将所提取的特征值转换为向量，并将向量输出给似然性计算器202。

然后，似然性计算器202比较帧的所输入特征值与在关键词模型数据库201中存储的HMM的特征值，为每个HMM计算帧的输出概率和状态转变概率，并将其输出给匹配处理器203(步骤S36)。

接下来，基于由似然性计算器202计算的输出概率和状态转变概率以及在匹配处理器203中存储的预设无关语音似然性，匹配处理器203执行匹配过程(以上所述)并计算每个关键词的累计似然性(步骤S37)。

具体而言，通过将关键词HMM的所输入累计似然性和无关语音似然性加给在此以前计算的累计似然性，匹配处理器203积分每个关键词的似然性，但最终仅计算每个关键词的最高累计似然性。

接下来，在控制器(未示出)的命令下，匹配处理器203控制接下来帧的输入(步骤S38)并返回步骤S34。

另一方面，如果控制器(未示出)判断给定帧是最后的帧，则每个关键词的最高累计似然性被输出给确定部件110，然后该确定装置为每个关键词的词长度而归一化累计似然性(步骤S39)。

最后，基于每个关键词的归一化累计似然性，确定部件110把有最高累计似然性的关键词输出为包含在自然语音中的关键词(步骤S40)。由此结束操作。

这样，依照本实施例，由于自然语音特征值和语音段的每个帧的关键词特征数据之间匹配的似然性被计算，并且包含在自然语音中的关键词基于所计算的似然性和预设无关语音似然性而被确定，因此可无需计算无关语音似然性而确定包含在自然语音中的关键词。

具体而言，取代在匹配处理器203中计算每个关键词的累计似然性，如果匹配处理器203计算包含在关键词模型数据库201中包含的关键词的每个组合的累计似然性，并且确定部件110通过相加所有关键词的词长度来归一化词长度，则有可能同时识别两个或多个关键词，以高速度容易地识别包含在自然语音中的关键词，并防止误识别。

本发明可被实施以其它特定形式而无需背离其精神或基本特性。因此，给出的实施例应在各方面被认为是说明性的而非局限性的，因此，由所附的权利要求而不是以上描述表示的本发明范围以及在权利要求等效范围和意义的范围内所有变化欲在此被包含。

Claims

1.一种用于识别所发出自然语音中包含的至少一个关键词的语音识别设备，特征在于所述设备包括：

提取装置(104、105)，用于通过分析自然语音来提取自然语音的特征值，该特征值是自然语音的语音成分的特征值；

数据库(106、201)，用于存储关键词特征数据，该特征数据表示关键词语音成分的特征值；

计算装置(107、202)，用于基于从自然语音提取的至少一部分语音段和在所述数据库(106、201)中存储的关键词特征数据来计算关键词概率，该概率表示所述自然语音特征值对应于所述关键词的概率；

设置装置(107、108、202)，用于在所述提取装置(104、105)所提取的所述被提取的自然语音特征值和多个指定语音特征值的基础上，设置无关语音概率，该概率表示从自然语音提取的至少一部分语音段对应于表示非关键词的无关语音的概率；以及

确定装置(109、110、203)，用于基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的所述关键词。

2.依照权利要求1的语音识别设备，其中所述指定语音特征值表示元音的特征。

3.依照权利要求2的语音识别设备，其中设置装置(107、108)包括：

指定语音概率计算装置(107)，用于基于所述提取装置(104、105)所提取的所述自然语音的语音成分的特征值和所述指定语音特征值来计算指定语音概率，该概率表示所述自然语音特征值对应于所述指定语音特征值的概率；以及

无关语音概率设置装置(108)，用于在所计算指定语音概率的基础上设置所述无关语音概率。

4.依照权利要求3的语音识别设备，在所述指定语音概率计算装置(107)计算多个指定语音概率的情况下，其中

所述无关语音概率设置装置(108)计算被输入的输出概率和状态转变概率的平均，并向所述确定装置(109)输出所计算的平均作为无关语音概率。

5.依照权利要求2到4中任何一项的语音识别设备，其中所述设置装置(107、108)将所述数据库(106)中存储的至少一部分关键词特征数据用作指定语音特征值。

6.依照权利要求1的语音识别设备，其中所述设置装置(202)将表示固定值的预设值设置为所述无关语音概率。

7.依照权利要求1的语音识别设备，其中：

所述提取装置(104、105)通过以预设时间间隔分析自然语音来提取所述自然语音特征值，并且由所述设置装置(107、108、202)设置的无关语音概率表示该时间间隔内的无关语音概率；

所述计算装置(107、202)基于以所述时间间隔提取的所述自然语音特征值来计算关键词概率；并且

所述确定装置(109、110、203)基于所述时间间隔内的所计算关键词概率和无关语音概率来确定包含在自然语音中的关键词。

8.依照权利要求7的语音识别设备，其中所述确定装置(109、110、203)基于在所述时间间隔内的所计算关键词概率和无关语音概率来计算组合概率，该组合概率表示由存储在所述数据库(106、201)中的关键词特征数据表示的每个关键词和无关语音概率的组合的概率，并且基于组合概率来确定包含在自然语音中的关键词。

9.一种识别所发出的自然语音中包含的至少一个关键词的语音识别方法，特征在于所述方法包括：

提取过程，通过分析自然语音来提取自然语音特征值，该特征值是自然语音的语音段的特征值；

计算过程，基于从自然语音提取的至少一部分语音段和在数据库(106、201)中存储的关键词特征数据来计算关键词概率，该概率表示所述自然语音特征值对应于所述关键词的概率，所述关键词特征数据表示关键词的语音段的特征值；

设置过程，用于在所述提取过程所提取的所述被提取的自然语音特征值和多个指定语音特征值的基础上，设置无关语音概率，该概率表示从自然语音提取的至少一部分语音段对应于表示非关键词的无关语音的概率；以及

确定过程，基于所计算关键词概率和作为预设值的无关语音概率来确定包含在自然语音中的关键词。

10.依照权利要求9的语音识别方法，其中所述指定语音特征值表示元音的特征。

11.依照权利要求9的语音识别方法，其中所述设置过程将表示固定值的预设值设置为所述无关语音概率。