CN104157284A

CN104157284A - 语音命令检测方法和系统，以及信息处理系统

Info

Publication number: CN104157284A
Application number: CN201310173959.0A
Authority: CN
Inventors: 左祥; 胡伟湘; 刘贺飞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2014-11-19
Also published as: US20140337024A1

Abstract

本发明涉及语音命令检测方法和系统，以及信息处理系统。一种语音命令检测方法包括：提取输入到系统的语音信号的语音特征；将所述语音特征转换为词序列，其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分；基于所述持续时间计算所述语音信号的节奏特征；以及基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音；其中，节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度，和/或描述每一个非命令词对应的语音片段的能量变化的相似度。

Description

语音命令检测方法和系统,以及信息处理系统

技术领域

本发明涉及用于语音检测及处理的方法和系统。特别地，本发明涉及用于语音命令的检测方法和系统。

背景技术

语音技术是随着20世纪60年代的数字信号处理技术的发展而发展起来的一种人工智能信息技术。由于语音技术在产品自动化方面的贡献，语音技术已成为目前最热门的技术之一。

语音技术的一种重要应用在于能够利用其对系统进行操作。特别地，对于例如儿童或老人等用户以及视力残障者来说，语音是进行系统操作的一种有效的用户接口。

对于语音控制系统，一个重要的问题是将用户向系统说出的语音命令与其它语音（例如来自电视的背景噪声以及用户交谈的语言）区分开来。例如，用户针对其他收听者的语音不应该被识别为针对于系统的语音命令。

该问题可以通过使用用于控制输入语音的按钮来解决。例如，可以开发这样一种系统，该系统包括一个按钮，仅在用户按下按钮时将语音识别为针对于系统的语音命令。但是这种方法会产生一个问题，即需要手动操作，因此在手繁忙的情况下是不适用的。

另一方面，现有技术中的一些方法利用人的身体行为来估计用户语音的目标。例如，在T.Yonezawa,H.Yamazoe,A.Utusmi and S.Abe，“Evaluating Crossmodal Awareness of Daily-partner Robot to User’sBehaviors with Gaze and Utterance Detection”,published inProceedings of the ACM International Workshop onContext-Awareness for Self-Managing Systems,”2009,pp.1-8以及Fujie,T.Yamahata,and T.Kobayashi，“Conversation root with thefunction of gaze recognition”,published in“Proceedings of theIEEE-RAS International Conference on Humanoid Robots，2006,pp.364-369中描述了以下的方法：检测用户的视线方向或用户的身体方向，当用户的视线方向或用户的身体方向朝向系统时，将语音识别为针对于系统的语音命令。但是，为了实施上述方法，除了麦克风之外，该系统还需要其它的传感器（例如，摄像机），来识别用户的视线方向或用户的身体方向，这样增加了系统的制造成本。此外，即使用户面对系统，也不能确保系统所接收到的语音就是针对于系统的语音命令，因此该系统的可靠性不高。

为了解决上述问题，人们希望能够在不使用按钮或者各种人体行为的情况下，仅仅利用语音就能够检测语音命名。

苹果公司开发了一种Mac OS语音识别系统，利用该系统用户可以通过说出的语音命令来控制计算机。其中，语音命令可以是单个命令词或者多个命令词的一个序列。图1A示出了Mac OS语音识别系统的界面。对于该系统，用户可以选择两种方式来进行语音命令的识别。

在第一种方式中，在每一个语音命令之前用户需要说出一个预定的先行词（preceding word）。例如，用户预先确定先行词是“Hi Canon”，用户希望系统接收的语音命令是“DELETE（删除）”。当用户说出“Hi Canon，DELETE”时，系统能够确定针对其的语音命令是“DELETE”。

图1B是在现有技术的Mac OS语音识别系统的第一种方式中的语音命令检测方法的流程图。首先在步骤S11中提取输入语音的特征。然后在步骤S12中，根据所存储的声学模型、词典和语法，基于所提取的语音特征进行语音识别，得到词序列。在步骤S13中，根据语音识别步骤所得到的词序列进行分类，即如果词序列包括先行词和命令词候选，则将该命令词候选对应的语音识别为针对于系统的语音命令，否则将输入语音识别为不是针对于系统的语音。

图2A示出了在现有技术的Mac OS语音识别系统的第一种方式中使用的语法，其中“C”表示命令词候选，“GBG”表示垃圾词，“P”表示先行词，“开始”和“结束”分别表示在感兴趣的语音之前和之后的静音部分。如果通过该语法进行语音识别，识别出的词序列包括先行词和命令词候选，则将该命令词候选确定为针对于系统的语音命令。

在这种方式中，系统的性能完全依赖于系统所使用的语音识别引擎的精度。在语音识别的精度低的情况下（例如低信噪比的情况下），系统的可靠性低。

在第二种方式中，用户可以在任何时刻发出语音命令而不必说出先行词。在该方式中，通过使用现有技术中的关键词识别（keywordspotting）技术来进行语音命令的检测。

图1C是在现有技术的Mac OS语音识别系统的第二种方式中的语音命令检测方法的流程图。首先在步骤S21中提取输入语音的特征。然后在步骤S22中，根据所存储的声学模型、词典和语法，基于所提取的语音特征进行语音识别，得到词序列。在步骤S23中，根据语音识别步骤所得到的词序列进行分类，即如果在步骤S22中得到的词序列中识别出命令词候选，则将输入语音识别为包括针对于系统的语音命令，否则将输入语音识别为不是针对于系统的语音。

图2B示出了在现有技术的Mac OS语音识别系统的第二种方式中使用的语法，其中“C”表示命令词候选，“GBG”表示垃圾词，“开始”和“结束”分别表示在感兴趣的语音之前和之后的静音部分。通过该语法进行语音识别，输入语音中的命令词（C）将会被识别出来，从而确定输入语音中是否包括针对于系统的语音命令。

同样，对于第二种方式，由于系统的性能完全依赖于系统所使用的语音识别引擎的性能，所以在某些情况下（例如低信噪比的情况下），当语音识别的性能低下时，该系统的性能也大幅下降。

在中国专利申请CN200810021973.8中公开了另一种语音命令检测方法，在该方法中基于语音命令候选之前的先行词以及语音命令候选之后的后续词（succeeding word）二者对语音命令进行检测。与苹果公司的Mac OS语音识别系统类似，该方法在低信噪比的情况下可靠性也变低。

因此，需要提出一种新的技术来解决上述现有技术中的任何问题。

发明内容

本发明的一个目的是提高针对系统的语音命令检测的精度，尤其是在低信噪比的情况下提高语音命令检测的精度。

为了解决上述问题，本发明提供了一种语音命令检测方法，该方法不仅基于自动语音识别，而且还基于输入语音的节奏（rhythm）特征。该方法接收语音命令候选，以及以特定节奏说出的先行语音片段以及/或者后续语音片段，然后从输入语音中检测出语音命令。所述先行/后续语音片段可以是除了语音命令之外的任何声音。例如，所述声音可以是与数字对应的声音。所述节奏可以是用户预先设置的。所述节奏包括以下特征中的至少一个：描述先前/后续语音片段的持续时间的相似性的特征，以及描述先前/后续语音片段的能量变化的相似性的特征。

根据本发明的一个方面，提供了一种语音命令检测方法，包括：特征提取步骤，用于提取输入到系统的语音信号的语音特征；语音识别步骤，用于将所述语音特征转换为词序列（word sequence），其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分；节奏分析步骤，用于基于所述持续时间计算所述语音信号的节奏特征；以及分类步骤，用于基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音；其中，所述节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度，和/或描述所述每一个非命令词对应的语音片段的能量变化的相似度。

根据本发明的另一方面，提供了一种语音命令检测装置，包括：特征提取单元，用于提取输入到信息处理系统的语音信号的语音特征；语音识别单元，用于将所述语音特征转换为词序列，其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分；节奏分析单元，用于基于所述持续时间计算所述语音信号的节奏特征；以及分类单元，用于基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于信息处理系统的语音命令或者不针对于信息处理系统的语音；其中，所述节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度，和/或描述所述每一个非命令词对应的语音片段的能量变化的相似度。

根据本发明的又一方面，提供了一种信息处理系统，所述信息处理系统包括上述语音命令检测装置。所述信息处理系统可以选自包括以下各项的组：数字照相机、数字摄像机、移动电话、计算机、电视机、安全控制系统、电子书、游戏机。

本发明的一个优点在于，能够提供一种仅仅利用语音就能够精确地识别出针对于系统的命令的语音命令检测方法和系统。

本发明的另一个优点在于，由于语音命令候选的声学得分和输入语音信号的节奏特征被联合使用，因此本发明在有噪声或者低信噪比的环境中相对于现有技术具有更强的鲁棒性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1A是示出现有技术的Mac OS语音识别系统的界面的示图，图1B和图1C分别示出了现有技术的Mac OS语音识别系统的两种方式采用的方法的流程图。

图2A和图2B分别示出了在现有技术的Mac OS语音识别系统的两种方式中使用的语法结构。

图3是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的示意性框图。

图4是示出根据本发明的实施方式的语音命令检测方法的流程图。

图5示出了在根据本发明的一种实施方式的语音命令检测中所使用的语法结构。

图6示出了利用语音识别技术识别出的词序列的示例。

图7示出了输入语音的波形、每一帧的能量变化以及在语音命令候选之前的语音部分的能量变化的自相关的波形。

图8示出了支持向量机制的工作原理。

图9是示出根据本发明的实施方式的语音命令检测装置2000的功能框图。

图10示出了根据本发明的实施方式以及Mac OS语音识别系统中的两种方式的方法进行测试所得到的度量F-measure。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图3是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的框图。

如图3中所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD（光盘）1156可以被插入到CD-ROM驱动器1155中。

诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图3所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图3所示的计算机系统可以被实施于任何实施方式，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

图4是示出根据本发明的实施方式的方法的流程图。如图4所示，在步骤S100中，接收数字语音信号d，并根据该数字语音信号d提取每一帧的语音特征。可选地，在一种实施方式中，所述语音特征是25维的特征向量，其可以包括语音的功率、语音的梅尔倒频谱（mel-scalecepstrum）、语音的差分倒频谱（delta cepstrum，差分倒频谱是帧之间倒频谱的差值）等。可以使用本技术领域中公知的技术来提取语音特征，例如语音端点检测（voice activity detection，VAD）技术。为了简便起见，在此省略对其的描述。

在步骤S200中，通过使用现有技术中已知的语音识别方法，基于在步骤S100中所提取的语音特征，对数字语音信号d进行语音识别。

例如对于在步骤S100中所提取的语音特征使用搜索算法（例如viterbi算法）进行解码，从而得到识别结果。在解码过程中需要使用声学模型和语言模型。在步骤S200中所使用的声学模型可以存储在系统的外部声学模型存储装置中。在一种实施方式中，声学模型可以是上下文无关的隐马尔科夫模型（context independent HMM），并且在每一种状态下具有高斯混合分布。语言模型包括用于语音识别的词典以及用于语音识别的语法。用于语音识别的词典可以存储在外部词典存储装置中，并且用于语音识别的语法可以存储在外部语法存储装置中。

根据本发明的实施方式，输入语音例如可以包括非命令词对应的语音、短暂的停顿、命令词候选对应的语音，以及该段输入语音开始以及结束位置附近的静音部分。图5示出了在根据本发明的一种实施方式的语音命令检测中所使用的语法结构。如图5所示，“Digit”代表作为非命令词的数字，“SP”代表非命令词之间或者非命令词与命令词候选之间的短暂的停顿，“C”代表命令词候选，“开始”和“结束”分别表示在该段语音开始以及结束位置附近的静音部分。

根据本发明的一种实施方式，输入语音包括至少两个连续的非命令词对应的语音片段以及至少一个命令词候选对应的语音片段，其中至少一个命令词候选对应的语音位于至少两个连续的非命令词对应的语音片段之后。在进一步的实施方式中，非命令词可以是数字。所谓“连续的非命令词”，是指在非命令词与非命令词之间仅存在短暂的停顿，而不存在命令词候选。毋庸置疑，本领域技术人员能够理解，非命令词也可以不是数字。本领域技术人员能够理解，至少两个连续的非命令词对应的语音片段可以是除了与至少一个命令词候选对应的语音之外的任何声音。

根据本发明的另一种实施方式，至少一个命令词候选对应的语音位于至少两个连续的非命令词对应的语音片段之前。

根据本发明的又一种实施方式，在至少一个命令词候选对应的语音之前和之后分别具有所述至少两个连续的非命令词对应的语音片段。

继续参照图5，根据本发明的一种实施方式，利用以上描述的语法，通过现有技术中已知的语音识别技术可以将从输入语音d提取的语音特征转换为一个词序列，所述词序列包括若干个由非命令词（例如，数字词）和短暂的停顿组成的对（p_i），以及至少一个命令词候选（c），其中i表示停顿的序号，对的数量可以是大于或等于2的自然数。在一种实施方式中，词序列可以是“‘一’、‘二’、‘删除’”，其中i=2。在另一种实施方式中，词序列也可以是“‘一’、‘二’、‘三’、‘删除’”，其中i=3。

将每一个由非命令词（数字词）和短暂的停顿组成的对（p_i）指示为与非命令词对应的语音片段。通过语音识别步骤可以获得每一个对p_i（即与非命令词对应的语音片段）的持续时间t_i，以及每一个命令词候选（c）的声学得分AMc。本领域技术人员能够理解，命令词候选（c）的声学得分AMc是描述命令词候选是真正命令词的可能性的参数。可以根据本技术领域公知的方法计算命令词候选（c）的声学得分AMc。声学得分例如可以使用维特比算法计算得到。图6示出了利用语音识别技术识别出的词序列的示例。可以看出，该语音包括连续的两个与非命令词对应的语音片段以及一个与命令词候选对应的语音。

返回参照图4，在步骤S300中进行节奏分析，即基于在步骤S200中获得的持续时间t_i以及在步骤S100中所提取的语音特征来计算数字语音信号d的节奏特征。所述节奏特征可以用于描述所述每一个非命令词对应的语音片段的持续时间的相似度，以及/或者描述所述每一个非命令词对应的语音片段的能量变化的相似度。

所述节奏特征可以包括以下各项特征中的至少一项：所述至少两个连续的非命令词对应的语音片段（即，至少两个由非命令词和短暂的停顿组成的对（p_i））的持续时间的平均长度；所述至少两个连续的非命令词对应的语音片段的持续时间的方差；经过标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值；所述至少两个连续的非命令词对应的语音片段的基频（F0）；以及所述至少两个连续的非命令词对应的语音片段的能量。

在一种实施方式中，选择以下三个量作为节奏特征：所述至少两个连续的非命令词对应的语音片段的持续时间的平均长度（r₁）；所述至少两个连续的非命令词对应的语音片段的持续时间的方差（r₂）；经过标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值（r₃）。

至少两个连续的非命令词对应的语音片段的持续时间的平均长度r₁可以如下计算：

r_{1} = \frac{1}{N} Σ_{i = 1}^{N} t_{i} - - - (1)

其中，N为非命令词对应的语音片段的总数，t_i为第i个非命令词对应的语音片段的持续时间。

至少两个连续的非命令词对应的语音片段的持续时间的方差r₂可以如下计算：

r_{2} = \{\begin{matrix} \frac{1}{N} Σ_{i = 1}^{N} {(t_{i} - r_{1})}^{2} & i > 2 \\ | t_{1} - t_{2} | & i \leq 2 \end{matrix} - - - (2)

第三个特征，即经过标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值r3可以如下计算：

r_{3} = \frac{Cor {(m)}_{\max}}{Cor (0)} - - - (3)

其中，Cor(m)_max表示在m≠0的情况下输入语音的能量变化的自相关的最大值，Cor（0）表示在m=0的情况下输入语音的能量变化的自相关。

输入语音的能量变化的自相关Cor（m）可以如下计算：

Cor (m) = Σ_{f_{i} = 1}^{T - m} Delta (f_{i}) \times Delta (f_{i + m}) - - - (4)

其中，m表示在计算输入语音的能量变化的自相关时滑动窗口的大小，f_i表示输入语音中的第i帧。根据本发明的实施方式，由于仅计算与非命令词对应的语音片段的自相关，因此

T=∑t_i （5）

Delta（f_i）表示在第f_i帧处输入语音的能量变化。Delta（f_i）可以如下计算：

Delta (f_{i}) = \frac{1}{S} Σ_{s = 0}^{S} E (f_{i + s}) - E (f_{i - 1}) - - - (6)

E（f_i）表示在第i帧的子带能量的和，其可以通过现有技术中已知的方法对其进行计算。S表示平滑因子，当S越大时，Delta（f_i）的曲线越平滑。S可以由本领域技术人员根据经验设置，例如S可以设置为10。图7示出了输入语音的波形、每一帧的能量变化以及在语音命令候选之前的语音部分的能量变化的自相关的波形。

此外，本领域技术人员能够理解，还可以选择其他特征作为节奏特征，只要该特征可以用于描述每一个非命令词对应的语音片段的持续时间的相似度或者每一个非命令词对应的语音片段的能量变化的相似度即可。

返回图4，在步骤S400中，基于在语音识别步骤S200中获得的声学得分AMc和在所述节奏分析步骤S300中获得节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音。在一种实施方式中，分类步骤基于在步骤S200中获得声学得分AMc以及在步骤S300中获得的三个节奏特征（r1、r2、r3）来实施。该分类步骤S400可以通过本技术领域中已知的方法实施，例如通过本技术领域中已知的支持向量机制来实施。

在图8中示出了支持向量机制的基本工作原理。对于两类数据（例如，圆点和方点）而言，我们希望能够把这些数据通过一个超平面分开。有很多超平面都符合这个要求，如Ｌ1，Ｌ2和Ｌ3。但是我们希望找到分类最佳的超平面，即使得这两类数据间隔最大的那个超平面，该面亦称为最大间隔超平面。在图8中的例子里，Ｌ2即是最大间隔超平面。通过该超平面对输入数据进行划分。

在一种实施方式中，节奏特征r1、r2、r3以及声学得分被作为输入。通过支持向量机制，可以将至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音。

图9是示出根据本发明的实施方式的语音命令检测装置2000的功能框图。该语音命令检测装置2000的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图9中所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

如图9所示，所述语音命令检测装置2000包括：特征提取单元2100、语音识别单元2200、节奏分析单元2300以及分类单元2400。所述特征提取单元2100被配置为提取输入到信息处理系统的语音信号的语音特征。所述语音识别单元2200被配置为将所述语音特征转换为词序列，其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分。所述节奏分析单元2300被配置为基于所述持续时间计算所述语音信号的节奏特征。所述分类单元2400被配置为基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于信息处理系统的语音命令或者不针对于信息处理系统的语音。其中，所述节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度，和/或描述所述每一个非命令词对应的语音片段的能量变化的相似度。

在一种实施方式中，所述至少一个命令词候选对应的语音位于所述至少两个连续的非命令词对应的语音片段之前，或者位于所述至少两个连续的非命令词对应的语音片段之后。

在一种实施方式中，在所述至少一个命令词候选对应的语音之前和之后分别具有所述至少两个连续的非命令词对应的语音片段。

在一种实施方式中，所述至少两个连续的非命令词对应的语音片段可以是除了所述至少一个命令词候选对应的语音之外的任何声音。

在一种实施方式中，所述节奏特征包括以下各项特征中的至少一项：所述至少两个连续的非命令词对应的语音片段的持续时间的平均长度；所述至少两个连续的非命令词对应的语音片段的持续时间的方差；经过标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值；所述至少两个连续的非命令词对应的语音片段的基频（F0）；以及所述至少两个连续的非命令词对应的语音片段的能量。

此外，图9所示的语音命令检测装置2000可以包含在各种信息处理系统中。所述信息处理系统可以包括：数字照相机、数字摄像机、移动电话、计算机、电视机、安全控制系统、电子书、游戏机、等等。所述信息处理系统中的其它部件以及所述信息处理系统中的部件与语音命令检测装置2000的连接对于本领域技术人员是已知的，在此不再详细描述。

对根据本发明的语音命令检测方法和系统的性能测试

下面将描述在不同的噪声条件下对根据本发明的语音命令检测方法和系统的性能测试。用于测试的语音样本通过以下步骤采集。首先通过文本文件准备四个数据集，所述数据集总共包括400个语音，分别标记为“针对系统（SD）”或“不针对系统（ND）”。表1示出了数据集的细节，其中命令词通过下划线表示。

	数量	标记	描述	示例
					A	100	SD	基于节奏的语音命令	One,two,stop
B	100	ND	具有语音命令的聊天	Let’s get to start
					C	100	ND	没有语音命令的聊天	I cannot reserve a meeting room
D	100	SD	语音命令在先行词对应的语音之后	Hi Canon,delete

表1语音样本数据集

然后，记录来自四个说话者的语音样本。对于数据集A中的语音样本，要求说话者以特定的节奏读出该语音样本，对于数据集B、C、D中的语音样本，要求说话者尽可能自然地将它们读出。数据集A、B、C用于评估根据本发明的方法和系统，数据集D针对比较例。在本测试中，将现有技术的Mac OS语音识别系统（如图1（A）所示）的两种方式作为相对于本发明的比较例。使用弃一说话人交叉验证法来评估根据本发明的实施方式。即，从一个说话者采集的语音样本用于测试，从其他三个说话者采集的语音样本用于训练，并重复四次。

使用F-measure作为评估的度量，其可定义为：

F - measure = \frac{2 \times Recall \times Precision}{Recall + Precision}

其中，Recall表示召回率，Precision表示精度。召回率和精度分别定义为：

Recall = \frac{N_{correct}}{N_{total}}, Precision = \frac{N_{correct}}{N_{\det ected}},

其中N_correct表示被正确地检测到的针对系统的命令的数量，N_total表示所存在的针对系统的命令的总数量，N_detected表示作为针对系统的命令被检测到的语音的总数量。

如前所述，现有技术的Mac OS语音识别系统的第一种方式的流程图如图1B所示。如果通过图1B中的语音识别步骤S12识别出先行词和语音命令词候选二者，则认为输入语音包含针对系统的语音命令。现有技术的Mac OS语音识别系统的第二种方式的流程图如图1C所示。如果通过图1C中的语音识别步骤S22识别出语音命令的关键词，则认为输入语音包含针对系统的语音命令。

用于本发明的实施方式的特征提取步骤和语音识别步骤与用于现有技术的Mac OS语音识别系统中的第一种方式和第二种方式的特征提取步骤和语音识别步骤相同。此外，用于本发明的实施方式的声学模型和词典与用于现有技术的Mac OS语音识别系统中的第一种方式和第二种方式的声学模型和词典相同。但是本发明的实施方式和现有技术的Mac OS语音识别系统中的第一种方式和第二种方式所使用的语法和分类步骤是不同的。

用于本发明的实施方式与用于Mac OS语音识别系统中的第一种方式和第二种方式的词典包括：十个语音命令（start（开始）、play（播放）、forward（快进）、backward（快退）、pause（暂停）、stop（停止）、power-on（启动）、delete（删除）、movie（摄影）、photo（拍照））,十个数（从一到十）,垃圾词,先行词(Hi Canon),静音段和短暂的停顿。

如前所述，在现有技术的Mac OS语音识别系统的两种方式中使用的语法结构在图2A和图2B中分别示出。根据本发明的一种实施方式的语法结构在图5中示出。

数据集B、C、D用于评估Mac OS语音识别系统中的第一种方式、数据集A、B、C用于评估Mac OS语音识别系统中的第二种方式。与与本发明的实施方式的评估不同，对于Mac OS语音识别系统中的第一种方式和第二种方式，使用数据集中的所有语音样本进行测试，而不执行弃一说话人交叉验证法。

如图10所示，根据本发明的实施方式的F-measure在无噪声的条件下是94%，在信噪比为15的有噪声的条件下是91%，在信噪比为5的有噪声的条件下是85%。在信噪比为5的有噪声的条件下，现有技术的Mac OS语音识别系统中的两种方式的F-measure分别为61%和46%。从图中可以明显地看出，根据本发明的实施方式的F-measure明显高于现有技术的Mac OS语音识别系统中的两种方式的F-measure。因此，在低信噪比的噪声环境下，本发明可以获得比现有技术更高的鲁棒性。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种语音命令检测方法，包括：

特征提取步骤，用于提取输入到系统的语音信号的语音特征；

语音识别步骤，用于将所述语音特征转换为词序列，其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分；

节奏分析步骤，用于基于所述持续时间计算所述语音信号的节奏特征；以及

分类步骤，用于基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音；

其中，所述节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度，和/或描述所述每一个非命令词对应的语音片段的能量变化的相似度。

2.如权利要求1所述的语音命令检测方法，其中所述至少一个命令词候选对应的语音位于所述至少两个连续的非命令词对应的语音片段之前，或者位于所述至少两个连续的非命令词对应的语音片段之后。

3.如权利要求1所述的语音命令检测方法，其中在所述至少一个命令词候选对应的语音之前和之后分别具有所述至少两个连续的非命令词对应的语音片段。

4.如权利要求1～3中任一权利要求所述的语音命令检测方法，其中所述至少两个连续的非命令词对应的语音片段可以是除了所述至少一个命令词候选对应的语音之外的任何声音。

5.如权利要求1所述的语音命令检测方法，其中所述节奏特征包括以下各项特征中的至少一项：

所述至少两个连续的非命令词对应的语音片段的持续时间的平均长度；

所述至少两个连续的非命令词对应的语音片段的持续时间的方差；

经过标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值；

所述至少两个连续的非命令词对应的语音片段的基频；以及

所述至少两个连续的非命令词对应的语音片段的能量。

6.一种语音命令检测装置，包括：

特征提取单元，用于提取输入到信息处理系统的语音信号的语音特征；

语音识别单元，用于将所述语音特征转换为词序列，其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选，并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分；

节奏分析单元，用于基于所述持续时间计算所述语音信号的节奏特征；以及

分类单元，用于基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于信息处理系统的语音命令或者不针对于信息处理系统的语音；

7.如权利要求6所述的语音命令检测装置，其中所述至少一个命令词候选对应的语音位于所述至少两个连续的非命令词对应的语音片段之前，或者位于所述至少两个连续的非命令词对应的语音片段之后。

8.如权利要求6所述的语音命令检测装置，其中在所述至少一个命令词候选对应的语音之前和之后分别具有所述至少两个连续的非命令词对应的语音片段。

9.如权利要求6～8中任一权利要求所述的语音命令检测装置，其中所述至少两个连续的非命令词对应的语音片段可以是除了所述至少一个命令词候选对应的语音之外的任何声音。

10.如权利要求6所述的语音命令检测装置，其中所述节奏特征包括以下各项特征中的至少一项：

经标准化的所述至少两个连续的非命令词对应的语音片段的能量变化的自相关的最大值；

所述至少两个连续的非命令词对应的语音片段的基频；以及

所述至少两个连续的非命令词对应的语音片段的能量。

11.一种信息处理系统，所述信息处理系统包括如权利要求6-10中的任一项所述的语音命令检测装置。

12.如权利要求11所述的信息处理系统，所述信息处理系统选自包括以下各项的组：数字照相机、数字摄像机、移动电话、计算机、电视机、安全控制系统、电子书、游戏机。