CN101192405B

CN101192405B - 语音处理设备和语音处理方法

Info

Publication number: CN101192405B
Application number: CN200710187573XA
Authority: CN
Inventors: 山田敬一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-12-01
Filing date: 2007-12-03
Publication date: 2011-05-25
Anticipated expiration: 2027-12-03
Also published as: JP4264841B2; EP1927979B1; US7979270B2; CN101192405A; EP1927979A1; JP2008139568A; US20080133225A1; DE602007012041D1; KR20080050311A

Abstract

本发明提供了一种语音处理设备、语音处理方法和语音处理程序。这里公开了一种语音处理设备，用于基于输入的语音的韵律特性来识别所述语音，所述语音处理设备包括：语音采集装置，用于采集所述输入语音；声学分析装置，用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及韵律识别装置，用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程，以产生所述韵律识别过程的结果。

Description

语音处理设备和语音处理方法

技术领域

本发明涉及语音处理设备、语音处理方法和语音处理程序。更具体而言，本发明涉及能够基于语音的韵律(prosody)特性来识别语音的卓越的语音处理设备、在该语音处理设备中采用的语音处理方法以及实现该语音处理方法的语音处理程序。

背景技术

近年来，语音识别技术被广泛使用。在过去，语音识别技术基本上是一种用于识别关于音素(phoneme)的信息的技术。关于音素的信息在下文中被称为音素信息，它是语音中包括的信息的一部分。在当前的现有技术中，很难说普通的语音识别技术积极地利用了关于韵律的信息。关于韵律的信息在下文中被称为韵律信息，它是作为除音素信息之外的信息而包括在语音中的信息。

但是，这并不意味着完全不存在利用韵律信息的现有技术。例如，已知一种技术，其利用韵律信息以更加适当地识别短语之间的边界，等等。关于这样的技术的细节，建议读者参考日本专利早期公布No.Hei 4-66999(以下称之为专利文献1)。

发明内容

但是，专利文献1中公开的现有技术利用关于韵律的信息作为辅助信息以提供语音识别技术的精度。从而，专利文献1中公开的现有技术不是一种能够清楚地识别在关于韵律的信息中包括的更多样化的信息的技术。

顺便说一下，只利用关于音素的信息，在一些情况下可能难以识别人类发出的语音。例如，在日本语的情况下，表达同意意图的单词“ung”和表达不同意意图的单词“uung”从音素信息的观点来看几乎是彼此相同的。从而，在这种情况下，只利用音素信息就难以区分同意意图和不同意意图。因此，有必要执行也基于诸如关于语调模式和关于音素持续时间的信息之类的韵律信息的语音识别过程。

在作为语音信号处理的一部分而执行的与语调相关的过程中，广泛采用了检测音调(pitch)频率(或音调周期)的技术。但是，检测音调频率的技术有这样一个问题，即由于噪声之类的影响，很容易产生差错。此外，在将检测音调频率的技术应用到耳语语音(whispering voice)和具有低音调特性的语音时，也容易产生差错。从而，在实现如上所述的检测音调频率的技术时容易产生差错的情形下或者在易于出现检测差错的语音识别过程中，基于韵律信息的语音识别过程可能是难以执行的处理。

为了解决上述问题，本发明的发明人发明了一种语音处理设备和一种语音处理方法，即使在噪声之类的影响较大的情况下以及耳语语音的情况下或者具有低音调特性的语音的情况下，该语音处理设备和语音处理方法也能够基于语音的韵律特性来有效地检测音调频率并且十分可靠地识别输入语音。

根据本发明的一个实施例，提供了一种语音处理设备，用于基于输入的语音的韵律特性来识别语音。该语音处理设备使用：

语音采集装置，用于采集输入语音；

声学分析装置，用于基于在语音采集装置所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及

韵律识别装置，用于基于由声学分析装置所找到的相对音调变化来执行韵律识别过程，以产生韵律识别过程的结果。

可以向该语音处理设备提供这样一个配置，在该配置中，声学分析装置基于脊线(ridge line)相对于从第一和第二频率特性计算出的互相关矩阵的主对角线的偏移，来找出相对音调变化，该脊线是作为连接与第一和第二频率特性的峰相对应的矩阵元素的直线而绘制在互相关矩阵中的。

可以向该语音处理设备提供这样一个配置，该配置还具有用于存储第二频率特性的频率特性存储装置。

可以向该语音处理设备提供这样一个配置，在该配置中：

频率特性存储装置被用于存储多个第二频率特性，并且

声学分析装置基于根据由语音采集装置所采集的输入语音而从存储在频率特性存储装置中的第二频率特性中选择出来的适当的第二频率特性，来找出相对音调变化。

可以向该语音处理设备提供这样一个配置，该配置还具有：

语音识别装置，用于执行基于作为对由语音采集装置所采集的输入语音执行声学分析的结果而获得的特性量的语音识别过程，以产生语音识别过程的结果，其中，如果语音识别过程的结果与特定单词之一相匹配，则很有可能语音识别过程的结果是不正确的；

特定单词存储装置，用于存储特定单词；以及

结果选择装置，用于将语音识别过程的结果与存储在特定单词存储装置中的特定单词相核对，其中

如果语音识别过程的结果与存储在特定单词存储装置中的特定单词之一相匹配，则结果选择装置输出最终识别结果，该最终识别结果是通过将由语音识别装置所执行的语音识别过程的结果与由韵律识别装置所执行的韵律识别过程的结果相结合来获得的，但是

另一方面，如果语音识别过程的结果不与存储在特定单词存储装置中的特定单词中的任何一个相匹配，则结果选择装置输出由语音识别装置执行的语音识别过程的结果，作为最终识别结果。

根据本发明的另一实施例，提供了一种由语音处理设备采用的语音处理方法，用于基于输入的语音的韵律特性来识别语音。该语音处理方法包括以下步骤：

采集输入语音；

基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及

基于所找到的相对音调变化来执行韵律识别过程，以产生韵律识别过程的结果。

根据本发明的另一个实施例，提供了一种语音处理程序，该语音处理程序将由计算机执行，以便基于输入的语音的韵律特性来识别语音。该语音处理程序实现包括以下步骤的语音处理方法：

采集输入语音；

基于在以受控方式采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及

根据本发明的实施例，

采集输入语音；

基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；并且

该语音处理设备可以是独立的设备，或者是语音处理设备的用于执行语音识别过程的模块。

如上所述，根据本发明的实施例，可以基于输入的语音的韵律特性来识别语音。具体而言，基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化。从而，即使输入语音包括非语音部分(unvoiced soundportion)或者静默片段，也能够正确地识别输入的语音。

附图说明

图1是示出本发明所应用到的语音识别设备的配置的框图；

图2是示出图1所示的语音识别设备中使用的韵律识别部件的配置的框图；

图3是示出正常语音的频率特性的图；

图4是示出耳语语音的频率特性的图；

图5是示出频率特性分析部件的功能配置的框图；

图6是示出由图5所示的频率特性分析部件中使用的时间到频率变换部件所输出的典型频率特性的图，该时间到频率变换部件作为根据本发明一个实施例的时间到频率变换部件；

图7是示出由图5所示的频率特性分析部件中使用的对数变换部件所输出的典型频率特性的图，该对数变换部件作为根据本发明一个实施例的对数变换部件；

图8是示出由图5所示的频率特性分析部件中使用的频率范围提取部件所输出的典型频率特性的图，该频率范围提取部件作为根据本发明一个实施例的频率范围提取部件；

图9是示出图2所示的韵律识别部件中使用的相对音调变化计算部件的第一典型功能配置的框图；

图10是示出由相对音调变化计算部件输出的作为频率特性的典型互相关矩阵的互相关矩阵的图；

图11是示出构成图10所示的互相关矩阵的元素的图形表示的图；

图12是示出频率特性的典型自相关矩阵的图；

图13是示出构成图12所示的自相关矩阵的元素的图形表示的图；

图14示出了在描述语音识别设备为了识别语音的音素和语音的韵律而执行的处理时将要参考的流程图；

图15示出了在描述韵律识别部件为了识别语音的韵律而执行的处理时将要参考的流程图；

图16示出了在描述频率分析处理时将要参考的流程图；

图17示出了在描述第一相对音调差异计算处理时将要参考的流程图；

图18A是示出由说出“aiueo”的男性所输出的语音的波形的图；

图18B是示出由说出“aiueo”的男性所输出的语音的真实音调模式的图；

图18C是示出由说出“aiueo”的男性所输出的语音的相对音调模式的图；

图19A是示出由说出“aiueo”的女性所所输出的语音的波形的图；

图19B是示出由说出“aiueo”的女性所输出的语音的真实音调模式的图；

图19C是示出由说出“aiueo”的女性所输出的语音的相对音调模式的图；

图20A是示出该男性为说出表达肯定答复的单词“ung”而输出的正常语音的波形的图；

图20B是示出该男性为说出表达肯定答复的单词“ung”而输出的正常语音的真实音调模式的图；

图20C是示出该男性为说出表达肯定答复的单词“ung”而输出的正常语音的相对音调模式的图；

图21A是示出该男性为说出表达否定答复的单词“uung”而输出的正常语音的波形的图；

图21B是示出该男性为说出表达否定答复的单词“uung”而输出的正常语音的真实音调模式的图；

图21C是示出该男性为说出表达否定答复的单词“uung”而输出的正常语音的相对音调模式的图；

图22A是示出该男性为说出表达疑问答复的单词“ung？”而输出的正常语音的波形的图；

图22B是示出该男性为说出表达疑问答复的单词“ung？”而输出的正常语音的真实音调模式的图；

图22C是示出该男性为说出表达疑问答复的单词“ung？”而输出的正常语音的相对音调模式的图；

图23A是示出该男性为说出表达肯定答复的单词“ung”而输出的耳语语音的波形的图；

图23B是示出该男性为说出表达肯定答复的单词“ung”而输出的耳语语音的声谱图的图；

图23C是示出该男性为说出表达肯定答复的单词“ung”而输出的耳语语音的相对音调模式的图；

图24A是示出该男性为说出表达否定答复的单词“uung”而输出的耳语语音的波形的图；

图24B是示出该男性为说出表达否定答复的单词“uung”而输出的耳语语音的声谱图的图；

图24C是示出该男性为说出表达否定答复的单词“uung”而输出的耳语语音的相对音调模式的图；

图25A是示出该男性为说出表达疑问答复的单词“ung？”而输出的耳语语音的波形的图；

图25B是示出该男性为说出表达疑问答复的单词“ung？”而输出的耳语语音的声谱图的图；

图25C是示出该男性为说出表达疑问答复的单词“ung？”而输出的耳语语音的相对音调模式的图；

图26A是示出说出“utsumuku”的语音的波形的图；

图26B是示出说出“utsumuku”的语音的真实音调模式的图；

图27是由图9所示的相对音调变化计算部件所检测到的作为说出“utsumuku”的语音的相对音调模式的第一典型相对音调模式的图；

图28是示出从关于两个帧的两个频率特性获得的正确的互相关矩阵的图形表示的图，该两个帧是在包括在单词“utsumuku”中作为除非语音部分之外的部分之前和之后的两个帧；

图29是示出从关于与单词“utsumuku”的字符“k”相对应的非语音部分之前的帧的频率特性和关于该非语音部分之后的帧的频率特性获得的不正确的互相关矩阵的图形表示的图；

图30是示出图2所示的韵律识别部件中使用的相对音调变化计算部件的第二典型功能配置的框图；

图31是示出构成由图30所示的相对音调变化计算部件输出的互相关矩阵的元素的图形表示的图；

图32是示出由图30所示的相对音调变化计算部件所检测到的作为说出“utsumuku”的语音的相对音调模式的第二典型相对音调模式的图；

图33是在描述由图30所示的相对音调变化计算部件所执行的第二相对音调差异计算处理时将要参考的流程图；以及

图34是示出充当语音识别设备的个人计算机的配置的框图。

具体实施方式

在说明本发明的优选实施例之前，在下面的比较性描述中说明所公开的发明和实施例之间的关系。应当注意，即使有一个实施例在本说明书中描述但未被包括在下面的说明性描述中作为与发明相对应的实施例，这样的实施例也不应当被解释为不对应于发明的实施例。反过来说，作为对应于特定发明的实施例而包括在下面的比较性描述中的实施例不应当被解释为不对应于除该特定发明之外的其他发明的实施例。

此外，下面的比较性描述不应当被解释为涵盖本说明书中公开的所有发明的全面描述。换言之，下面的比较性描述绝不否认存在这样的发明：该发明在本说明书中公开，但未包括在权利要求中作为为其申请专利的发明。也就是说，下面的比较性描述绝不否认存在这样的发明：该发明将要被包括在另一个专利申请中、包括在对本说明书的修改中或者在未来添加。

根据本发明的一个实施例，提供了一种语音处理设备(例如这样一个设备，其包括图2所示的韵律识别部件32，作为使用图30所示的相对音调变化计算部件151的部件)，用于基于输入的语音的韵律特性来识别所述语音。该语音处理设备使用：

语音采集装置(例如图2所示的单词输入部件51)，用于采集所述输入语音；

声学分析装置(例如图2的声学分析部件52，其作为包括图30所示的相对音调变化计算部件151的部件)，用于基于在所述语音采集装置所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及

韵律识别装置(例如图2所示的韵律识别子部件53)，用于基于由所述声学分析装置所找到的相对音调变化来执行韵律识别过程，以产生韵律识别过程的结果。

可以向所述语音处理设备提供这样一个配置，该配置还具有频率特性存储装置(例如图30所示的模板频率特性存储部件161)，用于存储所述第二频率特性。

可以向所述语音处理设备提供这样一个配置，该配置还具有：

语音识别装置(例如图1所示的语音识别部件33)，用于执行基于作为对由所述语音采集装置所采集的输入语音执行声学分析的结果而获得的特性量的语音识别过程，以产生所述语音识别过程的结果，其中，如果所述语音识别过程的结果与特定单词之一相匹配，则很有可能所述语音识别过程的结果是不正确的；

特定单词存储装置(例如图1所示的特定单词存储部件35)，用于存储所述特定单词；以及

结果选择装置(例如图1所示的结果选择部件34)，用于将所述语音识别过程的结果与存储在所述特定单词存储装置中的特定单词相核对，其中

如果所述语音识别过程的结果与存储在所述特定单词存储装置中的特定单词之一相匹配，则所述结果选择装置输出最终识别结果，该最终识别结果是通过将由所述语音识别装置所执行的语音识别过程的结果与由所述韵律识别装置所执行的韵律识别过程的结果相结合来获得的，但是

另一方面，如果所述语音识别过程的结果不与存储在所述特定单词存储装置中的特定单词中的任何一个相匹配，则所述结果选择装置输出由所述语音识别装置执行的语音识别过程的结果，作为最终识别结果。

根据本发明的另一个实施例，提供了一种由语音处理设备(例如这样一个设备，其包括图2所示的韵律识别部件32，作为使用图30所示的相对音调变化计算部件151的部件)采用的语音处理方法，用于基于输入的语音的韵律特性来识别所述语音。该语音处理方法包括以下步骤：

采集所述输入语音(例如，在图14所示的流程图的步骤S1处执行的过程中)；

基于在所采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化(例如，在图33所示的流程图的步骤S121处执行的过程中)；以及

基于所找到的相对音调变化来执行韵律识别过程，以产生所述韵律识别过程的结果(例如，在图14所示的流程图的步骤S4至S6处执行的过程中)。

根据本发明的另一实施例，提供了一种语音处理程序，该语音处理程序将由计算机执行，以便基于输入的语音的韵律特性来识别所述语音。该语音处理程序实现包括以下步骤的语音处理方法：

基于在以受控方式采集的输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化(例如，在图33所示的流程图的步骤S121处执行的过程中)；以及

接下来，参考附图详细描述本发明的优选实施例，如下。

图1是示出本发明所应用到的语音识别设备11的配置的框图。

如图所示，该语音识别设备11使用语音信号输入部件31、韵律识别部件32、语音识别部件33、结果选择部件34、特定单词存储部件35和识别结果输出部件36。

语音信号输入部件31是用于从麦克风等等接收语音信号或者从另一设备接收语音信号的单元。

韵律识别部件32是用于执行韵律识别过程以识别输入语音的单元。韵律是在书面文本中可能没有表达的语音信息。韵律的示例是语调、速度变化和音量变化。由韵律识别部件32执行的韵律识别过程的细节将在后面描述。

语音识别部件33是用于执行语音识别过程以识别输入语音的单元。在此情况下，语音识别部件33可执行公知的语音识别过程。

如果由语音识别部件33执行的语音识别过程的结果与已经存储在特定单词存储部件35中的特定单词相匹配，则结果选择部件34将由韵律识别部件32执行的韵律识别过程的结果附加到由语音识别部件33执行的语音识别过程的结果，并将由语音识别部件33执行的语音识别过程的结果与所附加的由韵律识别部件32执行的韵律识别过程的结果一起输出到识别结果输出部件36。另一方面，如果由语音识别部件33执行的语音识别过程的结果不与已经存储在特定单词存储部件35中的任何特定单词相匹配，则结果选择部件34将由语音识别部件33执行的语音识别过程的结果按原样输出到识别结果输出部件36。

特定单词存储部件35是用于记录将与由语音识别部件33执行的语音识别过程的结果相核对的特定单词的存储器。具体地说，特定单词存储部件35是用于存储特定单词的存储器，由语音识别部件33对输入单词执行的语音识别过程的结果将与这些特定单词相核对。输入的单词也经历由韵律识别部件32执行的韵律识别过程。存储在特定单词存储部件35中的特定单词的一个示例是单词“ung”。

识别结果输出部件36是用于向外部结果接收设备输出识别结果的单元，所述识别结果是作为由语音识别部件33执行的语音识别过程的结果以及(如果必要)由韵律识别部件32执行的韵律识别过程的结果而从结果选择部件34接收的。也就是说，识别结果输出部件36在屏幕上显示识别结果，或者以声音形式输出结果。此外，识别结果输出部件36向另一外部设备给出命令，以通过利用识别结果来移动该外部设备。

接下来，，说明由语音识别设备11执行的操作。

在图1所示的配置中，通过语音信号输入部件31输入的语音被提供到韵律识别部件32和语音识别部件33。韵律识别部件32和语音识别部件33分别对输入语音的数据执行韵律识别过程和语音识别过程。作为韵律识别过程的结果，韵律识别部件32向结果选择部件34输出基于输入语音数据的韵律模式而标识的发声类型(utterance type)(或者用户的发声意图)。另一方面，作为语音识别过程的结果，语音识别部件33将输入语音的数据的文本信息输出到结果选择部件34。

结果选择部件34将语音识别过程的结果与存储在特定单词存储部件35中的特定单词相核对，并且，如果语音识别过程的结果与特定单词之一相匹配，则韵律识别过程的结果被附加到语音识别过程的结果(或与之相结合)。然后，结果选择部件34经由识别结果输出部件36将韵律识别过程的结果和语音识别过程的结果输出到外部接收者。另一方面，如果语音识别过程的结果不与任何一个特定单词相匹配，则结果选择部件34经由识别结果输出部件36将语音识别过程的结果按原样输出到外部接收者。

特定单词的一个示例是单词“ung”。让我们假定由语音识别部件33执行的语音识别过程的结果与单词“ung”相匹配。如前所述，韵律识别部件32执行韵律识别过程以为输入的单词“ung”确定三种发声类型之一(或者发生的讲话者的发声意图)。也就是说，韵律识别部件32确定输入的单词“ung”是表达肯定、否定还是疑问的单词“ung”。由于由语音识别部件33执行的语音识别过程的结果与单词“ung”相匹配，因此结果选择部件34将由韵律识别部件32确定的肯定、否定或疑问发声类型附加到语音识别过程的结果。

例如，还可以提供这样一个配置，其中韵律识别部件32执行韵律识别过程，以为每个输入的单词确定四种发声类型之一。第四种发声类型被称为除肯定、否定和疑问发声类型之外的另一发声类型。如果韵律识别部件32将其他发声类型输出到结果选择部件34，则结果选择部件34仅将从语音识别部件33接收的结果作为最终识别过程的结果提供到识别结果输出部件36。另一方面，如果韵律识别部件32将肯定、否定和疑问发声类型之一输出到结果选择部件34，则结果选择部件34将从韵律识别部件32接收的发声类型附加到从语音识别部件33接收的作为语音识别过程结果的结果，并将语音识别过程的结果与附加的发声类型一起提供到识别结果输出部件36。从而，在此配置中可去除特定单词存储部件35。

图2是示出图1所示的语音识别设备11中使用的韵律识别部件32的配置的框图。

如图2所示，韵律识别部件32具有单词输入部件51、声学分析部件52、韵律识别子部件53、参数存储部件54和韵律输出部件55。

单词输入部件51包括：用于接收语音信号的单元，其从麦克风等等接收信号；用于放大信号的放大器；以及用于将放大的信号转换为数字信号的AD转换器。单词输入部件51以16kHz的典型频率对输入的语音信号进行采样，并将输出的数字信号提供到声学分析部件52。

声学分析部件52使用频率特性分析部件61和相对音调变化计算部件62。声学分析部件52从输入的语音信号中提取韵律识别过程所必需的特性量(或者后面将要描述的相对音调变化)，并将该特性量提供到韵律识别子部件53。后面将描述声学分析部件52的内部过程。

韵律识别子部件53是这样一个单元，其用于通过将作为表示未知语音数据的量的特性量与存储在参数存储部件54中的参数相核对，来对该未知的语音数据执行韵律识别过程。这些参数是预先基于通过对为学习过程准备的语音数据执行声学分析而获得的特性量而创建的。

由韵律识别子部件53对未知的语音数据执行的韵律识别过程是从韵律识别单元字典中选择与输入的语音信号相对应的韵律识别单元的过程。韵律识别过程中采用的主要的韵律识别技术包括DP(动态编程)匹配技术、神经网络技术和HMM(隐藏马尔可夫模型)技术。

根据DP匹配技术，首先，从通过分析语音信号获得的特性量中找出每个被称为模板的标准模式作为参数。然后，将未知语音的特性量与参数相核对，以找出被确定为与特性量最接近的参数。此外，为了吸收发声速度的变化，一种方法被用于根据动态时间扭曲技术来缩短时间轴，以最小化相对于模板的失真。

根据神经网络技术的韵律识别过程是利用模仿人脑结构的网络模型来执行的韵律识别过程。首先，通过执行学习过程预先确定路径的权重系数作为参数。然后，找出通过向网络模型输入未知语音的特性量而获得的输出与韵律识别单元字典中列出的韵律识别单元之间的距离，以确定与输入的未知语音相对应的韵律识别单元。

根据HMM技术，韵律识别过程是通过利用概率模型来执行的。首先，对于状态转移模型，基于学习数据预先确定转移概率和输出符号概率。然后，从未知语音的特性量的模型发生概率来确定韵律识别单元。

如上所述，由韵律识别子部件53执行的韵律识别过程一般包括学习过程和韵律识别过程。在学习过程中，从为学习过程准备的数据确定的参数被预先找出并存储在参数存储部件54中。从为学习过程准备的数据确定的参数的示例是模板、网络模型的权重系数和概率模型的统计参数。然后，在韵律识别过程中，在输入的未知语音信号经历声学分析之后，执行一个过程，以向韵律识别单元字典中列出的每个韵律识别单元给出得分，以选择字典中列出的韵律识别单元中具有最高得分的一个韵律识别单元或者与字典中列出的相比具有相对较高得分的多个韵律识别单元，作为韵律识别过程的结果。根据韵律识别过程中采用的韵律识别技术，得分可表示根据神经网络技术的距离，根据HMM技术的发生概率，或者另一个量。

例如，在特定单词“ung”的情况下，韵律识别子部件53为三类发声执行韵律识别过程，以确定特定单词是表达肯定的单词“ung”、表达否定的单词“uung”还是表达疑问的单词“ung？”，并将韵律识别过程的结果提供到韵律输出部件55。

韵律输出部件55将韵律识别过程的结果传递到结果选择部件34。

顺便说一下，在现有的检测音调频率的过程中，作为推定的条件，作为语音中声带振动的周期的音调周期的长度是唯一地确定的。或者，作为音调周期的倒数的音调频率是唯一地确定的。为了唯一地确定音调周期而执行的过程是找出所说出的单词的频率特性分布中的最低频率区域中存在的峰值分量的中心频率的过程。例如，在作为正常语音的频率特性的如图3所示那样的频率特性的情况下，频率fp是音调频率。

但是，如果像耳语语音的情况那样，在所说出的语音具有低音调特性的情况下噪声与所说出的单词相混合，那么如上所述的现有的确定音调频率的过程难以执行。在作为耳语语音的频率特性的如图4所示那样的频率特性的情况下，难以检测频率特性分布中的最低频率区域中存在的峰值分量的中心频率。这一检测困难可以说是归咎于以下事实的困难：为了检测峰值频率而执行的过程是取决于频率特性的峰值属性的过程。

另一方面，即使难以检测具有如图4所示那样的频率特性的耳语语音的音调频率，韵律识别部件32利用了相对音调变化，从而使得可能避免作为取决于频率特性的峰值属性的过程的为唯一确定适当的音调频率而执行的过程。从而，可以更牢靠地掌握语调的变化。

此外，在现有的音调频率检测处理中，所说出的语音的频率特性被当作一个特性量分布来处理，并且所需的特性(或音调频率)是从该分布中提取出的。但是，由于韵律识别部件32直接找出音调频率的变化，而不确定音调频率，因此不需要为了归一化音调频率和音调变化范围而执行的过程。音调变化范围是音调频率变化的范围。此外，韵律识别部件32能够更适当地掌握所说出的语音中的语调变化。

这样的过程是作为主要由韵律识别部件32执行的处理来实现的。

图5是示出频率特性分析部件61的功能配置的框图。如图所示，频率特性分析部件61包括时间到频率变换部件81、对数变换部件82和频率范围提取部件83。时间到频率变换部件81、对数变换部件82和频率范围提取部件83中每一个的功能可由硬件或运行软件来实现。

时间到频率变换部件81是这样一个单元，该单元用于执行时间-频率转换处理，例如FFT分析，以将输入的语音信号从在时域变化的信号变换成在频域变化的信号。在频域变化的信号表现出一般的频率特性，该频率特性随后被提供到对数变换部件82。图6是示出由时间到频率变换部件81所输出的典型频率特性的图。

对数变换部件82是这样一个单元，该单元用于将从时间到频率变换部件81接收的一般频率特性的频率轴变换成具有对数标度的轴，以将一般频率特性变换成对数频率轴上的频率特性。对数变换部件82随后将对数频率轴上的频率特性提供到频率范围提取部件83。图7是示出由对数变换部件82所输出的典型频率特性的图。

频率范围提取部件83是这样一个单元，该单元用于从接收自对数变换部件82的作为对数频率轴上的频率特性的频率特性中仅提取所需的频率区域部分Rw，并且输出所提取的频率区域部分，作为频率特性分析的结果。图8是示出从图7所示的作为对数频率轴上的频率特性的频率特性中提取的典型频率特性的部分Rw的图。

频率特性分析部件61将如图8所示那样的频率特性提供到相对音调变化计算部件62，作为频率特性分析的结果。

图9是示出相对音调变化计算部件62的功能配置的框图。如图所示，相对音调变化计算部件62包括互相关矩阵计算部件101、对角偏移计算部件102和相对音调差异计算部件103。互相关矩阵计算部件101、对角偏移计算部件102和相对音调差异计算部件103中每一个的功能可由硬件或运行软件来实现。

互相关矩阵计算部件101是这样一个单元，该单元用于通过利用作为分别属于从被分析帧中选择的两个不同的被分析帧的两个频率特性的从频率特性分析部件61中使用的频率范围提取部件83接收的两个频率特性，来计算频率特性之间的互相关矩阵M。

令列向量X和Y分别表示作为分别属于两个不同被分析帧的两个频率特性的从频率特性分析部件61中使用的频率范围提取部件83接收的两个频率特性，并且令符号N表示列向量X和Y的阶数。列向量X和Y分别由下面给出的式(1)和(2)表达。在此情况下，如下面给出的式(3)所表达的，互相关矩阵M是作为将列向量X乘以向量Y′得到的乘积而获得的矩阵，其中Y′是列向量Y的转置矩阵。

X＝(x₁，x₂，...，x_N)^T...(1)

Y＝(y₁，y₂，...，y_N)^T...(2)

M＝X*Y^T...(3)

图10是示出由式(3)表达的互相关矩阵M的图。图11是示出以浓度(或者明亮和黑暗程度)的形式表达构成互相关矩阵M的元素的数值的图形表示的图。

应当注意，为了比较，让我们假定两个频率特性彼此相同。在此情况下，互相关矩阵M被称为两个频率特性的自相关矩阵M，这两个频率特性是由列向量X表示的同一频率特性。图12是示出自相关矩阵M的图，而图13是示出以浓度形式表达构成自相关矩阵M的元素的图形表示的图。

从图12和13明显可见，仅从一个频率特性获得的自相关矩阵M是对称矩阵。自相关矩阵M的主对角线a是由在频率特性中观察到的幅度的平方组成的向量(或者功率谱)。也就是说，自相关矩阵M的主对角线a是连接在频率特性中观察到的幅度(或峰值)的平方的直线。另一方面，作为除了由主对角线a连接的元素之外的其他元素而包括在自相关矩阵M中的元素不是在频率特性中观察到的幅度(或峰值)的平方。

顺便说一下，图11所示的互相关矩阵M的脊线b与主对角线a相平行。

如图11所示，在从两个不同的频率特性获得互相关矩阵M中，脊线b相对于主对角线a有偏移。这是因为一个频率特性中的音调频率不同于另一频率特性中的音调频率。每个频率特性中的每一个峰值分量的频率位置是大致对应于音调频率的倍数的位置。在分别针对在不同时间分析的两个频率的两个频率特性的情况下，一个帧的音调频率不同于另一个帧的音调频率。从而，在从具有彼此不同的音调频率的两个频率特性(在对数频率轴上表达的特性)获得的互相关矩阵M中，连接互相关矩阵M中位于与主对角线a相平行的方向上的、作为各自表示在频率特性中观察到的峰值的乘积的元素的矩阵元素的脊线b因此是与主对角线a相平行的线。也就是说，脊线b相对于主对角线a的偏移了偏移距离c，该偏移距离c对应于一个差异，该差异出现在对数时间中，作为两个频率特性之间的偏移频率的差异。

对角偏移计算部件102是这样一个单元，该单元用于找出图11所示的距离c，作为从分别针对在不同时间分析的两个帧的两个不同频率特性获得的互相关矩阵M中脊线b和主对角线a之间的偏移距离，并且将偏移距离c提供到相对音调差异计算部件103。

相对音调差异计算部件103是这样一个单元，该单元用于基于从对角偏移计算部件102接收的作为互相关矩阵M中脊线b和主对角线a之间的偏移距离的位移距离c，来计算被分析帧的音调频率的差异，而不找出每个被分析帧的音调频率。在下面的描述中，被分析帧之间的音调频率的差异被称为相对音调差异。

如上所述，在不同时间分析的两个帧之间的相对音调差异可从分别属于两个被分析帧的两个频率特性中找到。例如，两个时间上相邻的被分析帧之间的相对音调差异可从分别属于这两个时间上相邻的被分析帧的两个频率特性中找到。

然后，相对音调差异计算部件103对于所需数目的被分析帧，将各自从两个时间上相邻的被分析帧的两个频率特性计算出的相对音调差异累加起来，以找出该所需数目的被分析帧的相对音调变化。在用于确定被分析帧的所需数目的典型方法中，可以用由韵律识别子部件53执行的学习过程中使用的识别精度作为参考。

如上所述，声学分析部件52执行内部处理以找出将用于韵律识别过程中的特性量(或者相对音调变化)。

通过参考图14所示的流程图，以下描述说明语音识别设备11为了识别语音的音素和语音的韵律而执行的处理。

如图所示，该流程图开始于步骤S1，在该步骤中语音信号输入部件31接收语音信号，将语音信号传递到韵律识别部件32和语音识别部件33。

然后，在接下来的步骤S2，语音识别部件33识别从语音信号输入部件31接收的语音信号以产生文本数据，并将文本数据提供到结果选择部件34。

在步骤S3，韵律识别部件32执行韵律识别过程，该过程将参考图15所示的流程图来说明。

然后，在接下来的步骤S4，结果选择部件34接收来自语音识别部件33的作为语音数据识别结果的文本数据以及来自韵律识别部件32的韵律识别结果，产生关于从语音识别部件33接收的语音数据识别结果是否与特定单词存储部件35中存储的特定单词相匹配的判定结果。

如果在步骤S4中执行的过程中产生的判定结果指示从语音识别部件33接收的语音数据识别结果不与存储在特定单词存储部件35中的任何特定单词相匹配，则由该流程图所表示的语音/韵律识别处理的流程进行到步骤S5。在步骤S5，结果选择部件34将从语音识别部件33接收的语音数据识别结果按原样提供到识别结果输出部件36，而不将从韵律识别部件32接收的韵律识别结果附加到语音识别结果。最后，由该流程图所表示的语音/韵律识别处理的执行结束。

另一方面，如果在步骤S4中执行的过程中产生的判定结果指示从语音识别部件33接收的语音数据识别结果与存储在特定单词存储部件35中的特定单词相匹配，则由该流程图所表示的语音/韵律识别处理的流程进行到步骤S6。在步骤S6，结果选择部件34将从韵律识别部件32接收的韵律识别结果附加到从语音识别部件33接收的语音数据识别结果，并将语音数据识别结果与韵律识别结果一起提供到识别结果输出部件36。最后，由该流程图所表示的语音/韵律识别处理的执行结束。

例如，还可以提供一种配置，其中韵律识别部件32执行韵律识别过程，以为每个输入单词确定四种发声类型之一。第四种发声类型被称为除先前所述的三种发声类型即肯定、否定和疑问发声类型之外的另一发声类型。如果韵律识别部件32将其他发声类型输出到结果选择部件34，则结果选择部件34仅将从语音识别部件33接收的结果作为语音识别过程的结果提供到识别结果输出部件36。另一方面，如果韵律识别部件32将肯定、否定和疑问发声类型之一输出到结果选择部件34，则结果选择部件34将从韵律识别部件32接收的发声类型附加到从语音识别部件33接收的作为语音识别过程结果的结果，并将语音识别过程的结果与附加的发声类型一起提供到识别结果输出部件36。在此情况下，在步骤S4，结果选择部件34以与上述相同的方式从语音识别部件33接收语音识别结果并从韵律识别部件32接收韵律识别结果。但是，取代产生关于从语音识别部件33接收的语音识别结果是否与存储在特定单词存储部件35中的特定单词相匹配的判定结果，结果选择部件34产生关于从韵律识别部件32接收的韵律识别结果是否是其他发声类型的判定结果。如果在步骤S4中执行的过程中产生的判定结果指示从韵律识别部件32接收的韵律识别结果是其他发声类型，则由该流程图所表示的语音/韵律识别处理的流程进行到步骤S5。如果在步骤S4中执行的过程中产生的判定结果指示从韵律识别部件32接收的韵律识别结果不是其他发声类型，则由该流程图所表示的语音/韵律识别处理的流程进行到步骤S6。

通过参考图5所示的流程图，下面的描述说明在图14所示的流程图的步骤S3中韵律识别部件32为了识别语音的韵律而执行的处理。

如图15所示，该流程图开始于步骤S31，在该步骤中，韵律识别部件 32执行后面将参考图16所示的流程图描述的频率分析过程。

然后，在接下来的步骤S32，韵律识别部件32执行后面将参考图17所示的流程图描述的相对音调差异计算过程。最后，由图15所示的流程图所表示的韵律识别处理的流程经由步骤S3进行到图14所示的流程图的步骤S4。

通过参考图16所示的流程图，下面的描述说明在图15所示的流程图的步骤S31中由频率特性分析部件61所执行的频率分析处理。

如图16所示，该流程图开始于步骤S61，在该步骤中，频率特性分析部件61中使用的时间到频率变换部件81执行时间-频率转换处理，例如FFT分析，以将输入的语音信号从在时域变化的信号变换成在频域变化的信号。在频域变化的信号表现出一般的频率特性，该频率特性随后被提供到对数变换部件82。

然后，在步骤S62，对数变换部件82将从时间到频率变换部件81接收的一般频率特性的频率轴变换成具有对数标度的轴，以将一般频率特性变换成对数频率轴上的频率特性。对数变换部件82随后将对数频率轴上的频率特性提供到频率特性分析部件61中使用的频率范围提取部件83。

然后，在步骤S63，频率范围提取部件83从接收自对数变换部件82的作为对数频率轴上的频率特性的频率特性中仅提取所需的频率区域部分，并且向相对音调变化计算部件62输出所提取的频率区域部分，作为频率特性分析的结果。最后，由图16所示的流程图所表示的频率分析处理的流程经由步骤S31进行到图15所示的流程图的步骤S32。

通过执行上述频率分析处理，可以使输入的语音信号经历频率分析。

通过参考图17所示的流程图，下面的描述说明在图15所示的流程图的步骤S32中的第一相对音调差异计算处理。

如图17所示，该流程图开始于步骤S91，在该步骤中，互相关矩阵计算部件101通过利用作为分别属于从被分析帧中选择的两个不同的被分析帧的两个频率特性的两个频率特性，来计算频率特性之间的互相关矩阵M。然后，互相关矩阵计算部件101将互相关矩阵M提供到对角偏移计算部件102。

然后，在接下来的步骤S92，对角偏移计算部件102找出图11所示的距离c，作为互相关矩阵M中脊线b和主对角线a之间的偏移距离。然后，对角偏移计算部件102将偏移距离c提供到相对音调差异计算部件103。

然后，在接下来的步骤S93，相对音调差异计算部件103基于从对角偏移计算部件102接收的作为互相关矩阵M中脊线b和主对角线a之间的偏移距离的距离c，来计算被分析帧的相对音调差异，而不找出每个被分析帧的音调频率。然后，相对音调差异计算部件103对于所需数目的被分析帧，将各自从两个时间上相邻的被分析帧的两个频率特性计算出的相对音调差异累加起来，以找出该所需数目的被分析帧的相对音调变化。最后，由图17所示的流程图所表示的第一相对音调差异计算处理的流程经由图15所示的流程图的步骤S32和图14所示的流程图的步骤S3进行到图14所示的流程图的步骤S4。

通过执行上述处理，可以获得用于识别韵律的相对音调变化。

接下来，通过参考图18A至25C来说明各种语音的典型相对音调模式，以更好地阐明实现了先前通过参考图1来说明的语音识别设备11的实施例所采用的韵律识别方法的有效性。下面的描述中将会频繁使用的相对音调模式是通过以下方式获得的：对于被分析帧，从语音数据的起点开始，经过整个发声期，将相对音调差异累加起来，以将各自从关于被分析帧的语音数据的起点开始的相对音调变化表达为连续的帧的序列的时间轴数据，如图18C至25C、26B和27所示。相对音调模式是这样一条曲线，该曲线表示沿着时间轴出现的连续的被分析帧的整个序列的相对音调变化。

可将以这种方式获得的相对音调模式与表示被分析帧的音调频率的一般音调模式相比较。一般音调模式是时间轴数据。在下面的描述中，一般音调模式被称为真实音调差异。

图18A-18C是示出由说出“aiueo”的男性所输出的语音的语音波形、该语音的真实音调模式和该语音的相对音调模式的一组图。另一方面，图19A-19C是示出由说出“aiueo”的女性所输出的语音的语音波形、该语音的真实音调模式和该语音的相对音调模式的一组图。更具体而言，图18A和19A分别是示出由男性和女性所输出的语音的语音波形的图。图18B和19B分别是示出由男性和女性所输出的语音的真实音调模式的图。图18C和19C分别是示出由男性和女性所输出的语音的相对音调模式的图。

通过参考图20A至25C，下面的描述说明了在语音识别部件33输出文本“ung”作为语音识别结果的情况下，在通常情形下实际打算作为表达肯定的答复的单词“ung”、实际打算作为表达否定的答复的单词“uung”或者实际打算作为表达疑问的答复的单词“ung？”的语音的波形、真实音调模式和相对音调模式。

通过参考图20A至22C，下面的描述说明了正常地输出语音的情况。

更具体而言，图20A-20C是示出实际打算作为表达肯定的答复的单词“ung”的波形、真实音调模式和相对音调模式的一组图。图21A-21C是示出实际打算作为表达否定的答复的单词“uung”的波形、真实音调模式和相对音调模式的一组图。图22A-22C是示出实际打算作为表达疑问的答复的单词“ung？”的波形、真实音调模式和相对音调模式的一组图。换句话说，图20A、21A和22A分别是示出表达肯定、否定和疑问答复的语音的语音波形的图。图20B、21B和22B分别是示出表达肯定、否定和疑问答复的语音的真实音调模式的图。图20C、21C和22C分别是示出表达肯定、否定和疑问答复的语音的相对音调模式的图。

从图20A至22C明显可见，仅仅利用图20A、21A和22A所示的波形，很难清楚地区分语音的高度。但是，通过利用作为通过执行上述处理而找出的模式的图20B、21B和22B所示的真实音调模式或者图20C、21C和22C所示的相对音调模式，则可以很清楚地区分语音的高度。

通过参考图23A至25C，下面的描述说明了语音是耳语语音的情况。更具体而言，图23A-23C是示出实际打算作为表达肯定的答复的单词“ung”的波形、声谱图和相对音调模式的一组图。图24A-24C是示出实际打算作为表达否定的答复的单词“uung”的波形、声谱图和相对音调模式的一组图。图25A-25C是示出实际打算作为表达疑问的答复的单词“ung？”的波形、声谱图和相对音调模式的一组图。换句话说，图23A、 24A和25A分别是示出表达肯定、否定和疑问答复的语音的语音波形的图。图23B、24B和25B分别是示出表达肯定、否定和疑问答复的语音的声谱图的图。图23C、24C和25C分别是示出表达肯定、否定和疑问答复的语音的相对音调模式的图。

如图23B、24B和25B的声谱图所示，在耳语语音的情况下，在包括一般音调频率分量的区域中，可能不能掌握足够的特性。因此非常难以提取音调频率。

但是，如前所述，语音识别设备11中使用的韵律识别部件32从各自充当观察对象的两个频率特性之间的谐波分量的差异中直接找出相对音调差异。从而，从图23C、24C和25C明显可见，可以适当地掌握耳语语音的高度变化。

具体地说，在打算作为表达肯定的答复的单词“ung”的情况下，其相对音调模式是如图23C所示的下降的模式。在打算作为表达否定的答复的单词“uung”的情况下，其相对音调模式是如图24C所示的先下降然后上升的模式。在打算作为表达疑问的答复的单词“ung？”的情况下，其相对音调模式是如图25C所示的上升的模式。基于相对音调模式的这些差异，可以针对作为其真实音调模式难以被检测的单词的通过耳语语音之类的来表达的特定单词“ung”，将三种发声类型(或者发声的说话者的发声意图)，即肯定、否定和疑问发声类型彼此区分开来。从而可以基于输入语音的韵律特性来十分精确地执行韵律识别过程。

根据上述方法，基于作为下述偏移的由谐波结构引起的偏移来确定相对音调差异(或者表示相对音调变化的曲线)：该偏移表示连接与该谐波结构中的峰相对应的矩阵元素的脊线相对于分别属于在两个不同时间观察到的两个被分析帧的两个频率特性之间的互相关矩阵的主对角线偏移的距离。根据用于确定相对音调差异(或者相对音调变化)的典型方法，在两个频率特性上分别确定至少一组点，然后基于连接两个这样的组或者至少一个这样的组的直线相对于两个频率特性之间的互相关矩阵的主对角线偏移的距离，来确定相对音调差异(或者相对音调变化)。

通过采用上述典型方法，可以基于与脊线相对于互相关矩阵的主对角线偏移的距离不同的基准来确定相对音调差异(或者相对音调变化)。具体地说，例如，只关注两个频率特性的N阶谐波峰，或者只关注两个频率特性中与这种峰相对的特定谷的位置。

通过执行这样的过程，可以获得在韵律识别过程中将要使用的相对音调变化。从而，通过利用分别在两个不同时间观察到的两个频率特性之间的相对音调变化来执行韵律识别过程，对于过去难以提取音调频率的情况可以执行牢靠的韵律识别过程。所述情况的示例是噪声之类的影响较大的情况以及耳语语音的情况或者具有低音调属性的语音的情况。

顺便说一下，如果通过根据上述方法找出相对音调变化来执行韵律识别过程，则可能会意外导致这样一个问题，它是由以下情况引起的：对于充当识别对象的所说出语音的语音片段中包括的静默片段和非语音区域中的任何一个都不能执行正确的识别过程。

通过参考图26A-26B，下面的描述说明了对说出“utsumuku”的语音执行的韵律识别过程，作为对描述作为解决上述问题的实施例的实现图1所示的语音识别设备11的另一实施例的准备。图26A是示出说出“utsumuku”的语音的波形的图，而图26B是示出该语音的真实音调模式的图。

如图26A所示，说出“utsumuku”的语音的波形包括非语音部分，即与日语音节“tsu”的字母字符“ts”相对应的部分和与日语音节“ku”的字母字符“k”相对应的部分。与声带不同的是，在非语音部分中，没有振动。从而，非语音部分不具有音调频率。

如果如上所述的从两个不同的频率特性中找出相对音调变化的方法被应用到这样的波形，则由于非语音部分而会获得不正确的结果。通过参考图27，下面的描述说明了由于非语音部分而获得不正确的结果的情况。

图27是示出通过利用从两个不同的频率特性计算出的互相关矩阵而检测到的相对音调模式的图。

如前所述，相对音调模式是通过以下方式获得的：对于被分析帧，从语音数据的起点开始，经过整个发声期，将相对音调差异累加起来，以将各自从关于被分析帧的语音数据的起点开始的相对音调变化表达为连续的帧的序列的时间轴数据。

同样如上所述，说出“utsumuku”的语音的波形包括非语音部分，即与日语音节“tsu”的字母字符“ts”相对应的部分和与日语音节“ku”的字母字符“k”相对应的部分。与声带不同的是，在非语音部分中，没有振动。如图27所示，与图26B所示的真实音调模式相比，在通过利用从两个不同的频率特性获得的互相关矩阵而检测到的相对音调模式中，与字母字符“ts”相对应的非语音部分之前和之后的音调(或者语音高度)之间的关系以及与字母字符“k”相对应的非语音部分之前和之后的音调之间的关系未被正确地提取。

这是因为，在实现如上所述地找出相对音调变化的方法时，两个不同频率特性之一或者两个不同频率特性两者是非语音部分的频率特性，从而使得通过利用从这两个不同频率特性获得的互相关矩阵，不能获得适当的相对音调差异。

也就是说，根据关于在作为除非语音部分之外的部分包括在单词“utsumuku”中的部分之前和之后的分别具有帧号59和68的两个频率的两个频率特性，可以获得如图28所示的正确的互相关矩阵。从而，在互相关矩阵中脊线相对于主对角线的偏移距离具有适当的值。另一方面，根据关于与字符“k”相对应的特定非语音部分之前的帧号为68的帧的频率特性和关于该特定非语音部分之后的帧号为77的帧的频率特性，则获得图29所示的不正确的互相关矩阵。从而，互相关矩阵中脊线相对于主对角线的偏移距离不具有适当的值。

为了为非语音部分获得正确的互相关矩阵，最好有一个固定频率特性作为为了检测相关而将从其计算互相关矩阵的两个不同频率特性之一。

具体地说，例如，通过利用作为充当模板的频率特性的预先准备的频率特性以及从输入语音信号获得的频率特性，来获得互相关矩阵。这样，即使对于非语音部分也能获得正确的互相关矩阵。在下面的描述中，作为充当模板的频率特性的预先准备的频率特性被称为模板频率特性。

图30是示出用来替换图2所示的相对音调变化计算部件62的相对音调变化计算部件151的功能配置的框图。相对音调变化计算部件151是用于通过利用模板频率特性作为两个频率特性之一来计算互相关矩阵的单元。如图30所示，相对音调变化计算部件151使用模板频率特性存储部件161、互相关矩阵计算部件162、对角偏移计算部件102和相对音调差异计算部件103。对角偏移计算部件102和相对音调差异计算部件103与图9所示的相对音调变化计算部件62中使用的其各自的对应物相同。互相关矩阵计算部件162充当图9所示的相对音调变化计算部件62中使用的互相关矩阵计算部件101的替换。互相关矩阵计算部件162是这样一个单元，该单元用于从两个频率特性计算互相关矩阵，该两个频率特性中的一个是作为固定频率特性而存储在模板频率特性存储部件161中的模板频率特性。互相关矩阵计算部件162的功能可由硬件或运行软件来实现。

例如，存储在模板频率特性存储部件161中的模板频率特性可以是伪频率特性，它以300 Hz的典型音调频率作为基频频率，并且表现出具有相对于基频幅度线性减小的幅度的谐波分量。

互相关矩阵计算部件162从两个频率特性计算如图31所示那样的互相关矩阵，该两个频率特性之一是作为固定频率特性存储在模板频率特性存储部件161中的模板频率特性。对角偏移计算部件102和相对音调差异计算部件103的功能与图9所示的相对音调变化计算部件62中使用的其各自的对应物的功能相同。也就是说，对角偏移计算部件102找出图31所示的互相关矩阵中脊线和主对角线之间的偏移距离。然后，相对音调差异计算部件103基于该偏移距离计算相对音调差异。最后，相对音调差异计算部件103将相对音调差异累加起来，以找出相对音调差异。

换言之，图30所示的相对音调变化计算部件151通过利用从存储在模板频率特性存储部件161中的模板频率特性和被分析帧的频率特性计算出的互相关矩阵来找出相对音调差异。

如上所述，取代找出时间上在前的被分析帧和时间上在后的被分析帧之间的相对音调差异，找出作为相对于模板频率特性的音调频率的音调频率差异的相对音调差异。从而，即使语音的波形包括非语音部分，也可以防止在非语音部分之前或之后的区域中相对音调模式的连续性变得不适当。

图32是示出作为由相对音调变化计算部件151执行的过程的结果而找到的相对音调模式的图。如果将图32所示的相对音调模式与图26A-26B所示的相对音调模式相比较，则可以明显看出，由相对音调变化计算部件151执行的过程不会导致非语音部分之前和之后的区域中相对音调模式的连续性不适当，以使得每个非语音部分可以作为非适当片段经历为识别韵律而执行的韵律识别过程。

此外，可以提供这样一种配置，其中模板频率特性存储部件161被用于存储多个上述模板频率特性。在该配置中，从存储在模板频率特性存储部件161中的模板频率特性中，可以选择与输入语音的特征和/或被分析帧的频率特性的特征相匹配的一个，作为将要与被分析帧的频率特性一起被用在计算互相关矩阵的过程中的模板频率特性。

具体地说，让我们假定模板频率特性存储部件161被用于存储具有不同音调频率例如100Hz、300Hz和500Hz的多个模板频率特性。在此情况下，被分析帧的频率特性与每个模板频率特性之间的相对音调差异被找出。然后，最好以特定的相对音调差异作为被分析帧的频率特性与模板频率特性之一之间的相对音调差异。该特定相对音调差异是在所找出的相对音调差异中具有最小绝对值的相对音调差异。

通过利用上述方法找出相对音调差异，即使对于如图18B和19B所示的语音高度有很大差异的男性和女性语音的情况那样的具有变化很大的语音高度的多种输入语音，也能十分精确地找到相对音调差异。

通过参考图33所示的流程图，下面的描述说明了在图15所示的流程图的步骤S32中相对音调变化计算部件151为了基于从其中一个是固定模板频率特性的两个频率特性计算出的互相关矩阵找出相对音调差异而执行的第二相对音调差异计算处理。

如图所示，该流程图开始于步骤S121，在该步骤中，相对音调变化计算部件151中使用的互相关矩阵计算部件162从存储在模板频率特性存储部件161中的模板频率特性和预先确定的输入的被分析帧的频率特性，计算模板频率特性和该频率特性之间的互相关矩阵。然后，互相关矩阵计算部件162将互相关矩阵提供到对角偏移计算部件102。

然后，在接下来的步骤S122，对角偏移计算部件102找出图31所示的距离c，作为互相关矩阵中脊线b和主对角线a之间的偏移距离。然后，对角偏移计算部件102将偏移距离c提供到相对音调差异计算部件103。

然后，在步骤S123中，相对音调差异计算部件103基于从对角偏移计算部件102接收的作为互相关矩阵中脊线b和主对角线a之间的偏移距离的距离c，计算模板频率特性和被分析帧的频率特性之间的相对音调差异，而不找出被分析帧的音调频率。然后，相对音调差异计算部件103将相邻的被分析帧之间的相对音调差异累加起来，以找出所需数目的被分析帧的相对音调变化。最后，由图17所示的流程图所表示第一相对音调差异计算处理的流程经由图15所示的流程图的步骤S32和图14所示的流程图的步骤S3进行到图14所示的流程图的步骤S4。

通过执行上述处理，即使对于包括非语音部分的语音，也能适当地找出将在韵律识别过程中用作特性量的相对音调变化。

利用本发明，即使对于噪声之类的影响较大的情况以及耳语语音的情况或者具有低音调属性的语音的情况，也能掌握语音高度的变化。从而，可以基于输入语音的韵律特性而十分可靠地执行语音识别过程。

也就是说，利用本发明，可以基于仅通过将模板频率特性与被分析帧的频率特性相比较而不找出被分析帧的音调频率就获得的相对音调变化，来执行韵律识别过程。

换言之，为了从两个频率特性中找出相对音调变化，两个频率特性之一可以是被称为模板频率特性的固定频率特性。

从而，即使在包括静默片段和/或非语音部分的输入语音的情况下，相对音调模式也不会变得不连续，从而适当的相对音调模式可以以与通过检测普通音调频率而找到的音调模式相同的方式来被找出。

也就是说，通过以被称为模板频率特性的固定频率特性作为从其找出相对音调变化的两个频率特性之一，可以对多种输入语音执行基于相对音调变化的韵律识别过程。

此外，可以提供这样一种配置，其中模板频率特性存储部件161被用于存储多个模板频率特性。在此配置中，从这些模板频率特性中，可以选择与输入语音的特征和/或被分析帧的频率特性的特征相匹配的一个。

通过利用上述方法找出相对音调差异，即使对于像语音高度有很大差异的男性和女性语音的情况那样的具有变化很大的语音高度的多种输入语音，也能十分精确地找到相对音调差异。

无疑，本发明可被应用到与先前通过参考图1说明的语音识别设备11不同的设备。也就是说，本发明当然可被应用到其中通过采用上述方法来识别韵律的配置。

前述过程系列也可通过运行软件来执行。如果上述过程系列通过运行软件来执行，则构成软件的程序一般可从记录介质被安装到嵌入在专用硬件中的计算机、通用个人计算机等等之中。在此情况下，如图34所示那样的计算机或个人计算机充当先前通过参考图1所说明的语音识别设备11。通用个人计算机是这样一种个人计算机，其能够通过安装多种程序到其中来执行多种功能。

在图34所示的个人计算机中，CPU(中央处理单元)211通过运行存储在ROM(只读存储器)212中的程序或者从存储部件218加载到RAM(随机访问存储器)213中的程序来执行各种处理。RAM 213还用于适当地存储各种信息，例如处理运行时所需的数据。

CPU 211、ROM 212和RAM 213通过总线214与彼此相连，该总线214还连接到输入/输出接口215。

输入/输出接口215连接到输入部件216、输出部件217、上述存储部件218和语音信号采集部件219。输入部件216包括键盘和鼠标，而输出部件217包括显示单元和扬声器。存储部件218包括硬盘。语音信号采集部件219是与外部设备的接口的麦克风。

输入/输出接口215还连续到安装了上述记录介质的驱动器220。记录介质可以是磁盘231、光盘232、磁光盘233或者半导体存储器234。如上所述，CPU 211所运行的计算机程序是从记录介质安装到存储部件218中的。

如前所述，前述过程系列也可通过运行软件来执行。如果上述过程系列是通过运行软件来执行的，则构成软件的程序一般可从记录介质安装到嵌入在专用硬件中的计算机、通用个人计算机等等之中的存储部件218中。

上述用于记录分别作为将要被计算机或通用个人计算机运行的程序的将要被安装到计算机或通用个人计算机中的程序的记录介质是与图34所示的个人计算机的主要单元相分开地向用户提供的可移动记录介质。也称为封装介质的可移动记录介质的示例包括：磁盘231，例如柔性盘；光盘232，例如CD-ROM(致密盘-只读存储器)或者DVD(数字多功能盘)；磁光盘233，例如MD(袖珍盘)；以及半导体存储器234。

值得注意的是，在本说明书中，上述记录介质中存储的每个程序的步骤不仅可以按沿着时间轴的预定顺序执行，也可同时执行或各自执行。

还应当注意，本说明书中使用的技术术语“系统”意味着包括多个设备的集合的配置。

还值得注意的是，本发明的实现方式绝不限于上述实施例。也就是说，可以对实施例作出不脱离本发明实质的范围内的变化。

此外，本领域的技术人员应当理解，取决于设计要求和其他因素，可以作出各种修改、组合、子组合和更改，只要它们处于所附权利要求或其等同物的范围之内。

本发明包含与2006年12月1日向日本专利局递交的日本专利申请JP2006-325780相关的主题，这里通过引用将其全部内容并入。

Claims

1.一种语音处理设备，用于基于输入的语音的韵律特性来识别所述语音，所述语音处理设备包括：

语音采集装置，用于采集所述输入语音；

声学分析装置，用于基于在所述语音采集装置所采集的所述输入语音的每个帧时间所看到的第一频率特性和预先确定的第二频率特性之间的频率方向差异，来找出相对音调变化；以及

韵律识别装置，用于基于由所述声学分析装置所找到的所述相对音调变化来执行韵律识别过程，以产生所述韵律识别过程的结果，

其中，所述声学分析装置基于脊线相对于从所述第一和第二频率特性计算出的互相关矩阵的主对角线的偏移，来找出所述相对音调变化，所述脊线是作为连接与所述第一和第二频率特性的峰相对应的矩阵元素的直线而绘制在所述互相关矩阵中的。

2.根据权利要求1所述的语音处理设备，所述语音处理设备还具有用于存储所述第二频率特性的频率特性存储装置。

3.根据权利要求2所述的语音处理设备，其中

所述频率特性存储装置被用于存储多个所述第二频率特性，并且

所述声学分析装置基于根据由所述语音采集装置所采集的所述输入语音而从存储在所述频率特性存储装置中的所述第二频率特性中选择出来的适当的第二频率特性，来找出所述相对音调变化。

4.根据权利要求1所述的语音处理设备，所述语音处理设备还具有：

语音识别装置，用于执行基于作为对由所述语音采集装置所采集的所述输入语音执行声学分析的结果而获得的特性量的语音识别过程，以产生所述语音识别过程的结果，其中，如果所述语音识别过程的结果与预先存储的预定的特定单词之一相匹配，则很有可能所述语音识别过程的所述结果是不正确的；

特定单词存储装置，用于存储所述特定单词；以及

结果选择装置，用于将所述语音识别过程的所述结果与存储在所述特定单词存储装置中的所述特定单词相核对，其中

如果所述语音识别过程的所述结果与存储在所述特定单词存储装置中的所述特定单词之一相匹配，则所述结果选择装置输出最终识别结果，该最终识别结果是通过将由所述语音识别装置所执行的所述语音识别过程的所述结果与由所述韵律识别装置所执行的所述韵律识别过程的所述结果相结合来获得的，但是

另一方面，如果所述语音识别过程的所述结果不与存储在所述特定单词存储装置中的所述特定单词中的任何一个相匹配，则所述结果选择装置输出由所述语音识别装置执行的所述语音识别过程的所述结果，作为最终识别结果。

5.一种由语音处理设备采用的语音处理方法，用于基于输入的语音的韵律特性来识别所述语音，所述语音处理方法包括以下步骤：

采集所述输入语音；

基于所找到的相对音调变化来执行韵律识别过程，以产生所述韵律识别过程的结果，

其中，基于脊线相对于从所述第一和第二频率特性计算出的互相关矩阵的主对角线的偏移，来找出所述相对音调变化，所述脊线是作为连接与所述第一和第二频率特性的峰相对应的矩阵元素的直线而绘制在所述互相关矩阵中的。