CN1661675A

CN1661675A - 语音分析设备、语音分析方法和语音分析程序

Info

Publication number: CN1661675A
Application number: CN2005100510306A
Authority: CN
Inventors: 工藤裕一
Original assignee: Sega Enterprises Ltd
Current assignee: Sega Corp
Priority date: 2004-02-26
Filing date: 2005-02-25
Publication date: 2005-08-31
Anticipated expiration: 2025-02-25
Also published as: EP1569201B1; JP2005241997A; DE602005000896D1; DE602005000896T2; CN1319042C; JP4792703B2; US20050192805A1; US7680660B2; EP1569201A1; ES2284133T3

Abstract

提供了一种语音分析方法和设备，由此能够实时地执行处理，并能够应付无限制数量的说话者。一种计算机可执行的语音分析方法从输入语音中检测音素边界，并且特征在于重复在输入语音信号中指定时刻的步骤、提取从该时刻开始的规定长度的时间范围中包含的语音信号的步骤、以及将所提取的语音信号分解成频率分量数据的步骤；从规定长度的时间范围中包含的语音信号中求得多个频率分量数据；使用与规定长度的相邻时间范围中包含的语音信号相对应的频率分量数据求得多个相关度；求得变化度大于相邻的两个变化度的时间范围；以及，根据这些时间范围将输入的语音信号划分成多个片段。

Description

语音分析设备、语音分析方法和语音分析程序

技术领域

本发明涉及语音分析设备、语音分析程序和语音分析方法。更具体地说，涉及采用根据本发明的语音分析方法的图像生成设备，特别是创建根据语音改变口形的动画(嘴唇同步动画)的嘴唇同步动画图像生成设备。

背景技术

当前，在许多领域中使用语音分析技术。例如通过语音识别说话者，将语音转换成文本，或者生成根据语音改变口形的嘴唇同步动画。在这些情况下执行的处理分别涉及：在语音分析技术的情况下，从语音中提取音素，即用于区分单词含义的部；在识别说话者的情况下，使用所提取的音素和预先登记的参考模式之间的相似度来识别说话者；在文本转换的情况下，在显示器等设备上显示与所提取的音素对应的字母；以及，在生成嘴唇同步动画的情况下，在显示器等设备上显示与所提取的音素对应的图像。

现有技术包括下列从语音中提取音素的方法。例如，在日本特公平6-32007号公报中公开的说话者识别系统中，通过下述方式提取音素：为每个元音确定间隔区间以便预先输入的参考模式和说话者语音之间的差别小于规定的值，并建立这些间隔区间和元音之间的对应关系。

这种用于提取音素的间隔区间称作片段。在日本特开2003-233389号公报的动画图像生成设备中，执行使用诸如复合正弦建模(CompositeSinusoidal Modeling，CSM)的共振峰分析，并根据表征元音的共振峰信息提取音素。

发明内容

然而，为了利用与参考模式的差距来进行片段的确定，必需准备为每个说话者登记参考模式的数据库。然而，这不可避免地产生了取决于说话者数量的大量数据，延长了语音分析需要的处理时间。因此，难于将该系统应用于需要实时处理的情况(例如建立嘴唇同步动画)。而且，当加入新的说话者时，产生了将新说话者的参考模式添加到数据库中的任务；因此，管理数据库的任务变得很繁重，并且该系统难以应用于无限制的大量说话者。

而且，当前的情况是，实际上使用共振峰信息提取音素由于这种处理需要的时间而难以应用于需要实时处理的情况。除此之外，还公知一种音素提取方法使用例如LPC(线性预测编码)倒谱分析。已经发现使用该方法提取音素的精度随着重复次数的增加而提高，即，存在学习效果。相反地，为了提高提取的精度，需要预先准备大量学习信号的分析结果；因此，很难将该方法应用于无限制的大量说话者。

此外，已知频谱包络的特性根据表达方法或提取方法显著地改变，所述表达方法或提取方法受诸如重复程度或次数的确定的影响，因此，需要分析员的技巧。

因此，本发明的一个目的是提供一种语音分析设备和语音分析方法，其中能够执行实时语音分析处理，并能够将其应用于无限制数量的说话者，而不需要为每个说话者准备参考模式。另一个目的是提供一种动画图像生成设备，能够通过应用该语音分析方法而实现实时处理。

根据本发明的第一方面，通过提供一种计算机可执行的语音分析方法实现了上述目的，该计算机可执行的方法从输入语音中检测音素边界，包括：在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和将所述提取的语音信号分解成频率分量数据的第三步，其中通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件：当m从2到(n-3)每次改变1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；以及，根据所指定的时间范围将所述输入语音信号划分成多个片段。

根据本发明的第二方面，通过提供根据第一方面的语音分析方法实现了上述目的，还包括：为所述划分的语音信号的每个片段计算特征量，并通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。

根据本发明的第三方面，通过提供根据第一方面的语音分析方法实现了上述目的，其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。

根据本发明的第四方面，通过提供根据第一方面的语音分析方法实现了上述目的，其中所述相关度是通过累加与同一频率分量相对应的幅值之积而求得的值。

根据本发明的第五方面，通过提供根据第一方面的语音分析方法实现了上述目的，其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。

根据本发明的第六方面，通过提供根据第二方面的语音分析方法实现了上述目的，其中根据通过所述划分而获得的所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。

根据本发明的第七方面，通过提供动画图像生成计算机可执行方法实现了上述目的，该计算机可执行方法显示与输入语音信号中的音素划分相对应的图像，包括：在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；以及，将所述提取的语音信号分解成频率分量数据的第三步，其中，通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；根据所述指定的时间范围将所述输入语音信号划分成多个片段；为所划分的语音信号的每个片段计算特征量；通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素；以及，与所述片段相应地切换显示与所述片段的所述音素对应的图像。

根据本发明的第八方面，通过提供可由包括CPU的计算机执行、检测输入语音中的音素边界的语音分析程序实现了上述目的，该程序使CPU执行：在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；以及，将所述提取的语音信号分解成频率分量数据的第三步，其中，通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；以及，所述CPU根据所述指定的时间范围将所述输入语音信号划分成多个片段。

根据本发明的第九方面，通过提供根据第八方面的语音分析程序实现了上述目的，还使CPU执行：为所述划分的语音信号的每个片段计算特征量，并通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素。

根据本发明的第十方面，通过提供根据第九方面的语音分析程序实现了上述目的，其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分；所述相关度是通过累加与同一频率分量相对应的幅值之积而求得的值；通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据；并且，根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。

根据本发明的第十一方面，通过提供可由包括CPU的计算机执行、显示与输入语音信号中的音素划分对应的图像的动画图像生成程序而实现了上述目的，所述程序使CPU执行：在所述输入语音信号中指定时刻的第一步；提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；以及，将所述提取的语音信号分解成频率分量数据的第三步，其中，通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度；通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，由(n-1)个所述的相关度求得(n-2)个所述的变化度；当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；根据所限定的数m指定所述规定长度的时间范围；根据所述指定的时间范围将所述输入语音信号划分成多个片段；为所划分的语音信号的每个片段计算特征量；通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素；以及，与所述片段相应地切换显示与所述片段的所述音素对应的图像。

根据本发明的第十二方面，通过提供存储有根据第八至第十二方面中的任一方面的程序的存储介质而实现了上述目的。

根据本发明的第十三方面，通过提供语音分析设备实现了上述目的，该设备包括：频率分解部，通过以规定的间隔重复n次(其中n是至少为6的自然数)指定输入语音信号中的时刻、提取从所述时刻开始的规定长度的时间范围中包含的语音信号、并将所述提取的语音信号分解成频率分量数据，从而求得从n个规定长度的时间范围中包含的语音信号中提取出的n个频率分量；变化度计算部，通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度，并通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，由(n-1)个所述的相关度求得(n-2)个所述的变化度；以及，片段确定部，其求得所限定的数，所限定的数m被限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号，即所限定的数m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，该片段确定部根据所限定的数m指定所述规定长度的时间范围，并根据所述指定的时间范围将所述输入语音信号划分成多个片段。

根据本发明的第十四方面，通过提供动画图像生成设备实现了上述目的，该设备包括：频率分解部，其通过以规定的间隔重复n次(其中n是至少为6的自然数)指定输入语音信号中的时刻、提取从所述时刻开始的规定长度的时间范围中包含的语音信号、并将所述提取的语音信号分解成频率分量数据，从而求得从n个规定长度的时间范围中包含的语音信号中提取出的n个频率分量；变化度计算部，其通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度，并通过根据第k个相关度和第(k+1)个相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；片段确定部，其求得所限定的数，所限定的数m被限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即所限定的数m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，该片段确定部根据所限定的数m指定所述规定长度的时间范围，并根据所述指定的时间范围将所述输入语音信号划分成多个片段；音素提取部，通过为所述划分的语音信号的每个片段计算特征量，并比较各个所述音素的参考数据与所述特征量来指定所述片段的所述音素；以及，动画显示部，其显示与所述片段的所述音素对应的图像，这些图像与所述片段相应地切换。

通过使用本发明，可以简单地通过预先准备多个主体的输入语音的分析结果作为参考数据，而不需要为每个说话者准备参考模式，能够实时地实现快速语音分析处理。而且，因为不需要为每个说话者登记参考模式的操作，仅需要准备一次参考模式，所以能够应付无限制数量的说话者。此外，因为不需要用于存储每个说话者的参考模式的数据库，所以即使在小存储容量的设备上也可以安装。

附图说明

图1是根据本发明实施例的图像生成设备的结构框图；

图2是根据本发明的语音分析部(语音分析设备)的结构框图；

图3是解释根据本发明实施例的图像生成设备中的处理的流程图；

图4是用于解释图3的步骤S2的页划分的图；

图5示出了当执行图3的步骤S2的频率分量分析时频率和幅值的关系；

图6示出了对于多个页的频率分解结果；

图7示出了如何执行相邻页之间的相关度的计算；

图8示出了页关联参数y和相关度差值S(y)之间的关系；

图9用于解释每个片段的频率分解；以及，

图10用于解释与音素对应的动画。

具体实施方式

下面参考附图描述本发明的实施例。然而，本发明的技术范围并不限于这些实施例，并扩展到在权利要求书中阐述的发明及其等同物。

图1是根据本发明实施例的图像生成设备的结构框图。这是生成与输入语音对应的动画的嘴唇同步动画生成设备。根据该实施例的图像生成设备包括作为语音分析部1的根据本发明的语音分析设备，此外，还包括CPU 2、工作RAM 3、几何计算部4、渲染部5、纹理生成部6、纹理RAM 7、显示部8和帧缓冲器9。这些功能部通过该图像生成设备中提供的CPU(中央处理部)2执行的程序来实现，但是它们也可以使用硬件来实现。

CPU 2控制生成图像的程序。由CPU 2使用的程序或数据存储在工作RAM 3内。语音分析部1分析输入语音以提取在输入语音中包含的音素，并输出用于确定对应于各个音素的图像的显示时间的定时信息。

在CPU 2的控制下，几何计算部4从工作RAM 3中读取和输入构成世界坐标系中的三维对象数据的多边形数据。接着，它执行转换为原点为视点的视点坐标系的数据的坐标转换。由几何计算部4处理的多边形数据被输入给渲染部5，其中将多边形单位的数据转换成像素单位数据。

将像素单位数据输入给纹理生成部6，其中根据纹理RAM 7中存储的纹理数据，以像素为单位生成纹理颜色。显示部8根据需要对来自纹理生成部6的图像数据执行隐蔽面删除处理和/或阴影处理，随后将数据写入帧缓冲器9，同时转换成二维坐标。重复地读取写入帧缓冲器9中的数据，并转换成输出的视频信号。这样，根据定时信息在(例如未示出的)显示器上切换和显示与各个音素对应的图像。图1中除语音分析部1之外的功能块是用于显示动画的动画显示部。

图2是根据本发明的语音分析部(语音分析设备)的结构框图。语音分析部1包括输入部1、模数转换部12、频率分解部13、变化度计算部14、片段确定部15、音素提取部16和存储部17。通过由CPU(中央处理部)执行的程序实现这些功能部，但是它们也可以使用硬件来实现。而且，就CPU而言，如果在语音分析部1中包含了CPU，则可以使用这个语音分析部1中包含的未示出的CPU，或者也可以使用外部CPU(例如图1的CPU 2)。

输入部11是输入语音的接口。例如通过来自麦克风的输入信号或者经音频电缆连接的音频设备的输出信号来实现语音分析部1的语音输入。在这种情况下，输入部11包括用于麦克风或音频电缆连接的相应输入端子。也可以通过诸如波形文件或MP3(MPEG-1 Audio Layer 3)文件的数字数据来输入语音。在这种情况下，输入部11具有用于数据传输的连接接口(例如USB(通用串行总线)接口、并行接口、IEEE(电子与电气工程师协会)1394接口或内部总线)。

如果输入语音数据是模拟信号，则通过模/数(AD)转换部12将其转换成数字数据。通过该数字转换处理获得的语音数据是与给定时间中的幅值相关联的时间序列数据，并被输入给频率分解部13。频率分解部13剪辑出规定长度的连续偏移时间范围(称作页)，将语音数据划分成多个页，并分析每个页的频率分量(例如使用离散傅立叶变换)。页也可以称作帧或语音帧。

将各个页的频率分量数据输入给变化度计算部14，其中根据相邻页之间的相关度(随后将描述其计算方法)计算变化度。将计算出的变化度输入给片段确定部15，其中根据相关度指定构成用于提取音素的间隔区间的片段。将这些指定为片段边界(更具体地，它们的起始位置)相互邻接的页组。随后，音素提取部16对于如此确定的每个片段，通过与存储部17中存储的参考数据进行匹配来提取音素。因为将片段边界指定为页编号，所以当确定片段时，获得了音素切换的定时的定时信息，换句话说，确定显示与各个音素对应的图像的时间的定时信息。

在存储部17中存储的参考数据是对预先根据分析输入语音的程序分析多个试验者的语音获得的结果进行平均而获得的参考数据。因而，语音分析部1提取在输入语音中包含的音素，并输出用于确定显示与音素对应的图像的时间的定时信息。

图3是解释根据本发明实施例的图像生成设备中的处理的流程图。图4至图10用于解释图3的流程图中的各个步骤。将在适当的时候参考这些图来描述图3。

首先，执行输入语音的模/数(AD)转换(S1)。这通过输入语音(通过输入部11输入到模数转换部12)来执行，其中将例如从麦克风输入的模拟信号转换成数字信号。如果输入语音是数字数据，则省略步骤S1。

接着，频率分解部13通过剪辑出规定长度的连续偏移时间范围(称作页)将语音数据划分成多个页，并分析各个页的频率分量(S2)。该规定长度短于最短的音素(大约1/10秒)。通过实验已经发现如果该规定长度是最短音素的十分之一(即大约1/100秒)，则可以获得足够的精度。使该规定长度更短仅仅增加了处理量，而没有益处。因此，最好将该规定长度设置为大约1/10至1/100秒。

图4用于解释图3的步骤S2的页划分。用图表示输入语音的波形，在该图中横轴表示时间，纵轴表示幅值。将该波形划分成多个页，采用一个页作为从起始时刻D(开始语音输入的时刻)开始的规定长度的时间范围(在此，1024个点，其中一个点是(1/44100)秒)，每一次连续地将这些页偏移441个点。

应当指出在这种情况下尽管将规定长度设置为1024个点，但是也可以适当地进行修改以考虑例如语音信号的抽样频率或说话者的说话速度。而且，尽管在此因为偏移时间短于规定长度的时间范围，在时间范围中存在重叠部分，但是也可以采用使得不存在重叠部分的规定长度的时间范围。

图5示出了当执行图3的步骤S2的频率分量分析时频率和幅值的关系。这是通过对图4的各个页中包含的波形进行N点离散傅立叶变换而获得的图。具体而言，如果用{x(m，k)|k＝0…N-1}表示页m中的点N处的幅值，则通过下述式(A)表示离散傅立叶变换。

A (m, k) = \frac{1}{N} Σ_{n = 0}^{N - 1} ω^{- nk} x (m, k) - - - - (A)

其中

ω = \cos \frac{2 π}{N} + i \sin \frac{2 π}{N}

因为这是关于幅值轴对称的(参见图5)，故仅使用频率的正值区就够了。

图6示出了多个页的频率分解的结果。在图6中，为了简化，并列地排列相同形状的频率分量曲线，但是，实际上，对于各个页，频率分量曲线都将改变，因为输入语音波形随时间而不同。

随后，变化度计算部14首先使用下面的式(B)计算相邻页之间的相关度(S3)。

R (x) = Σ_{n = 0}^{N - 1} | A (x, n) | \times | A (x + 1, n) | - - - - (B)

将使用图7描述计算相关度的方式和式(B)的意义。

图7示出了如何执行相邻页之间相关度的计算。图7是计算图6所示相邻页的例如页m和页(m+1)(即在式(B)中x＝m的情况下)的相关度的示例。通过在各个页中对与同一频率分量相对应的幅值进行相乘，并对如此获得的N点的值求和，从而求得相关度。在图7中，首先，对与同一频率分量k相对应的页m的幅值A(m，k)和页(m+1)的幅值A(m+1，k)进行相乘。将k从0变化到N-1进行求和，从而计算出页m和页(m+1)的相关度。

变化度计算部14随后使用下面的式(C)对通过式(B)求得的相关度进行平均，以消除噪声(S4)。

Q (x) = \frac{Σ_{k = - x}^{x} R (k + x)}{2 x + 1} - - - - (C)

当页改变时频率分量曲线形状中的变化越小，则通过式(C)求得的相关度Q(x)的值的变化越小。相反地，当频率分量的曲线形状变化时，与相邻和后续页的相关度相比，相关度Q(x)的值存在很大的变化。因而，可以将发生频率分量曲线变化处的页理解为限定新音素边界的位置(即片段边界)。将相关度之间的差值视为变化度，因此，通过指定满足下列条件的相邻页，即该处的变化度与前一和后一变化度相比大于两者，可以限定片段(S5)。在步骤S5中，片段确定部15根据相关度的差值函数指定满足上面给出条件的相邻页。为此目的，使用已经去除噪声的相关度Q(x)。接着，将使用图8继续描述。可以通过S(y)＝Q(y+1)-Q(y)表示变化度，即相关度的差值。

图8示出了页关联参数y和相关度差值S(y)之间的关系。与页关联参数y＝1对应的S(1)表示通过从相邻的第二和第三页的相关度(Q(2))中减去相邻的第一页和第二页的相关度(Q(1))获得的值。尽管不能直接通过页关联参数指定页，但可以指定作为片段边界的相邻页组。

随后，将变化度S(y)满足S(y-1)＜S(y)和S(y+1)＜S(y)的自然数y所对应的相邻页组指定为音素的起始位置。如上面所描述的，输入语音的波形在音素切换的位置上显著地变化，所以表现出显著变化的位置表示新音素的起始位置。在图8的情况下，存在四个自然数y满足S(y-1)＜S(y)和S(y+1)＜S(y)(分别是页关联参数y₁、y₂、y₃和y₄)的位置，所以从第一片段至第四片段中提取出四个音素。

页关联参数y₁表示片段起始页到页y₁或页y₁+1。使用哪一个都没有问题。然而，在所分析的语音信号中，将这些视为相同的。这也适用于指定片段起始位置的其它页关联参数。接着，音素提取部16为在步骤S5中确定的各个片段计算特征量(S6)。例如，一种计算普通特征量的典型方法是在各个片段中将输入语音分解成频率分量，执行逆傅立叶变换，随后执行倒谱分析的技术。一个示例是对于每个片段将输入语音分解成频率分量，并使用这些频率分量的幅值作为特征量。如果片段和页一致，则可以使用在步骤S2中求得的各个页的频率分解结果。

图9用于解释各个片段的频率分解。该图说明如何通过N点傅立叶变换为各个片段计算频率分量。在图9中为了简化，并列地排列相同形状的频率分量曲线，但是，实际上，因为输入语音波形根据时间而不同，所以频率分量曲线将随各个页而变化。

接着，通过匹配参考数据来提取音素(S7)。使用通过对预先针对多个试验者执行从上述步骤S1至S6的程序的结果进行平均而获得的数据作为参考数据。建立这些参考数据并存储在存储部17中后，就可以与随后的用户变化无关地实现稳定的音素提取，具体而言，可以应用于无限制数量的用户。就匹配的方法而言，可以使用公知技术，例如DP匹配。

通过从步骤S1至S7的处理，能够指定在输入语音中包含的片段、音素和片段边界的页。而且，在本实施例中，如果指定了片段边界的页，则也完成了定时信息的提取，因为可以使用{起始时刻D+441点×(片段边界页-1)}实现到时刻的转换。随后，使用从语音分析部1输出的音素和定时信息，根据在图1中描述的结构，显示对应于音素的动画(S8)。

图10用于解释对应于音素的动画。例如，假设选择元音作为所提取的音素，并将各个元音的参考数据存储在存储部17中，如果在工作RAM 3中存储了与图10所示各个元音的动画相对应的数据，则通过使用图1的图像生成设备能够显示与输入语音中包含的各个元音相对应的动画。例如，通过将图10中的图像“a”和元音“a”关联起来，将图10中的图像“i”和元音“i”关联起来，能够显示对应于各个元音的动画图像。

如上面所描述的，使用本发明的该实施例，通过预先准备多个试验者的输入语音的分析结果作为参考数据，能够简单实时地实现快速语音分析处理，而不需要为每个说话者准备参考模式。而且，因为不需要为各个说话者登记参考模式的操作，而仅需要一次准备参考模式，所以能够应付无限制数量的说话者。此外，因为不需要用于存储各个说话者的参考模式的数据库，所以即使在小存储容量的设备上也可以安装。

可能应用的示例包括在线聊天室的动画、视频游戏中的动画(特别是以对话模式玩的视频游戏或角色扮演游戏)或者在医院或金融机构中使用的无人接待系统等。

应当指出，尽管在该实施例中描述了实施为图像生成设备的方法，但是也可以作为根据图3所示流程图处理的方法或程序来实施。此外，尽管在该实施例中描述了作为图像生成设备实施的方法，但也可以应用于例如语音/文字转换设备，从而显示对应于音素的文字。在这种情况下，用显示文字的功能块替换图1结构图中的显示动画的功能块(图1中除了语音分析部1之外的功能块)，并可以改变显示动画的步骤S8(图3的流程图)，从而显示文字。而且，尽管在该实施例中描述了实施为包括语音分析部1的图像生成设备的方法，但是也可以将该语音分析部实施为单独的设备(语音分析设备)。在这种情况下，省去图3所示的流程图的步骤S8，并通过与其连接的单独设备上的处理，使用从该语音分析设备输出的音素或定时信息。

Claims

1.一种计算机可执行的语音分析方法，从输入语音中检测音素边界，包括：

在所述输入语音信号中指定时刻的第一步；

提取从所述时刻开始的规定长度的时间范围中包含的语音信号的第二步；和

将所述提取的语音信号分解成频率分量数据的第三步，其中

通过在每个规定时间中重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；

通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，从而由n个所述频率分量数据求得(n-1)个相关度；

通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；

当将m限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号时，即m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，求得所限定的数m；

根据所限定的数m指定所述规定长度的时间范围；并且

根据所述指定的时间范围将所述输入语音信号划分成多个片段。

2.根据权利要求1的语音分析方法，还包括：

为所述划分的语音信号的每个片段计算特征量，以及

通过比较所述特征量与各个所述音素的参考数据而指定所述片段的所述音素。

3.根据权利要求1的语音分析方法，

其中将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分。

4.根据权利要求1的语音分析方法，

其中所述相关度是通过累加与同一频率分量相对应的幅值的乘积而求得的值。

5.根据权利要求1的语音分析方法，

其中通过所述提取的语音信号的频率分量的傅立叶变换而求得所述频率分量数据。

6.根据权利要求2的语音分析方法，

其中根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。

7.一种计算机可执行的动画图像生成方法，其显示与输入语音信号中的音素划分相对应的图像，包括：

在所述输入语音信号中指定时刻的第一步；

将所述提取的语音信号分解成频率分量数据的第三步，其中

根据所限定的数m指定所述规定长度的时间范围；

根据所述指定的时间范围将所述输入语音信号划分成多个片段；

为所述划分的语音信号的各个片段计算特征量；

通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素；以及

与所述片段相应地切换显示与所述片段的所述音素对应的图像。

8.一种可由包括CPU的计算机执行并检测输入语音中的音素边界的语音分析程序，所述程序使CPU执行：

在所述输入语音信号中指定时刻的第一步；

将所述提取的语音信号分解成频率分量数据的第三步，其中

通过在每个规定时间中由所述CPU重复所述第一、第二和第三步n次(其中n是至少为6的自然数)，求得从n个所述规定长度的时间范围中包含的语音信号中提取出的n个频率分量数据；

根据所限定的数m指定所述规定长度的时间范围；并且

9.根据权利要求8的语音分析程序，还使CPU执行：

为所述划分的语音信号的每个片段计算特征量，以及

通过比较所述特征量与各个所述音素的参考数据来指定所述片段的所述音素。

10.根据权利要求9的语音分析程序，

其中，将所指定的时间偏移所述规定长度的时间范围以形成相互重叠的部分；

所述相关度是通过累加与同一频率分量相对应的幅值的乘积而求得的值；

通过语音信号的所述提取的频率分量的傅立叶变换而求得所述频率分量数据；并且

根据通过所述划分语音信号的片段中包含的所述语音信号的傅立叶变换而获得的各个频率分量的幅值来确定所述特征量。

11.一种可由包括CPU的计算机执行并显示与输入语音信号中的音素划分相对应的图像的动画图像生成程序，所述程序使CPU执行：

在所述输入语音信号中指定时刻的第一步；

将所述提取的语音信号分解成频率分量数据的第三步，其中

根据所限定的数m指定所述规定长度的时间范围；

为所述划分的语音信号的各个片段计算特征量；

12.存储了根据权利要求8至权利要求12中任意一项所述的程序的存储介质。

13.一种语音分析设备，包括：

频率分解部，其通过以规定的间隔重复n次(其中n是至少为6的自然数)指定输入语音信号中的时刻、提取从所述时刻开始的规定长度的时间范围中包含的语音信号、并将所述提取的语音信号分解成频率分量数据，从而求得从n个规定长度的时间范围中包含的语音信号中提取出的n个频率分量；

变化度计算部，通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度，并通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；以及

片段确定部，其求得所限定的数，所限定的数m被限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号，即所限定的数m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，该片段确定部根据所限定的数m指定所述规定长度的时间范围，并根据所述指定的时间范围将所述输入语音信号划分成多个片段。

14.一种动画图像生成设备，包括：

变化度计算部，通过根据与相互邻接的所述规定长度的时间范围中包含的所述语音信号相对应的第i项所述频率分量数据和第(i+1)项所述频率分量数据求得第i个相关度(其中i是至少为1且不大于(n-1)的自然数)，由n个所述频率分量数据求得(n-1)个相关度，并通过根据第k个相关度和所述第(k+1)个所述相关度(其中k是至少为1且不大于(n-2)的自然数)求得第k个变化度，从而由(n-1)个所述的相关度求得(n-2)个所述的变化度；

片段确定部，其求得所限定的数，所限定的数m被限定为指定在从第1至第(n-2)的(n-2)个变化度中大于与所指定的变化度相邻的两个变化度的变化度的编号，即所限定的数m满足条件：当m从2到(n-3)每次变化1时，第m个变化度大于第(m-1)个变化度，并大于第(m+1)个变化度，该片段确定部根据所限定的数m指定所述规定长度的时间范围，并根据所述指定的时间范围将所述输入语音信号划分成多个片段；

音素提取部，其通过为所述划分的语音信号的各个片段计算特征量，并比较各个所述音素的参考数据与所述特征量来指定所述片段的所述音素；以及

动画显示部，其与所述片段相应地切换显示与所述片段的所述音素对应的图像。