CN1312656C

CN1312656C - 说话人标准化方法及用该方法的语音识别装置

Info

Publication number: CN1312656C
Application number: CNB031603483A
Authority: CN
Inventors: 森井景子; 中藤良久; 桑野裕康
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2002-09-24
Filing date: 2003-09-24
Publication date: 2007-04-25
Anticipated expiration: 2023-09-24
Also published as: US20040117181A1; CN1494053A

Abstract

将输入语音切分为一定时间长度作为帧，抽取每帧的音响特征量，利用预先规定的多个频率变换系数将所述音响特征量进行频率变换。利用通过频率变换得到的多个变换后特征量及至少1个标准音韵模型的全部组合，计算每帧的变换后特征量与标准音韵模型的多个类似度或距离，利用该多个类似度或距离，决定使输入语音标准化用的频率变换条件，利用决定的频率变换条件使输入语音标准化。根据该方法，即使发出语音的说话人调换，也能够补偿输入语音的个人差别，提高语音识别性能。

Description

说话人标准化方法及用该方法的语音识别装置

技术领域

本发明涉及用音响特征量来补偿语音的个人差别的说话人标准化方法及用该方法的语音识别装置。

背景技术

以往，作为采用说话人标准化方法的语音识别装置，已经知道有日本专利特开2001-255886号公报所述的语音识别装置。该语音识别装置的语音识别，是首先进行A/D变换，将数字化的语音作为输入信号，提取LPC倒谱系数等特征量，然后进行无语音/有语音的判断，检测无语音/有语音区间，接着为了将因发声者的声道长的个人差别而产生的影响标准化，对LPC倒谱等特征量进行频率轴上的变换。

然后，将进行了频率轴上变换的输入声音的特征量与预先根据多个说话人进行学习的音响模型特征量进行匹配，至少计算出1个识别结果候补。然后，以计算出的识别结果为基础，将输入发声作为教师信号，求得最佳的变换系数，为了吸收说话人或音韵而产生的差异，进行变换系数平滑处理，作为新的频率变换系数进行更新。该更新的新的频率变换系数用作为新的频率变换系数，再重复与音响模型特征量进行匹配，将这样最终得到的识别候补用作为识别结果。

另外，作为采用将输入说话人语音频谱的频率进行伸缩的方法的语音识别装置，有日本专利特开2002-189492公报所述的语音识别装置，这是对每个语音单位推断音素边界信息，对于根据该音素边界信息选择的音素区间，推断频率伸缩函数。

但是，在这样的以往的方法存在的问题中，在进行无语音或有语音等的音素或语音区间的检测或推断后，必须与信息同步进行频率变换，另外在进行说话人标准化时，还必须有识别对象单词词典。

发明内容

本发明正是为了解决这样的以往问题，其目的在于不使用识别对象单词词典，不检测或推断信息或语音区间，而进行说话人标准化并补偿输入语音的个人差别，以能够提高语音识别性能。

本发明的一种说话人标准化方法，包含将有声语音和无声语音混合的输入语音切分为一定时间长度作为帧、并提取所述每帧的音响特征量的特征量提取步骤；对所述音响特征量用预先规定的多个频率变换系数进行频率变换的频率变换步骤；利用由所述频率变换得到的多个变换后特征量与规定的音韵特征量形成的标准音韵模型的全部组合、计算所述每帧的变换后特征量与标准音韵模型的多个类似度或距离的步骤；利用由每帧的所述多个类似度或距离确定的最佳频率变换系数，决定使所述输入语音标准化用的频率变换条件的步骤；以及利用所述频率变换条件使所述输入语音标准化的步骤。

另外，本发明的一种语音识别装置，包含将有声语音和无声语音混合的输入语音切分为一定时间长度作为帧、并提取所述每帧的音响特征量的特征量提取单元；对所述音响特征量利用预先规定的多个频率变换系数进行频率变换的频率变换单元；利用所述频率变换得到的多个变换后特征量与规定的音韵特征量形成的标准音韵模型的全部组合，计算所述每帧的变换后特征量与标准音韵模型的多个类似度或距离的类似度或距离计算单元；利用由每帧的所述多个类似度或距离确定的最佳频率变换系数，决定使所述输入语音标准化用的频率变换条件的频率变换条件决定单元；以及利用所述输入语音及识别对象音响模型对语音进行识别的语音识别处理单元；所述语音识别装置利用所述决定的频率变换条件，使所述输入语音标准化之后进行语音识别。

这样，通过对照标准说话人的音响特征量使输入语音标准化，可以不使用识别对象单词词典，使输入语音的说话人的差异标准化，提高识别性能。

附图说明

图1所示为根据本发明实施例1的语音识别系统的硬件方框图。

图2所示为根据本发明实施例1的语音识别装置功能构成的功能方框图。

图3所示为根据本发明实施例1的语音识别装置的处理流程图。

图4所示为根据本发明实施例2的语音识别装置功能构成的功能方框图。

图5所示为根据本发明实施例2的语音识别装置的处理流程图。

图6所示为根据本发明实施例3的语音识别装置功能构成的功能方框图。

图7所示为根据本发明实施例3的语音识别装置的处理流程图。

图8A为根据本发明实施例1的各帧的音韵与变换系数的关系图，图8B为根据本发明实施例1的变换系数与频次的关系图。

图9A为根据本发明实施例2的音韵与变换系数的关系图，图9B为根据本发明实施例2的各帧的代表音韵与变换系数的关系图。

图10A为根据本发明实施例3的各帧的音韵与权重的关系图，图10B为根据本发明实施例3的各帧的变换系数与权重的关系图。

图11A所示为根据本发明实施例1的语音识别的结果图，图11B所示为根据本发明实施例2的语音识别的结果图，图11C所示为根据本发明实施例3的语音识别的结果图。

图12所示为根据本发明实施例4的家庭内设备用统一语音遥控器的功能方框图。

图13所示为根据本发明实施例4的显示装置的显示画面图。

具体实施方式

实施例1

图1所示为本发明第一实施例的利用说话人标准化的语音识别系统的硬件方框图。在图1中，话筒101取入语音，A/D变换器102将语音的模拟信号变换为数字信号。串行变换器(以下称为“SCO”)103将来自A/D变换器102的串行信号送至数据总线112。存储装置104存储了预先根据各个说话人的语音而学习的每个音韵的特征量进行统计处理后的数值组即标准说话人群音韵模型(以下称为“标准音韵模型”)、以及将预先根据多个说话人的语音而学习的每个语音片段的特征量进行统计处理而得到的数值组即声音片段模型连接而得的单词模型。

并行IO口(以下称为PIO)105从该存储装置104将标准音韵模型或单词模型与总线时钟同步输出给总线112，将语音识别结果输出给显示器等输出装置110。RAM107是进行数据处理时使用的暂时存储用存储器，DMA控制器(以下称为“DMA”)106对存储装置104、输出装置110与RAM107之间的高速数据传送进行控制。

ROM108中写入处理程序及后述的预先设定的频率变换用变换系数等数据。然后，这些SCO103、PIO105、DMA106、RAM107及ROM108进行总线连接，用CPU109进行控制。该CPU109也可以换成数字信号处理器(DSP)。

利用SCO103至CPU109构成语音识别装置。

下面用图2，说明图1所示硬件结构的语音识别装置100的功能方框构成。

特征量提取单元201从输入的语音数据SIG1提取对语音进行时间分割而得到的音响特征量。输入的语音数据SIG1是数字数据，作为采样频率可以使用各种数值。例如，对于电话语音使用8kHz，对于CD音响使用44.1kHz。这里，作为采样频率使用10kHz。

另外，作为提取音响特征量的时间分割单位，窗口长度及移动(shift)宽度考虑采用5ms左右至50ms左右的值，在本实施例1中，取窗口长度为30ms，移动宽度为15ms。

从该时间宽度的语音数据，提取表现频谱的音响特征量。作为表现频谱的特征量，已经知道有LPC倒谱系数、LPCMel倒谱系数、在倒谱系数提取前利用Mel尺度进行变换的Mel化LPC倒谱系数、MFCC、取这些倒谱系数的差分的增量倒谱等各种参数，这里提取7阶的LPCMel倒谱系数。

频率变换单元202对于用特征量提取单元201得到的特征量，进行频率变换。频率变换方法已经知道有线性伸缩方法或移动方法、以及非线性函数伸缩或移动方法等，在本实施例1中，用式(1)表示的全通滤波器函数进行非线性伸缩。

\tilde{Z^{- 1}} = \frac{Z^{- 1} - α}{1 - α Z^{- 1}} . . . . . . (1)

将式(1)中的α称为频率变换系数(以下称为“变换系数”)。变换系数α本来是可变的值，但在本实施例1中，因处理上的关系，采用’-0.15’、’-0.1，、，-0.05’、’0’、’+0.05’、’+0.10’、’+0.15’等7个离散值α1至α7。以下将它们称为变换系数组。

频率变换单元202用设定的变换系数并利用式(1)进行频率变换处理。变换系数设定单元203对频率变换单元202设定多个变换系数。类似度或距离计算单元204从标准音韵模型205读入标准音韵模型数据，计算出及利用从频率变换单元202得到的多个变换系数的各变换系数进行多个变换后的输入音响特征量(以下称为“变换后特征量”)的类似度或距离。关于这里的类似度或距离，将在随后详细说明。另外，将该计算结果存入结果存储单元206。

标准音韵模型205由对于以下所示的24个音韵的特征量进行统计处理的数值组构成。

/a/、/O/、/u/、/i/、/e/、/j/、/w/、/m/、/n/、/ng/、/b/、/d/、/r/、/z/、/hv/、/hu/、/s/、/c/、/p/、/t/、/k/、/yv/、/yu/、/n/

关于该音韵的选择，已在电子情报通信学会论文志D-II NO.12 pp.2096-pp.2103中加以叙述。

单词模型210是表示将语音片段模型连接而得到的识别对象单词的，相当于识别对象标准音响模型的一个例子。标准音韵模型205及单词模型210都存入存储装置104，两者都是将相同标准说话人群的相同发声群作为输入，采用统计处理进行学习。

变换条件决定单元207根据结果存储单元206中存储的结果，决定用于语音识别的变换条件。

特征量存储单元208是将特征量提取单元201提出的特征量在语音识别处理结束之前暂时存储的存储器，相当于RAM107的一部分。

语音识别处理单元209计算频率变换后的特征量与单词模型210的类似度或距离，决定单词。另外，将该识别结果输出给输出装置110。

下面用图3所示的流程图，说明这样的功能构成的语音识别装置100的动作。

首先，特征量抽取单元201对于从话筒101输入的、并利用A/D变换器102形成数字信号的语音，对每一帧提取7阶的LPCMel倒谱系数作为音响特征量(步骤S301)。然后，将提取的特征量输出给频率变换单元202，同时存入特征量存储单元208。

然后，变换系数设定单元203对频率变换单元202设定规定的变换系数。频率变换单元202将音响特征量用该变换系数根据式(1)进行频率变换，求得变换后特征量。将该变换对于变换系数组的全部变换系数进行。通过这样，计算出每一帧变换系数组所包含的变换系数数量的变换后特征量(步骤S302)。

类似度或距离计算单元204从计算出的变换后特征量选择一个量，与从标准音韵模型205读出的全部音韵的标准音韵模型进行比较。该比较可考虑采用将单一帧相互之间进行对照的方法及加上前后数帧进行对照的方法。在本实施例1中，是加上输入帧的前后各3帧，即计算宽度为7帧的输入与标准音韵模型205所包含的标准说话人的标准音韵模型的类似度或距离(步骤S303)。然后，将该结果存入结果存储单元206。另外，类似度或距离计算单元204对计算的全部变换后特征量进行类似度或距离的计算处理。

作为该变换后特征量与标准音韵模型的类似度或距离的计算方法可考虑采用两种方法，一种方法是使用作为标准说话人群的发声模型采用具有分布的统计处理进行音韵识别而求得的类似度的方法，另一种方法是使用作为标准说话人群的发声模型采用分别各音韵的代表值而求得的物理距离的方法，而采用其它的类似度或距离尺度，也能够得到同样的效果。

这里，关于将为了说话人标准化而使用的音韵建模的标准音韵模型205，说明两种例子。

第一例是使用作为标准说话人群的发声模型采用具有分布的统计处理进行音韵识别而求得的类似度的情况。在该情况下，作为求得音韵识别用的类似度的尺度是使用马哈拉诺比斯泛距离，从标准说话人的发声汇集相当于各音韵的发声部分连续7帧部分的音响特征量，求得平均值及协方差矩阵后，由变换为求得马哈拉诺比斯泛距离用的系数矢量的数值组构成。

第二例是使用作为标准说话人群的发声模型采用分别各音韵的代表值而求得的物理距离的情况，从标准说话人的发声得到相当于各音韵的发声部分连续7帧部分的音响特征量，由该音响特征量的平均矢量组构成。

另外，关于马哈拉诺比斯泛距离，已在例如日本专利特开昭60-67996号公报中说明。

关于使用根据这些音韵识别的类似度的例子及使用与分别各音韵代表值的距离的例子等这两个例子的结果，将在后面叙述。

存入结果存储单元206的数据成为输入的每帧根据24个音韵数量的音韵识别而求得的类似度或与分别各音韵代表值的距离。

将上述步骤S301至步骤S303对语音区间的全部帧进行。

然后，变换条件决定单元207根据式(2)决定对表示各输入帧的各音韵的最高类似度的变换系数(步骤S304)。

\hat{α} = \arg \max_{α} L (X^{α} | α, θ) \dots \dots (2)

在式(2)中，L表示类似度，X^α表示根据式(1)的频率变换得到的频谱，α表示变换系数，θ表示标准音韵模型。然后，试探并决定频谱X^α与标准音韵模型θ的类似度成为最大的变换系数α。在本实施例1中，由于处理上的关系，因为采用7个离散值α₁～α₇，从应用全部7个离散值情况下的类似度，选择并决定能得到最高类似度的变换系数α。即，将应用7个离散值的多个类似度相互比较，选择能得到最高类似度的变换系数α。

在音韵特征量比较结果是距离时，则根据式(3)决定表示最近距离的变换系数。

\hat{α} = \arg \min_{α} D (X^{α} | α, θ) \dots \dots (3)

在式(3)中，D表示距离，X^α表示根据式(1)的频率变换得到的频谱，α为变换系数，θ表示标准音韵模型。然后，试探并决定频谱X^α与标准音韵模型θ的距离成为最小值的变换系数α。在本实施例中，从应用全部7个离散值情况下的距离，选择并决定能得到最小距离即最近距离的变换系数α。即，将应用7个离散值的多个距离相互比较，选择能得到最小距离的变换系数α。

然后，对每一帧选择与输入的类似度最高或距离最小的音韵，求得变换系数，使得接近该音韵的标准音韵模型(步骤S305)。图8A所示为表示这种情况下对全部帧的每个音韵的变换系数图。在图8A中，选择帧内的每一音韵的最大似然的变换系数801，利用类似度或距离的计算决定最大似然的音韵802。然后，求得与该音韵对应的变换系数803。例如，利用步骤S305选出第一帧的最大似然条件为音韵是/a/、变换系数是α4时，该频率变换使用的变换系数α4成为第一帧的变换系数。

然后，变换条件决定单元207，对步骤S305求得的每一帧与所选择的音韵对应的频率变换条件在遍及整个语音区间出现的频次进行累计。然后，将累计的出现频次进行比较，决定出现频次最高的变换系数作为整个区间的频率变换条件，通知变换系数设定单元203(步骤S306)。图8B所示为该变换系数与累计数的关系图。在图8B中，由于α4的次数最多，因此α4成为频率变换条件。

利用以上的步骤S301至步骤S306，求得语音识别处理中使用的频率变换系数。若根据步骤S301至步骤S306，虽然以每个输入帧为单位选定一个进行频率变换的变换系数，但是由于以每个输入帧为单位选定的变换系数不同，因此能够以每个输入帧为单位进行更精确的说话人标准化，对于任何的语音输入，都能够将输入语音的因每个说话人而产生的差别标准化。

然后，变换系数设定单元203对频率变换单元202设定通知的变换系数。频率变换单元202接受该设定，从特征量存储单元208读出存储的特征量，从第一帧起遍及整个语音区间进行频率变换(步骤S307)。将该结果即变换后特征量输出给语音识别处理单元209。

以上的步骤S301至S307是说话人标准化处理。由于利用该处理进行标准化，使输入语音与标准说话人一致，因此能够使输入语音的因每个说话人而产生的差别标准化，提高识别性能。

然后，语音识别处理单元209利用得到的变换后特征量，进行语音识别处理。作为该处理方法，已经知道有利用隐马尔可夫模型的方法、利用动态时间规整的方法、利用神经网络的方法等，而在本实施例1中，是采用日本专利特开平4-369696号公报、特开平5-150797号公报及特开平6-266393号公报所揭示的语音识别方法。语音识别处理单元209用输入及单词模型进行语音识别处理，将识别的单词作为语音识别结果输出给输出装置110(步骤S308)。

如上所述，在本实施例1中，根据对于足以进行音韵识别的全部24个音韵的类似度或距离，决定频率变换条件，无论是哪一种发声，都能够作为采用该说话人标准化的语音识别装置的输入，能够提高识别性能。

另外，在本实施例1的步骤S307中，是将选择的全部音韵的频率变换条件出现次数进行累计的，但也可以仅将选择的音韵是元音时的次数进行计数。通过这样，由于仅根据作为进行频率变换的对象的可靠性最高的元音信息来决定整个区间的频率变换条件，因此决定的频率变换条件的可靠度能够更高。

图11A所示为根据本实施例1进行说话人标准化的情况及不进行说话人标准化的情况的语音识别结果。该测试是对100个单词输入、用100个单词的登录词典由3名不特定说话人进行。通过进行说话人标准化，识别率提高了7％至21％。通过这样，在不检测无语音与有语音区间的连续长度固定的音素识别或输入与标准音韵模型的距离计算中，即使不使用识别对象单词词典进行说话人标准化，也能够确认可得到上述效果。

另外，在本实施例1中，适应整个语音区间的变换系数是在整个语音区间进行频率变换处理后决定的，但也可以在变换系数的某一个以规定次数选择作为频率变换条件的时刻，作为适应整个语音区间的变换系数。通过这样，能够力图缩短语音识别时间。

实施例2

图4所示为本发明第二实施例的语音识别装置的功能构成。与第一实施例的不同点在于，类似度或距离计算单元204除了频率变换单元202的输出外，还将特征量提取单元201的输出即音响特征量与标准音韵标准205进行比较。再有的不同点在于，变换条件决定单元207在根据类似度或距离计算单元204的结果得到并存入结果存储单元206的结果中，用后述的代表音韵的结果进行变换条件的判断。

下面用图4及图5，说明本实施例2的语音识别的动作。图5中的前半部分的步骤S301至步骤S304的处理与用图3说明的实施例1的各步骤相同，变换条件决定单元207将决定各帧中每个音韵的频率变换条件。

然后，变换条件决定单元207将分别各音韵在步骤S304中决定的频率变换条件的出现频次进行累计(步骤S501)。图9A所示为该处理结果生成的音韵与变换系数的出现次数关系图的一个例子。另外，变换条件决定单元207选择分别各音韵中频次最高的变换系数，决定作为该音韵的面向整个语音区间的变换系数(步骤S502)。在图9A中表示，作为音韵/a/的变换系数是选择α4，而作为音韵/e/的变换系数则选择α3。

同时，变换条件决定单元207对输入帧的全部区间，决定每个帧的代表该输入帧的音韵(步骤S503)。这里，类似度或距离计算单元204将特征量提取单元201的输出与标准音韵模型205的各音韵标准音韵模型进行比较并计算，选择存入结果存储单元206的类似度中最高的或与分别各音韵代表值的距离为最小的音韵作为代表音韵。

另外，变换条件决定单元207根据步骤S502中的决定，选择与该输入帧的代表音韵对应的变换系数。该处理在整个输入帧区间进行，并通知变换系数设定单元203(步骤S504)。图9B所示的全部帧的代表音韵和与之对应的变换系数的关系图的一个例子。

然后，变换系数设定单元203对频率变换单元202设定适应于每个输入帧的所通知的变换系数。频率变换单元202接受该设定，从特征量存储单元208读出存储的特征量，进行传送给语音识别处理单元209用的频率变换处理(步骤S505)。然后，对整个语音区间进行该处理。

以上的步骤S301至步骤S505是本实施例2的说话人标准化处理。然后进行的语音识别处理步骤S308与实施例1说明的图3中的语音识别处理步骤S308相同。

如上所述，在本实施例2中，各输入帧的进行频率变换的变换系数虽选择了一个，但由于每个帧选定的变换系数不同，因此能够对每一帧进行更精确的说话人标准化，对于任何的语音，也都能够作为用该说话人标准化的语音识别装置的输入，能够提高识别性能。

图11B所示为根据本实施例2进行说话人标准化的情况及不进行说话人标准化的情况的语音识别结果。该测试是对100个单词输入、用100个单词的登录词典由9名不特定说话人进行。通过进行说话人标准化，比成人低的小孩的识别率提高了8.2％。通过这样，在不检测无语音与有语音区间情况下，用连续长度固定的音素识别或输入与音韵标准音韵模型的距离计算的结果，即使不进行使用识别对象单词词典的识别处理，决定说话人标准化的条件，也能够确认可得到上述效果。

实施例3

图6所示的本发明第三实施例的语音识别装置的功能构成。与第二实施例的不同点在于，具有根据特征量计算每个音韵的权重的音韵权重计算单元601。

下面用图6及图7，说明实施例3的语音识别的动作。前半部分的步骤S301至步骤502的处理与第二实施例说明的图5相同，变换条件决定单元207将决定每个音韵的频率变换条件。

变换条件决定单元207对输入语音整个区间的每一帧决定音韵权重(步骤S701)。为了决定该权重，首先类似度或距离计算单元204计算特征量提取单元201的输出与标准音韵模型205的各音韵标准音韵模型的类似度或与分别各音韵代表值的距离。计算的距离存入结果存储单元206后，变换条件决定单元207用式(4)求得标准化的权重。

在式(4)中，Wik为权重，X为输入频谱，V为分别各音韵代表值矢量，k为音韵种类，p为表示内插平滑度的参数，d(X、V)表示利用式(5)求得的输入频谱与分别各音韵代表值的距离。

wik = \frac{d {(X_{i}, V_{k})}^{- p}}{\underset{k}{Σ} {d {(X_{i}, V_{k})}^{- p}}} \dots \dots (4)

d(X、V)＝||X-V||² ……(5)

变换条件决定单元207对整个语音区间进行上述处理，计算各帧的每个音韵的权重。作为该计算结果，得到图10A所示的各帧的音韵与每个音韵的权重的关系。然后，该结果存入结果存储单元206。

接着，音韵权重计算单元601根据步骤S502求得的遍及整个语音区间的各音韵和与之对应的频率变换条件的关系(参照图8A)、以及步骤S701求得的各帧的音韵与每个音韵的权重的关系(参照图10A)，计算各帧的每个变换系数的权重(步骤S702)。图10B所示为该关系。然后，音韵权重计算单元601将该计算结果存入结果存储单元206。

接着，变换条件决定单元207从结果存储单元206读出该各帧的每个变换系数的权重，将权重为“0”以外的变换系数在每帧通知变换系数设定单元203。变换系数设定单元203对频率变换单元202设定接受通知的变换系数。频率变换单元202用该变换系数再一次从第一帧起进行频率变换，将变换后特征量输出给类似度或距离计算单元204(步骤S703)。

然后，语音识别处理单元209从结果存储单元206读出各帧的变换系数与权重的关系，将与该变换系数对应的权重乘以步骤S704得到的变换系数。将该处理依次对变换条件判断单元207通知的全部变换系数进行，并求和(步骤S704)。该计算可利用式(6)进行。

\tilde{X_{i}} = \underset{k}{Σ} (wik * \hat{X_{i}} (\hat{α_{k}})) - - - (6)

在式(6)中，为输入语音的特征量，

为变换后特征量，

为变换系数，Wik为权重。

以上的步骤S301至步骤S704是说话人标准化处理。然后进行的语音识别处理步骤S308与实施例1说明的图3中的语音识别处理步骤S308相同。

将以上的步骤S703至步骤S308的处理对整个语音区间进行。

如上所述，在本实施例3中，将各输入帧的频谱进行频率变换的变换系数选择多个，进行加权求和处理，而且对每个输入帧的权重组值不同。因此，能够对每一帧更高精度地进行说话人标准化，对于任何语音，也都能够作为用该说话人标准化的语音识别装置的输入，能够提高识别性能。

另外，由于权重是使用频率变换前的特征量求得的，因此能够防止在双重频率变换时频率变换产生的影响，即使对于频率变换向不好的方向作用的说话人语音，也能够将影响抑制得较低。

图11C所示为根据本实施例3进行说话人标准化的情况及不进行说话人标准化的情况的语音识别结果。该测试是对100个单词输入、用100个单词的登录词典由9名不特定说话人进行。通过进行说话人标准化，识别率比成人低的小孩的识别率提高了9.2％。

通过这样，在不检测无语音与有语音区间的情况下，用连续长度固定的音素识别或输入与标准音韵模型的距离计算的结果，即使不进行使用识别对象单词词典的识别处理，决定说话人标准化条件，也能够确认可得到上述效果。

另外，在本实施例中，是对于单词识别的情况说明了利用说话人标准化的效果，但对于文章识别及会话语音识别，也同样能够实施。

实施例4

图12所示为本发明第四实施例的家庭内设备用统一语音遥控装置的功能方框图。

起动开关121是用户为了起动家庭内设备用统一语音遥控装置，指示话筒101开始取入语音。开关122是用户对语音识别装置100输入是否进行说话人标准化的指示用的开关。显示装置123显示从语音识别装置向用户是否进行说话人标准化。遥控信号发生装置124从输出装置110接受语音识别结果(SIG4)，输出由红外线产生的遥控信号(SIG5)。电子设备群125从遥控信号发生装置124接受红外线产生的遥控信号(SIG5)。

另外，也可以采用不含有起动开关121的结构。在这种情况下，也可以采用话筒101始终取入语音、始终将语音数据送往A/D变换器102的结构，或者采用用话筒101观察功率变化、并在一定时间内的增量超过阈值时与从起动开关121有指示的情况进行相同处理的结构。由于话筒101、A/D变换器102、存储装置104及输出装置110的动作是与图1相同的动作，因此这里的说明省略。

在以下的说明中，本实施例4的语音识别装置100说明的虽然是使用实施例3说明的语音识别装置的情况，但可以使用实施例1至实施例3中说明的全部语音识别装置。

在本实施例4的家庭内设备用统一语音遥控装置中，用户能够通过开关122的输入选择是否实施说话人标准化。开关122具有一个按钮，每进行一次按下操作，就切换进行或者不进行说话人标准化处理。利用开关122的按下操作产生的指示通知语音识别装置100，在不进行说话人标准化时，将该情况通知语音识别装置100中的频率变换单元202，就改变处理，使得不进行频率变换处理而输出特征量。关于进行还是不进行说话人标准化的情况，显示在显示装置123上。因此，用户能够始终简单地把握状态。起动开关121也具有一个按钮，为了开始语音识别，用户按下起动按钮121，在按下后一定时间内，话筒101始终取入语音，连续传送给A/D变换器102，另外A/D变换器102也始终将数字化的语音数据连续传送给语音识别装置100。

在用户按下起动开关121后，在输入语音的功率连续超过预先设定的阈值一秒钟以上后又变成小于阈值的情况下，则看成用户结束发声，话筒101停止取入语音。超过阈值的时间为一秒钟的值是一个例子，可以根据想要识别的词汇长度，通过设定话筒101来改变。反之，在语音功率变化即使不大但也超过3秒的情况下，看作是用户停止语音输入，则停止语音取入。到停止语音取入的时间可以是5秒，也可以是2秒，只要根据使用设备的状况通过设定话筒101来改变即可。若话筒101停止语音取入处理，则A/D变换器102以后的处理不再进行。这样取入的语音数据成为用语音识别装置100进行识别处理的对象，得到的结果输出给输出装置110。

例如，用户在按下开关122的状态下想利用家庭内设备用统一语音遥控装置进行照明时，若按下起动开关121之后，发出声音“照明”，则从话筒101取入语音，用A/D变换器102变换为数字信号后，送至语音识别装置100。用语音识别装置100实施语音识别处理。

在本实施例4的例子中，与操作对象的电子设备群125相对应，将“录像机”、“照明”、“电源”、“电视机”这样的单词作为识别对象单词预先登录在存储装置104中。若语音识别装置100的识别结果是“照明”，则该结果作为SIG3送给输出装置110。输出装置110将与遥控信号SIG3对应的输出SIG4进行输出，它保持着语音识别装置100的识别结果与实际控制的电子设备群125的关系的信息。例如，从SIG3的输出不管是“照明”，还是“电源”都变换为对电子设备群125的照明126的信号，将照明126的信息作为SIG4送至遥控信号发生装置124。

遥控信号发生装置124对于作为SIG4接受的要控制的设备，将该内容信息变换为红外线的遥控信号之后，作为SIG5输出给电子设备群125。遥控信号发生装置124这样构成，使其在大范围内发生红外线的遥控信号，对室内的所有能够接收红外线遥控信号的装置同时发出信号。利用该SIG5，对照明126送出开/关的开关信号，因此照明的开灯及关灯就以与用户的发声相对应的形式进行。在控制电源开与关的电子设备群125是录像机127时，则识别发出声音的“录像机”单词，在是电视机128时，则识别“电视机”单词，这样同样能进行控制。

根据本实施例4的家庭内设备用统一语音遥控装置是设置在家庭内，在设定为能够识别100个单词左右的状态时，若仅仅是成年男女的家庭，用户即使利用开关122预先设定为不进行说话人标准化，而根据“照明”这样的发声而使“照明”接通/关断的概率也能够如图11C所示，若说话人是成年男性及成年女性，则即使无说话人标准化，也达到98％以上，但说话人是小孩的情况，则无说话人标准化，只识别84％左右。一般若能确保90％以上的识别性能，则从用户来看，可认为是“按照发声而动作的装置”，但对于84％，则将认为是“虽多少有些不正常，但仍按照发声而动作的装置”。另外，若利用开关122进行说话人标准化处理，则即使说话人是小孩，也能得到93％的识别率，即使从小孩来看，也是“按照发声而动作的装置”。

由于说话人标准化的状态在显示装置123上显示，因此从用户能一目了然。为了明确确认说话人标准化处理，在显示装置123上如图13所示，显示表示进行说话人标准化的“声音修正做不做”的文字显示1301，在进行说话人标准化时，强调显示“做”，在不进行说话人标准化时，强调显示“不做”。在图13中，由于进行说话人标准化处理，因此使“做”的部分的显示色改变，以进行强调显示。

另外，将语音识别装置100内决定的频率变换的7个离散值α1至α7的各参数权重显示在权重显示图1302中，这样能够更直观显示。

在本实施例4中，所示的是家庭内设备用统一语音遥控装置使用说话人标准化的情况，但是本实施例4作为用户侧的负担，仅仅是选择是进行还是不进行说话人标准化及进行语音识别开始指示即可实施，本实施例4对于能够语音操作的街头指引终端或能够语音操作的公用电话等，特别是对于用户没有预先通知就换的那样的设备也同样能够实施。

另外，在始终进行说话人标准化时，也可以采用去掉开关122的结构。在这种情况下，用户仅仅进行语音识别开始的指示，因此能够简化使用。

本发明有关的说话人标准化方法及用该方法的语音识别装置可适用于家庭内设备用统一语音遥控装置、能够语音操作的街头指引终端、能够语音操作的公用电话等的用户没有预先通知就换的那样的设备等语音控制装置等。

Claims

1.一种说话人标准化方法，其特征在于，包含将有声语音和无声语音混合的输入语音切分为一定时间长度作为帧、并提取所述每帧的音响特征量的特征量提取步骤；对所述音响特征量用预先规定的多个频率变换系数进行频率变换的频率变换步骤；利用由所述频率变换得到的多个变换后特征量与规定的音韵特征量形成的标准音韵模型的全部组合、计算所述每帧的变换后特征量与标准音韵模型的多个类似度或距离的步骤；利用由每帧的所述多个类似度或距离确定的最佳频率变换系数，决定使所述输入语音标准化用的频率变换条件的步骤；以及利用所述频率变换条件使所述输入语音标准化的步骤。

2.如权利要求1所述的说话人标准化方法，其特征在于，决定频率变换条件的步骤具有将由所述帧构成的输入帧所含的所述多个类似度或距离进行相互比较的步骤；对所述每帧利用所述比较结果、选择成为最大似然的音韵与频率变换系数的组合的步骤；以及将所述成为最大似然的频率变换系数的频次连续多个帧进行累计、并将所述频次最多的频率变换系数决定为频率变换条件的步骤。

3.如权利要求1所述的说话人标准化方法，其特征在于，决定频率变换条件的步骤包含将由所述帧构成的输入帧所包含的所述多个类似度或距离进行相互比较的步骤；利用所述比较结果选择给予最大似然结果的标准音韵模型的音韵与频率变换系数的组合的步骤；以及将所述选择的频率变换系数决定为该帧的频率变换条件。

4.如权利要求1所述的说话人标准化方法，其特征在于，计算类似度或距离的步骤还包括利用所述每帧的音响特征量及所述标准音韵模型、对每帧计算各音韵的类似度或距离之比作为权重的步骤，决定频率变换条件的步骤是利用所述权重决定所述频率变换条件的步骤。

5.如权利要求4所述的说话人标准化方法，其特征在于，计算各音韵的类似度或距离之比作为权重的步骤包含在所述每帧对标准音韵模型的全部音韵选择最大似然频率变换系数的步骤；对所述标准音韵模型的全部音韵、根据将所述最大似然频率变换系数连续多个帧对所述每个音韵进行累计的结果、决定对所述全部音韵中的每个音韵的频率变换条件的步骤；以及利用所述每个音韵的频率变换条件及所述类似度或距离、求得所述每帧中对所述分别各音韵频率变换条件的权重的步骤，决定频率变换条件的步骤在所述分别各音韵频率变换条件中反映所述权重，决定该帧的频率变换条件。

6.如权利要求1所述的说话人标准化方法，其特征在于，决定频率变换条件的步骤在所述类似度或距离的比较中至少使用元音。

7.如权利要求1所述的说话人标准化方法，其特征在于，决定频率变换条件的步骤在所述类似度或距离的比较中仅使用元音。

8.一种语音识别装置，其特征在于，包含将有声语音和无声语音混合的输入语音切分为一定时间长度作为帧、并提取所述每帧的音响特征量的特征量提取单元；对所述音响特征量利用预先规定的多个频率变换系数进行频率变换的频率变换单元；利用所述频率变换得到的多个变换后特征量与规定的音韵特征量形成的标准音韵模型的全部组合，计算所述每帧的变换后特征量与标准音韵模型的多个类似度或距离的类似度或距离计算单元；利用由每帧的所述多个类似度或距离确定的最佳频率变换系数，决定使所述输入语音标准化用的频率变换条件的频率变换条件决定单元；以及利用所述输入语音及识别对象音响模型对语音进行识别的语音识别处理单元；所述语音识别装置利用所述决定的频率变换条件，使所述输入语音标准化之后进行语音识别。

9.如权利要求8所述的语音识别装置，其特征在于，所述频率变换条件决定单元将由所述帧构成的输入帧所包含的所述多个类似度或距离进行相互比较，对每帧利用所述比较结果选择成为最大似然的音韵及频率变换系数的组合，将所述成为最大似然的频率变换系数的频次连续多个帧进行累计，将所述频次最多的频率变换系数决定为所述频率变换条件。

10.如权利要求8所述的语音识别装置，其特征在于，所述频率变换条件决定单元将由所述帧构成的输入帧所包含的所述多个类似度或距离进行相互比较，利用所述比较结果，选择给予最大似然结果的标准音韵模型的音韵与频率变换系数的组合，将所述选择的频率变换系数决定为该帧的频率变换条件。

11.如权利要求8所述的语音识别装置，其特征在于，所述类似度或距离计算单元利用所述每帧的音响特征量及所述标准音韵模型，对每帧计算各音韵的类似度或距离之比作为权重，所述频率变换条件决定单元利用所述权重决定所述频率变换条件。

12.如权利要求11所述的语音识别装置，其特征在于，所述类似度或距离计算单元在所述每帧对标准音韵模型的全部音韵选择最大似然频率变换系数，对所述标准音韵模型的全部音韵，根据将所述最大似然频率变换系数连续多个帧对所述每个音韵进行累计的结果，决定对所述全部音韵中的每个音韵的频率变换条件，利用所述每个音韵的频率变换条件及所述类似度或距离，求得所述每帧中对所述分别各音韵频率变换条件的权重，所述频率变换条件决定单元在所述分别各音韵频率变换条件中反映所述权重，决定该帧的频率变换条件。

13.如权利要求8所述的语音识别装置，其特征在于，频率变换条件决定单元在所述类似度或距离的比较中至少使用元音。

14.如权利要求8所述的语音识别装置，其特征在于，频率变换条件决定单元在所述类似度或距离的比较中仅使用元音。

15.如权利要求8所述的语音识别装置，其特征在于，具有对使用者显示利用所述频率变换条件决定单元的内部处理得到的中间数据的频率变换条件过程显示单元。