CN101145346B

CN101145346B - 语音增强设备和语音记录设备及方法

Info

Publication number: CN101145346B
Application number: CN2007101466988A
Authority: CN
Inventors: 松本智佳子
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-13
Filing date: 2007-08-24
Publication date: 2010-10-13
Anticipated expiration: 2027-08-24
Also published as: EP1901286A3; US20080065381A1; JP4946293B2; EP1901286B1; CN101145346A; US8190432B2; JP2008070564A; EP1901286A2

Abstract

本发明涉及语音增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语音记录方法，它们可自动地检测并自动地校正与摩擦音的幅度变化有关的缺陷部分，或者与爆破音有关的缺陷部分，例如是否存在爆破音部分、在爆破音部分之后持续的送气音部分的音素长度。向根据本发明的语音增强设备中输入其中辅音和清元音不清楚且不悦耳的语音。在该语音增强设备中，语音被划分为音素，且各音素被分类为清爆破音、浊爆破音、清摩擦音、浊摩擦音、塞擦音和清元音中的任一个。根据各音素的校正必要性而校正各音素，以获得其中辅音和清元音清楚且悦耳的语音的输出。

Description

语音增强设备和语音记录设备及方法

技术领域

本发明涉及对输入的语音数据的不清楚部分进行校正并输出的语音增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语音记录方法，更具体地涉及这样的语音增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语音记录方法，它们可自动地检测并自动地校正与爆破音(例如是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)有关的缺陷部分，或者与摩擦音的幅度变化有关的缺陷部分。

背景技术

可以容易地复制包括含有人声的记录语音的语音数据。为此，语音数据通常可多次重新使用。尤其是，因为例如在互联网上播客(podcasting)期间可以容易地重新分发包括数字记录语音的语音数据，所以语音数据可以被频繁地重新使用。

但是，人声并不总是清楚地发出。例如，在人声中，爆破音或摩擦音的音量比所包括的其它音节或唇音更高，因而极其难以听到人声。另外，因为可容易地复制并重新分发语音数据，所以由于向下采样以及重复地进行编码和解码而使得辅音部分变得不清楚。由于辅音部分变得不清楚，而使得非常难以听到再现的语音数据。

但是，即使语音数据中的辅音部分不清楚或者语音数据包括唇音，由于重新记录需要进一步的人工，所以语音数据还是以记录语音原样分发。另外，即使由于向下采样或者重复地编码和解码而使得辅音部分变得不清楚，用户也必须容忍例如由于复制导致的声音质量变差的缺陷。

为了再现易于听到的语音数据，提出了各种技术来自动地检测并自动地校正所记录的语音数据的缺陷部分。例如，在用于增强语音中的辅音部分的清晰度的技术中，使用低通滤波器去除语音中包含的噪音频率分量，因而使得语音频带易于听到。

在日本专利申请特开平8-275087号公报中公开的、作为增强辅音部分的方法的辅音增强方法中，通过对倒谱中的控制函数求卷积以缩短倒谱基音从而增强由倒谱基音检测出的辅音部分。

基于音位数据，在日本专利申请特开2004-4952号公报中公开的语音合成器对辅音部分进行频带增强，或者对辅音或辅音及后续元音的延留音进行幅度增强处理。另外，在日本专利申请特开2003-345373号公报中公开的语音合成器包括滤波器，该滤波器使用表示清辅音特性的频谱特性作为传递函数。该语音合成器对音素的频谱分布进行滤波处理以增强频谱分布的特性。

但是，由于与爆破音有关的缺陷(例如，是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)或者与摩擦音的幅度变化有关的缺陷，辅音或清元音可能包括语音清晰度较低的声音或不悦耳的声音。为此，尽管以专利文献1至3为代表的传统技术可用于检测并校正辅音或清元音，但是该传统技术不能用于进一步划分音素以检测并校正与爆破音有关的缺陷部分或者与摩擦音的幅度变化有关的缺陷部分。另外，如果原始语音自身包括缺陷，那么仅增强原始语音的辅音部分也会增强所述缺陷部分，从而更难以听到语音。

本发明的目的是更容易地解决上述缺陷，并提供这样的语音增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语音记录方法，它们可自动地检测并自动地校正再现语音中的与爆破音(例如是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)有关的缺陷部分，或者与摩擦音的幅度变化有关的缺陷部分。

发明内容

本发明的目的是至少部分解决传统技术中的问题。

根据本发明的一个方面，对输入的语音数据的不清楚部分进行校正并输出的语音增强设备包括：波形特征量计算单元，该波形特征量计算单元对于各音素计算语音数据的波形特征量，所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入；校正确定单元，该校正确定单元基于由所述波形特征量计算单元计算的波形特征量，对于各音素确定语音数据校正的必要性；以及波形校正单元，该波形校正单元通过使用预先存储在音素式波形数据(phonemewise-waveform-data)存储单元中的波形数据，对于各音素对由所述校正确定单元确定有校正必要的语音数据进行校正。

根据本发明的另一方面，用于将输入的语音数据记录在音素式波形数据存储单元中的语音记录设备包括：音素识别数据输出单元，该音素识别数据输出单元基于输入的语音数据以及通过对语音数据的文本数据进行语言处理输出的音素串而向语音数据分配音素识别数据，确定所述音素识别数据的边界，并输出所述音素识别数据的边界数据作为所述音素边界数据；波形特征量计算单元，该波形特征量计算单元对于各音素计算语音数据的波形特征量，所述语音数据连同由所述音素识别数据输出单元输出的音素识别数据的边界数据一起被输入；条件充分性确定单元，该条件充分性确定单元基于由所述波形特征量计算单元计算的波形特征量而对于各音素确定所述语音数据是否满足预定条件；以及音素波形数据记录单元，该音素波形数据记录单元基于所述条件充分性确定单元的确定而将被确定为满足所述预定条件的各音素的语音数据记录在所述音素式波形数据存储单元中。

根据本发明的又一方面，计算机可读记录介质中存储有使得计算机对输入的语音数据的不清楚部分进行校正并输出的语音增强程序，该语音增强程序使得所述计算机执行下列步骤：对于各音素计算语音数据的波形特征量，所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入；基于在波形特征量的计算步骤中计算的波形特征量，对于各音素确定语音数据校正的必要性；以及通过使用预先存储在音素式波形数据存储单元中的波形数据，对于各音素对在所述确定步骤中确定有校正必要的语音数据进行校正。

根据本发明的再一方面，计算机可读记录介质中存储有使得计算机将输入的语音数据记录在音素式波形数据存储单元中的语音记录程序，该语音记录程序使得所述计算机执行下列步骤：基于输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述语音数据分配音素识别数据，确定所述音素识别数据的边界，并输出所述音素识别数据的边界数据作为所述音素边界数据；对于各音素计算所述语音数据的波形特征量，所述语音数据连同在所述输出步骤中输出的音素识别数据的边界数据一起被输入；基于在所述计算步骤中计算的波形特征量而对于各音素确定所述语音数据是否满足预定条件；以及基于所述确定步骤中的确定而将被确定为满足所述预定条件的各音素的语音数据记录在所述音素式波形数据存储单元中。

根据本发明的又一方面，根据本发明的对输入的语音数据的不清楚部分进行校正并输出的语音增强方法包括下列步骤：对于各音素计算语音数据的波形特征量，所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入；基于在所述计算步骤中计算的波形特征量，对于各音素确定所述语音数据校正的必要性；以及通过使用预先存储在音素式波形数据存储单元中的波形数据，对于各音素对在所述确定步骤中确定有校正必要的语音数据进行校正。

根据本发明的再一方面，根据本发明的对输入的语音数据的不清楚部分进行校正并输出的语音记录方法包括下列步骤：基于输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述语音数据分配音素识别数据，确定所述音素识别数据的边界，并输出所述音素识别数据的边界数据作为所述音素边界数据；对于各音素计算所述语音数据的波形特征量，所述语音数据连同在所述输出步骤中输出的所述音素识别数据的所述边界数据一起被输入；基于在所述计算步骤中计算的波形特征量而对于各音素确定所述语音数据是否满足预定条件；以及基于所述确定步骤中的确定结果而将被确定为满足所述预定条件的各音素的语音数据记录在所述音素式波形数据存储单元中。

通过结合附图阅读对下面本发明当前优选实施方式的详细描述，将更好地理解本发明的上述和其它目的、特征、优点以及技术和工业重要性。

附图说明

图1是用于说明本发明的显著特征的说明图；

图2是根据本发明第一实施方式的语音增强设备的功能性框图；

图3是根据第一实施方式的语音增强处理的流程图；

图4是根据本发明第二实施方式的语音增强设备的功能性框图；

图5是根据第二实施方式的语音增强处理的流程图；

图6是其中用具有爆破音部分的音素“d”替代没有爆破音部分的音素“d”的校正实施例的示意图；

图7是其中用具有爆破音部分的音素“d”增补没有爆破音部分的音素“d”的校正实施例的示意图；

图8是其中替代包括唇音的“sH”和“s”的校正实施例的示意图；

图9是根据本发明第三实施方式的语音记录设备的功能性框图；以及

图10是根据第三实施方式的语音记录处理的流程图。

具体实施方式

下面将参照附图说明根据本发明的语音增强设备、语音记录设备、语音增强程序、语音记录程序、语音增强方法和语音记录方法的示例性实施方式。在下面描述的第一和第二实施方式中，本发明应用于安装在计算机上的语音增强设备，该计算机与输出单元(例如，扬声器)相连并且再现语音数据并通过输出单元输出再现的语音数据。但是，本发明并不这样受到限制，而可以广泛应用于从输出单元再现语音的语音再现设备。另外，在下面描述的第三实施方式中，本发明应用于安装在计算机上的语音记录设备，该计算机与输入单元(例如，麦克风)和其中存储有采样输入语音的存储单元相连。

在说明本发明的第一至第三实施方式之前来说明本发明的显著特征。图1是用于说明本发明的显著特征的说明图。如图1所示，包括不清楚或不悦耳的辅音或清元音的语音被输入根据本发明的语音增强设备。该语音增强设备将语音划分为音素，并将各音素分类为清爆破音、浊爆破音、清摩擦音、浊摩擦音、塞擦音或清元音中的任一个。根据校正各音素的必要性的确定对各音素进行校正，从而可以获得包括清楚的辅音和清元音且悦耳的清楚语音输出。

但是，在难以听到并包括语音清晰度较低的声音或不悦耳的声音的语音中，辅音和清元音经常不清楚。尤其是，如果在辅音和清元音中包括有语音清晰度较低的声音或不悦耳的声音，则缺陷经常包括由于爆破音(例如，是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)导致的缺陷或者由于摩擦音的幅度变化导致的缺陷。因为在传统技术中仅仅增强了辅音部分，所以如果原始语音本身包括缺陷，则缺陷部分也会被增强从而语音变得更难以听到。另外，不能检测并校正与爆破音有关的缺陷部分或者与摩擦音的幅度变化有关的缺陷部分。

为了克服前述缺陷而作出本发明。在本发明中，为了使倾听者更容易听到语音，基于语音中各音素的特征量以及音素之前和之后的音素数据，计算出根据音素类型的特征量，以检测由于爆破音(例如，是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)导致的缺陷部分或者由于摩擦音的幅度变化导致的缺陷部分。诸如音素替代和音素增补的自动校正是可行的。

[实施例1]

下面将参照图2和图3说明本发明的第一实施方式。图2是根据第一实施方式的语音增强设备的功能性框图。如图2所示，语音增强设备100包括波形特征量计算单元101、校正确定单元102、浊音/清音确定单元103、波形校正单元104、音素式波形数据存储单元105以及波形产生单元106。

波形特征量计算单元101将输入的语音划分为音素并输出音素式特征量。波形特征量计算单元101包括音素划分单元101a、幅度变化测量单元101b、爆破音部分/送气音部分检测单元101c、音素分类单元101d、音素式特征量计算单元101e和音素环境检测单元101f。

音素划分单元101a基于音素边界数据来划分输入的语音。如果划分的音素数据包括周期分量，则音素划分单元101a使用低通滤波器预先除去低频分量。

幅度变化测量单元101b将通过音素划分单元101a划分的语音数据划分为n(n≥2)个帧，计算各帧的幅度值，对幅度值的最大值求平均，并使用平均数的变化率来检测幅度变化率。

基于由幅度变化测量单元101b计算的幅度值和幅度变化率，爆破音部分/送气音部分检测单元101c检测由音素划分单元101a划分的语音数据是否包括爆破音部分。在爆破音部分检测方法的实施例中，在将语音数据划分为发音部分和不发音部分之后，使用零交叉分布(语音数据的波形的零分布)和发音部分的幅度变化率来检测爆破音部分。如果划分的语音数据包括爆破音部分，则爆破音部分/送气音部分检测单元101c检测爆破音部分的长度和在爆破音部分之后持续的送气音部分的长度。

根据爆破音部分/送气音部分检测单元101c基于由幅度变化测量单元101b计算的幅度变化率的检测结果一是否存在爆破音部分和是否存在送气音部分，音素分类单元101d将音素分类为清爆破音、浊爆破音、清摩擦音、塞擦音、浊摩擦音和周期性波形中任一个的波形。

音素式特征量计算单元101e计算由音素划分单元101a划分的各音素类型的特征量，并输出该特征量作为音素式特征量。例如，如果音素类型为清爆破音，则特征量包括是否存在爆破音部分、爆破音部分的数量、爆破音部分的最大幅度值、是否存在送气音部分、送气音部分的长度、以及在爆破音部分之前的不发音部分的长度。如果音素类型为塞擦音，则特征量包括在爆破音部分之前的不发音部分的长度、幅度变化率和最大幅度值。如果音素类型为清摩擦音，则特征量包括幅度变化率和最大幅度值。如果音素类型为浊爆破音，则特征量包括是否存在爆破音部分。

音素环境检测单元101f确定由音素划分单元101a划分的音素数据的音素的前缀声和后缀声。音素环境检测单元101f确定前缀声和后缀声是不发音部分还是发音部分、或者前缀声和后缀声是浊音还是清音。音素环境检测单元101f输出确定结果作为音素环境检测结果。

将由波形特征量计算单元101计算的音素式特征量和音素种类输入校正确定单元102。基于各音素种类和音素式特征量，校正确定单元102确定是否需要校正音素。校正确定单元102包括音素式数据分配单元102a、清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g。

基于音素类型和因素环境，音素式数据分配单元102a将由音素式特征量计算单元101e计算的音素式特征量分配给音素类型的确定单元，换言之分配给清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g中的任一个。

清爆破音确定单元102b接收清爆破音的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。浊爆破音确定单元102c接收浊爆破音的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。清摩擦音确定单元102d接收清摩擦音的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。浊摩擦音确定单元102e接收浊摩擦音的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。塞擦音确定单元102f接收塞擦音的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。周期性波形确定单元102g接收周期性波形(清元音)的音素式特征量的输入，基于该音素式特征量确定是否校正音素，并输出确定结果。

如果语音数据包括一系列的不发音声音，则音素式特征量计算单元101e将不发音部分视为边界来计算特征量。

将输入的语音输入给浊音/清音确定单元103。浊音/清音确定单元103将输入的语音分类为浊音部分和清音部分，并输出浊音/清音数据以及表示该部分是浊音还是由清摩擦音、清爆破音等构成的清音的浊音/清音边界数据。浊音/清音确定单元103确定小于或等于输入语音的低频的阈值(例如，250Hz)的功率。基于使用每时帧(例如，0.2秒)的最大功率值归一化的数据，浊音/清音确定单元103确定小于或等于所述阈值的部分为清音，并确定大于或等于所述阈值的部分为浊音。

波形校正单元104接收输入语音、输入语音的浊音/清音边界数据、校正确定单元102的确定结果和音素种类的输入。波形校正单元104使用存储在音素式波形数据存储单元105中的波形数据来进行对原始数据的替代或增加(增补)，并校正需要校正的音素。波形校正单元104输出校正之后的语音数据。

基于音素式特征量和音素环境检测结果，波形校正单元104确定是否校正音素。例如，如果音素环境检测结果表示前缀声/后缀声为发音的浊音，则尽管音素的音素开始和音素结束部分幅度较大，波形校正单元104确定该较大的幅度是由于前缀声/后缀声的音素片段的影响而不必进行校正。基于除去音素开始和音素结束部分之后的中央部分的幅度变化，波形校正单元104确定是否校正音素。如果前缀声为清音且在音素片段的音素开始部分中观察到幅度变化，或者如果后缀声为清音且在音素片段的音素结束部分中观察到幅度变化，则波形校正单元104确定需要校正音素。

波形产生单元106接收输入语音、输入语音的浊音/清音边界数据、校正确定单元102的确定结果和波形校正单元104的校正结果的输入。波形产生单元106将经校正的部分与未经校正的部分相连，并将得到的语音作为输出语音输出。

除了浊音/清音边界数据之外，还可以向图2所示的波形特征量计算单元101输入普通音素边界数据。在输入普通音素边界数据时可以省略浊音/清音确定单元103。如果省略浊音/清音确定单元103，则也向波形校正单元104输入音素边界数据。例如，在包括辅音“t”和元音“a”两个音素片段的音节“ta”中，音素表示“t”和“a”的边界。

也可以省略图2中所示的音素环境检测单元101f。如果省略音素环境检测单元101f，则不能对前缀声和后缀声是不发音、发音、浊音还是清音进行检测。由此，仅基于音素类型，将音素式特征量分配给音素类型的确定单元，换言之分配给清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g中的任一个。

下面将说明根据第一实施方式的语音增强设备。图3是根据第一实施方式的语音增强处理的流程图。如图3所示，首先，浊音/清音确定单元103获取输入语音的浊音/清音边界数据(步骤S101)。如果省略浊音/清音确定单元103，则根据第一实施方式的语音增强设备100获取普通音素边界数据并将该音素边界数据输入给波形特征量计算单元101、波形校正单元104和波形产生单元106。

接着，基于浊音/清音边界数据(如果省略浊音/清音确定单元103，则为普通音素边界数据)，音素划分单元101a将输入的语音数据划分为音素(步骤S102)。

幅度变化测量单元101b计算所划分音素的幅度值和幅度变化率(步骤S103)。接着，基于幅度值和幅度变化率，爆破音部分/送气音部分检测单元101c检测爆破音部分/送气音部分(步骤S104)。接着，基于所检测的爆破音部分/送气音部分和幅度变化率，音素分类单元101d将音素按音素种类分类(步骤S105)。接着，音素式特征量计算单元101e计算所分类音素的特征量(步骤S106)。

接着，音素环境检测单元101f确定音素环境，换言之确定在步骤S102划分的音素的前缀声/后缀声的语音数据是不发音、发音、浊音还是清音(步骤S107)。但是，如果省略音素环境检测单元101f，则省略步骤S107。

接着，基于音素类型以及前缀声/后缀声的音素环境确定结果，音素式数据分配单元102a向各音素类型分配各音素的特征量(步骤S108)。如果省略音素环境检测单元101f，则音素式数据分配单元102a仅基于音素类型向各音素类型分配音素的特征量。接着，清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g对于各音素类型确定校正音素的必要性(步骤S109)。

接着，基于浊音/清音边界数据(如果省略浊音/清音确定单元103，则为普通音素边界数据)、音素种类和步骤S109中的校正确定结果，波形校正单元104参考音素式波形数据存储单元105并校正音素(步骤S110)。接着，基于浊音/清音边界数据(如果省略浊音/清音确定单元103，则为普通音素边界数据)，波形产生单元106将经校正的音素与未经校正的音素相连，并输出得到的语音数据(步骤S111)。

[实施例2]

下面将参照图4和图5来说明本发明的第二实施方式。在第二实施方式中仅说明第一实施方式与第二实施方式之间的区别。图4是根据第二实施方式的语音增强设备的功能性框图。如图4所示，语音增强设备100包括波形特征量计算单元101、校正确定单元102、波形校正单元104、音素式波形数据存储单元105、波形产生单元106、语言处理器107和音素标记单元108。因为波形特征量计算单元101、校正确定单元102、波形校正单元104、音素式波形数据存储单元105和波形产生单元106分别与第一实施方式中的波形特征量计算单元101、校正确定单元102、波形校正单元104、音素式波形数据存储单元105和波形产生单元106相似，所以省略对它们的说明。

在向语言处理器107输入表示输入语音的内容的文本数据时，执行语言处理并输出音素串。例如，如果文本数据是“tadaima”，则音素串是“tadaima”。在音素标记单元108中输入输入语音和音素串时，对于输入语音进行音素标记，并输出各音素的音素标记和各音素的边界数据。

将由语言处理器107输出的音素标记和音素边界数据输入给音素划分单元101a、波形校正单元104和波形产生单元106。音素划分单元101a基于音素标记和音素边界数据对输入语音进行划分。波形校正单元104接收输入语音、音素标记、音素边界数据、校正确定单元102的确定结果和音素种类的输入。基于需要校正的音素，波形校正单元104使用存储在音素式波形数据存储单元105中的波形数据对原始数据进行替代或增加(增补)，并输出校正之后的语音数据。波形产生单元106接收输入语音、音素标记、音素边界数据、校正确定单元102的确定结果和波形校正单元104的校正结果的输入。波形产生单元106将语音数据的经校正的部分与语音数据的未经校正的部分相连，并将得到的语音数据作为输出语音输出。

因为向波形校正单元104输入音素标记，所以波形校正单元104使用基于音素标记的确定标准来确定是否校正各音素。例如，如果音素标记为“k”，则将大于或等于阈值的塞擦音部分的长度用作确定标准之一。

在输入音素标记和音素式特征量时，根据第二实施方式的校正确定单元102基于各音素标记和特征量来确定是否校正音素。例如，在音素标记为“k”时，将音素是否仅包括一个爆破音部分、爆破音部分的幅度绝对值的最大值是否小于或等于阈值和送气音部分的长度是否大于或等于阈值用作确定标准。在音素为“p”或“t”时，将音素是否仅包括一个爆破音部分和爆破音部分的幅度绝对值的最大值是否小于或等于阈值用作确定标准。

在音素为“b”、“d”或“g”时，将是否存在爆破音部分和是否存在周期性波形部分用作确定标准。如果不存在爆破音部分，则校正音素。如果音素标记为“r”，则将是否存在爆破音部分用作确定标准，并且如果存在爆破音部分就校正音素。如果音素标记为“s”、“sH”、“f”、“h”、“j”或“z”，则将幅度变化和爆破音部分的幅度绝对值的最大值是否小于或等于阈值用作确定标准。

因此，因为向校正确定单元102输入音素标记，所以例如，如果即使音素标记为“k”，由于短送气音部分而使得音素不能被听为“k”，如果即使音素标记为“d”，由于不存在爆破音部分而使得音素错误地被听为“r”，如果即使音素标记为“g”，由于不存在爆破音部分而使得音素不能与“n”区分开，或者如果即使音素标记为“n”，由于噪音而使得音素被听为“g”，则校正确定单元102确定校正音素。

向根据第二实施方式的波形校正单元104输入输入语音、输入语音的音素标记边界数据、确定数据和音素种类。波形校正单元104使用存储在音素式波形数据存储单元105中的数据对原始数据进行替代或增加、删除爆破音部分、删除具有较大幅度变化率的帧等，以校正音素并输出校正之后的语音数据。

如果音素标记为“k”，则由音素式特征量计算单元101e计算的音素式特征量包括是否存在爆破音部分、爆破音部分的长度、爆破音部分的数量、爆破音部分的幅度绝对值的最大值以及在爆破音部分之后持续的送气音部分的长度中的任一个或多个。如果音素标记为“b”、“d”或“g”，则音素式特征量包括是否存在爆破音部分、是否存在周期性波形和音素之前的音素环境中的任一个或多个。如果音素标记为“s”或“sH”，则特征量包括幅度变化以及音素之前和之后的音素环境中的任一个或多个。

接下来将说明根据第二实施方式的语音增强处理。图5是根据第二实施方式的语音增强处理的流程图。如图5所示，首先，语言处理器107接收对应于输入语音的文本数据的输入，对文本数据进行语言处理，并输出音素串(步骤S201)。

接着，音素标记单元108基于音素串向输入语音增加音素标记，并输出各音素的音素标记以及音素边界数据(步骤S202)。接着，基于各音素的音素标记以及音素边界数据，音素划分单元101a使用音素标记边界将输入语音划分为音素(步骤S203)。

接着，幅度变化测量单元101b计算所划分音素的幅度值和幅度变化率(步骤S204)。接着，爆破音部分/送气音部分检测单元101c基于幅度值和幅度变化率来检测爆破音部分/送气音部分(步骤S205)。接着，音素分类单元101d基于检测到的爆破音部分/送气音部分和幅度变化率将音素按音素种类分类(步骤S206)。接着，音素式特征量计算单元101e计算所分类音素的特征量(步骤S207)。

接着，音素环境检测单元101f确定音素环境，换言之确定在步骤S203划分的音素的前缀声/后缀声的语音数据是不发音、发音、浊音还是清音(步骤S208)。

接着，基于音素类型以及前缀声/后缀声的音素环境确定结果，音素式数据分配单元102a向各音素类型分配各音素的特征量(步骤S209)。接着，清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g确定对于各音素类型是否需要校正音素(步骤S210)。

接着，基于音素标记、音素边界数据、音素种类和步骤S109中的校正确定结果，波形校正单元104参考音素式波形数据存储单元105并校正音素(步骤S211)。接着，基于音素标记和音素边界数据，波形产生单元106将经校正的音素与未经校正的音素相连，并输出得到的语音数据(步骤S212)。

接下来将说明由根据第一和第二实施方式的波形校正单元104校正的波形的轮廓。图6至图8是用于说明由波形校正单元104校正的波形的轮廓的示意图。在图6所示的实施例中，从波形特征量计算单元101的计算结果检测到没有爆破音部分的音素“d”。在校正确定单元102确定需要校正音素“d”时，用存储在音素式波形数据存储单元105中并包括爆破音部分的音素“d”来替代所述音素“d”。

在图7所示的实施例中，用存储在音素式波形数据存储单元105中并包括爆破音部分的音素“d”来增补没有爆破音部分的音素“d”。

在图8所示的实施例中，将由于唇音而包括较大幅度变化的清塞擦音“sH”和“s”替代为存储在音素式波形数据存储单元105中并且不包括幅度变化的“sH”和“s”。

例如，因为“tadaima”中的“d”并不包括爆破音部分，所以“d”被误听为“r”，因而“tadaima”被听作“taraima”。进行图7和图8中所示的波形校正，以有效地增强语音数据的这些实施例。

在根据波形校正单元104的另一实施方式的方法中，如果爆破音包括两个爆破音部分，则删除其中一个爆破音部分。另外，在另一方法中，如果摩擦音包括具有较大幅度变化的短间隔，则删除该具有较大幅度变化的间隔。如此，使用存储在“音素式波形数据存储单元”中的数据对原始数据进行替代、增补或删除，从而进行波形校正。

[实施例3]

下面将参照图9和图10来说明本发明的第三实施方式。第三实施方式涉及用于在根据第一和第二实施方式的音素式波形数据存储单元105中存储音素的语音记录设备。在第三实施方式中，音素式波形数据存储单元205用作音素式波形数据存储单元105。图9是根据第三实施方式的语音记录设备的功能性框图。如图9所示，语音记录设备200包括波形特征量计算单元201、记录确定单元202、波形记录单元204、音素式波形数据存储单元205、语言处理器207和音素标记单元208。

波形特征量计算单元201还包括音素划分单元201a、幅度变化测量单元201b、爆破音部分/送气音部分检测单元201c、音素分类单元201d、音素式特征量计算单元201e和音素环境检测单元201f。因为音素划分单元201a、幅度变化测量单元201b、爆破音部分/送气音部分检测单元201c、音素分类单元201d、音素式特征量计算单元201e和音素环境检测单元201f分别与根据第一和第二实施方式的音素划分单元101a、幅度变化测量单元101b、爆破音部分/送气音部分检测单元101c、音素分类单元101d、音素式特征量计算单元101e和音素环境检测单元101f相同，所以省略对它们的说明。

记录确定单元202与根据第一和第二实施方式的校正确定单元102基本上相同。记录确定单元202包括音素式数据分配单元202a、清爆破音确定单元202b、浊爆破音确定单元202c、清摩擦音确定单元202d、浊摩擦音确定单元202e、塞擦音确定单元202f和周期性波形确定单元202g，它们分别与根据第一和第二实施方式的音素式数据分配单元102a、清爆破音确定单元102b、浊爆破音确定单元102c、清摩擦音确定单元102d、浊摩擦音确定单元102e、塞擦音确定单元102f和周期性波形确定单元102g相同。

根据第二实施方式的校正确定单元102基于各音素种类的特征量来选择有缺陷的音素片段作为有必要校正的音素片段。但是，根据第三实施方式的记录确定单元202基于各音素种类的特征量来确定没有缺陷的音素片段。例如，在音素为清爆破音“k”时，将音素是否仅包括一个爆破音部分、送气音部分的长度是否大于或等于阈值、以及爆破音部分的幅度值是否在阈值内用作记录确定单元202确定是否记录音素的确定标准。在音素为清爆破音“s”或“sH”时，将幅度变化率是否较大、所有幅度值是否都在预定范围内、以及音素长度是否大于或等于阈值用作记录确定单元202确定是否记录音素的确定标准。在音素为清爆破音“b”、“d”或“g”时，将不存在周期分量和存在爆破音部分用作记录确定单元202确定是否记录音素的确定标准。

基于记录确定单元202的确定结果，波形记录单元204将用于记录的音素片段的音素标记和音素边界数据存储在音素式波形数据存储单元205中。音素式波形数据存储单元205设置成与第一和第二实施方式中的音素式波形数据存储单元105相同。

另外，因为根据第三实施方式的音素式波形数据存储单元205设置成与第一和第二实施方式中的音素式波形数据存储单元105相同，所以音素式波形数据存储单元205也可以设置成具有独立于语音记录设备200的结构的存储单元。同样地，第一和第二实施方式中的音素式波形数据存储单元105也可以独立于语音增强设备100设置。

因为语言处理器207和音素标记单元208分别与根据第二实施方式的语言处理器107和音素标记单元108相同，所以省略对它们的说明。

接下来将说明根据第三实施方式的语音记录处理。图10是根据第三实施方式的语音记录处理的流程图。如图10所示，首先，语言处理器207接收对应于输入语音的文本数据的输入，对文本数据进行语言处理，并输出音素串(步骤S301)。

接着，音素标记单元208基于音素串向输入语音增加音素标记，并输出各音素的音素标记以及音素边界数据(步骤S302)。接着，基于各音素的音素标记以及音素边界数据，音素划分单元201a使用音素标记边界而将输入语音划分为音素(步骤S303)。

接着，幅度变化测量单元201b计算所划分音素的幅度值和幅度变化率(步骤S304)。接着，爆破音部分/送气音部分检测单元201c基于幅度值和幅度变化率来检测爆破音部分/送气音部分(步骤S305)。接着，音素分类单元201d基于检测到的爆破音部分/送气音部分和幅度变化率将音素按音素种类分类(步骤S306)。接着，音素式特征量计算单元201e计算所分类音素的特征量(步骤S307)。

接着，音素环境检测单元201f确定音素环境，换言之确定在步骤S303划分的音素的前缀声/后缀声的语音数据是不发音、发音、浊音还是清音(步骤S308)。

接着，基于音素类型以及前缀声/后缀声的音素环境确定结果，音素式数据分配单元202a向各音素类型分配各音素的特征量(步骤S309)。接着，清爆破音确定单元202b、浊爆破音确定单元202c、清摩擦音确定单元202d、浊摩擦音确定单元202e、塞擦音确定单元202f和周期性波形确定单元202g确定对于各音素类型是否需要校正音素(步骤S310)。

接着，基于音素标记、音素边界数据、音素种类和步骤S310中的校正确定结果，波形记录单元204将音素记录在音素式波形数据存储单元205中(步骤S311)。

在本发明中，对于各种类的音素包括有校正确定标准。对于爆破音使用爆破音部分的高精度检测。为此，也可以检测两个爆破音部分的存在或者在爆破音部分之后持续的送气音部分的长度。另外，对于摩擦音可以检测精确的幅度变化。根据权利要求5，使用音素片段的前缀声和后缀声的数据能够进行更高精度的校正确定。

校正方法包括用替代片段替换检测到的缺陷片段、用替代片段增补原始语音并增补有缺陷的爆破音部分的方法。为此，可以校正极其难以听到的摩擦音或爆破音的音量。另外，重叠爆破音也可以被校正为单个爆破音。

除了校正语音数据之外，也可以校正输入文本中的被误输入为“taraima”的“tadaima”。同样地，如果用户发现难以理解文本部分包括“kokugai”还是“kokunai”，则可以校正文本部分。

可以通过使用诸如个人计算机、服务器或工作站的计算机系统执行包括规定序列的处理的计算机程序，而实现前述实施方式中说明的所有处理。

本发明在其更广泛方面中并不限于这里显示和描述的具体细节和代表性实施方式。因此，可以在不脱离由所附权利要求及其等价物限定的大体发明构思的精神或范围的情况下作出各种修改。另外，所述实施方式中描述的效果也不这样受到限制。

根据本发明的实施方式，基于由音素边界数据分开的各音素的语音数据的波形特征量，如果需要校正语音数据，则使用预先存储在音素式波形数据存储单元中的波形数据来校正各音素的语音数据。为此，对于各音素校正不清楚且难以听到的语音数据，从而可以获得易于听到的语音数据。

根据本发明的实施方式，基于由浊音/清音边界数据分开的各音素的语音数据的波形特征量，如果需要校正语音数据，则使用预先存储在音素式波形数据存储单元中的波形数据来校正各音素的语音数据。为此，对于由浊音/清音边界数据分开的各音素校正不清楚且难以听到的语音数据，从而可以获得易于听到的语音数据。

根据本发明的实施方式，向通过对文本数据进行语言处理获得的音素串分配音素识别数据，并且确定音素识别数据的边界以得到音素识别数据的边界数据。基于由该边界数据分开的各音素的语音数据的波形特征量，如果需要校正语音数据，则使用预先存储在音素式波形数据存储单元中的波形数据来校正各音素的语音数据。为此，对于由音素识别数据分开的各音素校正不清楚且难以听到的语音数据，从而可以获得易于听到的语音数据。

根据本发明的实施方式，测量幅度值、幅度变化率以及语音数据的音素中是否存在周期性波形。基于音素的爆破音部分和送气音部分的检测结果，对音素的音素类型进行分类，并计算各分类音素的特征量。为此，可以检测并校正诸如辅音和清元音的可能不清楚的语音部分。

根据本发明的实施方式，将输入的语音数据与经波形校正单元校正的各音素的语音数据合成，以输出得到的语音数据。由此，仅校正输出的语音数据中的不清楚部分，从而可以在不会明显改变语音数据的原始特性的情况下校正不清楚部分。

根据本发明的实施方式，向通过对文本数据进行语言处理获得的音素串分配音素识别数据，并且确定音素识别数据的边界以得到音素识别数据的边界数据。对于由该边界数据分开的各音素，将满足预定条件的语音数据记录在音素式波形数据存储单元中，并且所记录的语音数据可以用于校正。

本发明通过对语音数据的不清楚部分进行校正而有效地获得清楚的语音数据，并且可尤其用于自动地检测并自动地校正与爆破音(例如是否存在爆破音部分，在爆破音部分之后持续的送气音部分的音素长度)有关的缺陷部分，或者与摩擦音的幅度变化有关的缺陷部分。

尽管为了完整清楚的公开参考具体实施方式描述了本发明，但所附权利要求不应这样受到限制，而应理解为可实施完全落在这里阐述的基本教导的范围内且对于本领域技术人员显而易见的所有修改和替换结构。

Claims

1.一种语音增强设备，该语音增强设备对输入的语音数据的不清楚部分进行校正并输出，该语音增强设备包括：

浊音/清音边界数据输出单元，所述浊音/清音边界数据输出单元输出音素边界数据；

波形特征量计算单元，该波形特征量计算单元对于各音素计算所述语音数据的波形特征量，所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入；

校正确定单元，该校正确定单元基于由所述波形特征量计算单元计算的所述波形特征量，对于各音素确定所述语音数据校正的必要性；以及

波形校正单元，该波形校正单元通过使用预先存储在音素式波形数据存储单元中的波形数据，对于各音素对由所述校正确定单元确定有校正必要的所述语音数据进行校正。

2.根据权利要求1所述的语音增强设备，其中：

所述浊音/清音边界数据输出单元确定所述语音数据的浊音/清音的分界，并输出浊音/清音边界数据作为所述音素边界数据，并且

所述波形特征量计算单元对于各音素计算所述语音数据的波形特征量，所述语音数据连同由所述浊音/清音边界数据输出单元输出的所述浊音/清音边界数据一起被输入。

3.根据权利要求2所述的语音增强设备，其中，所述波形特征量计算单元包括：

语音数据划分单元，该语音数据划分单元基于所述音素边界数据将所述输入的语音数据划分为音素，

幅度变化测量单元，该幅度变化测量单元基于由所述语音数据划分单元划分的音素而测量幅度值、幅度变化率以及是否存在所述音素的周期性波形，

爆破音部分/送气音部分检测单元，该爆破音部分/送气音部分检测单元基于由所述幅度变化测量单元测量的幅度值和幅度变化率以及由所述语音数据划分单元划分的所述语音数据，而检测所述音素的爆破音部分和送气音部分，

音素分类单元，该音素分类单元基于所述爆破音部分/送气音部分检测单元的检测结果、以及由所述幅度变化测量单元测量的幅度值、幅度变化率和是否存在周期性波形而对所述音素的音素类型进行分类，以及

音素式特征量计算单元，该音素式特征量计算单元对于由所述音素分类单元分类的各音素而计算所述特征量。

4.根据权利要求3所述的语音增强设备，其中，所述音素式特征量计算单元计算至少一个下列各项的特征量：

由所述幅度变化测量单元分别测量的幅度值、幅度变化率和是否存在周期性波形，

由所述爆破音部分/送气音部分检测单元分别检测的是否存在所述音素的爆破音部分、所述爆破音部分的长度、是否存在所述爆破音部分之后持续的送气音部分和所述送气音部分的长度，以及

在由所述音素分类单元分类的所述音素之前和之后的音素的音素类型。

5.根据权利要求3所述的语音增强设备，其中，所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要校正所述语音数据。

6.根据权利要求3所述的语音增强设备，其中，所述波形特征量计算单元还包括：

音素环境检测单元，该音素环境检测单元检测在由所述语音数据划分单元划分的所述音素之前和之后的音素中的、发音/不发音的差异和浊音/清音的差异，并且其中

所述校正确定单元基于所述音素环境检测单元的检测结果以及由所述波形特征量计算单元计算的所述波形特征量，而对于各音素确定所述语音数据的校正的必要性。

7.根据权利要求1所述的语音增强设备，该语音增强设备还包括输出语音数据合成器，该输出语音数据合成器基于所述音素边界数据和所述校正确定单元的确定结果而将所述输入的语音数据与经所述波形校正单元校正的各音素的所述语音数据合成，并输出该合成的语音数据。

8.一种语音记录设备，该语音记录设备将输入的语音数据记录在音素式波形数据存储单元中，该语音记录设备包括：

音素识别数据输出单元，该音素识别数据输出单元基于所述输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述语音数据分配音素识别数据，确定所述音素识别数据的边界，并输出所述音素识别数据的边界数据作为所述音素边界数据；

波形特征量计算单元，该波形特征量计算单元对于各音素计算所述语音数据的波形特征量，所述语音数据连同由所述音素识别数据输出单元输出的所述音素识别数据的所述边界数据一起被输入；

条件充分性确定单元，该条件充分性确定单元基于由所述波形特征量计算单元计算的所述波形特征量而对于各音素确定所述语音数据是否满足预定条件；以及

音素式波形数据记录单元，该音素式波形数据记录单元基于所述条件充分性确定单元的确定结果而将被确定为满足所述预定条件的各音素的语音数据记录在所述音素式波形数据存储单元中。

9.一种语音增强设备，该语音增强设备对输入的语音数据的不清楚部分进行校正并输出，该语音增强设备包括：

音素识别数据输出单元，所述音素识别数据输出单元输出音素边界数据；

10.根据权利要求9所述的语音增强设备，其中：

所述音素识别数据输出单元基于所述输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述语音数据分配音素识别数据，确定所述音素识别数据的边界，并输出所述音素识别数据的边界数据作为所述音素边界数据，并且

所述波形特征量计算单元对于各音素计算所述语音数据的波形特征量，所述语音数据连同由所述音素识别数据输出单元输出的所述音素识别数据的所述边界数据一起被输入。

11.根据权利要求10所述的语音增强设备，其中，所述波形特征量计算单元包括：

音素式特征量计算单元，该音素式特征量计算单元对于由所述音素分类单元分类的各音素计算所述特征量。

12.根据权利要求11所述的语音增强设备，其中，所述音素式特征量计算单元计算至少一个下列各项的特征量：

13.根据权利要求11所述的语音增强设备，其中，所述校正确定单元根据由所述音素分类单元分类的音素类型而对于各音素确定是否有必要校正所述语音数据。

14.根据权利要求11所述的语音增强设备，其中，所述波形特征量计算单元还包括：

15.根据权利要求9所述的语音增强设备，该语音增强设备还包括输出语音数据合成器，该输出语音数据合成器基于所述音素边界数据和所述校正确定单元的确定结果而将所述输入的语音数据与经所述波形校正单元校正的各音素的所述语音数据合成，并输出该合成的语音数据。

16.一种语音增强方法，该语音增强方法对输入的语音数据的不清楚部分进行校正并输出，该语音增强方法包括下列步骤：

对于各音素计算所述语音数据的波形特征量，所述语音数据连同将该语音数据划分为音素的音素边界数据一起被输入；

基于在所述计算步骤中计算的波形特征量，对于各音素确定所述语音数据校正的必要性；以及

通过使用预先存储在音素式波形数据存储单元中的波形数据，对于各音素对在所述确定步骤中确定有校正必要的所述语音数据进行校正。

17.一种语音记录方法，该语音记录方法对输入的语音数据的不清楚部分进行校正并输出，该语音记录方法包括下列步骤：

基于所述输入的语音数据以及通过对所述语音数据的文本数据进行语言处理输出的音素串而向所述语音数据分配音素识别数据，确定所述音素识别数据的边界，和输出所述音素识别数据的边界数据作为所述音素边界数据；

对于各音素计算所述语音数据的波形特征量，所述语音数据连同在所述输出步骤中输出的所述音素识别数据的所述边界数据一起被输入；

基于在所述计算步骤中计算的所述波形特征量而对于各音素确定所述语音数据是否满足预定条件；以及

基于所述确定步骤中的确定结果而将被确定为满足所述预定条件的各音素的所述语音数据记录在所述音素式波形数据存储单元中。