CN1219264A

CN1219264A - 语速变换方法及其装置

Info

Publication number: CN1219264A
Application number: CN98800250A
Authority: CN
Inventors: 都木彻; 清山信正; 今井笃; 安藤彰男
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 1999-06-09
Anticipated expiration: 2018-03-13
Also published as: CA2253749C; EP0910065B1; CN1101581C; DE69816221T2; KR100283421B1; DE69816221D1; DK0910065T3; EP0910065A1; EP0910065A4; WO1998041976A1; CA2253749A1; US6205420B1; KR20000010930A; JPH10257596A; JP2955247B2; NO985301D0; NO316414B1; NO985301L

Abstract

本发明提供的语速变换方法及装置,对输入的声音数据,由分析处理部(3)进行其属性的分析处理。块数据分割部(4)根据分析处理部(3)的分析结果,把声音数据分割成具有预定时间宽的块单位,生成块声音数据后,蓄存在块数据蓄积部(5)内。连续数据生成部(6)使用各块声音数据,生成连接数据,将其蓄积在连接数据蓄存部(7)内。同时,根据与所设定声音速度对应的条件,连接顺序生成部(8)生成各块声音数据和各连接数据的连接顺序。声音数据连接部(9)根据该连接顺序,依次连接蓄存在块数据蓄存部(5)内的块声音数据和蓄存在连接数据蓄存部(7)内的连接数据,生成一连串的声音数据。

Description

语速变换方法及其装置

技术领域

本发明涉及用于电视机、收音机、磁带录音机、磁带录像机或磁盘录象机等各种影像机器、音响机器、医疗机器中所用的语速变换方法及其装置，特别涉及对发话者的声音进行加工，能够得到适合于受听者听觉能力的声音速度的语速变换方法及其装置。

背景技术

通常，例如将一方(发话者)的话让另一方(受听者)听到的情况下，由于年龄或其它障碍，当受听者的声音识别临界速度(能准确地识别声音的最大语速)等的听觉能力降低时，该受听者不容易识别用通常速度或用快速发出的声音。这时，通常是采用助听器来弥补受听者的听觉能力。

但是现有技术中，为听觉能力降低者或听力障碍者设计的助听器，仅仅是通过频率特性的改善及接收能的控制等来辅助听觉系统的外耳、中耳的传递特性。其主要的问题是，不能弥补因听觉中枢的退化而引起的声音识别能力的降低。

针对该问题，最近提出了一种语速控制型的助听装置，该助听装置对发话者的声音进行加工，几乎实时地使声音速度适合于受听者的听觉能力，以达到助听目的。

该语速控制型的助听装置中，对发话者的声音在时间上进行拉长处理，把该拉长处理得到的声音逐次地蓄存到输出缓冲存储器内，然后输出，使发话者的语速变化(变慢)，以弥补受听者听觉能力的降低。

但是，上述现有的语速控制型助听器，存在以下问题。

首先，现有的语速控制型助听器，如上所述，由于是对输入的声音数据进行拉长处理后，把该拉长处理得到的声音逐次蓄存到输出缓冲存储器内，然后输出，所以，例如，在受听过程中希望语速更缓慢一些时或希望回到原来状态时，在把蓄存在输出缓冲存储器内的声音数据全部输出完之前，不能使语速回到原来状态。

因此，在受听过程中使语速回到原来状态时，从现在的语速到回到原来状态之间，产生相当长的时间延迟。

另外，上述现有的语速控制型助听器，不仅用于上述听觉能力降低的受听者，而且也用于具有通常听觉能力的受听者、例如听取外国语的情况下，为了加强听力，使语速变化(变慢)。但是在该情况下，与上述同样地，在受听过程中变更语速时，也产生时间延迟的问题。

本发明是鉴于上述问题而作出的，其目的在于提供一种语速变换方法及其装置。本发明的语速变换方法及装置，能相应于受听者的操作，使输出声音的语瞬时跟上。由此大幅度提高受听者的使用便利性。

发明内容概要

为了实现上述目的，权利要求1记载的语速变换方法，其特征在于，

对输入的声音数据，进行其属性的分析处理；

根据该分析处理得到的信息，将上述声音数据分割为具有预定时间宽的块单位；

将上述块单位作为块声音数据蓄存；

为了实现上述声音数据的时间上的拉长，把在相邻块声音数据间应置换或插入的连续数据，在每块单位中生成并蓄存；

生成块连接顺序，该块连接顺序用于生成与受听者的操作而生出的任意声音速度对应的输出声音数据；

按照该连接顺序，依次地连接已分割为块单位并蓄存的块声音数据和连接数据，生成输出数据。

这样，可相应于受听者的操作，使输出声音的语速瞬时地跟上，从而大幅度提高受听方的使用便利性。

权利要求2记载的发明，是在权利要求1记载的语速变换方法中，其特征在于，

对于每一块，使用在预定长时间内具有预定线的2个窗，对该块开始部分的声音数据和其后块的开始部分的声音数据，分别进行屏蔽后，重复相加其后块的开始部分和该块的开始部分，生成上述连接数据。

另外，为了实现上述目的，权利要求3记载的语速变换装置，其特征在于，备有分析处理部、块数据分割部、块数据蓄存部、连接数据生成部、连接数据蓄存部、连接顺序生成部和声音数据连接部；

上述分析处理部，对输入的声音数据进行其属性的分析处理；

上述块数据分割部，根据该分析处理部的分析结果，将声音数据分割为具有预定时间宽的块单位；

上述块数据蓄存部，把由该块数据分割部分割的数据作为块声音数据蓄存；

上述连接数据生成部，使用由上述块数据分割部得到的各块声音数据，生成在相邻块声音数据间可置换或可插入的连接数据；

上述连接数据蓄存部，蓄存由该连接数据生成部生成的连接数据；

上述连接顺序生成部，根据与所设定声音速度对应的条件，生成上述块声音数据和上述连接数据的连接顺序；

上述声音数据连接部，根据该连接顺序生成部得到的连接顺序，依次连接蓄存在块数据蓄存部内的块声音数据和蓄存在连接数据蓄存部内的连接数据，生成一连串的声音数据。

权利要求4记载的发明，是在权利要求3所述的语速变换装置中，其特征在于，上述连接数据生成部，对于每一块，使用在预定长时间内具有预定线的2个窗，对该块开始部分的声音数据和其后块的开始部分的声音数据，分别进行屏蔽后，重复相加其后块的开始部分和该块的开始部分，生成上述连接数据。

权利要求5记载的发明，是在权利要求3所述的语速变换装置中，其特征在于，上述连接顺序生成部，备有可改写存储器和连接顺序决定处理部；上述可改写存储器用于存储每个属性的时间拉长倍率；上述连接顺序决定处理部，以预定的时间间隔，读出存储在上述可改写存储器内的各属性的时间拉长倍率，同时，根据这些拉长倍率、块数据蓄存部输出的块长和声音数据连接部输出的已连接信息，即时生成上述块声音数据和上述连接数据的连接顺序。

这样，可按照受听者的操作，即时地使输出声音的语速跟上，大幅度提高受听方的使用便利性。

附图简单说明

图1是表示本发明中的语速变换装置实施例的框图。

图2是表示由图1中所示连接数据生成部进行的连接数据生成过程例的模式图。

图3是表示由图1所示连接顺序生成部进行的连接顺序生成过程的模式图。

实施例

图1是表示本发明中的语速变换装置的实施例的框图。

该图所示的语速变换装置1，备有A/D转换部2、分析处理部3、块数据分割部4、块数据蓄存部5、连接数据生成部6、连接数据蓄存部7、连接顺序生成部8、声音数据连接部9和D/A转换部10。A/D转换部2将输入的声音信号转换为数字的声音数据。分析处理部3分析声音数据的属性。块数据分割部4把声音数据分割成块单位，以生成块声音数据。块数据蓄存部5蓄存块声音数据。连接数据生成部6生成连接块声音数据所需的连接数据。连接数据蓄存部7蓄存连接数据。连接顺序生成部8生成块声音数据和连接数据的连接顺序。声音连接部9根据该连接顺序，将各块声音数据和各连接数据连接起来，生成一连串的声音数据。D/A变换部10将该一连串的声音数据变换为声音信号。

该语速变换装置1，对发话者输入的声音数据，对其属性进行分析处理，根据该分析处理得到的分析信息，将声音数据分割成具有一定时间宽的块单位并蓄存起来，同时，为了实现声音数据的时间上的拉长，对每一块单位生成在相邻块声音数据间应置换或插入的声音数据并蓄存起来。另外，生成块连接顺序(该块连接顺序用于生成与受听者操作的任意声音速度对应的输出声音数据)，按照该块连接顺序，依次连接已分割成块单位并蓄存着的声音数据(块声音数据)和已蓄存着的连接部的置换·插入声音数据(连接数据)，通过生成输出声音数据，与受听者的操作相应地，可以使输出声音的语速瞬时地跟上。

A/D转换部2备有A/D转换电路和FIFO存储器。A/D转换电路以预定的取样率(例如32kHz)对输入的声音信号取样后，进行A/D转换。FIFO存储器取入并存储从A/D转换电路输出的数字的声音数据，同时，以FIFO形式输出。A/D转换部2取入由输入端子输入的发话者的声音信号、例如由扩音器、电视机、收音机或其它影像机器、音响机器等的摸拟声音输出端子输出的声音信号，经A/D转换后，把这样得到的声音数据一边缓冲存储，一边供给分析处理部3和块数据分割部4。

分析处理部3依次进行输入处理、减量处理、属性分析处理和块长决定处理，把这样得到的分割信息(每个有声音、无声音、无音块的长度)供给块数据分割部4。上述的输入处理，是取入A/D转换部2输出的声音数据。上述减量处理，是把由输入处理得到的声音数据的取样率降至4kHz，使以后的处理量减少。上述的属性分析处理，是对由A/D转换部2输出的声音数据和上述减量处理得到的声音数据进行分析，区分为有声音、无声音、无音。上述块长决定处理，是对由该属性分析得到的有声音、无声音、无音进行自相关分析，检测其周期性，根据该检测结果，决定分割声音数据所需的块长(该块长是防止因块单位的反复而引起的声音高度的变化、例如是防止低声等所需的块长)。

上述属性分析处理中，对于从A/D转换部2输出的声音数据，使用30ms前后的窗宽，计算数据的平方和，以5ms前后的间隔，算出声音数据的功率值P，同时，将该功率值P与预先设定的阈值Pmin比较，把满足“P＜Pmin”的部分，判断为无音区间，把“Pmin≤P”的部分，判断为有声音区间、无声音区间。然后，对从A/D转换部2输出的声音数据，进行零交叉分析和进行对上述减量处理得到的声音数据的自相关分析等，根据这些分析结果和功率值P，从声音数据中，判断满足“Pmin≤P”的部分是伴随声带振动的声音区间(有声音区间)还是不伴随声带振动的声音区间(无声音区间)。另外，作为从A/D变换部2输出的声音数据的各属性，虽然也考虑是杂音或音乐等背景音这样的属性，但通常要准确地自动判断杂音、背景音信号与声音信号是困难的，所以，也将杂音、背景音分成有声音、无声音、无音中的任一类。

在上述的块长决定处理中，对于由上述属性分析处理判断为有声音区间的声音数据，在有声音的音高(pitch)周期分布的1.25ms～28.0ms的大范围内，进行长短不同的窗宽的自相关分析，检测出尽量准确的音高周期(声带的振动周期即音高周期)，根据该检测结果决定块长，将各音高周期作为各块长。另外，对于由上述属性分析处理判断为无声音区间、无音区间的区间，检测出10ms以内的周期性，根据该检测结果决定块长，将这些有声音区间、无声音区间、无音区间的各块长作为分割信息，供给块数据分割部4。

块数据分割部4，根据从分析处理部3输出的分割信息所示的有声音区间的块长、无声音区间的块长、无音区间的块长，分割由A/D转换部2输出的声音数据，把由该分割处理得到的块单位声音数据(块声音数据)和该声音数据的块长，供给块数据蓄存部5和连接数据生成部6。

块数据蓄存部5备有环形缓冲存储器，取入从块数据分割部4输出的块声音数据(块单位的声音数据)和该声音数据的块长，一边将它们暂时存储在该环形缓冲存储器内，一边适当地读出暂时存储着的各块长，将其供给连接顺序生成部8，同时适当读出暂时存储着的块声音数据，将其供给声音数据连接部9。

连续数据生成部6，取入从块数据分割部4输出的块声音数据，对每个块，如图2所示地，使用在时间长d(ms)间呈直线变化的A窗、B窗，对该块开始部分的声音数据和其后块的开始部分的声音数据进行屏蔽后，重复相加后块的开始部分和该块的开始部分，生成时间长为d(ms)的连接数据，将其供给连接数据蓄积部7。作为时间长d，可以选择〔0.5(ms)〕～〔该块或其后块的块长之中短的一方〕的值，但是，如果选择短的一方，则连续数据蓄存部7的缓冲存储器的容量可需要得小一些

连续数据蓄存部7，备有环形缓冲存储器，取入从连接数据生成部6输出的连接数据，一边将其暂时存储到上述环形缓冲存储器内，一边适当地读出暂时存储着的各连接数据，将其供给声音数据连接部9。

连接顺序生成部8，备有可改写存储器和连接顺序决定处理部。可改写存储器存储由受听者操作的数字音量器等数字设定器而输入的每个属性的时间拉长倍率。连接顺序决定处理部以预定的时间间隔、例如100ms左右的时间间隔，读出存储在可改写存储器内的各属性的时间拉长倍率，同时，根据这些各拉长倍率、从块数据蓄存部5输出的各块长和从声音数据连接部9输出的已连接信息，即时生成各块单位的声音数据和各块单位的连接数据之间的连接顺序(为实现受听者设定的希望语速所需的连接顺序)。

在有声音区间、无声音区间、无音区间依次交替出现的声音信号输入的状态下，如图3所示，由声音数据连接部9输出的已连接信息，检测出块声音数据的属性已转换时，或者，即使相同属性的块声音数据持续连接着，当检测出从上述可改写存储器读出的上述块声音数据的拉长倍率已变更时，判断为连接顺序的生成工序开始条件已具备，这时的时刻被设定为时刻T₀。

然后，把该时刻T₀作为开始时刻，设从块数据蓄存部5已对声音数据连接部9输出的、语速变更前的块声音数据的块长全部加算起来的总和为“S_i”，设已连接的块声音数据的块全长全部加算起来的总和为“S_o”，设目的拉长倍率为“r”(r≥1.0)，设最后连接的块声音数据的块长为“L”，在下式条件成立的时间内

L/2＜r·S_i-S_o…(1)从连接数据蓄存部7输出的连接数据中，把对应于最后连接的块的连接数据置换·插入后，在最后被连接的块中，把用于生成连接数据部分后面的部分，再次反复连接上。生成表示依次连接该块后面剩余块的连接顺序，将其供给声音数据连接部9。

这样，在图3所示例中，在依次连接了块(1)到块(8)的时刻，满足(1)式所示条件，所以，与块(8)对应的连接数据被置换·插入在该块(8)后面，该块(8)之中、用于生成连接数据部分后面的部分被反复连接。另外，该图3所示例中，块(4)已经被反复连接一次。

声音数据连接部9，把已经连接的块声音数据等的连接内容作为已连接信息，一边供给连接顺序生成部8，一边根据连接顺序生成部8输出的连接顺序，将块数据蓄存部5输出的块声音数据和连接数据蓄存部7输出的块声音数据连接起来，生成一连串的声音数据。这样，得到的一连串的声音数据一边被缓冲存储，一边供给D/A转换部10。

D/A转换部10，备有存储器和D/A转换电路，存储器存储声音数据，并以FIFO的形式输出。D/A变换电路以预定的取样率(例如32kHz)从上述存储器中读出声音数据，将其作D/A转换，成为声音信号。D/A转换部10读入声音数据连接部9输出的一连串声音数据，一边将其缓冲储存，一边进行D/A转换，把这样得到的声音信号从输出端子输出。

这样，本实施例中，根据语速变换控制信息(该语速变换控制信息表示与受听者的操作相应的任意语速)，一边控制预先蓄存着的块声音数据和连接数据的顺序，一边形成输出声音，所以，在受听者用手动操作使语速变化时，也能即时输出所需语速的声音，这样，在中途改变语速时，也不会使受听方感觉到时间延迟。

因此，只要将本发明的语速变换装置1用于电视机、收音机、磁带录音机、磁带录象机、磁盘录象机等的影像机器、音响机器、医疗机器等上，对发话者的声音进行加工，使声音速度适合于受听者的听觉能力，就可以按照受听者的操作，即时地变化输出声音的语速。

另外，上述实施例中，在连接数据生成部6，是使用图2所示的直线变化的A窗、B窗，对各块声音数据的开始部分进行屏蔽的。但是也可使用余弦曲线等的窗，对各块声音数据的开始部分进行屏蔽。另外，如果连接数据蓄存部7的缓冲存储容量足够大，则屏蔽不仅对块声音数据的开始部分，也可以对块全长进行。

上述实施例中，在连接顺序生成部8，仅反复一次图3所示的块声音数据(4)、(8)的连接数据和该块声音数据的后半部分，但是当拉长倍率“r”为“r＞2”时，也可以反复2次以上同一个块声音数据。

如上所述，根据本发明，能按照受听者的操作，使输出声音的语速瞬间跟上，这样，大幅度提高受听者的使用便利性。

Claims

1．语速变换方法，其特征在于，

对输入的声音数据，进行其属性的分析处理；

将上述块单位作为块声音数据蓄存；

为了实现上述声音数据的时间上的拉长，把在相邻块声音数据间应置换或插入的连续数据，在每块中生成并蓄存；

2．如权利要求1所述的语速变换方法，其特征在于，

3．语速变换装置，其特征在于，备有分析处理部、块数据分割部、块数据蓄积部、连续数据生成部、连续数据蓄存部、连接顺序生成部和声音数据连接部；

4．如权利要求3所述的语速变换装置，其特征在于，上述连续数据生成部，对于每一块，使用在预定长时间内具有预定线的2个窗，对该块开始部分的声音数据和其后块的开始部分的声音数据，分别进行屏蔽后，重复相加其后块的开始部分和该块的开始部分，生成上述连接数据。

5．如权利要求3所述的语速变换装置，其特征在于，上述连接顺序生成部，备有可改写存储器和连接顺序决定处理部；上述可改写存储部用于存储每个属性的时间拉长倍率；上述连接顺序决定处理部，以预定的时间间隔，读出存储在上述可换写存储器内的各属性的时间拉长倍率，同时，根据这些拉长倍率、块数据蓄存部输出的块长和声音数据连接部输出的已连接信息，即时生成上述块声音数据和上述连接数据之间的连接顺序。