CN102136272B

CN102136272B - 掩蔽声音生成装置

Info

Publication number: CN102136272B
Application number: CN2011100302968A
Authority: CN
Inventors: 小池舞; 清水宁; 秦雅人; 山川高史
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-01-26
Filing date: 2011-01-26
Publication date: 2013-06-12
Anticipated expiration: 2031-01-26
Also published as: CN102136272A; US8861742B2; EP2367169A3; US20110182438A1; EP2367169A2

Abstract

提出了一种掩蔽声音生成装置，其中获取部分用来获取声音信号，并且生成部分根据所获取的声音信号来生成掩蔽声音信号。具体来说，生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分在每次重复进行排序处理时变更了对所述段进行排序的方法。

Description

掩蔽声音生成装置

技术领域

本发明涉及一种用于生成掩蔽声音信号来防止声音被偷听的技术。

背景技术

已经提出了各种使用掩蔽效应来防止声音被偷听的技术。掩蔽效应是这样一种现象，当把两种类型的声音信号传输到相同空间时，对于处在该空间中的人来说很难根据声音信号的声学特性(频率成分、时间波形等)间的关系来察觉各个声音信号。在大多数的上述技术中，通过墙壁或隔离物在与讲话者所处区域相邻的另一区域中发射掩蔽声音来扰乱对讲话者语音的收听。在此情况下，掩蔽声音可能是具有宽频带谱的噪音。然而，已知的是，其特性表现出与作为收听扰乱对象的声音(以下称为目标声音)的特性类似的声音实现了较高的掩蔽效应。

专利参考文献1公开了一种掩蔽系统，其配置为每次从多种掩蔽声音中选出表现出最高掩蔽效应的掩蔽声音并输出选出的掩蔽声音。该专利参考文献中所公开的掩蔽系统防止了声音在两个区域之间被偷听，这两个区域例如是两个声学空间20A和20B，它们彼此相邻而在它们之间布置有一堵墙。在该掩蔽系统中，预先收集了具有不同年龄、语言和性别的人的语音。将通过对每个收集到的语音的声音信号的帧排列进行排序而获得的混杂声音信号，与指示了对应于混杂声音信号的每个语音的格式或功率谱的声学特性信息一起，存储在存储器中。在该掩蔽系统中，对声学空间20A中的扬声器的语音进行分析来获得其声学特性信息，读取存储在存储器中与最接近所获得的声学特性信息的声学特性信息相对应的混杂声音信号，并将该混杂声音信号作为掩蔽声音输出到声学空间20B中。根据这样的技术，表现出最接近于声学空间20A中讲话者语音特性的掩蔽声音被输出到声学空间20B，结果可以在声学空间20B中实现高掩蔽效应。

专利参考文献2公开了一种用于处理人的语音的声音波形以防止这个人的语音被偷听的技术。该专利参考文献中所公开的掩蔽系统将通过安装在房间中的麦克风记录的语音的声音信号分割成多个段，每个段具有对应于每个音节的时长，通过反转每个部分中的采样并对这些部分的排列进行排序来产生掩蔽声音信号，以及将所产生的掩蔽声音信号输出到相邻的房间中。通过这种方法产生的掩蔽声音的声音质量类似于讲话者的语音；然而相邻房间内的人很难通过这样的掩蔽声音来理解原始语音的内容。因此，可以将这样的掩蔽声音输出到目标声音泄露到的区域中，从而实现该区域中的高掩蔽效应。

[专利参考文献1]日本专利申请公开第2008-233672号。

[专利参考文献2]日本专利申请公开第2008-233671号。

在专利参考文献1中公开的掩蔽系统中，必须将从多种混杂声音信号中选出的一个混杂声音作为掩蔽声音持续并重复地输出到声学空间20B中，从而在声学空间20B中确保掩蔽效应。然而，如果如上所述持续并重复地输出相同的掩蔽信号，则声学空间20B中的人可能会察觉到相同的掩蔽信号被重复输出，结果可能导致这个人感到不合理。

在专利参考文件2中公开的掩蔽系统中，通过将一个人的语音声音波形的采样阵列进行反转而获得的声音波形表现出了与原始声音波形的重音不同的不自然的重音。因此，如果将通过反转这个人的语音声音波形的采样阵列而获得的声音波形作为掩蔽声音来持续输出，则该掩蔽声音被输出到的区域中的人会感到不合理。

发明内容

本发明旨在解决上述问题，本发明的目的是防止输出掩蔽声音的周期性被容易地察觉，从而防止掩蔽声音被输出到的区域中的人感到不合理，因此实现了在该区域中较高的掩蔽效应。

根据本发明的第一方面，一种掩蔽声音生成装置包括：获取部分，其获取声音信号；以及生成部分，其重复进行对通过改变获取部分所获取声音信号的排列顺序而获得的掩蔽声音信号进行输出的处理，并且重复进行对改变所述声音信号的排列顺序的方法进行变更的处理。

根据这种掩蔽声音生成装置，生成部分每次对改变声音信号的排列顺序的方法进行变更时，掩蔽声音信号的听觉就会改变。因此，声音被输出到的区域中的人相比于持续循环地输出相同掩蔽声音信号的情况而言可能会更少地感受到不合理的感觉。

优选地，生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分变更了对所述段进行排序的方法以此来作为每次重复进行排序处理时变更方法的处理。

根据这种掩蔽声音生成装置，通过具有预定时长的段来逐段地改变排列顺序。因此，与逐个采样地改变声音信号的排列顺序的情况相比，可以生成表现出更高掩蔽效应的掩蔽声音信号。

优选地，获取部分获取多种声音信号以生成一种掩蔽声音信号，并且生成部分将多种声音信号的每一个分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分变更了对所述多种声音信号的每一个的段进行排序的方法，以此来作为变更方法的处理。

根据这种掩蔽声音生成装置，将多种声音信号混合来获得合成掩蔽声音信号。因此，即使在提供了多种声音来作为掩蔽对象的情况下，也能够实现高掩蔽效应。

优选地，生成部分执行反转处理来将通过分割声音信号而获得的每个段中的声音信号的排列进行反转，并且生成部分使用通过反转处理和排序处理获得的信号来生成掩蔽声音信号。

而且，生成部分可在对段进行排序之后将声音效应施加到多种声音信号的至少一些上，并且可将施加了声音效应的信号作为混合对象。

另外，根据本发明另一优选实施例的掩蔽声音生成装置包括：获取部分，其获取声音信号；以及生成部分，其重复进行对获取部分所获取的声音信号的排列顺序进行改变的处理，随后向改变了排列顺序的信号施加声音效应，并且输出被施加了声音效应的信号来作为掩蔽声音信号并重复进行对施加声音效应的方法进行改变的处理。

根据这种掩蔽声音生成设备，生成部分每次对施加声音效应的方法进行改变时，掩蔽声音信号的听觉就会改变。因此，声音被输出到的区域中的人相比于持续循环地输出相同掩蔽声音信号的情况而言可能会更少地感受到不合理的感觉。

而且，根据本发明另一优选实施例的掩蔽声音生成装置包括：获取部分，其获取多种声音信号；以及生成部分，其重复进行对获取部分所获取的多种声音信号的排列顺序进行改变的处理，向通过改变多种声音信号的至少一些的排列顺序而获得的信号施加声音效应，其中所述多种声音信号的至少一些的排列顺序已被改变，随后生成部分对已被施加了声音效应的信号进行混合，并且输出混合的信号来作为掩蔽声音信号同时重复进行改变信号的混合方法的处理。

根据这种掩蔽声音生成设备，生成部分每次改变混合方法时，掩蔽声音信号的听觉就会改变。因此，声音被输出到的区域中的人相比于持续地输出相同掩蔽声音信号的情况而言可能会更少地感受到不合理的感觉。

而且，根据本发明另一优选实施例的掩蔽声音生成装置包括：生成部分，其重复进行对获取部分所获取的多种声音信号的排列顺序进行改变的处理，随后向通过改变多种声音信号的至少一些的排列顺序而获得的信号施加声音效应，其中所述多种声音信号的至少一些的排列顺序已被改变，随后生成部分将通过混合已被施加了声音效应的信号而获得的信号当作重复处理的对象，并且将通过改变被当作重复处理对象的信号的排列顺序而获得的声音信号输出来作为掩蔽声音信号并重复进行改变排列顺序的处理。

根据这种掩蔽声音生成装置，生成部分每次对改变排列顺序的方法进行变更时，掩蔽声音信号的听觉就会改变。因此，声音被输出到的区域中的人相比于持续地输出相同掩蔽声音信号的情况而言可能会更少地感受到不合理的感觉。

根据本发明的第二方面，一种掩蔽声音生成装置包括：获取部分，其获取声音信号；以及生成部分，其将获取部分所获取的声音信号分割成多个段，每个段具有预定时长并包含声音信号片段，随后生成部分生成了通过选择一些分割段并对所选分割段中的每个声音信号片段进行反转而获得的声音信号片段，并顺序输出所生成的声音信号片段以形成掩蔽声音信号。

与通过反转多个段中的所有声音信号而获得的声音信号相比，从根据本发明而获得的掩蔽声音信号中很难听到不自然的重音。因此，可以将根据本发明生成的掩蔽声音信号作为目标声音输出到相同的区域中，从而防止该区域中的人感受到不合理的感觉，由此实现高掩蔽效应。

优选地，生成部分生成了通过反转所选分割段中的每个声音信号片段的排列而获得的声音信号片段，并且生成部分对声音信号的多个段进行排序并顺序输出排序后的声音信号段以形成掩蔽声音信号。

优选地，生成部分重复地变更对声音信号的多个段进行排序的方法。

优选地，生成部分对多个段中声音信号片段的排列被反转的段进行重复改变。

根据本发明的第三方面，一种掩蔽声音生成装置包括：获取部分，其获取声音信号；和生成部分，其生成了通过改变获取部分所获取的声音信号的排列顺序而得到的掩蔽声音信号，其中在生成掩蔽声音信号的过程中，生成部分执行归一化处理来将掩蔽声音信号音量在时域中的波动限制在预定范围内。

与未执行归一化处理所获得的掩蔽声音信号相比，从根据本发明获得的掩蔽声音信号中很难听到不自然的重音。因此，可以将根据本发明生成的掩蔽声音信号作为目标声音输出到相同的区域中，从而防止该区域中的人感受到不合理的感觉，由此实现高掩蔽效应。

优选地，生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，并且生成部分执行这样的归一化处理，即，将每个段的平均音量限制在预定范围内。

优选地，在归一化处理期间，生成部分确定多个段当中平均音量的代表值，随后获得校正系数来使每个段的平均音量与该代表值相等，并使用针对每个段获得的校正系数来对每个段的声音信号进行校正。

可选地，在归一化处理期间，生成部分确定多个段当中平均音量的代表值，随后获得校正系数来将每个段的平均音量与该代表值之间的差限制在预定范围内，并使用针对每个段获得的校正系数来对每个段的声音信号进行校正。

附图说明

图1是示出根据本发明第一到第八实施例的掩蔽声音生成装置的构成的框图。

图2是示出图1的掩蔽声音生成装置的安装示例的示图。

图3是图1的掩蔽声音生成装置中所存储的声音数据库的数据结构图。

图4是示出根据本发明第一实施例的掩蔽声音生成装置的操作的流程图。

图5是示出由图4的掩蔽声音生成装置执行的声音信号处理的示图。

图6是示出根据本发明第二实施例的掩蔽声音生成装置的操作的流程图。

图7是示出由图6的掩蔽声音生成装置执行的声音信号处理的示图。

图8是示出根据本发明第三实施例的掩蔽声音生成装置的操作的流程图。

图9是示出根据本发明第四实施例的掩蔽声音生成装置的操作的流程图。

图10是示出根据本发明第五实施例的掩蔽声音生成装置的操作的流程图。

图11是示出根据本发明第六实施例的掩蔽声音生成装置的操作的流程图。

图12是示出由图11的掩蔽声音生成装置执行的声音信号处理的示图。

图13是示出由图11的掩蔽声音生成装置执行的声音信号处理的示图。

图14是示出根据本发明第七实施例的掩蔽声音生成装置的操作的流程图。

图15是示出根据本发明另一实施例的掩蔽声音生成装置的操作的示图。

图16是示出根据本发明第八实施例的掩蔽声音生成装置的操作的流程图。

图17(A)和图17(B)是示出根据本发明又一实施例的掩蔽声音生成装置的操作的示图。

图18是示出根据本发明再一实施例的掩蔽声音生成装置的操作的示图。

具体实施方式

以下将参考附图来描述本发明的实施例。

<第一实施例>

图1是示出根据本发明第一实施例的掩蔽声音生成装置10的构成的框图。图2是示出掩蔽声音生成装置10的安装示例的示图。如图2所示，掩蔽声音生成装置10被安装在通过隔离物50与外界分开的区域A中。存在传感器30安装在区域A中，用来感测扬声器进入区域A中以及从区域A离开。掩蔽声音生成装置10在存在传感器30感测到扬声器进入区域A之后输出掩蔽声音信号M来扰乱对作为目标声音T的语音的收听，直到存在传感器30感测到扬声器从区域A离开，其中掩蔽声音信号M是通过扬声器单元31从区域A传输到隔着隔离物50在区域A外的区域B中的。

参考图1，掩蔽声音生成装置10包括硬盘11、控制器12、缓冲器13、发声控制器14、D/A转换器15、和放大器16。硬盘11存储声音数据库21。声音数据库21是由表现出各种语音特性的人记录的对应于每时长T1(例如，T1＝30秒)语音的一组记录。如图3所示，对应于声音数据库21中一个语音的记录具有一个“语音”字段，该“语音”字段指示了对应语音的每时长T1的声音信号S，还具有一个“属性”字段，该“属性”字段指示了对应语音的属性信息。声音信号S是声音的数字采样数据序列。属性信息例如具有所记录语音发出者的性别和该人的语音音高(高音语音、中音语音、以及低音语音)的组合。属性信息具有6个组合，例如“男性和高音语音”、“男性和中音语音”、“男性和低音语音”、“女性和高音语音”、“女性和中音语音”、以及“女性和低音语音”。

控制器12具有CPU 22、RAM 23、和ROM 24。CPU 22运行存储在ROM 24中的掩蔽声音生成程序25，同时使用RAM 23作为工作区。掩蔽声音生成程序25是一个使CPU 22执行获取处理和生成处理这两个处理的程序。获取处理是从声音数据库21获取多种声音信号S并将所获取的声音信号载入RAM 23的处理。生成处理是将通过改变载入RAM 23的声音信号S的排列顺序而获得的信号作为掩蔽声音信号M来重复输出到缓冲器13的处理，并且还是对改变排列顺序的方法进行重复变更的处理。后面将详细描述获取处理和生成处理。发生控制器14是一个用于重复执行以下处理的电路，即，对写入到缓冲器13中的最新掩蔽声音信号M进行读取并将所读取的掩蔽声音信号输出到D/A转换器15的处理。D/A转换器15将通过发生控制器14输出的掩蔽声音信号M转换成模拟信号并将该模拟信号输出到放大器16。放大器16将从D/A转换器15输出的模拟信号放大并将放大后的模拟信号从扬声器单元31输出为声音。

接下来将描述该实施例的操作。一旦从存在传感器30接收到指示了扬声器已进入区域A的检测信号S_IN，掩蔽声音生成装置10的CPU22就执行获取处理和生成处理。在获取处理中，CPU 22从声音数据库21中每种选择一个对应于属性信息“男性和高音语音”的声音信号S、对应于属性信息“男性和中音语音”的声音信号S、对应于属性信息“男性和低音语音”的声音信号S、对应于属性信息“女性和高音语音”的声音信号S、对应于属性信息“女性和中音语音”的声音信号S、以及对应于属性信息“女性和低音语音”的声音信号S，从声音数据库21中获取这六种声音信号S，并将所获取的声音信号载入到RAM 23中。以下为了方便描述，将通过获取处理载入到RAM 23中的六种声音信号S称为声音信号Sa、Sb、Sc、Sd、Se和Sf。

在生成处理中，CPU 22针对作为处理对象的六种声音信号Sa、Sb、Sc、Sd、Se和Sf执行图4所示的处理步骤S100到S120。接着，CPU 22在每个时长T2(例如，T2＝1分钟)重复执行图4所示步骤S130到步骤S190的循环处理。以下将详细描述步骤S100到步骤S190的处理。

首先，CPU 22将六种声音信号Sa、Sb、Sc、Sd、Se和Sf的每一个分割成如图5的(A)所示的N(N＝T1/T3)个帧Fi(i＝1至N)(S100)，每个帧具有时长T3(例如，T3＝100毫秒)的长度。同时，在图5的(A)中，为避免附图过于复杂，示出了N＝15的情况。

CPU 22执行如图5的(B)所示的帧内反转处理(S110)。帧内反转处理是通过将每个声音信号Sa、Sb、Sc、Sd、Se和Sf的帧Fi中的采样数据(声音信号片段)的排列进行反转来生成声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R的处理。

一旦完成了帧内反转处理，如图5的(C)所示，CPU 22用窗口函数ω乘以帧内反转处理的结果，即声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R(S120)。提供该窗口函数ω来进行波形整形，从而平滑地实现所分割的帧Fi(分割段)之间的耦合。

接着，如图5的(D)所示，CPU 22针对作为处理对象的声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W执行帧间排序处理(S130)，这些声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W是通过用窗口函数ω乘声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R而得到的。在帧间排序处理中，CPU 22生成了通过对每个声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W的帧Fi(i＝1至15)的排列进行随机排序而获得的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S。

下面将描述针对作为处理对象的声音信号Sa_W进行帧间排序处理示例的具体步骤。在通过分割声音信号Sa_W而得到的帧的数量N为15的情况下，CPU 22生成一个由范围从1到15的数构成的随机数列。CPU 22从第一个开始按顺序读取这15个随机数。当第一个随机数为8时，CPU 22将排序前的第一个帧作为排序后的第八个帧，并且当第二个随机数为4时，CPU 22将排序前的第二个帧作为排序后的第四个帧，……。以此方式，CPU 22根据随机数列来确定排序后的帧的顺序。将通过对第一到第十五个帧进行排序而得到的声音信号作为声音信号SaS。在该实施例中，准备了具有不同随机数排列的多种随机数列(在N＝15的情况下，所有的随机数列都由15个随机数构成)，从而可以变更排序方法。只要执行帧间排序处理，排序处理中所使用的随机数列种类就会改变。

以相同的方式，CPU 22针对作为处理对象的声音信号Sb_W、Sc_W、Sd_W、Se_W和Sf_W执行帧间排序处理。

一旦完成了帧间排序处理，CPU 22就针对作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S执行声音效应施加处理(S 140)。在声音效应施加处理中，CPU 22生成了声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’，这些声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’是通过将预定声音效应(例如混响)施加到作为帧间排序处理结果而生成的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来得到的。一旦完成了声音效应施加处理，CPU 22执行混合处理(S150)。在混合处理中，CPU 22以预定混合比(例如，1∶1∶1∶1∶1∶1)来对已经执行了声音效应施加处理的声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’进行混合，并将混合后的信号作为掩蔽声音信号M。一旦完成了混合处理，CPU 22就执行语速转换处理(S160)。在语速转换处理中，CPU 22针对每个时长T1来扩展混合处理所生成的掩蔽声音信号M的时间轴，并将针对每个时长T1扩展了时间轴的掩蔽声音信号M作为每个时长T1’(T1’＞T1)的掩蔽声音信号。更具体地，在语速转换处理中，CPU 22将掩蔽声音信号M的帧Fi(i＝1至15)当中除去上升声音波形部分和下降声音波形部分以外的正常声音波形部分的帧Fi作为处理对象，CPU 22将这些作为处理对象的帧Fi复制多次以满足补偿时长T1与时长T1’间时间差的需要，并且将复制后的帧Fi’插入到正常声音波形部分的帧Fi与Fi+1之间。

CPU 22输出已经执行了语速转换处理的掩蔽声音信号M，并将该输出的掩蔽声音信号M重写入缓冲器13(S170)。当没有从存在传感器30接收到表示扬声器已离开区域A的检测信号S_OUT(S180：否)并且步骤S130执行以后经过了时长T2(T2＝1分钟)(S190：是)时，CPU 22返回到步骤S130并重复后面的处理。另一方面，一旦从存在传感器30接收到检测信号S_OUT(S180：是)，则CPU 22指示发声控制器14停止读取掩蔽声音信号M，从而处理结束。

如上所述的实施例具有以下效果。

首先，在该实施例中，由六种声音信号Sa、Sb、Sc、Sd、Se和Sf生成掩蔽声音信号M。因此，即使是在区域A中存在多个表现出不同语音特性的扬声器的情况下也可以实现区域B中的高掩蔽效应。

其次，在该实施例中，在每个时长T2重复进行针对作为处理对象的声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W的帧间排序处理，并且将经过帧间排序处理来随机改变帧Fi(i＝1至15)的排列而获得的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S作为掩蔽声音信号M发送到区域B中。而且，在该实施例中，每次执行帧间排序处理(步骤S 130)时都会变更帧间排序方法。结果，对输出到区域B中的掩蔽信号M的听觉在每个时长T2都会改变。因此，相比于将具有相同帧Fi(i＝1至15)排列的掩蔽声音信号M长时间持续输出到区域B中的情况，区域B中的人可以更少地感受到不合理的感觉。

第三，在该实施例中，混合声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’来获得掩蔽声音信号M，随后扩展掩蔽声音信号M的时间轴。将扩展了时间轴的掩蔽声音信号M输出到区域B中。在针对一个表示人的语音的声音信号来执行排列改变处理(步骤S110和步骤S130)的情况下，经处理的声音信号通常表现出与语速较快的人的语音类似的声音特性。然而，根据本实施例，可以减小听到语速较快的人的语音的印象。而且，根据本实施例，在改变排列的情况下，无需对很难表现出快速说话方式印象的声音信号进行仔细的选择，并且无需将这样的声音信号存储在声音数据库21中。

第四，在该实施例中，混合六种声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’并将声音效应施加到混合后的声音信号中。通过将声音效应施加到混合后的声音信号而得到的掩蔽声音信号M听觉上类似于一个通过被传输到区域B的语音而被施加了空间声音效应(混响)的语音(目标声音T)。因此，可以防止掩蔽声音被输入到的区域中的人感受到不合理的感觉，从而在该区域中实现高掩蔽效应。

<第二实施例>

接下来将描述本发明的第二实施例。在该实施例的生成处理中，如图6所示，CPU 22在步骤S130执行帧间排序处理，并且随后针对经帧间排序处理排序帧Fi(i＝1至15)而得到的作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来在每个时长T2重复进行步骤S140到步骤S190的循环处理。在这种情况下，每次在循环处理的步骤S140执行声音效应施加处理时，CPU 22就对作为一种声音效应的混响的深度(混响声与直达声的能级比)进行随机改变。更具体的，如图7所示，CPU 22在声音效应施加处理中执行由声音信号Sa_S生成混响声音信号RSa_S的处理。在该处理中，延迟声音信号Sa_S来获得延迟后的声音信号DSa_S-n(n＝1，2…)，并且将这些延迟后的声音信号DSa_S-n相加来得到混响声音信号RSa_S。接下来，生成随机数，将随机数与混响声音信号RSa_S的乘积加到声音信号Sa_S来得到施加了声音效应的声音信号Sa_S’。接下来，以相同的方式，CPU 22分别将各自生成的随机数与混响声音信号RSb_S、RSc_S、RSd_S、RSe_S和RSf_S的乘积加到声音信号Sb_S、Sc_S、Sd_S、Se_S和Sf_S，以得到声音信号Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’。

在该实施例中，每个时长T2都改变声音效应施加处理(S140)的内容，结果是输出到区域B中的掩蔽声音信号M的听觉在每个时长T2改变。因此，可以防止区域B中的人容易感受到不合理的感觉。

<第三实施例>

接下来将描述本发明的第三实施例。在该实施例的生成处理中，如图8所示，CPU 22在步骤S140执行声音效应施加处理，并且随后针对经声音效应施加处理已被施加了声音效应的作为处理对象的声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’来在每个时长T2重复进行步骤S150到步骤S190的循环处理。在这种情况下，每次在循环处理的步骤S150执行混合处理时，CPU 22就对声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’的混合比进行随机改变。更具体的，CPU 22生成六种随机数(除去0)，并在混合处理中将每个随机数当作声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’之一的混合比。

在该实施例中，每个时长T2都改变混合处理(S150)的内容，结果是输出到区域B中的掩蔽声音信号M的听觉在每个时长T2改变。因此，可以防止区域B中的人容易感受到不合理的感觉。

<第四实施例>

接下来将描述本发明的第四实施例。在该实施例的生成处理中，如图9所示，CPU 22在步骤S150执行混合处理，并且随后在每个时长T2重复进行步骤S160到步骤S200的循环处理。该循环处理的步骤S160到步骤S190的内容与第一实施例的步骤S160到步骤S190的内容一致。也就是说，当没有从存在传感器30接收到指示了扬声器已离开区域A的检测信号S_OUT(S180：否)并且过去了时长T2(S190：是)时，CPU 22前进到步骤S200。

在步骤S200，CPU 22针对步骤S150的混合处理所得到的作为处理对象的掩蔽声音信号M执行帧间排序处理。在步骤S200的帧间排序处理中，CPU 22将掩蔽声音信号M再次分割成帧Fi(i＝1至15)，并且通过对分割成的帧Fi(i＝1至15)进行随机排序来生成掩蔽声音信号M。在执行了步骤S200的帧间排序处理之后，CPU 22返回到步骤S160来针对新生成的掩蔽声音信号M执行语速转换处理，前进到步骤S170来用新的掩蔽声音信号M重写缓冲器13中的先前的掩蔽声音信号M，从而更新掩蔽声音信号M。

在该实施例中，每个时长T2都变更帧排序方式，结果是输出到区域B中的掩蔽声音信号M的听觉在每个时长T2改变。因此，可以防止区域B中的人容易感受到不合理的感觉。

<第五实施例>

接下来将描述本发明的第五实施例。在该实施例的生成处理中，如图10所示，CPU 22在步骤S160执行语速转换处理，并且随后在每个时长T2重复进行步骤S170到步骤S200的循环处理。在该循环处理的步骤S200的帧间排序处理中，CPU 22针对其时间轴已经步骤S160的语速转换处理而被扩展的作为处理对象的掩蔽声音信号M来执行帧间排序处理。步骤S200的帧间排序处理的内容与第四实施例的对应处理的内容一致。

即使是在该实施例中，每个时长T2都改变帧排序方式，结果是输出到区域B中的掩蔽声音信号M的听觉在每个时长T2改变。因此，可以防止区域B中的人容易感受到不合理的感觉。

尽管以上描述了本发明的第一到第五实施例，但也可以例如提供如下的其他实施例。

(1)在根据第一到第五实施例的掩蔽声音生成设备10中，针对性别和音高这样的多种属性可提供多个选项，可提供用于接收对至少一种属性选项的选择的选择支持单元，并且CPU 22可从声音数据库21中读取一个或多个由具有选择支持单元所选选项的属性的人所记录的声音信号，并使用所读取的声音信号S来生成掩蔽声音信号M。

例如按如下方式操作该实施例。首先，具有高音语音的男性语音、具有重音语音的男性语音和具有低音语音的男性语音三者的混合被存储在声音数据库21中，使得该混合对应于属性信息“男性”；具有高音语音的女性语音、具有重音语音的女性语音和具有低音语音的女性语音三者的混合被存储在声音数据库21中，使得该混合对应于属性信息“女性”；具有高音语音的男性和女性语音的混合被存储在声音数据库21中，使得该混合对应于属性信息“高音语音”；具有中音语音的男性和女性语音的混合被存储在声音数据库21中，使得该混合对应于属性信息“中音语音”；具有低音语音的男性和女性语音的混合被存储在声音数据库21中，使得该混合对应于属性信息“低音语音”。

在通过操作支持单元选择了性别选项(男性和女性)之一的情况下，CPU 22读取一个与从声音数据库21中的“男性”和“女性”当中选出的属性信息相匹配的声音信号S，并使用该声音信号S生成掩蔽声音信号M。而且，在通过操作支持单元选择了语音音高(高音语音、中音语音、低音语音)选项之一的情况下，CPU 22读取一个与从声音数据库21中的“高音语音”、“中音语音”和“低音语音”当中选出的属性信息相匹配的声音信号S，并使用该声音信号S生成掩蔽声音信号M。

根据该实施例，即使在用户只指定了与用户相关的多种属性中的一些选项的情况下，也可以生成与用户语音相关的提供了较高掩蔽效应的掩蔽声音信号M。而且，可将对应于不同种类的属性信息(例如，语言或年龄)的多种声音信号S存储在声音数据库21中，并且根据操作单元的指定而选择的属性信息可被用来生成掩蔽声音信号M。

(2)在如上所述第一到第五实施例的声音效应施加处理中，可向声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S赋予不同于混响的多种声音效应，例如延迟、和声、失真。

(3)在如上所述第一到第五实施例中，能够以反转的顺序来执行步骤S110和步骤S120的处理，使得每个声音信号Sa、Sb、Sc、Sd、Se和Sf的帧Fi与窗口函数ω相乘，随后在每个帧Fi中反转采样数据的排列。

(4)在如上所述的第二实施例中，每次重复进行声音效应施加处理时，可以改变六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S当中施加了声音效应的声音信号与未施加声音效应的声音信号的组合。而且，每次重复进行声音效应施加处理时，可以改变施加到六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S的每一个的声音效应的种类。而且，每次重复进行声音效应施加处理时，可以改变六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S的每一个的帧Fi(i＝1至15)当中施加了声音效应的帧Fi与未施加声音效应的帧Fi的组合。

(5)在如上所述的第五实施例中，每个时长T2都重复进行针对作为处理对象的每个时间信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W的帧间排序处理。然而，可以在分别具体针对多种声音信号Sa、Sb、Sc、Sd、Se和Sf的不同时长T2_a、T2_b、T2_c、T2_d、T2_e和T2_f期间重复进行帧间排序处理。在这种情况下，时长T2_a、T2_b、T2_c、T2_d、T2_e和T2_f会具有分离的长度(相互之间的比值为质数的长度，例如比值为1∶3∶5)。结果，输出到区域B中的掩蔽声音M的听觉发声改变的时间会实质增加，从而可以更有效地防止区域B中的人感受到不合理的感觉。在第二实施例中，可以通过相同的方式来重复进行步骤S140的声音效应施加处理。在第三实施例中可以重复进行步骤S150的混合处理。在第四和第五实施例中，可以在每个时长T2_a、T2_b、T2_c、T2_d、T2_e和T2_f期间重复进行步骤S200的帧间排序处理。

(6)在如上所述第一到第五实施例中，重复每次循环处理的时长T2比用于生成掩蔽声音信号M的时长T1要长(T2＝1分钟，T1＝30秒)。然而，时长T2也可等于时长T1。而且，时长T2可等于时长T1’(已执行了语速转换处理的掩蔽声音信号M的长度)。而且，重复每次循环处理的时长T2可使用随机数来进行随机确定。

(7)在如上所述第一到第五实施例中，针对作为处理对象的所有六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S执行声音效应施加处理(S140)。然而，可以针对六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S中作为处理对象的一部分来选择性地执行声音效应施加处理。

(8)在如上所述第一到第五实施例中，针对作为处理对象的所有六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S执行帧内反转处理(S110)、窗口函数乘法处理(S120)、帧间排序处理(S130)以及声音效应施加处理(S140)，并且将这些处理所得的声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’混合来得到掩蔽声音信号M。然而，可以针对六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S中的一些(例如，声音信号Sa_S、Sb_S、Sc_S和Sd_S)来执行步骤S110到步骤S140的各个处理。另一方面，不对剩下的声音信号Se_S和Sf_S执行步骤S110到步骤S140的任何处理，并且将步骤S110到步骤S140的各个处理所得的声音信号Sa_S’、Sb_S’、Sc_S’和Sd_S’与声音信号Se_S和Sf_S混合来得到掩蔽声音信号M。在这种情况下，可针对声音信号Sa_S、Sb_S、Sc_S和Sd_S的一些或全部来执行帧内反转处理(S110)、窗口函数乘法处理(S120)或帧间排序处理(S130)，并且将处理所得声音信号进行混合。

(9)在如上所述第一到第五实施例中，在完成帧内反转处理(S110)之后执行帧间排序处理(S130)。然而也可以在完成帧间排序处理之后执行帧内反转处理。

(10)在如上所述第一到第五实施例中，混合第一次的六种声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S，随后针对该混合处理所得的作为处理对象的声音信号来执行步骤S110到步骤S140的各项处理，并且将步骤S110到步骤S 140的各项处理所得的声音信号当作掩蔽声音信号M。

(11)在如上所述第一到第五实施例中，每次存在传感器30检测到扬声器进入区域A时，就从声音数据库21中读出声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S，针对作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来执行步骤S100到步骤S190的各项处理，以得到掩蔽声音信号M，并且将掩蔽声音信号M输出到区域B中。然而，通过执行步骤S100到步骤S190的各项处理而得到的掩蔽声音信号M可被存储在存储器中，并且每次存在传感器30检测到扬声器进入区域A时，可从存储器中读取掩蔽声音信号M并将其重复地输出到区域B中。在这种情况下，可针对长度为时长T1(T1＝30秒)的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S重复多次地执行图4、图6、图8、图9或图10的处理序列，以在每个比时长T1长的多的时长T4(例如，T4＝10分钟)生成掩蔽声音信号M，并且将每个时长T4的掩蔽声音信号M存储在存储器中以备后用。

(12)在如上所述第一到第五实施例中，应用本发明来防止语音从区域A泄漏到区域B中，其中区域B与区域A由分隔物50分开从而使区域B位于区域A外侧。然而，在提出了其间没有放置分隔物50的两个区域A’和B’的情况下，可应用本发明来有效地防止在一个区域A’(或B’)中所产生的声音被传输到另一个区域B’(或A’)中。而且，掩蔽声音生成装置10可被安装在由四壁和屋顶来与外界分开的房间中，并且由掩蔽声音生成装置10生成的掩蔽声音信号M可被输出到墙壁以外的区域中。而且，在使不同空间中的讲话者能彼此通信的通信装置中(例如，移动电话、IP电话、网络电话等)，可应用本发明来有效地防止各个讲话者的语音被传输到周围。例如，可通过将根据第一到第五实施例的掩蔽声音生成装置10安装在通信装置中使得由掩蔽声音生成装置10所生成的掩蔽声音信号M被输出到扬声器周围，来实现本实施例。在这种情况下，扬声器可配备耳机，或者可控制通信装置的扬声器单元的方向性以防止掩蔽声音信号M被传输到通信的相对一方，从而防止对话混乱。

(13)在如上所述第一到第五实施例中，将麦克风安装在区域A中。在这种情况下，CPU 22可获取在获取处理中由区域A中的麦克风所记录的声音信号，并且可在生成处理中由所获取的声音信号生成掩蔽声音信号M。

(14)在如上所述第一到第五实施例中，存在传感器30可以是声音传感器(例如，用于检测声波的麦克风、用于检测振动的拾振器等)或是生物传感器(例如，用于检测生命体温度的温度传感器、用于检测生命体红外线的红外传感器等)。而且，声音接收和检测装置具有(15)中所指定的麦克风的功能和存在传感器30的功能，可将该声音接收和检测装置安装在区域A中，并且一旦检测到扬声器进入区域A，声音接收和检测装置就会使用接收到的声音信号来生成掩蔽声音信号M。

(16)在如上所述第一到第五实施例中，硬盘11可以是掩蔽声音生成装置10的外部组件。在该实施例中，可通过网络从外部存储装置中的声音数据库21中获取声音信号Sa、Sb、Sc、Sd、Se和Sf，并且可使用声音信号Sa、Sb、Sc、Sd、Se和Sf来生成掩蔽声音信号M。而且，缓冲器13、发声控制器14、D/A转换器15、和/或放大器16都可以是掩蔽声音生成装置10的外部组件。在该实施例中，例如使用声音信号Sa、Sb、Sc、Sd、Se和Sf生成的掩蔽声音信号M可通过各种接口输出到作为缓冲器13的外部存储装置中。

(18)在如上所述第一到第五实施例中，一旦接收到指示了扬声器进入区域A的检测信号S_IN，掩蔽声音生成装置10的CPU 22就执行获取处理和生成处理。然而，当接收到检测信号S_IN时，可从扬声器单元31输出存储在硬盘11和存储器中的掩蔽声音信号M而不执行获取处理和生成处理。

(19)在如上所述第一到第五实施例的帧间排序处理中，由从1到N的不同数字构成的随机数列被用来对帧进行排序。然而，也可使用相同随机数出现多次的随机数列来对帧进行排序。而且，在第一随机数为8时，排序前的第八帧可被当作排序后的第一帧，并且当第二随机数为4时，排序前的第四帧可被当作排序后的第二帧…。以此方法，根据随机数列，可在排序前的帧当中决定要被选择的帧。

(20)在如上所述第二实施例中，每次执行声音效应施加处理时CPU 22就改变混响的深度(混响音与直达音的比)。然而，可以在每次执行声音效应施加处理时改变混响音的长度。在该实施例中，CPU 22可改变通过对声音信号Sa_S进行延迟而得到的延迟声音信号DSa_S-n(n＝1，2，…)的强度，以在每次执行声音效应施加处理时改变混响音的长度(延迟时间)。而且，CPU 22可改变通过对声音信号Sa_S进行延迟而得到的延迟声音信号DSa_S-n(n＝1，2，…)的延迟时间，以在每次执行声音效应施加处理时改变混响音的长度(延迟时间)。

<第六实施例>

接下来将描述第六实施例的操作。通过与第一实施例相同的方式，掩蔽声音生成装置10的CPU 22一旦从存在传感器30接收到指示扬声器已进入区域A中的检测信号S_IN时，就执行获取处理和生成处理。在获取处理中，CPU 22从声音数据库21中每种选择一个对应于属性信息“男性和高音语音”的声音信号S、对应于属性信息“男性和中音语音”的声音信号S、对应于属性信息“男性和低音语音”的声音信号S、对应于属性信息“女性和高音语音”的声音信号S、对应于属性信息“女性和中音语音”的声音信号S、以及对应于属性信息“女性和低音语音”的声音信号S，从声音数据库21中获取这六种声音信号S，并将所获取的声音信号载入到RAM 23中。以下为了方便描述，将通过获取处理载入到RAM 23中的六种声音信号S称为声音信号Sa、Sb、Sc、Sd、Se和Sf。

在生成处理中，CPU 22针对作为处理对象的六种声音信号Sa、Sb、Sc、Sd、Se和Sf执行图11所示步骤S100到步骤S130的处理。接着，CPU 22在每个时长T2(例如，T2＝1分钟)重复执行图11所示步骤S140到步骤S200的循环处理。以下将详细描述步骤S100到步骤S200的处理。

首先，CPU 22将六种声音信号的每一个分割成N(N＝T1/T3)个帧Fi(i＝1至N)(S100)，每个帧具有时长T3(例如，T3＝100毫秒)的长度，如图12的(A)所示。同时，在图12的(A)中，为避免附图过于复杂，示出了N＝15的情况。

接下来，CPU 22执行如图12的(B)所示的归一化处理(S110)。归一化处理通过校正每个声音信号Sa、Sb、Sc、Sd、Se和Sf的各个帧Fi中的采样数据来将各个帧Fi中音量在时域中的波动限制在预定范围内。

以下将描述针对作为处理对象的声音信号Sa进行的归一化处理示例的相关步骤。在归一化处理中，CPU 22执行第一校正处理，即用峰值能级校正系数M_PAEK来乘通过分割声音信号Sa而得到的帧Fi(i＝1至N)中的各个采样数据，并且执行第二校正处理，即用平均能级校正系数M_AVE来乘已经被峰值能级校正系数M_PAEK乘过的各个采样数据。

更具体的，在第一校正处理中，CPU 22检测由声音信号Sa的所有帧Fi(i＝1至15)所表示的时长为T1的声音波形的最大峰值，并且获得所检测最大峰值的音量级LPEAK。接着，CPU 22将通过一段采样数据所获得的音量级的最大值当作音量级LMAX，并将用音量级LPEAK减去音量级LMAX得到的值当作峰值能级校正系数M_PAEK。而且，CPU 22还用峰值能级校正系数M_PAEK来乘帧Fi(i＝1至N)中的采样数据。这里，在第一校正处理中，在各个采样数据都用对数表示音量级的情况下，用系数来乘通过用实数表示各个采样数据而得到的值，并且在各个采样数据用对数表示实数的音量级的情况下(将相同的状况施加到第二校正处理)，用系数来乘各个采样数据。

接着，在第二校正处理中，CPU 22获得一个时长为T1/T5的声音波形的平均音量来作为平均音量级LAVE_i，其中该声音波形是由声音信号Sa的每个帧Fi(i＝1至N)中已经被峰值能级校正系数M_PAEK乘过的采样数据表示的。接着，如图13所示，CPU 22将针对帧Fi(i＝1至N)获得的平均音量级LAVE_i(i＝1至N)的最小值(在图13的示例中为帧F₅的平均音量级LAVE₅)当作表示值或平均音量级LAVE_i的参考值LAVE_REF，并且将通过从平均音量级LAVE_i减去参考值LAVE_REF而得到的各个值当作各个帧Fi的平均能级校正系数M_AVE。而且，CPU22用针对各个帧Fi得到的平均能级校正系数M_AVE来乘各个帧Fi(i＝1至N)中的采样数据。

通过相同的方式，CPU 22针对作为处理对象的声音信号Sb、Sc、Sd、Se和Sf来执行归一化处理。

CPU 22将已经执行了如图12的(C)所示归一化处理的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N作为处理对象来对它们执行帧内反转处理(S 120)。帧内反转处理是通过将每个声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N的一些帧Fi中的采样数据的排列进行反转来生成声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R的处理。

下面将描述针对作为处理对象的声音信号Sa_N进行的帧内反转处理示例的相关步骤。首先，CPU 22将声音信号Sa_N的帧Fi总数的一半(在图12的(C)的示例中为

)作为反转采样数据所需的帧Fi的数量Num，并且生成总数为数量Num的随机数。随后，CPU22将与总数为Num的生成的随机数相对应的帧Fi的采样数据反转。在图12的(C)的示例中，包括帧F₂、帧F₃、帧F₄、帧F₇、帧F₁₀、帧F₁₁以及帧F₁₄的总共7个帧Fi中的采样数据按照声音信号Sa_R所示那样被反转。

通过相同的方式，CPU 22针对作为处理对象的声音信号Sb_N、Sc_N、Sd_N、Se_N和Sf_N来执行帧内反转处理。

一旦完成了帧内反转处理，如图12的(D)所示，CPU 22用窗口函数ω乘帧内反转处理的结果，即声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R(S 130)。提供该窗口函数ω来进行波形整形，从而平滑地实现相邻的所分割的帧Fi之间的连接或耦合。

接着，如图12的(E)所示，CPU 22针对作为处理对象的声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W执行帧间排序处理(S140)，这些声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W是通过用窗口函数ω乘声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R而得到的。帧间排序处理是通过对每个声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W的帧Fi(i＝1至15)的排列进行随机排序而获得声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S的生成处理。

下面将描述针对作为处理对象的声音信号Sa_W进行帧间排序处理示例的具体步骤。在通过分割声音信号Sa_W而得到的帧的数量N为15的情况下，CPU 22生成一个由范围从1到15的数构成的随机数列。CPU 22从第一个开始按顺序读取这15个随机数。当第一个随机数为8时，CPU 22将排序前的第一个帧作为排序后的第八个帧，并且当第二个随机数为4时，CPU 22将排序前的第二个帧作为排序后的第四个帧，……。以此方式，CPU 22根据随机数列来确定排序后的帧的顺序。将通过对第一到第十五个帧进行排序而得到的声音信号作为声音信号SaS。在该实施例中，准备了具有不同随机数排列的多种随机数列(在N＝15的情况下，所有的随机数列都由15个随机数构成)，从而可以变更排序方法。无论何时，只要执行帧间排序处理，排序处理中所使用的随机数列种类就会改变。

一旦完成了帧间排序处理，CPU 22就针对作为处理对象的每个声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S执行声音效应施加处理(S 150)。在声音效应施加处理中，CPU 22生成了声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’，这些声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’是通过将预定声音效应(例如混响)施加到作为帧问排序处理结果而生成的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来得到的。一旦完成了声音效应施加处理，CPU 22执行混合处理(S 160)。在混合处理中，CPU 22以预定混合比(例如，1∶1∶1∶1∶1∶1)来对已经执行了声音效应施加处理的声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’进行混合，并将混合后的信号作为掩蔽声音信号M。一旦完成了混合处理，CPU 22就执行语速转换处理(S 170)。在语速转换处理中，CPU 22针对每个时长T1来扩展混合处理所生成的掩蔽声音信号M的时间轴，并将针对每个时长T1扩展了时间轴的掩蔽声音信号M作为每个时长T1’(T1’＞T1)的实际掩蔽声音信号M。更具体地，在语速转换处理中，CPU 22将掩蔽声音信号M的帧Fi(i＝1至15)当中除去上升声音波形部分和下降声音波形部分以外的正常声音波形部分的帧Fi作为处理对象，CPU 22将这些作为处理对象的帧Fi复制多次以满足补偿时长T1与时长T1’间时间差的需要，并且将复制后的帧Fi’插入到正常声音波形部分的帧Fi与Fi+1之间。

CPU 22输出已经执行了语速转换处理的掩蔽声音信号M，并将该输出的掩蔽声音信号M重写入缓冲器13(S180)来用于实际应用。当没有从存在传感器30接收到表示扬声器已离开区域A的检测信号SOUT(S 190：否)并且步骤S140以后经过了时长T2(T2＝1分钟)(S200：是)时，CPU 22返回到步骤S140并顺序重复处理。另一方面，一旦从存在传感器30接收到检测信号S_OUT(S190：是)，则CPU 22指示发声控制器14停止读取掩蔽声音信号M，从而处理结束。

如上所述的第六实施例具有以下效果。

其次，在该实施例中，针对声音信号Sa、Sb、Sc、Sd、Se和Sf执行归一化处理，对通过归一化处理得到的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N中的一些的帧Fi中的采样数据进行反转来执行帧内反转处理以及对帧Fi(i＝1至15)进行排序来执行帧间排序处理，并且将经过帧间排序处理而获得的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S作为掩蔽声音信号M。相比于针对未执行归一化处理的声音信号来进行帧内反转处理和帧间排序处理而得到的声音信号，从针对经过归一化处理得到的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N执行帧内反转处理和帧间排序处理而得到的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S当中很难听到不自然的重音。因此，可以防止将这样的掩蔽声音信号M输出到区域B中的情况下区域B中的人感受到不合理的感觉，所以能够实现高掩蔽效应。

第三，在该实施例中，混合声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来获得掩蔽声音信号M，随后扩展掩蔽声音信号M的时间轴，并将扩展了时间轴的掩蔽声音信号M输出到区域B中。在针对一个表示人的语音的声音信号来执行排列改变处理(步骤S120和步骤S140)的情况下，经处理的声音信号通常表现出与语速较快的人的语音类似的声音特性。然而，根据本实施例，可以减小听到语速较快的人的语音的印象。而且，根据本实施例，在改变排列的情况下，无需对很难表现出快速说话方式印象的声音信号进行仔细的选择，并且无需将这样的声音信号存储在声音数据库21中。

第五，在该实施例中，声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N的帧Fi总数的一半中的采样数据被反转来生成掩蔽声音信号M。因此，相比于将多于帧Fi总数的一半的采样数据反转来生成掩蔽声音信号M的情况以及将少于帧Fi总数的一半的采样数据反转来生成掩蔽声音信号M的情况，可以实现更高的掩蔽效应。这里，本申请的发明人发现，相比于经过采样数据反转的帧Fi的数量Num存在各种改变的情况下得到的掩蔽声音信号M的掩蔽效应，在其中的采样数据被反转的帧Fi的数量与其中的采样数据未被反转的帧Fi的数量之比近似为1∶1的情况下，能够实现最高的掩蔽效应。

<第七实施例>

接下来将描述本发明的第七实施例。在该实施例的生成处理中，如图14所示，CPU 22针对通过步骤S110的归一化处理得到的作为处理对象的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N来在每个时长T2重复进行步骤S120到步骤S200的循环处理。也就是说，CPU 22在步骤S180将掩蔽声音信号M重写到缓冲器13。接着，当没有从存在传感器30接收到指示了扬声器已离开区域A的检测信号S_OUT(S 190：否)并且过去了时长T2(S200：是)时，CPU 22随机再对每个声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N的一些帧Fi(i＝1，2…)进行随机选择，通过反转再选择的帧Fi中的采样数据来生成声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R，并针对作为处理对象的最新的声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R来执行后续处理。

根据该实施例，在每个时长T2都生成了声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R，它们是通过对声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R位于不同位置的帧Fi中的采样数据进行反转而得到的。因此根据该实施例，可以更有效地防止区域B中的人感受到不合理的感觉。

尽管以上描述了本发明的第六和第七实施例，但也可以例如提供如下的其他实施例。

(1)在如上所述的第六实施例中，可以在分别具体针对多种声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W的不同时间段T2_a、T2_b、T2_c、T2_d、T2_e和T2_f期间重复进行步骤S 140到步骤S200。而且，在第七实施例中，可以在分别具体针对多种声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N的不同时间段T2_a、T2_b、T2_c、T2_d、T2_e和T2_f期间重复进行步骤S120到步骤S200。在这种情况下，具体不同的时间段T2_a、T2_b、T2_c、T2_d、T2_e和T2_f会具有分离的长度(相互之间的比值为质数的长度，例如比值为1∶3∶5)。结果，长时间将掩蔽声音信号M持续输出到区域B中时，区域B中的人很难察觉到发声了周期性的重音。因此可以更有效地防止区域B中的人感受到不合理的感觉。

(2)在如上所述的第六和第七实施例的生成处理中，可在不同时间段中重复进行帧内反转处理和帧间排序处理。在该实施例的生成处理中，CPU 22执行以下处理。一旦从存在传感器30接收到检测信号S_IN，CPU 22就执行图11和图14中所示步骤S100到步骤S180的处理，并将通过步骤S180的处理得到的掩蔽声音信号M重写入缓冲器13中。往后，CPU 22开始并执行图15所示的两个处理任务：任务1和任务2。

在任务1的处理任务中，CPU 22在每个时长T4都针对写入到缓冲器13中的作为处理对象的掩蔽声音信号M重复进行帧内反转处理。在任务1的帧内反转处理中，CPU 22将写入到缓冲器13中的掩蔽声音信号M分割成帧Fi(i＝1，2…)，随机选择一些分割的帧Fi(i＝1，2…)，并将通过反转所选帧Fi中的采样而得到的掩蔽声音信号M重写到缓冲器13中。而且，在任务2的处理任务中，CPU 22在每个时长T5(T5≠T4)都针对写入到缓冲器13中的作为处理对象的掩蔽声音信号M重复进行帧间排序处理。在任务2的帧间排序处理中，CPU 22将写入到缓冲器13中的掩蔽声音信号M分割成帧Fi(i＝1，2…)，并将通过随机排序所分割的帧Fi(i＝1，2…)而得到的掩蔽声音信号M重写到缓冲器13中。在这种情况下，时长T4和时长T5可能是分离的时长。结果，当长时间将掩蔽声音信号M持续输出到区域B中时，区域B中的人很难察觉到发声了周期性的重音。因此可以更有效地防止区域B中的人感受到不合理的感觉。

(3)在如上所述的第六和第七实施例中，一旦从存在传感器30接收到检测信号S_IN，CPU 22就将步骤S100到步骤S180执行一次，并将写入到缓冲器13中的掩蔽声音信号M输出到区域B中，直到从存在传感器30接收到检测信号S_OUT。

(4)在如上所述的第六和第七实施例中，CPU 22执行帧内反转处理(S 120)，并随后混合通过帧内反转处理得到的声音信号Sa_R、Sb_R、Sc_R、Sd_R、Se_R和Sf_R来将该混合所得的声音信号作为掩蔽声音信号M输出。

(5)在如上所述的第六和第七实施例的获取处理中，获取六种声音信号Sa、Sb、Sc、Sd、Se和Sf，并且在第六和第七实施例的生成处理中，由六种声音信号Sa、Sb、Sc、Sd、Se和Sf生成掩蔽声音信号M。然而，在获取处理中，可以获取包括一种声音信号的五种或更少种声音信号S，或者可以获取七种或更多种声音信号S，并且在生成处理中，可以由一种或多种声音信号来生成掩蔽声音信号M。

(6)在如上所述的第六和第七实施例中，将麦克风安装在区域A中。在这种情况下，CPU 22可在获取处理中获取由区域A中的麦克风所记录的声音信号，并且可在生成处理中由所获取的声音信号生成掩蔽声音信号M。

(7)在如上所述的第六和第七实施例中，能够以反转的顺序来执行步骤S120和步骤S130的处理，使得每个声音信号Sa、Sb、Sc、Sd、Se和Sf的帧Fi与窗口函数ω相乘，随后在每个帧Fi中反转采样数据的排列。

(8)在如上所述的第六和第七实施例中，每次存在传感器30检测到扬声器进入区域A时，就从声音数据库21中读出声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S，针对作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来执行步骤S100到步骤S 190的各项处理，以得到掩蔽声音信号M，并且将掩蔽声音信号M输出到区域B中。然而，通过执行步骤S100到步骤S190的各项处理而得到的掩蔽声音信号M可被存储在存储器中，并且每次存在传感器30检测到扬声器进入区域A时，可从存储器中读取掩蔽声音信号M并将其重复地输出到区域B中。在这种情况下，可针对长度为时长T1(T1＝30秒)的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S重复多次地执行图11或图14的处理序列，以在每个比时长T1长的多的时长T6(例如，T6＝10分钟)生成掩蔽声音信号M，并且将每个时长T6的掩蔽声音信号M存储在存储器中以备后用。

(9)在如上所述的第六和第七实施例中，应用本发明来防止语音从区域A泄漏到区域B中，其中区域B与区域A由分隔物50分开从而使区域B位于区域A外侧。然而，在提出了其间没有放置分隔物50的两个区域A’和B’的情况下，可应用本发明来有效地防止在一个区域A’(或B’)中所产生的声音被传输到另一个区域B’(或A’)中。而且，掩蔽声音生成装置10可被安装在由四壁和屋顶来与外界分开的房间中，并且由掩蔽声音生成装置10生成的掩蔽声音信号M可被输出到墙壁以外的区域中。而且，在使不同空间中的讲话者能彼此通信的通信装置中(例如，移动电话、IP电话、网络电话等)，可应用本发明来有效地防止各个讲话者的语音被传输到周围。可通过将根据第六和第七实施例的掩蔽声音生成装置10安装在通信装置中使得由掩蔽声音生成装置10所生成的掩蔽声音信号M被输出到扬声器周围。在这种情况下，扬声器可配备耳机，或者可控制通信装置的扬声器单元的方向性以防止掩蔽声音信号M被传输到通信的相对一方，从而防止对话混乱。

(10)在如上所述的第六和第七实施例中，硬盘11可以是掩蔽声音生成装置10的外部组件。在该实施例中，可通过网络从外部存储装置中的声音数据库21中获取声音信号Sa、Sb、Sc、Sd、Se和Sf，并且可使用声音信号Sa、Sb、Sc、Sd、Se和Sf来生成掩蔽声音信号M。而且，缓冲器13、发声控制器14、D/A转换器15、和/或放大器16都可以是掩蔽声音生成装置10的外部组件。在该实施例中，例如使用声音信号Sa、Sb、Sc、Sd、Se和Sf生成的掩蔽声音信号M可通过各种接口输出到作为缓冲器13的外部存储装置中。

(11)在如上所述的第六和第七实施例的帧间排序处理中，由从1到N的不同数字构成的随机数列被用来对帧进行排序。然而，也可使用相同随机数出现多次的随机数列来对帧进行排序。而且，在第一随机数为8时，排序前的第八帧可被当作排序后的第一帧，并且当第二随机数为4时，排序前的第四帧可被当作排序后的第二帧…。以此方法，根据随机数列，可在排序前的帧当中决定要被选择的帧。

<第八实施例>

下面将描述本发明的第八实施例。在该实施例的生成处理中，如图16所示，在帧间排序处理之前CPU 22不执行归一化处理，这与前述第六实施例不同。相反，CPU 22执行帧间排序处理，随后针对通过帧间排序处理得到的作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S执行归一化处理(S 141)。

即使是在该实施例中，也可以防止区域B中的人感受到不合理的感觉，从而实现高掩蔽效应。

如上所述的第六和第八实施例具有以下效果。

其次，在该实施例中，针对声音信号Sa、Sb、Sc、Sd、Se和Sf执行归一化处理，对通过归一化处理得到的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N中的一些的帧Fi中的采样数据进行反转来执行帧内反转处理以及对帧Fi(i＝1至15)进行排序来执行帧间排序处理，并且将经过帧间排序处理而获得的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S作为掩蔽声音信号M。相比于针对未执行归一化处理的声音信号来进行帧内反转处理和帧间排序处理而得到的声音信号，从针对经过归一化处理得到的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N执行帧内反转处理和帧间排序处理而得到的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S当中很难听到不自然的重音。因此可以防止将这样的掩蔽声音信号M输出到区域B中的情况下区域B中的人感受到不合理的感觉，所以能够实现高掩蔽效应。

尽管以上描述了本发明的第六和第八实施例，但也可以例如提供如下的其他实施例。

(1)在如上所述的第六和第八实施例的归一化处理中，CPU 22确定声音信号Sb、Sc、Sd、Se和Sf的帧Fi(i＝1至15)的平均音量级LAVE_i(i＝1至15)的参考值LAVE_REF，随后得到使帧Fi(i＝1至N)的平均音量级LAVE_i(i＝1至15)与参考值LAVE_REF相等所需的校正系数M_AVE，并使用针对各个帧Fi得到的校正系数M_AVE来对帧Fi中的采样数据进行校正。然而，CPU 22还可以确定这样的校正系数MA，该校正系数用来将帧Fi(i＝1至15)的平均音量级LAVE_i(i＝1至15)与参考值LAVE_REF之间的差限制在预定范围内(例如，α)，并使用针对各个帧Fi得到的校正系数MA来对帧Fi中的采样数据进行校正。

以下将描述针对作为处理对象的声音信号Sa进行的归一化处理示例的相关步骤。首先CPU 22针对声音信号Sa执行第一校正处理。第一校正处理的内容与第六和第八实施例的第一校正处理内容相同。接着，CPU 22执行如下的第二校正处理。

CPU 22获得一个时长为T1/T5的声音波形的平均音量级LAVE_i，其中该声音波形是由声音信号Sa的每个帧Fi(i＝1至15)中已经通过第一校正处理被峰值能级校正系数M_PAEK乘过的采样数据表示的。接着，CPU 22获得平均音量级LAVE_i(i＝1至15)的最小值LAVE_MIN和最大值LAVE_MAX，并将该最小值LAVE_MIN当作参考值LAVE_REF。而且，如图17(A)所示，CPU 22在参考值LAVE_REF与音量级LAVE_REF+α之间所定义的范围内确定一个校正系数MA(MA_MAX≥MA≥MA_MIN)，该校正系数MA用于为分布在参考值LAVE_REF与最大值LAVE_MAX之间所定义的范围内的帧Fi(i＝1至15)的每一个平均音量级LAVE_i(i＝1至15)建立映射，并且用针对每个帧Fi确定的校正系数MA来乘每个帧Fi中的采样数据。

这里，例如可以按照如下方式来确定针对每个帧Fi的校正系数MA。首先，如图17(B)所示，将平均音量级LAVE_i作为参考值LAVE_REF的每个帧Fi(i＝1至15)的校正系数MA_MAX取1，并且具有平均音量级LAVE_i与参考值LAVE_REF之差最大(将平均音量级LAVE_i作为最大值LAVE_MAX)的每个帧Fi(i＝1至15)的校正系数MA_MIN取(LAVE_REF+α)/LAVE_MAX。而且，应用于参考值LAVE_REF与最大值LAVE_MAX之间的平均音量级LAVE_i上的校正系数MA取远离校正系数MA_MAX并接近校正系数MA_MIN的值，该值与每个帧Fi的平均音量级LAVE_i和参考值LAVE_REF之间的差成比例。

在如上所述第六和第八实施例中，执行校正处理使得所有帧Fi(i＝1至15)的平均音量级LAVE_i(i＝1至15)与参考值LAVE_REF一致，结果感觉掩蔽声音信号M的音量平坦，因此相反会使掩蔽声音信号M不自然。为了解决这样的问题，可以提供如此程度的波动，即帧Fi(i＝1至15)的平均音量级LAVE_i(i＝1至15)与参考值LAVE_REF之间的差被限制在预定范围内(例如，α)，从而减小平坦的感觉并因此生成具有有限的不自然声音的掩蔽声音信号M。

(2)在如上所述第六和第八实施例的归一化处理中，CPU 22取声音信号Sa的各个帧Fi(i＝1至15)的每个平均音量级LAVE_i(i＝1至15)的最小值作为参考值LAVE_REF。然而，可以取平均音量级LAVE_i(i＝1至15)的最大值、平均值或中间值来作为参考值LAVE_REF或表示值。

(3)在如上所述第六实施例中，可针对在步骤S 130中通过用窗口函数ω乘而得到的作为处理对象的声音信号Sa_W、Sb_W、Sc_W、Sd_W、Se_W和Sf_W执行归一化处理。而且，在第八实施例中，可针对声音效应施加处理(S 150)所得的作为处理对象的声音信号Sa_S’、Sb_S’、Sc_S’、Sd_S’、Se_S’和Sf_S’执行归一化处理。而且，可针对通过混合处理(S160)得到的作为处理对象的掩蔽声音信号M执行归一化处理。

(5)在如上所述第六和第八实施例的获取处理中，获取六种声音信号Sa、Sb、Sc、Sd、Se和Sf，并且在第六和第八实施例的生成处理中，由六种声音信号Sa、Sb、Sc、Sd、Se和Sf生成掩蔽声音信号M。然而，在获取处理中，可以获取包括一种声音信号的五种或更少种声音信号S，或者可以获取七种或更多种声音信号S，并且在生成处理中，可以由一种或多种声音信号来生成掩蔽声音信号M。

(6)在如上所述的第六和第八实施例中，将麦克风安装在区域A中。在这种情况下，CPU 22可在获取处理中获取由区域A中的麦克风所记录的声音信号，并且可在生成处理中由所获取的声音信号生成掩蔽声音信号M。

(7)在如上所述的第六和第八实施例中，能够以反转的顺序来执行步骤S120和步骤S130的处理，使得每个声音信号Sa、Sb、Sc、Sd、Se和Sf的帧Fi与窗口函数ω相乘，随后在每个帧Fi中反转采样数据的排列。

(8)在如上所述的第六和第八实施例中，每次存在传感器30检测到扬声器进入区域A时，就从声音数据库21中读出声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S，针对作为处理对象的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S来执行步骤S 100到步骤S 190的各项处理，以得到掩蔽声音信号M，并且将掩蔽声音信号M输出到区域B中。然而，通过执行步骤S100到步骤S190的各项处理而得到的掩蔽声音信号M可被存储在存储器中，并且每次存在传感器30检测到扬声器进入区域A时，可从存储器中读取掩蔽声音信号M并将其重复地输出到区域B中。在这种情况下，可针对长度为时长T1(T1＝30秒)的声音信号Sa_S、Sb_S、Sc_S、Sd_S、Se_S和Sf_S重复多次地执行图11或图16的处理序列，以在每个比时长T1长的多的时长T6(例如，T6＝10分钟)生成掩蔽声音信号M，并且将每个时长T6的掩蔽声音信号M存储在存储器中以备后用。

(9)在如上所述的第六和第八实施例中，应用本发明来防止语音从区域A泄漏到区域B中，其中区域B与区域A由分隔物50分开从而使区域B位于区域A外侧。然而，在提出了其间没有放置分隔物50的两个区域A’和B’的情况下，可应用本发明来有效地防止在一个区域A’(或B’)中所产生的声音被传输到另一个区域B’(或A’)中。而且，掩蔽声音生成装置10可被安装在由四壁和屋顶来与外界分开的房间中，并且由掩蔽声音生成装置10生成的掩蔽声音信号M可被输出到墙壁以外的区域中。而且，在使不同空间中的讲话者能彼此通信的通信装置中(例如，移动电话、IP电话、网络电话等)，可应用本发明来有效地防止各个讲话者的语音被传输到周围。可通过将根据第六和第八实施例的掩蔽声音生成装置10安装在通信装置中使得由掩蔽声音生成装置10所生成的掩蔽声音信号M被输出到扬声器周围。在这种情况下，扬声器可配备耳机，或者可控制通信装置的扬声器单元的方向性以防止掩蔽声音信号M被传输到通信的相对一方，从而防止对话混乱。

(10)在如上所述的第六和第八实施例中，在相同的序列中针对作为处理对象的声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N来执行帧内反转处理(S120)。然而，可针对每个声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N来改变其中的采样数据已被反转的帧Fi的数量Num或者其中的采样数据已被反转的帧Fi的位置。根据该实施例，比起通过使其中的采样数据已被反转的帧Fi的数量Num或其中的采样数据已被反转的帧Fi的位置与所有声音信号Sa_N、Sb_N、Sc_N、Sd_N、Se_N和Sf_N相等而获得的掩蔽声音信号M，可以实现更高的掩蔽效应

(11)在如上所述的第六和第八实施例中，CPU 22将声音信号Sa、Sb、Sc、Sd、Se和Sf分割成帧Fi(i＝1至15)，如图12(A)所示，每个帧具有时长T3(T3＝100毫秒)。然而，可将声音信号Sa、Sb、Sc、Sd、Se和Sf分割成帧Fi(i＝1至15)，其中相邻帧之间具有重叠部分。可如下实现本实施例。首先如图18所示，CPU 22将每个长度为时长T1的声音信号Sa、Sb、Sc、Sd、Se和Sf(在图18中，为了简便只示出了声音信号Sa的处理)分割成时长为T3+2t的帧Fi(i＝1至15)(S101)，该帧Fi在中间部分的前后具有对应于时长t(t＜T3)的重叠部分。CPU 22针对具有时长T3+2t的每个帧Fi(i＝1至15)执行归一化处理(S110)、帧内反转处理(S120)和窗口函数乘法处理(S130)。接着，CPU 22把已经用窗口函数乘过的帧Fi(i＝1至15)重叠以使得在相邻帧之间实现声音的匀滑转换(S131)，以生成与原始声音信号Sa、Sb、Sc、Sd、Se和Sf具有相同时长T1的声音信号Sb_W、Sc_W、Sd_W、Se_W和Sf_W。而且，CPU 22将声音信号Sb_W、Sc_W、Sd_W、Se_W和Sf_W分割成具有时长T3的帧Fi(i＝1至15)(S132)，并针对作为处理对象的所分割的帧Fi(i＝1至15)执行帧间排序处理(S140)。根据该实施例，可以生成具有更平滑声音质量的掩蔽声音信号M，从而更少得出不合理感觉。

(12)在如上所述第六和第八实施例中，硬盘11可以是掩蔽声音生成装置10的外部组件。在该实施例中，可通过网络从外部存储装置中的声音数据库21中获取声音信号Sa、Sb、Sc、Sd、Se和Sf，并且可使用声音信号Sa、Sb、Sc、Sd、Se和Sf来生成掩蔽声音信号M。而且，缓冲器13、发声控制器14、D/A转换器15、和/或放大器16都可以是掩蔽声音生成装置10的外部组件。在该实施例中，例如使用声音信号Sa、Sb、Sc、Sd、Se和Sf生成的掩蔽声音信号M可通过各种接口输出到作为缓冲器13的外部存储装置中。

(13)在如上所述实施例的帧间排序处理中，由从1到N的不同数字构成的随机数列被用来对帧进行排序。然而，也可使用相同随机数出现多次的随机数列来对帧进行排序。而且，在第一随机数为8时，排序前的第八帧可被当作排序后的第一帧，并且当第二随机数为4时，排序前的第四帧可被当作排序后的第二帧…。以此方法，根据随机数列，可在排序前的帧当中决定要被选择的帧。

(14)在如上所述实施例中，通过获取处理获取的具有时长T1的声音信号Sa、Sb、Sc、Sd、Se和Sf被分割成具有时长T3的帧Fi(i＝1至N)，并且针对作为处理对象的具有时长T3的每个帧Fi(i＝1至N)执行归一化处理，使得各个帧Fi的音量在时域中的波动被限制在预定范围内。然而，可针对具有时长T1的声音信号Sa、Sb、Sc、Sd、Se和Sf来执行将时长T1中音量的时间波动限制在预定范围内的处理，而无需对具有时长T1的声音信号Sa、Sb、Sc、Sd、Se和Sf进行分割。

Claims

1.一种掩蔽声音生成装置，包括：

获取部分，其获取声音信号；以及

生成部分，其重复进行对通过改变获取部分所获取声音信号的排列顺序而获得的掩蔽声音信号进行输出的处理，并且重复进行对改变所述声音信号的排列顺序的方法进行变更的处理，其中

准备了具有不同随机数排列的多种随机数序列，以变更所述声音信号的排列序列的改变方式，只要执行变更所述声音信号的排列序列的改变方式的处理，就变更随机数序列的种类，

生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分变更了对所述段进行排序的方法以此来作为每次重复进行排序处理时变更方法的处理，以及将所获得的掩蔽声音信号再次分割成多个帧，并对分割成的帧进行随机排序来生成掩蔽声音信号。

2.根据权利要求1的掩蔽声音生成装置，其中

获取部分获取多种声音信号以生成一种掩蔽声音信号，并且

生成部分将多种声音信号的每一个分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分变更了对所述多种声音信号的每一个的段进行排序的方法以此来作为变更方法的处理。

3.根据权利要求1或2的掩蔽声音生成装置，其中生成部分执行反转处理来将通过分割声音信号而获得的每个段中的声音信号的排列进行反转，并且生成部分使用通过反转处理和排序处理获得的信号来生成掩蔽声音信号。

4.一种掩蔽声音生成装置，包括：

获取部分，其获取声音信号；以及

生成部分，其将获取部分所获取的声音信号分割成多个段，每个段具有预定时长并包含声音信号片段，随后生成部分生成了通过选择一些分割段、对所选分割段进行排序并对所选分割段中的每个声音信号片段进行反转而获得的声音信号片段，并顺序输出所生成的声音信号片段以形成掩蔽声音信号，其中

所述生成部分重复地变更所述声音信号的所选分割段的排序方式以及将所形成的掩蔽声音信号再次分割成多个帧，并对分割成的帧进行随机排序来生成掩蔽声音信号，以及其中

准备了具有不同随机数排列的多种随机数序列，以变更所述声音信号的所选分割段的排序方式，只要执行变更所述声音信号的所选分割段的排序方式的处理，就改变随机数序列的种类。

5.根据权利要求4掩蔽声音生成装置，其中生成部分对多个段中声音信号片段的排列被反转的段进行重复改变。

6.一种掩蔽声音生成装置，包括：

获取部分，其获取声音信号；以及

生成部分，其生成了通过改变获取部分所获取的声音信号的排列顺序而得到的掩蔽声音信号，其中

生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，随后生成部分重复进行对所分割的段进行排序的排序处理，将该排序处理作为改变声音信号的排列顺序的处理，并且生成部分变更了对所述段进行排序的方法以此来作为每次重复进行排序处理时变更方法的处理，以及将所获得的掩蔽声音信号再次分割成多个帧，并对分割成的帧进行随机排序来生成掩蔽声音信号，以及其中

在生成掩蔽声音信号的过程中，生成部分执行归一化处理来将掩蔽声音信号音量在时域中的波动限制在预定范围内。

7.根据权利要求6的掩蔽声音生成装置，其中生成部分将获取部分所获取的声音信号分割成多个段，每个段具有预定时长，并且生成部分执行这样的归一化处理，即，将每个段的平均音量限制在预定范围内。

8.根据权利要求7的掩蔽声音生成装置，其中在归一化处理期间，生成部分确定多个段当中平均音量的代表值，随后获得校正系数来使每个段的平均音量与该代表值相等，并使用针对每个段获得的校正系数来对每个段的声音信号进行校正。

9.根据权利要求7的掩蔽声音生成装置，其中在归一化处理期间，生成部分确定多个段当中平均音量的代表值，随后获得校正系数来将每个段的平均音量与该代表值之间的差限制在预定范围内，并使用针对每个段获得的校正系数来对每个段的声音信号进行校正。