CN103189912A

CN103189912A - 声音处理设备和声音处理方法

Info

Publication number: CN103189912A
Application number: CN2011800448169A
Authority: CN
Inventors: 小林咏子; 石桥利晃
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-10-21
Filing date: 2011-10-21
Publication date: 2013-07-03
Also published as: US20130182866A1; JP5644359B2; WO2012053629A1; US9117436B2; JP2012088577A

Abstract

语音分析单元（13）从输入的语音信号中提取注入共振峰和音高的语音特征量。基于提取的语音特征量，掩蔽声音生成单元（14）对记录在数据库（15）中的声音源数据（通用掩蔽声音）进行处理，并生成用于输出的掩蔽声音。通用掩蔽声音的一个示例是包括男性和女性语音的多人语音、并包括没有语义（对话内容不能理解）的干扰噪声的记录。掩蔽声音生成单元（14）将干扰噪声的格式与输入的语音信号的格式进行匹配。所生成的掩蔽声音不具有语义，且包括与讲话者的音质和音高相似的音质和音高的干扰噪声；因此，听者难以理解讲话者实际所说的内容。

Description

声音处理设备和声音处理方法

技术领域

本发明涉及拾取在环境区域中产生的声音并输出基于该拾取声音改变的声音的声音处理设备和声音处理方法。

背景技术

通常，已经提出了这样的构造：其中对在环境区域中产生的声音进行拾取和处理，将拾取声音和处理后的声音混合在一起，并从扬声器输出该混合声音，从而使听者听到不同于在环境区域中产生的声音的声音（例如，参见专利文献1）。根据该构造，使得在环境区域中产生的声音（例如，讲话者的语音）难以被听到，并且可能掩蔽讲话者的语音。

现有技术引用

专利文献

专利文献1：JP-A-2009-118062

发明内容

本发明要解决的技术问题

当从扬声器输出的声音再次被麦克风拾取时，存在拾取声音的特定频率分量被放大然后输出的可能，从而担心会出现啸声。此外，当拾取到不同于讲话者语音的声音时，还存在不能输出适当掩蔽讲话者的目标语音的掩蔽声音的情况。

因此，本发明的一个目的是提供在防止出现啸声的同时产生适当的掩蔽声音的声音处理设备和声音处理方法。

解决问题的手段

本发明提供的声音处理设备是这样的声音处理设备，其包括：

输入部分，其输入声音信号；

分析部分，其对输入的声音信号进行分析；

存储部分，其存储通用掩蔽声音；

掩蔽声音产生部分，其基于所述分析部分的分析结果对存储在所述存储部分中的所述通用掩蔽声音进行处理，以产生输出掩蔽声音；以及

输出部分，其输出所述输出掩蔽声音。

优选地，所述分析部分提取输入的声音信号的声音特征量，并且所述掩蔽声音产生部分基于所述声音特征量对存储在所述存储部分中的所述通用掩蔽声音进行处理，从而产生所述输出掩蔽声音。

优选地，该设备还包括：消除部分，其从所输入的声音信号中消除所述输出掩蔽声音。

优选地，该设备还包括分析结果存储部分，其将所述分析结果存储预定时段，以及所述掩蔽声音产生部分将所述分析部分的分析结果与存储在所述分析结果存储部分中的分析结果进行比较，如果计算出不同的分析结果，则停止基于所述分析部分的分析结果产生所述输出掩蔽声音。

优选地，所述输出掩蔽声音由连续生成的声音和间歇生成的声音的组合构成。

本发明提供了一种在声音处理设备中使用的声音处理方法，所述声音处理设备具有存储通用掩蔽声音的存储部分，所述声音处理方法包括：

输入步骤，用于输入声音信号；

分析步骤，用于对输入的声音信号进行分析；

掩蔽声音产生步骤，用于基于所述分析步骤的分析结果对存储在所述存储部分中的所述通用掩蔽声音进行处理，以产生输出掩蔽声音；以及

输出步骤，用于输出所述输出掩蔽声音。

优选地，在所述分析步骤中，提取所输入的声音信号的声音特征量，以及，在所述掩蔽声音产生步骤中，基于所述声音特征量对存储在所述存储部分中的所述通用掩蔽声音进行处理，从而产生所述输出掩蔽声音。

优选地，该方法还包括：消除步骤，用于从所输入的声音信号中消除所述输出掩蔽声音。

优选地，所述声音处理设备还包括分析结果存储部分，其将所述分析结果存储预定时段，并且

在所述声音处理方法中，

在所述掩蔽声音产生步骤中，将所述分析步骤中的分析结果与存储在所述分析结果存储部分中的分析结果进行比较，如果计算出不同的分析结果，则停止基于所述分析步骤中的分析结果产生所述输出掩蔽声音。

本发明的有益效果

根据本发明，能够产生适当的掩蔽声音，同时防止出现啸声。

附图说明

图1（A）和图1（B）是示出声音掩蔽系统的构造的框图。

图2（A）是示出声音信号的频率特性的示图，图2（B）是示出移动干扰声音的共振峰的处理、改变电平的处理、以及改变带宽的处理的示图。

图3是示出变型例1的声音处理设备的构造的框图。

图4是示出变型例2的声音处理设备的构造的框图。

图5（A）至图5（C）是示出干扰声音、背景声音、和现场声音的对应关系表的示图。

具体实施方式

图1（A）是示出包括本发明的声音处理设备的声音掩蔽系统的构造的框图。声音掩蔽系统包括声音处理设备1、拾取讲话者2的语音和环境声音的麦克风11、和向听者3发出掩蔽声音的扬声器17。声音处理设备1通过麦克风11拾取讲话者2的语音，并通过扬声器17向听者3发出掩蔽讲话者2的语音的掩蔽声音。

图1（A）中，声音处理设备1包括A/D转换部分12、声音分析部分13、掩蔽声音产生部分14、数据库15、和D/A转换部分16。可替换地，可以采用和图1(B)所示声音处理设备1'相同的构造，麦克风11和扬声器17与图1（A）的声音处理设备1集成在一起。可替换地，麦克风11和扬声器17中仅一个可以与图1（A）的声音处理设备1集成在一起。

麦克风11拾取设备周围产生的声音（在该示例中，主要是由讲话者2发出的语音）。拾取声音被A/D转换部分12转换成数字声音信号，然后被提供给声音分析部分13。A/D转换部分12的采样率Fs被充分设置为与人类语音的主要分量所在的频带（例如，10kHz或以下）相对应的频率（例如，Fs=20kHz）。

声音分析部分13分析输入的声音信号，并提取声音特征量。声音特征量是用作识别扬声器的指标的物理参数，并且由例如共振峰和音高构成。共振峰表示声音频谱中的多个峰值，并且是影响音质的物理参数。音高是表明声音音高（基频）的物理参数。在听者收听两个声音或语音的情况下，当这两个声音或语音在音质和音高方面彼此接近时，则难以将这两个声音或语音彼此区分开。当接近讲话者2的语音、且具有不同内容的声音（没有语义的声音）作为干扰声音包含在掩蔽声音中被从扬声器17输出时，听者3很难能够理解讲话者2的讲话内容，从而可以预期高的掩蔽效果。

因此，声音分析部分13首先根据输入声音信号计算音高。例如，根据在时间轴上的过零点（幅值为0的点）计算音高。然而，声音分析部分13对输入声音信号进行频率分析（例如，FFT：快速傅里叶变换），以计算频谱。然后，声音分析部分13从该频谱检测频率峰值。频率峰值是电平高于前一频率分量和后一频率分量的频率分量。多个频率分量被检测到。然而，如图2（A）所示，人的声音包含大量极其微小的频率峰值，因此仅提取包络分量的频率峰值。这些频率峰值构成共振峰。提取中心频率、电平、带宽（半带宽）等来作为表示每个共振峰的参数。可以提取诸如频谱的倾斜度的其他物理量作为声音特征量。

声音分析部分13将所提取的声音特征量输出至掩蔽声音产生部分14。

掩蔽声音产生部分14基于输入的声音特征量和存储在数据库15中的声音源数据（通用掩蔽声音）产生输出掩蔽声音。具体地，该掩蔽声音产生部分14执行下面的处理。

首先，掩蔽声音产生部分14从数据库15读取通用掩蔽声音的声音数据。通用掩蔽声音是预期能够以一定程度对任何类型的讲话者施加掩蔽效果的通用掩蔽声音。例如，通用掩蔽声音由记录了包括男性和女性的多人语音的声音数据构成，并且其包含没有语义（对话的内容不能被理解）的干扰声音。如后文所述，除了干扰声音以外，通用掩蔽声音还可以包含用于缓解听者不舒服感的背景声音（诸如溪流的汩汩声）和现场声音（诸如鸟声）。诸如干扰声音、背景声音、和现场声音的频率轴上的声音信号（或时间轴上的声音信号）作为通用掩蔽声音的声音数据被存储在数据库15中。

掩蔽声音产生部分14基于由声音分析部分13提供的声音特征量对与所读取的通用掩蔽声音中的干扰声音有关的声音数据进行处理。例如，读取的干扰声音的音高被转换成输入声音信号的音高。在此情况下，执行频移以使得干扰声音的基频分量与输入声音信号的基频分量一致。

此外，如图2（B）所示，使得干扰声音的共振峰分量与输入声音信号的共振峰分量一致。例如在图2（B）中，干扰声音的第一共振峰、第二共振峰、和第三共振峰的中心频率分别低于输入声音信号的第一共振峰、第二共振峰、和第三共振峰的中心频率。因此，执行向更高频率侧的偏移处理。此外，第二共振峰的电平高于输入声音信号的电平，因此执行降低电平的处理。此外，第三共振峰的电平低于输入声音信号的电平，因此执行升高电平的处理，并且由于带宽比输入声音信号宽，因此还执行缩窄带宽的处理。对于第四共振峰，执行向较低频率侧偏移的处理，并且还执行加宽带宽的处理。在该图的示例中，已经描述了处理第一至第四共振峰的处理。然而，要处理的共振峰的阶次不限于该示例中的这些。例如，可以处理更高阶次的共振峰。

在声音特征量中包括诸如频谱倾斜度的其他物理参数的情况下，还基于这些参数进一步对干扰声音的声音数据进行处理。

掩蔽声音产生部分14如上所述对干扰声音进行处理，从而产生输出掩蔽声音。所产生的输出掩蔽声音被D/A转换部分16转换成模拟声音信号，并从扬声器17发出以被听者3听到。

以此方式从扬声器17发出的掩蔽声音不具有语义，并包含在音质和音高方面与讲话者2的语音接近的干扰声音。因此，听者3在听到讲话者2的语音的同时听到具有类似音质和音高并且其含义不可理解的声音，从而讲话者2的实际发言的内容几乎不能被提取和理解。

此外，在这种干扰声音中，其音质和音高接近讲话者2的语音的音质和音高。因此即使在低音量的情况中，也可以施加较高的掩蔽效果，并且可以减少听者3听到掩蔽声音的情形会造成的不舒服感。如上所述，当背景声音（诸如溪流的汩汩声）和现场声音（诸如鸟叫）的声音数据被预先存储在数据库15中、且被包含在输出掩蔽声音中输出时，可以进一步减小不舒服感。

此外，掩蔽声音是基于输入声音信号新产生的声音，而不是通过放大输入声音信号然后进行输出而得到的声音。因此，未形成从扬声器发出的声音被输入麦克风然后再次被发出的回路系统，从而也不存在会造成啸声的可能。因此，在该实施例中所示的声音掩蔽系统中，不需要考虑麦克风和扬声器的放置关系，并且在任何安装环境中都能够稳定输出掩蔽声音。

在声音分析部分13中提取的声音特征量（诸如共振峰）是专用于人类发出的语音的物理参数，因此，其几乎不能从除人类发出的语音之外的声音中提取到。因此，掩蔽声音被在设备周围生成的环境声音（例如，空调噪声）改变的可能性很小，从而能够稳定地产生适当的掩蔽声音。

在该实施例中，尽管已经描述了将一种干扰声音存储在数据库15中的示例，但是可以将具有不同的共振峰和音高的多种干扰声音存储在数据库15中。在此情况下，最接近输入声音信号的声音特征量的干扰声音被读取和处理（或不进行处理），以产生输出掩蔽声音，从而可以减轻计算量。

另外，尽管以一直输出干扰声音的情况为示例描述了该实施例，但是无需总是输出干扰声音。在讲话者2不发出语音的状态下，例如，无需输出干扰声音。因此，当不能从声音分析部分13中提取出声音特征量时，可以停止输出干扰声音。

掩蔽声音可以由连续生成的声音和间歇生成的声音的组合构造。在讲话者2不发出语音的状态下，当不能从声音分析部分13中提取出声音特征量时，例如，将存储在数据库15中的干扰声音原样输出作为输出掩蔽声音，而在讲话者2发出语音的状态下并且能够从声音分析部分13中提取出声音特征量时，输出通过对干扰声音进行处理得到的输出掩蔽声音。根据该构造，可以防止出现听者3习惯于掩蔽声音从而辨别出讲话者2的实际语音（所谓的鸡尾酒会效应）。

可以使用干扰声音和诸如溪流的汩汩声的背景声音作为连续生成的声音，并且可以使用诸如鸟叫的现场声音作为间歇生成的声音。例如，可以连续输出干扰声音和背景声音，并且可以以预定定时间歇地输出现场声音。此时，对于背景声音，重复再现预定时段内记录的声音记录（通过记录实际的溪流的汩汩声等获得的数据），而对于现场声音，随机地或以预定的声音时段（例如，与环境声音的重复定时一致）为间隔再现预定时段内记录的声音数据（通过记录实际的鸟叫声等获得的数据）。此外，在此情况下，听者3听到的声音不总是一样，因此能够防止出现鸡尾酒会效应。对于连续生成的声音和间歇生成的声音的组合，下面的应用示例是可行的。

图5是示出干扰声音、背景声音、和现场声音的对应关系表的示图。这些表存储在数据库15中，并被掩蔽声音产生部分14读取。在该图的示例中，将在假设数据库15中存储了多种具有不同共振峰和音高的干扰声音的前提下进行描述。

如图5（A）所示，在对应关系表中描述了存储于数据库15中的干扰声音、背景声音、和现场声音的组合。例如，使得干扰声音A与背景声音A（例如，溪流的汩汩声）和现场声音A（例如，鸟叫）对应。优选地，使干扰声音与施加高掩蔽效果的背景声音和现场声音对应。

在此情况下，掩蔽声音产生部分14读取与输入声音信号的声音特征量最接近的干扰声音（例如，干扰声音A），并参照该表选择并读取相对应的背景声音（例如，背景声音A）和现场声音（例如，现场声音A）。结果，连续再现足以用作输入声音信号的干扰声音和背景声音，并间歇再现现场声音。

此外，如图5（B）所示，与每个干扰声音对应的背景声音和现场声音的数量不限于一个。如图5（B）所示，例如，对于干扰声音A，除了背景声音A和现场声音A的组合以外，该对应表还示出了背景声音A和现场声音B的组合，以及背景声音B和现场声音B的组合。对于干扰声音B，除了背景声音B和现场声音B的组合以外，该对应表还示出了背景声音C和现场声音C的组合。

在此情况下，可以在声音处理设备1中设置用于用户操作的界面，掩蔽声音产生部分14可以接收来自用户的手动选择，并可以选择和读取接收到的背景声音和现场声音的组合。可替换地，可以根据时区、季节、地点等自动进行选择。例如，存在这样的情况，其中，在早上选择背景声音A和现场声音A（溪流的汩汩声+鸟叫），而在夏季的中午，选择背景声音A和现场声音B（溪流的汩汩声+蝉鸣），在靠近海的地点，选择背景声音B（波浪声等）。在这种情况下，声音变化进一步多样化，因此能够更充分地防止出现鸡尾酒会效应。

此外，如图5（C）所示，该表还示出了各声音的音量比。图5（C）所示的音量比的值表示相对值，而不表示实际音量值（dB）。

相对于干扰声音A的音量100，例如，示出了背景声音A的音量的音量比为50，以及现场声音A的音量的音量比为10。因此，掩蔽声音产生部分14输出这样的掩蔽声音，在该掩蔽声音中背景声音A的音量约为干扰声音A的音量的一半，而现场声音A的音量约为干扰声音A的音量的1/10。对于图5（C）中所示的干扰声音A、背景声音B、和现场声音B的组合，其中现场声音的音量为0从而不输出现场声音的模式是可行的。如上所述，除了根据输入声音信号改变背景声音和现场声音的模式以外，还可以改变音量。

在如上所述在声音处理设备1中设置用于用户操作的界面的情况下，可以从用户接收对组合的内容以及音量比的指定，并且允许改变该表的描述内容。

此外，该实施例的声音处理设备可以构造为下列变型例。

图3是示出变型例1的声音处理设备的构造的框图。在图3中，以相同的参考标号表示与图1（A）所示的声音处理设备1相同的部件，并省略其描述。

除了与图1（A）所示的声音处理设备1相似的那些部件以外，图3所示的变型例1的声音处理设备1还包括消除部分18。与图1（B）所示的声音处理设备1’类似，麦克风11和扬声器17与图3的声音处理设备1集成在一起。可替换地，麦克风11和扬声器17中仅一个可以与图3的声音处理设备1集成在一起。

消除部分18是所谓的回声消除器，其执行消除从麦克风11提供的声音信号（A/D变换后的信号）的回声分量的处理。根据该构造，仅在设备周围生成的声音（讲话者的语音）被提供给声音分析部分13，从而可以提高声音特征量的提取精度。

可以以多种方式执行消除部分18中的回声消除。例如，利用其中模拟了从扬声器17延伸至麦克风11的音频传输系统的传输特性的自适应滤波器对输出掩蔽声音进行滤波处理，并通过对从麦克风11提供的信号执行减处理来消除回声分量。

然而，在该实施例中，如上所述并不存在输入声音信号绕回并输入至麦克风的系统，因此声音分析部分13可以提取声音特征量，同时仅去除（忽略）输出掩蔽声音的分量。在此情况下，不需要自适应滤波器。

图4是示出变型例2的声音处理设备的构造的框图。同样在图4中，以相同的参考标号表示与图1（A）所示的声音处理设备1相同的部件，并省略其描述。

图4的声音处理设备1包括缓冲器19。缓冲器19相当于分析结果存储部分，其将从声音分析部分13提供给掩蔽声音产生部分14的声音特征量存储预定时段。与图1（B）所示的声音处理设备1’类似，麦克风11和扬声器17与图4的声音处理设备1集成在一起。可替换地，麦克风11和扬声器17中仅一个可以与图4的声音处理设备1集成在一起。

掩蔽声音产生部分14将由声音分析部分13提供的最新的声音特征量与存储在缓冲器19中的过去声音特征量进行比较，并且如果计算出不同的声音特征量，停止基于最新的声音特征量产生输出掩蔽声音的处理，并且基于存储在缓冲器19中的过去声音特征量产生输出掩蔽声音。在此情况下，即使在突然输入不同于讲话者2的人发出的语音时，输出掩蔽声音也不会有大的改变（错误的声音特征量未反映到输出掩蔽声音中），因此可以稳定掩蔽效果。

在实际讲话者改变并且提取了不同的声音特征量时，即使在已经经过了预定时段之后也保持提取新讲话者的声音特征量。因此，缓冲器19中存储的声音特征量被更新为该新讲话者的声音特征量，使得由声音分析部分13提供的最新声音特征量再次与缓冲器19中存储的过去声音特征量一致。因此，在经过了预定的声音时段后，可以产生适当的掩蔽声音。

下文中，将描述本发明的概要。

本发明的声音处理设备包括：输入部分，其被输入有声音信号；分析部分，其对输入声音信号进行分析；存储部分，其存储通用掩蔽声音；掩蔽声音产生部分；和输出部分，其输出由掩蔽声音产生部分产生的输出掩蔽声音。

通用掩蔽声音是能够期望来在一定程度上对任何类型的讲话者的语音施加掩蔽效果的通用掩蔽声音。例如，通用掩蔽声音由记录有包括男性和女性的多人语音的声音数据构成，并且包含没有语义（不能被理解的对话内容）的干扰声音。当听者同时听到干扰声音和讲话者的语音时，听者很难理解讲话者所说的内容。然而，与讲话者自己的语音被处理然后作为干扰声音被输出的情况相比，降低了掩蔽效果。

因此，掩蔽声音产生部分基于分析部分的分析结果、和存储在存储部分中的通用掩蔽声音产生输出掩蔽声音。例如，分析部分提取输入声音信号中包含的讲话者的声音特征量（诸如音高和共振峰），并基于提取的讲话者的特征量，掩蔽声音产生部分对存储在存储部分中的通用掩蔽声音进行处理以产生输出掩蔽声音。具体地，存储在存储部分中的通用掩蔽声音的音高被转换成输入声音信号的音高，或通用掩蔽声音的共振峰被转换成输入声音信号的共振峰（例如，使中心频率一致，或使带宽一致）。结果，从输出部分输出了音质近似于实际讲话者的音质的干扰声音，因此掩蔽效果变得高于通用掩蔽声音情况下的掩蔽效果，从而可以充分掩蔽讲话者的语音。输入的讲话者的语音仅用在所述分析中，并且讲话者的语音不进行放大等而被输出。由于生出声音未被再次拾取来放大（未形成回路系统），因此可以防止发生啸声。

在提供了从输入声音信号中消除输出掩蔽声音的消除部分的情况中，即使在掩蔽声音一旦被输出就被再次拾取时，也可以适当地仅分析讲话者的语音。

此外，该设备还包括分析结果存储部分，其将分析结果存储预定时段，并且掩蔽声音产生部分可以将分析部分的分析结果与存储在分析结果存储部分中的分析结果进行比较，并且如果计算出不同的分析结果，停止基于分析部分的分析结果产生输出掩蔽声音。

在此情况下，即使在突然输入不同于讲话者语音的声音时，输出掩蔽声音也不会有大的改变（错误的分析结果不会反映到输出掩蔽声音中），因此掩蔽效果稳定。

本申请基于2010年10月21日提交的日本专利申请（第2010-236019），其内容通过引用并入本文。

工业适用性

根据本发明，可以提供产生适当的掩蔽声音同时防止出现啸声的声音处理设备和声音处理方法。

参考标号和符号的说明

1 声音处理设备

2 讲话者

3 听者

11 麦克风

12 A/D转换部分

13 声音分析部分

14 掩蔽声音产生部分

15 数据库

17 扬声器

Claims

1.一种声音处理设备，包括：

输入部分，其输入声音信号；

分析部分，其对输入的声音信号进行分析；

存储部分，其存储通用掩蔽声音；

输出部分，其输出所述输出掩蔽声音。

2.根据权利要求1所述的声音处理设备，其中，所述分析部分提取输入的声音信号的声音特征量；以及

其中，所述掩蔽声音产生部分基于所述声音特征量对存储在所述存储部分中的所述通用掩蔽声音进行处理，以产生所述输出掩蔽声音。

3.根据权利要求1或2所述的声音处理设备，还包括：

消除部分，其从所述输入的声音信号中消除所述输出掩蔽声音。

4.根据权利要求1至3中任一项所述的声音处理设备，还包括：

分析结果存储部分，其将所述分析结果存储预定时段，

其中，所述掩蔽声音产生部分将所述分析部分的分析结果与存储在所述分析结果存储部分中的分析结果进行比较，如果计算出不同的分析结果，则停止基于所述分析部分的分析结果产生所述输出掩蔽声音。

5.根据权利要求1至4中任一项所述的声音处理设备，其中，所述输出掩蔽声音由连续生成的声音和间歇生成的声音的组合构成。

6.一种在声音处理设备中使用的声音处理方法，所述声音处理设备具有存储通用掩蔽声音的存储部分，所述声音处理方法包括：

输入步骤，用于输入声音信号；

分析步骤，用于对输入的声音信号进行分析；

输出步骤，用于输出所述输出掩蔽声音。

7.根据权利要求6所述的声音处理方法，其中，在所述分析步骤中，提取所输入的声音信号的声音特征量；以及

其中，在所述掩蔽声音产生步骤中，基于所述声音特征量对存储在所述存储部分中的所述通用掩蔽声音进行处理，以产生所述输出掩蔽声音。

8.根据权利要求6或7所述的声音处理方法，还包括：

消除步骤，用于从所述输入的声音信号中消除所述输出掩蔽声音。

9.根据权利要求6至8中任一项所述的声音处理方法，其中所述声音处理设备还包括分析结果存储部分，其将所述分析结果存储预定时段，并且

其中，在所述掩蔽声音产生步骤中，将所述分析步骤中的分析结果与存储在所述分析结果存储部分中的分析结果进行比较，如果计算出不同的分析结果，则停止基于所述分析步骤中的分析结果产生所述输出掩蔽声音。

10.根据权利要求6至9中任一项所述的声音处理方法，其中，所述输出掩蔽声音由连续生成的声音和间歇生成的声音的组合构成。