CN102113048A

CN102113048A - 合成声音

Info

Publication number: CN102113048A
Application number: CN200980130638.4A
Authority: CN
Inventors: 坂本真一
Original assignee: OTODESIGNERS CO Ltd
Current assignee: OTODESIGNERS CO Ltd
Priority date: 2008-07-11
Filing date: 2009-02-13
Publication date: 2011-06-29
Also published as: US20110112840A1; JP2010020137A; JP4209461B1; WO2010004665A1

Abstract

本发明为了在电视、收音机等的广告中使用的效果音，用于宣传企业形象的声音标识以及在电影、动画、游戏、玩具、移动电话的铃声等中所使用的声音的内容或拟人音等，提供个性化的且对最终用户具有冲击力的一种合成声音。该合成声音是用于通过收听声音信号让收听者想起该声音信号以外的音信号的影像的合成声音，其特征是，该合成声音是合成振幅包络线分量和频率分量而构成，所述振幅包络线分量是该声音信号的振幅包络线分量，所述频率分量是除去杂音的该声音信号以外的音信号的频率分量。

Description

合成声音

技术领域

本发明涉及为了在电视、收音机等的广告中使用的效果音，用于宣传企业形象的声音标识(sound logo)以及在电影、动画、游戏、玩具、移动电话的铃声等中所使用的声音的内容等，由声音的振幅包络线信息和该声音以外的信号的频率分量而构成的，个性化的并且对最终用户具有冲击力的一种合成声音。

背景技术

在电视、收音机等的商业广告中，添加了用于宣传商品的影像，播放商品名、用于宣传该商品的信息等声音。众所周知大部分的情况是，不单仅播放商业广告的声音，而是将用于提高商品形象的BGM(背景音乐)、适合商品形象的效果音(河川的水流声音，鸟的鸣叫声等)重叠于声音后进行播放。

近年来，附加在用于使企业形象深入最终用户的视觉的企业标识商标，经常在企业的广告播出之时播放某特定的声音，用户仅听到该声音就能想起特定的企业或者商品这样的宣传活动，所谓的声音标识(soundlogo)也被普遍地使用。

另一方面，在游戏、动画、电影、玩具等中，以往就使用着各种各样的效果音，近年来公开有不单单只作为效果音，还通过声音本身享受游戏的技术。

在专利文件1中公开了助听器、训练装置、游戏装置、声音输出装置，它们是将声音信号分成多个频带信号，抽出包络线后，从抽出各包络线开始，将杂音源信号添加到具有多个带通滤波器的带通滤波部，抽出杂音源信号，将各带通滤波部的输出相乘后累加，使用将音源信号的分量杂音化之后的劣化杂音声音信号。

劣化杂音声音是，将人们为了识别声音的内容、环境音的种类等而活用的频率分量全部替换为杂音，只留下通常在声音内容等的识别中基本不被使用的振幅包络线信息的声音信号。

如果将通常使用的频率分量除去，那么理所当然地人们在最初不能理解那种声音内容，但如果知道了答案，立刻就能听出来。

这是因为，人类的大脑具有以利用一般不会使用的振幅包络线信息的方式将大脑内网络进行切换的能力，提出了基于该理论能够利用助听器、训练装置、大脑的训练等的游戏内容等的方案。

另一方面，在电影、动画中，将自然界中存在的“风”、“树木”、“瀑布”、“河流”等拟人化，它们宛如在说话般的场景从以往就随处可见。这样的被拟人化的声音，配合风、树木的影像以一定的规律变换频率，或使讲话速度发生变化。

在移动电话的铃声中，能够将乐曲原封不动的下载后作为铃声使用的服务已经非常普及。而且最近，将高频域的听力下降的高龄者无法听到的，只有听力正常的年轻人才能听到的被称为“蚊音”的高频音作为铃声的服务大受欢迎，由此可知对于被人们普遍认为有趣的、他人听不到的声音内容的需求正在高涨起来。

在专利文件2中公开了一种移动电话机的来电通知方法，利用移动电话机本身或者连接到网络的劣化杂音声音信号生成服务器的劣化杂音声音信号变换功能，将从移动电话的麦克风、来自操作键的文字输入、存储器中保存的文字数据、由照相机进行的QR编码摄影、非接触式IC卡、来自IrDA接收机的接收数据等的声音、文字数据变换成劣化杂音声音信号，通过将其作为移动电话机的来电通知音使用，能够在减轻给别人带来的不快的同时接收到来电通知音的消息。

专利文件1：日本专利第3973530号

专利文件2：日本专利第3833243号

在以往的商品名、企业名，商品宣传的声音中重叠背景音乐(BGM)、效果音的方法，归根到底是将宣传的声音和BGM这两种不同的声音同时播放，因此这种方法太过于普通缺乏个性，以至于形成了通过这种做法本身很难给现今的用户留下很深印象的状况。

为了赋予声音个性，从而给人留下深刻的印象，往往采取将音量调大、或发出突发的声音、或特意的发出让人不快的声音来引起用户注意的方法，但是这样做反而可能有损企业形象，假若被识别为噪音的话可能会引发社会问题。

关于声音标识，在游戏机制造商、个人电脑用CPU制造商、移动电话载体等中，通过在商业广告中播放特定的信号音，确实提升了企业形象的成功的例子已经不在少数。但是，这些成功的例子全都是，在直到多数的用户能从特定的信号音想起企业名之前，利用所有的媒体不停的播放声音，这需要极大的广告宣传费用。

而且，为了引起用户的注意，又不会给用户带来不快，大部分的情况都使用了单发的并且简单的信号音，但这样就存在仅仅通过这种信号音无法将企业名、商品名直接地传达给用户的问题。

专利文件1中所记载的劣化杂音声音，虽然是有个性的，但由于其是基于杂音做成的所以就会有“沙沙”的这种粗糙的感觉，不适合用于以提高形象为目的的企业宣传、广告等。

而且，劣化杂音声音对大脑有训练效果，而且由于在听到的最初不明白其含义但在知道答案后就能听出来了所以会让人感到惊讶(冲击)，但另一方面，因其是基于杂音的，常常被当成与“沙沙”相同听觉的声音因此缺乏个性，让最终用户很快就感到厌烦，进而理所当然，存在没有起到传达企业、商品形象的效果这样的缺点。

到目前为止的在电影、动画中使用的效果音、拟人化声音，说到底也不过是根据制作者的意象被制作的，对视听者来说也存在没有传达出该有的形象的情况，而且也存在每个作品的效果音、拟人化声音的制作都要花费大量的劳动力这样的问题。

关于移动电话的铃声也是一样，虽然以蚊音、专利文件2中记载的移动电话机的来电通知法为开端，各种各样的声音的内容被提案出来，但在持续制作出具有个性的给现今的用户留下深刻印象的，而且不会感到厌烦的内容方面却遇到了极为困难的状况。

发明内容

作为解决上述问题的方法，本发明的合成声音，是为了让收听者通过收听声音信号想起该声音信号以外的音信号的形象，其是合成振幅包络线分量和频率分量而构成的，上述振幅包络线分量是该声音信号的振幅包络线分量；上述频率分量是除去杂音的该声音信号以外的音信号的频率分量。

并且，本发明的合成声音，是为了让收听者通过收听声音信号想起该声音信号以外的音信号的形象，其由合成振幅包络线分量和频率分量而构成，上述振幅包络线分量是将该声音信号分割成多个频带时的各频带的信号的振幅包络线分量；上述频率分量是将除去杂音的该声音信号以外的音信号分割成上述多个频带时的各频带的频率分量。

本发明的合成声音以及声音合成加工装置，并非是将BGM、效果音重叠于声音，而是将该声音以外的信号作为音源来生成声音，因此用户仅仅通过收听声音，就能够想起其形象。

以往的将多个声音(声音和效果音、形象音)同时播放的简单的重叠声音没有作为一个声音的个性，而本发明的合成声音具有，作为兼具了声音的特征和该声音以外的音的特征的“一个声音”的个性。

因此，如果在企业广告、声音标识中使用，则不需为了给用户留下深刻的印象而调大音量，或者发出突发的声音，再或者特意发出令人不快的声音，就能够给予现今的用户有个性的新颖的深刻的印象，能够在不产生不快的前提下促进对用户注意的唤起。

而且，不会像劣化杂音声音那样，常常给人“沙沙”的这种听感，而能够通过在该声音以外的音信号中使用各种各样的声音，能够持续地提供具有个性的且不会让用户感到厌烦的具有新的深刻印象的某种声音内容。

如果准备多种该声音以外的音信号，则即使是作为电影等中的效果音、拟人化的声音、移动电话的铃声、游戏用声音，也能够经常地持续为用户提供具有个性的符合形象的、不会让用户感到厌烦的声音内容。

这些效果虽然是，通过由声音的振幅包络线分量、和该声音以外的信号的频率分量构成的本发明的合成声音达成的，但也可将上述振幅包络线分量作为将该声音信号分割成多个频带时的各频带的信号的振幅包络线分量，将上述频率分量作为将该声音信号以外的音信号分割成上述多个频带时的各频带的频率分量来构成合成声音，那么该声音信号的含义就能够更容易地被听懂。

附图说明

图1是本发明的第一实施方式(合成声音的波形和声谱图的例子)；

图2是本发明的第二实施方式(合成声音的波形例)；

图3是本发明的第二实施方式(合成声音的声谱图的例子)；

图4是本发明的用于制作合成声音的第一框图；

图5是本发明的用于制作合成声音的第二框图；

图6是第二框图中的详细图。

附图符号说明：

1...第一带通滤波器部；2...包络线抽出部；3...第二带通滤波器部；4...带通滤波器；5...包络线抽出器；6...带通滤波器；7...乘法部；8...加法部

具体实施方式

以下，基于附图对用于实施本发明的最佳实施方式进行详细说明。其中，在以下的说明中，对具有相同功能的部分赋予相同的符号，并省略其重复的说明。

实施例1

在图1中示出了作为本发明的第一实施方式的本发明的合成声音的时间波形的一例。图的上面左侧是输入声音信号，在其右侧表示的是输入声音信号的声谱图(声谱图中，横轴表示时间，纵轴表示频率，通过颜色的深浅表示能量的强弱)。

在输入声音信号波形的下面，表示输入声音信号的振幅包络线，在振幅包络线下面表示作为该声音信号以外的声音的水流声的波形和声谱图。

最下面，表示将振幅包络线分量和水流声相乘后合成的本发明的合成声音。从波形以及声谱图可知，对于本发明的合成声音来说，振幅包络线分量具有该声音信号的振幅包络线分量，频率分量具有水流声(该声音信号以外的音信号)的频率分量。

在图2中作为本发明的第二实施方式示出了将声音以及该声音以外的音分割为4个频带(～600Hz)，(600Hz～1500Hz)，(1500Hz～2500Hz)，(2500Hz～4000Hz)后再进行合成的例子。从上面开始依次是，输入声音信号(表达内容“天然水水的流动”)，实际的水流的声音，将输入声音信号和实际的水流的声音简单地进行了重叠时的波形，将本发明的输入声音信号设为“天然水水的流动”，将该声音以外的信号作为实际的水流的声音而合成后的声音的波形。

在这里想到了矿泉水的广告，是想让用户在听到了用于宣传的广播声音的同时也能够听到充满清凉感的水流声的广告。至今为止的广告用声音、电影、游戏机、移动电话机等的声音内容，不言自明几乎全都是将两种声音简单地重叠来制作的。

但是，通过简单重叠得到的声音，从图的波形就能清楚地了解到，由于声音和水流声这两种声音混在一起所以不具有作为一个声音的个性，而且两种声音混在一起听不清楚。若为了能更好地听到声音而提高音量的话就会觉得嘈杂，相反的如果提高水流声的音量那么不仅会觉得嘈杂而且关键的广播声音也很难听见。

而且，众所周知这样的广告声音、声音内容，在如今相当普遍的缺乏个性，已经基本无法给用户留下深刻的印象。

另一方面，最下面示出的本发明的合成声音，是用水流声合成声音的因此作为一个声音充满个性，能给人留下深刻的印象，而且即使不提高音量用户也能够同时分辨出广播声音的内容以及水流声。

在图3中示出了图2中表示的各声音的声谱图。将水流声简单重叠而得到的声音中，在所有的频带中水流声都重叠于声音。

另一方面，利用本发明的水流声合成的声音，虽然使声音的频率分量的细微构造消失，水流声的频率分量取代了各频带内的频率分量，但通过颜色深浅表示的各频带的振幅包络线还是声音的原样。

由此，与专利文件1中记载的劣化杂音声音相同在最初理解要表达的内容时或许有些困难，但由于振幅包络线信息还保留着，所以如果知道了答案那么就能理解了，而且还能够使水流声的形象也进行传达。

而且，因为自然界中并不存在如本实施例这样由水流声制作出的声音，所以会给用户留下深刻的印象这点不言自明。

劣化杂音声音，是通过替换为杂音在去除声音的频率信息的基础上生成仅保留振幅包络线信息的声音，以促进大脑的活性化的“大脑训练”为目的的声音，因为频率分量是一样的所以振幅包络线是一条直线，而且是以使用没有任何特征的杂音(白噪声(white noise))为前提的。

由此，即使使用水流声等有含义的真实的声音(收听者知晓什么声音的真实存在的声音)作为该声音信号以外的音信号，也与白噪声不同，因为在真实的声音侧存在着具有该声音的特征的振幅包络线信息，所以没有考虑成为能够理解声音的含义内容的声音。

但是此次，在各种条件下的试验错误的结果，即使是如本实施例那样的合成声音也能充分地将含义内容进行传达，而且新获得能够合成作为一个声音而充满个性的、给人深刻印象的某声音的见解，本发明才得以完成。

图4是用于制作本发明的合成声音的第一框图，包括：由带通滤波器4构成的第一带通滤波部1，由包络线抽出器5构成的包络线抽出部2，由带通滤波器6构成的第二带通滤波部3，以及乘法部7。

输入声音信号被输入到第一带通滤波部中，通过带通滤波器4被限定为规定的频带的信号后，通过包络线抽出部2的包络线抽出器5抽出振幅包络线信息。另一方面，输入声音信号以外的信号，被输入到第二带通滤波部3中，通过带通滤波器6被限定为规定的频带的信号。

作为包络线抽出器5的输出的被带通滤波后的输入声音信号的振幅包络线，和作为带通滤波器6的输出的被带通滤波后的输入声音信号以外的信号，通过乘法部7相乘后被输出。

图5是用于制作本发明的合成声音的第二框图，包括：由多个带通滤波器4构成的第一带通滤波部1，由多个包络线抽出器5构成的包络线抽出部2，由多个带通滤波器6构成的第二带通滤波部3，多个乘法部7，以及加法部8。

关于第二框图，使用图6来进行更详细的说明。在图6中，第一带通滤波部1的第一个带通滤波器4是LPF(低通滤波器)，第二个之后的带通滤波器4由通过频带不同的BPF(带通滤波器)构成。

例如，如果第一带通滤波部1由四个带通滤波器4构成，则第一个LPF的截止频率以及第二个之后的BPF的下限频率和上限频率，为了声音识别考虑到重要的共振峰频率等特征量的一般的频率值，分别设定为(600Hz)，(600Hz，1500Hz)，(1500Hz，2500Hz)，(2500Hz，4000Hz)左右的值。

这些带通滤波器4的输出，分别被输入到由用于抽出声音的振幅包络线信息的LPF构成的包络线抽出器5中。这里的包络线抽出器5的目的是，抽出被输入信号的振幅的包络线(即，声音强度的强弱信息)。因此，包络线抽出器5是，为了将振幅包络线以外的多余的频率信息删除掉而仅保留振幅包络线信息，由具有截止频率为10Hz～20Hz的LPF等构成。

另外，在这里虽没有示出，但理所当然，也可在具有截止频率为10Hz～20Hz的LPF的前级或者后级配置半波整流器，即可得到仅由正分量构成的振幅包络线。

另一方面，输入声音以外的信号，被输入到由具有与带通滤波器4同样的截止频率、上限频率、下限频率的带通滤波器6(LPF以及BPF)构成的第二带通滤波部3中。

包络线抽出部5的输出和带通滤波器6的输出，各自对应的输出之间通过乘法部7相乘。这时，通过了各带通滤波器4的输入声音信号的通过频带内的频率信息，全部被输入声音信号以外的信号的对应频带内的频率信息替换了。这就是说，输入声音信号的信息仅剩下各通过频带内的振幅包络线信息。最后，各乘法部7的输出在加法部8中相加后被输出。

另外，在本实施例中，虽然声音以及该声音以外的音被分割为4个频带(～600Hz)，(600Hz～1500Hz)，(1500Hz～2500Hz)，(2500Hz～4000Hz)，但可以根据声音内容、该声音以外的音信号的特征以及想要宣传的对象物、内容等自由地变更分割的频带的数量、分割时的截止频率、上限频率、下限频率。

再者，在本实施例中，虽然将输入声音信号(宣传的广播声音)输入到第一带通滤波部1中，将输入声音信号以外的信号(形象音：流水声)输入到第二带通滤波部3中，但也可将输入声音信号以外的信号(形象音：流水声)输入到第一带通滤波部1中，而将输入声音信号(宣传的广播声音)输入到第二带通滤波部3中。

此时，输入声音信号以外的信号的振幅包络线信息残留下来，使用声音的频率信息进行合成加工，因而振幅包络线如果使用具有特征的声音(例如，关门时的突发声音、吃煎饼等食物时发出的咀嚼声等)，就能够合成加工出更富有影响力的某种声音。

而且，在本实施例中，虽然在输入声音信号以外的信号中使用了水流声，但这并不表示总要使用水流声，可以根据想要宣传的企业、商品等使用各种各样的声音。

例如，能够使用各种各样的环境音(风声，波浪声，虫子或动物的叫声等)、汽车的引擎声、吃薯片的声音、冰和玻璃相碰的声音、一些音乐、乐曲、歌声等进行合成加工，所以才能不断地为用户提供不会让用户感到厌烦的、常给人以新鲜感的某种声音。

而且，并不限于如本实施例那样的在商业广告声音、声音标识中使用的声音，能够在使用声音的所有的商品中利用在电影、电视剧、动画、游戏、移动电话的铃声等的媒体、软件、商品等之中的声音内容、效果音、拟人化声音。

权利要求书(按照条约第19条的修改)

1.一种制作合成声音的方法，该合成声音用于让收听者通过收听声音信号想起该声音信号以外的收听者知晓是什么声音的实际存在的音信号的形象，该方法的特征在于包括以下步骤：

抽出输入声音信号的特定的频带的信号，抽出所述被抽出的信号的振幅包络线分量，抽出所述该声音信号以外的收听者知晓是什么声音的实际存在的音信号的特定的频带的信号，将所述输入声音信号的振幅包络线分量和所述被抽出的实际存在的音信号的特定的频带的信号相乘。

2.一种制作合成声音的方法，该合成声音用于让收听者通过收听声音信号想起该声音信号以外的收听者知晓是什么声音的实际存在的音信号的形象，该方法的特征在于包括以下步骤：

将输入声音信号分割成多个频带，分别抽出所述被分割的频带信号的振幅包络线分量，将所述该声音信号以外的收听者知晓是什么声音的实际存在的音信号分割成多个频带，分别将所述振幅包络线分量和被分割成所述频带的实际存在的音信号相乘，将所述相乘的结果相加。

3.一种合成声音制作装置，该合成声音用于让收听者通过收听声音信号想起该声音信号以外的收听者知晓是什么声音的实际存在的音信号的形象，该合成声音制作装置的特征在于：

该合成声音制作装置由第一带通滤波器部、包络线抽出部、第二带通滤波器部以及乘法部构成，所述第一带通滤波器部由将输入声音信号分割成特定的频带的带通滤波器构成，所述包络线抽出部由抽出所述第一带通滤波器部的输出信号的振幅包络线分量的包络线抽出器构成，所述第二带通滤波器部由将所述该声音信号以外的收听者知晓是什么声音的实际存在的音信号分割成特定的频带的带通滤波器构成，所述乘法部具有将所述包络线抽出部的输出和所述第二带通滤波器部的输出相乘的功能。

4.一种合成声音制作装置，该合成声音用于让收听者通过收听声音信号想起该声音信号以外的收听者知晓是什么声音的实际存在的音信号的形象，该合成声音制作装置的特征在于：

该合成声音制作装置由第一带通滤波器部、包络线抽出部、第二带通滤波器部、乘法部以及加法部构成，所述第一带通滤波器部由将输入声音信号分割成多个频带的多个带通滤波器构成，所述包络线抽出部由分别抽出所述第一带通滤波器部的输出信号的振幅包络线分量的包络线抽出器构成，所述第二带通滤波器部由将所述该声音信号以外的收听者知晓是什么声音的实际存在的音信号分割成多个频带的多个带通滤波器构成，所述乘法部具有将所述包络线抽出部的输出和所述第二带通滤波器部的输出分别相乘的功能，所述加法部具有将所述乘法部的输出信号相加的功能。

Claims

1.一种合成声音，其用于让收听者通过收听声音信号想起该声音信号以外的音信号的形象，该合成声音的特征在于：该合成声音是合成振幅包络线分量和频率分量而构成的，所述振幅包络线分量是该声音信号的振幅包络线分量，所述频率分量是除去杂音的该声音信号以外的音信号的频率分量。

2.一种合成声音，其用于让收听者通过收听声音信号想起该声音信号以外的音信号的形象，该合成声音的特征在于：该合成信号是合成振幅包络线分量和频率分量而构成的，所述振幅包络线分量是将该声音信号分割成多个频带时的各频带的信号的振幅包络线分量；所述频率分量是将除去杂音的该声音信号以外的音信号分割成所述多个频带时的各频带的频率分量。