CN1547192A

CN1547192A - 一种声音合成方法

Info

Publication number: CN1547192A
Application number: CNA2003101168266A
Authority: CN
Inventors: 张韵东; 赵原
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2003-11-28
Filing date: 2003-11-28
Publication date: 2004-11-17
Anticipated expiration: 2023-11-28
Also published as: CN1251175C

Abstract

本发明公开了一种声音合成方法，属于声音合成领域。使用该方法的装置结构简单、紧凑，成本低廉，不会增加系统负担并且易于扩展。本发明步骤为：1)声音文件分析模块将提取的声音代码发送给声音合成事件生成模块；2)声音合成事件生成模块计算出声音合成所需要的参数；3)声音合成事件生成模块合成一个数据块，即事件，并将事件发送给事件调度控制模块；4)事件调度控制模块将事件合理的分配给声音信号生成模块的一个合成通道上；5)合成通道根据合成事件中的合成参数，从音源数据区中取出相应的声音采样并根据合成事件包含的其他参数对相应声音采样进行调频和调幅完成声音的合成。

Description

一种声音合成方法

技术领域

本发明涉及声音合成领域，尤其涉及一种对不同种类声音数据进行合成的方法。

背景技术

现有技术中通过声音合成系统来进行还原和再现的声音文件主要包括以下三大类：

声音信号文件，这类文件从根本上讲都是记录了声音本身的波形数据，采用不同的编码算法对原始波形数据进行处理进而缩减文件大小，在还原此类声音文件时，再用相应的解码器将其还原成原始的声音波形数据。MP3就是此类文件，如附图1所示，在合成声音的时候，MP3解码器对MP3数据进行解码，将其还原成PCM声音波形数据，如果需要改变声音波形特性，比如：采样率、采样精度、或者增加一些类似于混响等的特殊效果，还要解码器后增加其他的模块。

乐谱文件，这类文件记录着乐器演奏的节奏和音阶的信息，其本身并不包含具体声音波形数据。因此乐谱文件的特点是文件尺寸非常小，一首5分钟的大型交响乐也不过100Kbyte左右，这与声音信号文件动辄几M、几十M的尺寸是无法相比的。但它的缺点是合成方式比较复杂。就像平常我们使用的乐谱中存在简谱和五线谱之分一样，现在也存在着多种此类的乐谱文件，比如：MIDI，SMAF等等。如附图2所示以MIDI的波表合成为例作简要介绍：首先，包洛曲线生成器根据MIDI消息，计算出包洛曲线；其次，波形生成器从波表库中取出与MIDI消息相对应的波表数据，即所要合成乐器的真实声音的采样数据，然后再进行调频计算产生波形；最后，用包洛曲线对波形数据进行调幅完成对MIDI消息的合成。其他种类乐谱文件的合成方法与MIDI波表合成方法基本类似。

语音合成文件，相对于以上两种声音文件格式，语音合成的文件最为简单，只要是文本文件就可以，尽管其合成算法的复杂度远远超过上述的两种文件，如附图3所示是对语音合成原理的简要介绍：文本分析模块根据词汇支持库对语音文件进行分析，韵律建模模块在规则库的支持下进行韵律建模，语音合成器根据韵律建模的结果，从原始语音库中取出相应的语音基元，再利用特定的语音合成算法对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。其中语音基元就是真人朗读语言片断(可能是字，也可能是词)的采样数据。

在实际应用中，一个声音合成系统很难同时支持上述三种文件格式，如果需要同时支持上述三种文件格式，一般是两种做法：第一种，用三个独立的系统分别处理三种文件格式，这样的缺点是解决方案不够紧凑，而且也需要附加的系统来协调三个不同合成系统的工作。第二种方法，就是设计一个系统完全实现对三种文件的支持，但是，从上面的论述可以看出，三种文件的合成方法差别很大，要实现这样一个系统无疑是非常复杂的，而且整个系统的可扩展性不强，比如说，如果需要系统也要支持SMAF(SMAF是一种附和的文件格式，它既包含像MIDI一样的乐谱数据，也包含像MP3的声音的波形信号数据)，那么就需要对系统进行修改。如果系统是一枚芯片的话，那么芯片内部需要有CPU，而且还要预留其他资源，用来以后对系统进行扩展，这样做无疑是不经济的。

这就需要一种可对不同文件格式且本身不带有声音波形数据的声音数据文件进行还原和合成的声音合成系统来解决以上问题。

本发明人在研究以上文件类型后发现，三种文件的合成器还是存在着一些近似点的，比如：在语音合成系统中的语音合成器这个模块功能上非常类似于乐谱文件(MIDI)的波表合成器。它们都是从音源库中提取出音源，对于波表合成来讲，它是从波表库中提取真实乐器的采样数据，而对于语音合成来讲，是从语音库中提取人朗读某个语音基元的采样。然后合成器再对采样数据进行调频和调幅来合成音乐或者语音。对于声音信号文件来讲，如果需要对经过解码器还原的声音信号进行的进一步的处理(比如：改变采样率，采样精度等等)，或者把多路不同的声音信号数据按一定要求进行混合的话，那么可以认为，实现这种功能的模块就是一个新的声音合成器，其中经过解码器还原得PCM波形数据就是音源。而且乐谱合成器和语音合成器也需要这样的模块。

发明内容

为了解决现有技术中的问题和不足，本发明的目的在于提供一种对不同种类声音数据进行合成的方法。使用该方法的装置结构简单、紧凑，成本低廉，不会增加系统负担并且易于扩展。

为了实现上述发明目的，本发明的技术方案以如下方式实现：

一种声音合成方法，其步骤为：1)声音文件分析模块从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块；2)声音合成事件生成模块根据接收到的声音代码，从声音合成事件生成模块存储的系数库中提取出相应的采样信息，并计算出声音合成所需要的参数；3)声音合成事件生成模块将声音合成所需要的参数合成一个数据块，即事件，并将事件发送给事件调度控制模块；4)事件调度控制模块将事件合理的分配给声音信号生成模块的一个合成通道上；5)合成通道根据合成事件中的合成参数，从音源数据区中取出相应的声音采样并根据合成事件包含的其他参数对相应声音采样进行调频和调幅完成声音的合成。

上述步骤1)中所述的声音数据可以包括乐谱数据和语音数据，所述声音文件分析模块中的乐谱数据分析模块和语音合成分析模块分别提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块。上述乐谱数据可以包括MIDI数据和SMAF数据。

上述步骤1)前还包括下面步骤：声音文件分析模块对输入的声音数据进行处理，并将相应的音源数据发送到音源数据处理模块；所述步骤4)前还包括下面步骤：音乐数据处理模块将音源数据发送到数据音源区中。步骤1)中所述的声音数据可以包括声音信号数据、乐谱数据和语音数据，所述声音文件分析模块中的乐谱数据分析模块、语音合成分析模块和声音信号分析模块分别提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块。声音信号数据可以包括MP3数据和WAV数据。

对比现有技术，本发明的优点在于：

由于声音合成事件是声音合成过程中的具有一定共性的模型，其与具体文件格式无关，使用声音合成事件作为声音文件分析模组和声音合成模块之间的桥梁，可以实现声音合成模块完全独立，这样有利于声音合成模块的实现，而且，如果声音合成模块设计的复杂并有其他特殊效果，只不过增加声音合成事件中的参数就可以了；

另外，使用本发明方法的装置可以根据需要方便的增加或者减少声音文件分析模组所包含声音数据分析模块的种类，这样在构成整个合成系统的时候就非常的灵活。

附图说明

图1为MP3音乐数据的还原合成示意图；

图2为MIDI的波表合成原理示意图；

图3为语音合成原理示意图；

图4为本发明第一种合成方法的流程图；

图5为使用图4所述方法的装置结构图；

图6为本发明MIDI文件的包洛曲线图；

图7为本发明第二种合成方法的流程图；

图8为使用图7所述方法的装置结构图。

具体实施方式

参看图4，一种声音合成方法，其步骤为：1)声音文件分析模块从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块；2)声音合成事件生成模块根据接收到的声音代码，从声音合成事件生成模块存储的系数库中提取出相应的采样信息，并计算出声音合成所需要的参数；3)声音合成事件生成模块将声音合成所需要的参数合成一个数据块，即事件，并将事件发送给事件调度控制模块；4)事件调度控制模块将事件合理的分配给声音信号生成模块的一个合成通道上；5)合成通道根据合成事件中的合成参数，从音源数据区中取出相应的声音采样并根据合成事件包含的其他参数对相应声音采样进行调频和调幅完成声音的合成。

上述步骤1)中所述的声音数据可以包括乐谱数据和语音数据，也可以为单独的乐谱数据或者语音数据。乐谱数据则包括MIDI数据和SMAF数据。

参看图5，使用上述方法的声音合成系统包括分析子系统A和合成子系统B；系统A负责不同声音文件的分析，并且产生声音合成事件，通过这样的事件驱动声音合成系统B合成具体的声音信号。分析子系统A包括一个声音文件分析模块10，一个声音合成事件生成模块20；声音文件分析模块10对系统所接收到的声音数据进行分析，声音合成事件生成模块20接收声音文件分析模组10发送的相关声音信息和参数；声音合成事件生成模块20根据所述声音文件分析模组10传来的分析结果，生成适合合成子系统B合成声音信号所需的声音合成事件；合成子系统B包括一个事件调度控制模块40，一个声音合成模块50和一个音源数据区30；事件调度控制模块40接收子系统A中的声音合成事件生成模块20传来的声音合成事件，并合理分配声音合成事件到声音合成模块50中的合成通道上，声音合成模块50根据合成事件中带有的关于声音采样所在位置的参数，从音源数据区30中取出相应的声音采样，再根据声音合成事件包含的其他参数对声音采样进行调频和调幅等各种处理工作完成音符的合成。

声音文件分析模块10为多个相同或不同类型的声音文件分析子模块，这些声音文件分析子模块分别从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块20。所述声音文件分析子模块包括乐谱数据分析模块11和语音合成分析模块12。

下面用MIDI文件(乐谱文件)为例说明上述方法：

这里还是沿用图2中所举的MIDI消息的例子来进行说明：00 C000 00 90 64 70 55 80 64 70。

1)当音色消息00 C0 00、音符开始消息00 90 64 70和音符结束消息55 80 64 70被乐谱数据分析模块所接收到时，乐谱数据分析模块从中提取了几个非常有用的信息：音色代码00、消息代码90、音调代码64、速度代码70和音符持续时间55。并将这些代码发送到声音合成事件生成模块。

2)声音合成事件生成模块根据接收到的消息代码，从波表系数库中提取出波表采样的一些信息，再根据波表合成的算法计算出波表合成所需要的参数。在MIDI合成中所用到的波表库是事先储存在子系统B的音源数据区中的，而表示这个波表库里的波表采样性质的一些参数是储存在子系统A的声音合成事件生成模块里的波表系数库中的。关于如何计算得到合成参数这里就不加赘述了。

请参考其他文献。

所生成的声音合成参数主要分为以下几类

第一类：有关和成所需波表文件在音源库中(即波表库)的地址信息：

BASEOFFSET 波表文件的循环起始点在波表库中的

地址

CURPTR 当前位置距离BASEOFFSET的偏移量

CURSIGN CURPTR的符号位

ENDPTR；报表尾距离BASEOFFSET的偏移量

If(CURSIGN＝＝0)

一个采样数据的实际地址＝BASEOFFSET+CURPTRelse

一个采样数据的实际地址＝BASEOFFSET-CURPTR

第二类：有关包洛曲线的参数

参看图6，EVLP1，EVLP2，EVLP3，EVLP4对应于包洛曲线的四段的性质。

以EVLP1为例：

EVLP1.EVLPCHG 在此段包洛曲线的变化量

EVLP1.EVLPMOD 包洛曲线的数值是递增还是递减，还是保持不变

EVLP1.ECNTINIT 包洛曲线生成器的计数器的初始值包洛曲线的生成方法就不在这里叙述了。

第三类：波表采样的参数

SMPCTR 波表采样是单声道的还是双声道的

BITCTRL 波表采样的采样精度是16bit还是8bit

SIGNCTRL 波表采样的数值是又有符号数，还是无符号数

第四类：低频振荡器参数(LFO)，

用来产生低频的三角波，在附加AMSTEP，FMSTEP对声音进行调频调幅以达到使声音更加真实的目的。

SINVAL 三角波的绝对值

SINDIR 三角波的符号

LFOCNT 以下三个参数控制三角波的周期

LFOINIT；

LFOSIGN

AMSTEP 与三角波配合的调幅参数

FMSTEP 与三角波配合的调情参数

第五类：音量控制

RVOL 回声音量控制

CVOL 混响音量控制

CHNVOL_L 左声道音量控制

CHNVOL_R 右声道音量控制

第六类：调频参数

FRATIO 这是个非常重要的参数，表达了输入波表采样的频率和采样率，与所要合成的音符的频率和合成输出数据的采样率之间的计算关系。

第七类：其他控制信息：

CHNATRB 这组参数代表的文件类型，

例如：如果是MIDI CHNATRB＝＝0，

如果是声音信号数据CHNATRB＝＝1，

如果是语音合成数据CHNATRB＝＝2……

3)声音合成事件生成模块将这些参数组合成一个数据块，这个数据块就是本文所说的一种声音合成事件，作用是告诉子系统B如何合成0号音色的这个音符。可以看到，这种事件完全不含节奏和音符的概念，可以说是抽象出来的一个模型。

4)当子系统B接受到这个声音合成事件以后，事件调度控制模块把它合理的分配给声音信号合成模块的一个合成通道上。

5)这个合成通道根据合成事件中带有的关于波表采样所在位置的参数，从音源数据区中取出相应的波表采样。在根据合成事件包含的其他参数对波表采样进行调频和调幅，这样就完成整个音符的合成工作。

参看图7，一种音乐合成方法，其步骤为：1)声音文件分析模块对输入的声音数据进行处理，并将相应的音源数据发送音源数据处理模块；2)声音文件分析模块从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块；3)声音合成事件生成模块根据接收到的声音代码，从声音合成事件生成模块存储的系数库中提取出相应的采样信息，并计算出声音合成所需要的参数；4)声音合成事件生成模块将声音合成所需要的参数合成一个数据块，即事件，并将事件发送给事件调度控制模块；5)音乐数据处理模块将音源数据发送到数据音源区中；6)事件调度控制模块将事件合理的分配给声音信号生成模块的一个合成通道上；7)合成通道根据合成事件中的合成参数，从音源数据区中取出相应的声音采样并根据合成事件包含的其他参数对相应声音采样进行调频和调幅完成声音的合成。

上述步骤1)中的声音数据可以为声音信号文件。上述声音信号文件可以为MP3和WAV文件。步骤1)中的声音数据还可以包括乐谱数据和语音数据。

参看图8，使用上述方法的基于不同种类声音数据的声音合成系统包括分析子系统A和合成子系统B；系统A负责不同声音文件的分析，并且产生声音合成事件，通过这样的事件驱动声音合成系统B合成具体的声音信号。分析子系统A包括一个声音文件分析模组10，一个声音合成事件生成模块20和一个音源数据处理模块60；声音文件分析模组10对系统所接收到的声音数据进行分析，声音合成事件生成模块20接收声音文件分析模组10发送的相关声音信息和参数，音源数据处理模块60接收声音文件分析模组10发送的音源数据；声音合成事件生成模块20根据所述声音文件分析模组10传来的分析结果，生成适合合成子系统B合成声音信号所需的声音合成事件；音源数据处理模块60把所述声音文件分析模组10传来的合成声音所需要的音源数据进行统一的编码，发送到系统B的音源数据区30中的可扩展区中；合成子系统B包括一个事件调度控制模块40，一个声音合成模块50和一个包含有可扩展区的音源数据区30；事件调度控制模块40接收子系统A中的声音合成事件生成模块20传来的声音合成事件，并合理分配声音合成事件到声音合成模块50中的合成通道上，声音合成模块50根据合成事件中带有的关于声音采样所在位置的参数，从音源数据区30中取出相应的声音采样，再根据声音合成事件包含的其他参数对声音采样进行调频和调幅等各种处理工作完成音符的合成。

上述声音文件分析模块10为多个相同或不同类型的声音文件分析子模块，这些声音文件分析子模块分别从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块20。所述声音文件分析子模块包括乐谱数据分析模块11、语音合成分析模块12和声音信号分析模块13。

下面用MP3文件(声音信号文件)为例说明上述方法：

1)首先声音信号分析模块对输入的MP3文件的一段进行解码，输出PCM波形数据，再把PCM数据传送到音源数据处理模块。

2)声音信号分析模块把PCM数据参数发送到声音合成事件生成模块。PCM数据有三个重要的参数：采样精度、采样频率、每个采样点的数据大小(表示是否是双声道的数据)。

3)声音合成事件生成模块根据输入参数：采样精度、采样频率、每个采样点的数据大小，再根据系统对输出的采样精度、采样频率、每个采样点的数据大小的要求，计算出一组参数。声音合成事件生成模块将这些参数组合成声音合成事件发送到子系统B。

这组参数基本上与MIDI波表合成时的参数是一样的，只不过参数的意义略有变化：

第一类：PCM数据在音源数据区所处在的位置

BASEOFFSET PCM数据的地址

CURPTR 当前位置距离BASEOFFSET的偏移量

CURSIGN CURPTR的符号位

ENDPTR；PCM数据尾距离BASEOFFSET的偏移量

第二类：有关包洛曲线的参数

由于在声音信号处理的时候，包洛曲线都是一条直线，所以：EVLP1，EVLP2，EVLP3和EVLP4各自参数中的：

EVLPCHG 在此段包洛曲线的变化量为0

EVLPMOD 包洛曲线的数值都是保持不变

ECNTINIT 包洛曲线生成器的计数器的初始值可以任意

第三类：调频参数

FRATIO 由于在处理声音信号数据的时候，输入的PCM数据和输出的PCM数据之间频率保持不变，所以FRATIO表达了输入PCM采样的采样频率，与所要合成的输出PCM数据的采样率之间运算关系。

4)音源数据处理模块将PCM数据传送到子系统B中的数据音源区中，放置的地址要和声音合成事件包含的第一类参数一致。

5)子系统B接收到这个声音合成事件以后，事件调度控制模块把它合理的分配给声音信号合成模块的一个合成通道上。

6)这个合成通道根据合成事件中带有的关于PCM数据所在位置的参数，从音源数据区中取出相应的PCM数据。在根据合成事件包含的其他参数对PCM数据进行调频和调幅。

7)当声音信号合成模块将这一段的PCM数据合成结束以后，它将通知子系统A。

8)子系统A的声音信号分析模块在对下一段MP3数据解码，输出PCM数据到音源数据处理模块。再由音源数据处理模块将这段PCM数据传送到音源数据区中。

9)由于与前一段PCM数据的采样精度、采样频率、每个采样点的数据大小都是一样的，所以声音合成事件生成模块就不需要重新产生声音合成事件。

10)子系统B重复4)、5)、6)这三个步骤

11)整个系统在过程7)与过程9)之间循环，直到整个MP3文件合成完毕。

Claims

1.一种声音合成方法，其步骤为：1)声音文件分析模块从接收到的声音数据中提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块；2)声音合成事件生成模块根据接收到的声音代码，从声音合成事件生成模块存储的系数库中提取出相应的采样信息，并计算出声音合成所需要的参数；3)声音合成事件生成模块将声音合成所需要的参数合成一个数据块，即事件，并将事件发送给事件调度控制模块；4)事件调度控制模块将事件合理的分配给声音信号生成模块的一个合成通道上；5)合成通道根据合成事件中的合成参数，从音源数据区中取出相应的声音采样并根据合成事件包含的其他参数对相应声音采样进行调频和调幅完成声音的合成。

2.按照权利要求1所述的声音合成方法，其特征在于，所述步骤1)中所述的声音数据可以包括乐谱数据和语音数据，所述声音文件分析模块中的乐谱数据分析模块和语音合成分析模块分别提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块。

3.按照权利要求2所述的声音合成方法，其特征在于，所述乐谱数据可以包括MIDI数据和SMAF数据。

4.按照权利要求1所述的声音合成方法，其特征在于，所述步骤1)前还包括下面步骤：声音文件分析模块对输入的声音数据进行处理，并将相应的音源数据发送到音源数据处理模块；所述步骤4)前还包括下面步骤：音乐数据处理模块将音源数据发送到数据音源区中。

5.按照权利要求4所述的声音合成方法，其特征在于，所述步骤1)中所述的声音数据可以包括声音信号数据、乐谱数据和语音数据，所述声音文件分析模块中的乐谱数据分析模块、语音合成分析模块和声音信号分析模块分别提取相关声音代码并将提取的声音代码发送给声音合成事件生成模块。

6.按照权利要求5所述的声音合成方法，其特征在于，所述声音信号数据可以包括MP3数据和WAV数据。