CN112820257A - 一种基于matlab的gui声音合成装置 - Google Patents
一种基于matlab的gui声音合成装置 Download PDFInfo
- Publication number
- CN112820257A CN112820257A CN202011586956.6A CN202011586956A CN112820257A CN 112820257 A CN112820257 A CN 112820257A CN 202011586956 A CN202011586956 A CN 202011586956A CN 112820257 A CN112820257 A CN 112820257A
- Authority
- CN
- China
- Prior art keywords
- sound
- frequency
- signal
- mode
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims abstract description 46
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000003631 expected effect Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000002360 preparation method Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及一种基于MATLAB的GUI声音合成装置,包括参数调试单元和批量生成单元,参数调试单元,通过GUI图形界面系统对合成声音的频率、幅值、周期以及模式进行参数调整,以达到预期的效果,并可对声音信号进行1/3倍频程分析与模拟频移;在其他参数固定的前提下,将频率或周期作为变量,以固定的步长批量生成一系列声音文件,以满足后续主客观评价工作的需要。本发明可应用于教学中,通过可视化界面操作,可使得学生对数字信号处理的相关知识的理解更加深刻;在实际生产中,可使提示音设计者更方便快捷地获得待评价的提示音音源,并可对其进行调整;可快速生成机器学习相关算法的训练集,减少前期准备的工作量减少所需成本和人力。
Description
技术领域
本发明属于数字信号处理技术领域,具体涉及一种基于MATLAB的GUI声音合成装置,适用于提示音设计与筛选工作。
背景技术
随着我国经济发展和人民生活水平的提高,消费者对与汽车舒适性与安全性的认知和要求越来越高。以安全带提示音为代表的车内提示音,以及在电动汽车中具有重要作用的车外提示音,既要具有一定的警示性,能够快速、准确地提醒驾驶员道路状况以及车辆信息,同时又要兼顾其声品质,使提示音听起来悦耳,有“品质”感。
为此,需要合理选择提示音所用音源。传统的方法是设计出大量待选择音源,从中选择出适合的音源。但在现有声音合成过程中,缺乏能较好满足提示音音源生成需求的工具,且具有操作复杂繁琐以及上手困难等问题。
发明内容
本发明的目的在于提供一种基于MATLAB的GUI声音合成装置,以解决现有声音合成装置存在操作复杂繁琐,非专业人士不易上手等问题。
本发明的目的是通过以下技术方案实现的:
一种基于MATLAB的GUI声音合成装置,其特征在于,包括:
参数调试单元,通过GUI图形界面系统对合成声音的频率、幅值、周期以及模式进行参数调整,并通过绘制1/3倍频程图和模拟频移进行辅助评价,其中,所述GUI图形界面系统用于给用户提供操作界面;以及
批量生成单元,在其他参数固定的前提下,将频率或周期作为变量,以固定的步长批量生成一系列声音文件,并生成记录批量生成相关参数的参数文件;
所述参数调试单元包括:
生成部,按照所设置的各项参数合成声音信号,并根据发声模式的不同调用不同的包络函数,对声音信号进行包络,消除相位突变造成的爆破音;
试听部,对生成部合成的声音信号通过计算机声卡输出,用于用户判断所合成声音信号的质量;
分析部,绘制试听部合成的声音信号的1/3倍频程图;以及
频移部,用于设置频移初始频率及频移模式,生成模拟频移信号。
进一步地,所述参数调试单元包括声音格式部,用于用户在单频、多频以及和弦三种发声模式中选择一种模式设置所合成声音的基波与谐波频率、发声时间以及间隔时间参数。
更进一步地,所述单频发声模式,由用户手动选择需要激活的通道,设置每个通道的基频频率、一周期内的发声时长、各阶倍频频率等参数,并于声音格式部内对应位置输入间隔时长与总时长的值,按照所设置参数为每个通道生成周期性断续的正弦信号,并将标记为激活的通道相互叠加,以合成目标声音信号。
更进一步地,所述多频发声模式,采用与单频相同的通道,各通道按照编号排列先后顺序,声音格式部内将各个通道生成的信号首尾相接,以合成目标信号。
更进一步地,所述和弦发声模式,用户在声音格式部选择要应用的和弦名称,并输入根音频率、发声时长及各阶振幅,根据对应的音程关系自动设置频率,将各阶频率下得到的信号叠加以得到目标信号。
进一步地,所述参数调试单元还包括导出部和保存部,用于设置保存路径与文件名,以及将所合成的声音信号导出为声音波形文件。
进一步地,所述批量生成单元,用于选择声音模式、目标参数与通道,并设置其上下限与步长,能够自动按照上下限与步长批量生成声音信号,创建输出对应的声音波形文件,提醒操作者操作完成,并生成记录记录本次批量生成参数的文本文档。
进一步地,所述模拟频移,将生成部生成的声音信号与模拟频移信号叠加,以初步判断所生成声音在实际使用中的表现。
更进一步地,所述模拟频移信号的合成,是根据设定的基础频率生成对应正弦信号,使用相位编码器算法对此正弦信号进行若干次重采样,以改变其频率,每次重采样中上采样与下采样的次数由选择的频移方式决定,在幅值稳定的中间部分截取特定长度的重采样信号,对其首尾分别进行渐入渐出处理后,在时域上首尾相接,再通过带通滤波以消除相位突变引入的噪声,得到模拟频移信号。
与现有技术相比,本发明的有益效果在于:
本发明基于MATLAB的GUI声音合成装置,使用GUI可视化工具,设置了“单频”、“多频”、“和弦”三种声音模式,提供了3个可选通道,每个通道最高支持8次谐波,可以对合成的声音进行试听和时频图、1/3倍频程图等图表的绘制;对于一组特定的参数,可以对基频频率、发声时长、间隔时长等三个参数进行批量生成;可以满足提示音设计选择工作中的绝大部分需要;
本发明可应用于教学中,通过可视化界面操作,可使得学生对数字信号处理的相关知识的理解更加深刻;
本发明应用于实际生产中,可以使提示音设计者可以更方便快捷地获得待评价的提示音音源,并可对其进行调整;批量生成功能可以快速生成机器学习相关算法的训练集,大大减少前期准备的工作量减少所需成本和人力。
附图说明
图1为单频模式对应的频谱图;
图2为单频模式对应的时谱图;
图3为多频模式对应的频谱图;
图4为多频模式对应的时谱图;
图5为和弦模式对应的频谱图;
图6为和弦模式对应的时谱图;
图7为单频模式下的倍频程图;
图8为批量生成流程图;
图9-图12为不同模式下的包络函数的图像。
具体实施方式
下面结合实施例对本发明作进一步说明:
如图1-图12所示,本发明基于MATLAB的GUI声音合成装置,其特征在于,包括:参数调试单元和批量生成单元。其中,所述参数调试单元,通过GUI图形界面系统对合成声音的频率、幅值、周期以及模式进行参数调整,以达到预期的效果,并通过绘制1/3倍频程图和模拟频移进行辅助评价。其中,所述GUI图形界面系统用于给用户提供操作界面。所述批量生成单元,在其他参数固定的前提下,将频率或周期作为变量,以固定的步长批量生成一系列声音文件,并生成记录批量生成相关参数的参数文件。
具体地,所述参数调试单元,通过GUI图形界面系统在单频、多频以及和弦三种发声模式中选择合适的设置所合成声音的基波与谐波频率、发声时间、间隔时间等参数。其由声音格式部、生成部、试听部、分析部、频移部、导出部以及保存部构成。
其中,所述声音格式部,用于用户在单频、多频以及和弦三种发声模式中选择一种模式设置所合成声音的基波与谐波频率、发声时间以及间隔时间参数。
所述单频、多频和弦三种发声模式,其具体内容分别为:
所述单频发声模式,由用户手动选择需要激活的通道,设置每个通道的基频频率、一周期内的发声时长、各阶倍频频率等参数,并于在“声音格式”面板内对应位置输入间隔时长与总时长的值,GUI程序按照所设置参数为每个通道生成周期性断续的正弦信号,并将标记为激活的通道相互叠加,以合成目标声音信号。
所述多频发声模式,采用与单频相同的通道设置面板,各通道按照编号排列先后顺序。用户设置项与单频模式下相同,运行GUI程序后,程序将各个通道生成的信号首尾相接,以合成目标信号。
所述和弦发声模式,采用独立的设置面板,与前两模式共用“声音格式”面板。用户在“和弦”面板中选择要应用的和弦名称,并输入根音频率、发声时长及各阶振幅。GUI程序将根据对应的音程关系自动设置频率,将各阶频率下得到的信号叠加以得到目标信号。
所述生成部,当用户确认设置无误后,可通过点击主界面上的“生成”按钮,按照所设置的各项参数合成声音信号,并根据发声模式的不同调用不同的包络函数,对声音信号进行包络,消除相位突变造成的爆破音。GUI图形界面系统将在主界面上显示所合成信号的时频图与频谱图,方便用户检查所合成的信号是否符合要求,同时提醒用户声音合成完毕。
所述试听部,在信号合成结束后,点击“试听”按钮,对生成部合成的声音信号通过计算机声卡输出,用于用户判断所合成声音信号的质量。
所述分析部,点击“分析”按钮,将在新窗口中绘制试听部合成的声音信号的1/3倍频程图,并在图中显示声音信号的总声压级。
所述频移部,点击“频移”按钮,在弹出的界面上设置频移初始频率及频移模式,使程序生成模拟频移后的声音信号,可以在进行实际的频移操作前进行初步的主观评价。
所述导出部,点击“导出”按钮,在弹出的文件选择窗口中设置保存路径与文件名。所述保存部,点击“保存”,可将所合成的声音信号导出为声音波形文件(.wav格式)。
所述批量生成单元,用于选择声音模式、目标参数与通道,并设置其上下限与步长,能够自动按照上下限与步长批量生成声音信号,创建输出对应的声音波形文件,提醒操作者操作完成,并生成记录记录本次批量生成参数的文本文档。
所述模拟频移,将生成部生成的声音信号与模拟频移信号叠加,以初步判断所生成声音在实际使用中的表现。其中,所述模拟频移信号的合成,是根据设定的基础频率生成对应正弦信号,使用相位编码器算法对此正弦信号进行若干次重采样,以改变其频率,每次重采样中上采样与下采样的次数由选择的频移方式决定,在幅值稳定的中间部分截取特定长度的重采样信号,对其首尾分别进行渐入渐出处理后,在时域上首尾相接,再通过带通滤波以消除相位突变引入的噪声,得到模拟频移信号。
所述批量生成:在主面板上点击“批量生成”按钮,打开批量生成的设置界面,将自动读取此时的各项参数设置并输入子GUI程序,若此时需要改变参数,应将窗口关闭,重新设置参数后再次点击“批量生成”按钮。批量生成主要对发声时间、间隔时间和频率等三个参数进行操作。对于发声时间和间隔时间,其批量生成方法为:用户在“选择参数”面板上选择“周期”单选框,同时在“周期”面板上选择“发声时间”或“间隔时间”单选框,在其后的输入框内依次输入对应参数的下界、上界与步长,对于“多频”模式,还可以通过选择“通道”面板上的单选框设置需要改变发声时间的通道。点击“生成”按钮,程序将在对应参数的上、下界间,每隔一倍步长进行一次信号合成,根据所选模式自动生成输出文件夹,并将最终得到的信号输出为声音波形文件,同时还将输出记录了声音信号主要参数的文本文档(.txt格式)。
对于频率,其批量生成方法为:用户在“选择参数”面板上选择“频率”单选框,同时在“频率”面板输入的下界、上界与步长,对于“单频”模式,还可以通过选择“通道”面板上的单选框设置需要改变基频频率的通道。点击“生成”按钮,程序将在对应参数的上、下界间,每隔一倍步长进行一次信号合成,根据所选模式自动生成输出文件夹,并将最终得到的信号输出为声音波形文件,同时还将输出记录了声音信号主要参数的文本文档(.txt格式)。
在“多频”模式下,设计了与其他模式不同的对频率批量生成的方法:通道1的基频频率由主面板设置确定,用户可以通过对“双音”、“三音”、“四音”三个按钮的选择,选择不同的批量生成模式。
对于所述“双音”模式:只有前两个通道被激活,通道1的基频频率确定,与通道2的基频频率按照音程关系成比例关系。对于每种比例关系,程序输出对应的声音波形文件,并在所有输出结束后生成一个记录了声音信号主要参数的文本文档(.txt格式)
对于所述“三音”模式:使用三个通道,通道1的基频频率确定,通道2、通道3的基频频率按照音程关系分别与前一个通道成比例关系。对于每种比例关系,程序输出对应的声音波形文件,并在所有输出结束后生成一个记录了声音信号主要参数的文本文档(.txt格式)
对于所述“四音”模式:使用前两个个通道,通道1的基频频率确定,与通道2的基频频率按照音程关系成比例关系。该模式与“双音”模式的主要区别为:在“四音”模式下,声音的一个周期内包含有两个相同的小周期,相当于“双音”模式下的信号延时一个周期后与自身相加。在这一模式下,引入参数“滞后时间”,控制小周期间的时间间隔,可以在主界面的“通道2”面板上编辑。对于每种比例关系,程序输出对应的声音波形文件,并在所有输出结束后生成一个记录了声音信号主要参数的文本文档(.txt格式)
在批量生成的工作完成后,程序弹出对话框,提醒用户批量生成完毕。此时用户可以点击“Open Folder”按钮打开输出文件夹,或点击“OK”按钮直接结束程序。
实施例
本发明基于MATLAB的GUI声音合成装置,包括参数调试单元和批量生成单元。所述参数调试功能,包括对所合成的声音进行模式选择、通道选择、参数设置、音量调节、生成试听文件与分析试听文件。所述批量生成功能,其运行流程包括选择目标参数、设置区间与步长、批量生成并输出参数文档。
在本实施例中,双击Main.m文件,运行GUI界面文件main.fig,程序启动前将弹出对话框,以提醒用户设置输出文件夹,若用户接受默认设置,将在Main.m文件所在的目录生成输出文件夹main_output。后续操作所生成的声音文件与参数文档将存储在输出文件夹中的对应目录下。
所述模式选择:本实施例提供了“单频”、“多频”、“和弦”共三种声音模式供用户选择,每个模式的具体算法如前所述。在选中对应的单选框后,程序在运行时将根据所选单选框运行对应的声音合成程序段。其中,“单频”与“多频”模式将共用参数设置面板,“和弦”模式的参数设置,将在“和弦”与“和弦振幅”两个面板上进行。“声音格式”面板由三种模式共用。
所述通道选择:本实施例共提供了三个通道供用户使用,可以满足基本的提示音合成的需求。增加更多通道在技术上较易实现,但为了使程序界面布置尽可能简洁合理,总通道数不宜过多,最终选择本实施例中的通道数为3。
所述参数设置:每个通道均有独立的设置面板,可以进行该通道所生成声音信号的相关参数的设置。本实施例共提供了“模式”、“基波的频率振幅”、“谐波振幅”、“发声时长”四类主要参数。
所述“模式”参数,分为“基波”(所有谐波均不可用)、“低次谐波”(所有谐波均可用)、“奇次谐波”(奇数次的谐波可用)与“偶次谐波”(偶数次的谐波可用)四个选项,在每个选项下,对应范围之外的谐波参数被设置为不可用,用户只可编辑选项对应范围的谐波参数;所述“基波频率振幅”参数,允许用户设置对应通道所生成声音信号的基础频率与其对应的振幅;所述“谐波振幅”参数,允许用户设置以基波频率为基础生成的若干次谐波各自的振幅,谐波频率根据基波频率自动生成。本实施例提供至多8次谐波供用户使用,若需要更高次数的谐波,可以考虑将多个通道叠加以获得理想的声音信号。用户可通过“声压/振幅”复选框在两种模式间切换,实现对振幅和声压级的分别控制;所述“发声时长”决定在一个周期中信号发声的时间长度,与“声音格式”面板中的“间隔时长”、“总时长”共同决定信号的周期特性。
对于“和弦”模式,提供“和弦模式”、“根音频率”、“发声时长”与“和弦振幅”的设置,具体内容及效果与其他模式下类似。
关于振幅的控制。除直接控制正弦波的幅值之外,本实施例还可以直接控制正弦信号在空气中的声压级。对于用户输入的声压级数值,首先将其减去对应频率下的A计权曲线值以还原其真实声压级,以此真实声压级反求等效声压,对于正弦信号,将等效声压除以2^0.5,即得到各正弦信号分量对应的幅值。以此幅值生成正弦信号,可以实现对信号声压级的精准控制。
关于包络。在“单频”、“多频”与“和弦”三种模式下,当信号分量为周期信号时,均对其进行包络。程序首先根据模式选择调用不同的包络函数,之后根据“发声时间”参数的设置确定包络函数窗的长度,将其与合成的信号分量在时域中相乘以对其进行包络。不同模式下的包络函数的图像如图9-图11所示。
此外,本实施例中还加入了“比例关系”及“音量调整”功能,以减少参数调试的工作量。所述“比例关系”,指根据某一比例系数自动设置特定通道各次谐波的振幅,在通道参数设置面板的右上角输入比例系数,勾选“比例关系”复选框,程序将以基波振幅为首项,以输入的数值为公比生成一等比数列,并将其设置为各阶谐波的振幅;所述“音量调整”包括一组可以在0-2之间调整的滚动条与输入框,用户通过其设定音量系数,即可对此通道生成的声音信号振幅进行缩放。
所述生成试听文件。在确定了通道与参数的设置后,点击“操作”面板上的“生成”按钮,程序将按照当前的模式及参数设置合成对应的声音信号,并以一维向量形式暂时保存;点击“试听”按钮,程序通过sound函数将声音信号通过计算机声卡输出;点击“导出”按钮,在弹出的对话框内设置保存路径及文件名,即可以当前模式及参数生成.wav格式文件并导出。
所述分析试听文件,包括“1/3倍频程图绘制”和“模拟频移”。所述“1/3倍频程图绘制”,点击“操作”面板中的“分析”按钮,程序将运行GUI界面文件Octave.fig。点击“绘图”按钮,程序将读取上一次生成的声音信号向量,调用自定义函数plot_octave,按照A计权计算并绘制0-8kHz范围内的1/3倍频程图,同时计算总声压级,并绘制出相关法规线以供参考,可以单独控制每条法规线的显示。
所述“模拟频移”,点击“操作”面板中的“频移”按钮,程序将运行GUI界面文件FreShift.fig。设置基础频率与期望的频移方式,点击“叠加”按钮,程序首先根据基础频率生成特定长度的正弦信号,之后使用相位编码器算法对此正弦信号进行重采样以改变其频率。对重采样后的信号段,去掉首尾幅值波动部分,将剩下的平稳信号截取为特定长度,进行渐入渐出处理后在时域中首尾拼接,并通过一带通滤波器,由此生成符合当前频移方式的声音信号。将频移信号与此前生成的声音信号进行叠加,将叠加后声音信号的时频图显示在绘图区。除此之外,用户可以通过“试听”按钮主观判断频移后的效果优劣,并可以通过改变音量系数来调整频移声音与原声音的大小关系。
所述批量生成功能。在通过前述参数设置确定了一组理想的参数后,点击“操作”面板中的“批量生成”按钮,运行GUI界面文件BATCH.fig,打开批量生成编辑界面。本实例在如前所述三种声音模式下,各自提供了关于“发声时长”、“间隔时长”与“基频”三类批量生成参数。程序将直接自主界面设置面板读取出批量生成参数之外的各项参数,并按照用户设置的步长与区间完成对一系列声音文件的生成、导出与重命名。当整个批量生成操作完成后,将弹出提示框提示用户操作完成,并提供直接打开输出文件夹的功能。
所述发声时长,指在所生成声音的一个周期中,非零信号段所占的比例。本功能可以通过在“选择参数”面板中选择“周期”选项,并在“周期”面板内选择“发声时长”单选框,通过单选框之后的一系列输入框来设置步长及上下限。对于“单频”和“多频”模式,还提供了“通道”面板。在使用了多个通道的场合下,用户可以通过这一面板选择批量生成参数所在的通道。
所述间隔时长,指在所生成声音的一个周期中,零信号段所占的比例。本功能可以通过在“选择参数”面板中选择“周期”选项,并在“周期”面板内选择“发声时长”单选框,通过单选框之后的一系列输入框来设置步长及上下限。对于“单频”和“多频”模式,还提供了“通道”面板。在使用了多个通道的场合下,用户可以通过这一面板选择批量生成参数所在的通道。
所述基频。在“单频”模式下,基频指所选择通道的基频频率。用户选择“选择参数”面板中的“基频”单选框,在“通道”面板中选择批量生成参数所在的通道。点击“生成”按钮,程序将根据上下限与步长生成基频序列,并以此计算出最多八阶的谐波频率,以此生成对应的声音文件。
在“多频”模式下,将不提供步长与上下限的设置,此模式的批量生成将按照特定的模式生成,包括“双音”、“三音”与“四音”三种,其具体内容与前文[]段至[]段的相关说明完全相同。
在“和弦”模式下,基频指和弦关系中的根音的频率。用户选择“选择参数”面板中的“根音频率”单选框,点击“生成”按钮,程序将根据设定的上下限与步长生成根音频率序列,并以此计算出当前谐波模式下其余各音频率,以此生成对应的声音文件。
工作原理
以一个参数调试——批量生成的完整流程为例,在本发明中,参数调试:运行程序根目录下的Main.m文件,在弹出的提示框内选择“Accept”,程序自动在根目录下创建main_output文件夹作为输出文件;在“模式选择”面板中选择“单频”单选框,在各通道的设置界面中设置所需各项频率、幅值与时间参数;当参数的设置与调整完成后,点击“操作”面板的“生成”按钮,等待数秒钟,声音数据生成完毕,在主界面绘图区显示其时频图及频谱图;点击“操作”面板中的“试听”按钮,程序将声音数据通过设备的声卡输出,根据主管评价初步判断所设置参数是否合理;点击“操作”面板中的“分析”按钮,程序运行根目录下的Octave.fig文件,与此相关的代码储存在根目录下的Octave.m文件中,点击“绘图”按钮,等待片刻,界面绘图区内显示当前声音数据的1/3倍频程图与总声压级;点击“频移”按钮,程序运行根目录下的FreShift.fig文件,与此相关的代码储存在根目录下的FreShift.m文件中,设置频移基础频率及频移模式,点击“叠加”按钮,等待片刻,界面绘图区内显示叠加后声音的时频图,通过调整音量系数及“试听”按钮来主观判断频移后的效果;点击“导出”按钮,设置文件名及保存路径,点击保存,即将最终生成的声音文件保存在对应目录下,文件格式为.wav。批量生成:点击主界面“操作”面板中的“批量生成”按钮,程序运行根目录下的BATCH.fig文件,与此相关的代码储存在根目录下的BATCH.m文件中。在“单频”面板下选择“选择参数”子面板中的“基频”单选框,选择“通道选择”子面板中的“通道1”单选框,选择“周期”子面板中的“发声时长”单选框,设置上下限及步长等参数;点击“生成”按钮,等待十秒左右,批量生成操作完成,弹出相应提示框;点击“Open Folder”按钮,打开批量生成的声音文件的输出文件夹。至此操作全部完成。
以上所述为本发明的较佳实施例而已,但本发明不应该局限于该实施例和附图所公开的内容。所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (9)
1.一种基于MATLAB的GUI声音合成装置,其特征在于,包括:
参数调试单元,通过GUI图形界面系统对合成声音的频率、幅值、周期以及模式进行参数调整,并通过绘制1/3倍频程图和模拟频移进行辅助评价,其中,所述GUI图形界面系统用于给用户提供操作界面;以及
批量生成单元,在其他参数固定的前提下,将频率或周期作为变量,以固定的步长批量生成一系列声音文件,并生成记录批量生成相关参数的参数文件;
所述参数调试单元包括:
生成部,按照所设置的各项参数合成声音信号,并根据发声模式的不同调用不同的包络函数,对声音信号进行包络,消除相位突变造成的爆破音;
试听部,对生成部合成的声音信号通过计算机声卡输出,用于用户判断所合成声音信号的质量;
分析部,绘制试听部合成的声音信号的1/3倍频程图;以及
频移部,用于设置频移初始频率及频移模式,生成模拟频移信号。
2.根据权利要求1所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述参数调试单元包括声音格式部,用于用户在单频、多频以及和弦三种发声模式中选择一种模式设置所合成声音的基波与谐波频率、发声时间以及间隔时间参数。
3.根据权利要求2所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述单频发声模式,由用户手动选择需要激活的通道,设置每个通道的基频频率、一周期内的发声时长、各阶倍频频率等参数,并于声音格式部内对应位置输入间隔时长与总时长的值,按照所设置参数为每个通道生成周期性断续的正弦信号,并将标记为激活的通道相互叠加,以合成目标声音信号。
4.根据权利要求2所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述多频发声模式,采用与单频相同的通道,各通道按照编号排列先后顺序,声音格式部内将各个通道生成的信号首尾相接,以合成目标信号。
5.根据权利要求2所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述和弦发声模式,用户在声音格式部选择要应用的和弦名称,并输入根音频率、发声时长及各阶振幅,根据对应的音程关系自动设置频率,将各阶频率下得到的信号叠加以得到目标信号。
6.根据权利要求1所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述参数调试单元还包括导出部和保存部,用于设置保存路径与文件名,以及将所合成的声音信号导出为声音波形文件。
7.根据权利要求1所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述批量生成单元,用于选择声音模式、目标参数与通道,并设置其上下限与步长,能够自动按照上下限与步长批量生成声音信号,创建输出对应的声音波形文件,提醒操作者操作完成,并生成记录记录本次批量生成参数的文本文档。
8.根据权利要求1所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述模拟频移,将生成部生成的声音信号与模拟频移信号叠加,以初步判断所生成声音在实际使用中的表现。
9.根据权利要求8所述的一种基于MATLAB的GUI声音合成装置,其特征在于:所述模拟频移信号的合成,是根据设定的基础频率生成对应正弦信号,使用相位编码器算法对此正弦信号进行若干次重采样,以改变其频率,每次重采样中上采样与下采样的次数由选择的频移方式决定,在幅值稳定的中间部分截取特定长度的重采样信号,对其首尾分别进行渐入渐出处理后,在时域上首尾相接,再通过带通滤波以消除相位突变引入的噪声,得到模拟频移信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011586956.6A CN112820257B (zh) | 2020-12-29 | 2020-12-29 | 一种基于matlab的gui声音合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011586956.6A CN112820257B (zh) | 2020-12-29 | 2020-12-29 | 一种基于matlab的gui声音合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820257A true CN112820257A (zh) | 2021-05-18 |
CN112820257B CN112820257B (zh) | 2022-10-25 |
Family
ID=75855230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011586956.6A Active CN112820257B (zh) | 2020-12-29 | 2020-12-29 | 一种基于matlab的gui声音合成装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820257B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4344347A (en) * | 1980-03-26 | 1982-08-17 | Faulkner Alfred H | Digital envelope generator |
US4961364A (en) * | 1987-02-25 | 1990-10-09 | Casio Computer Co., Ltd. | Musical tone generating apparatus for synthesizing musical tone signal by combining component wave signals |
JPH11282468A (ja) * | 1998-03-31 | 1999-10-15 | Kawai Musical Instr Mfg Co Ltd | 楽音生成装置及び楽音生成方法 |
KR20010027891A (ko) * | 1999-09-16 | 2001-04-06 | 정선종 | 그래픽 사용자 인터페이스를 이용한 합성 음성 분석 방법 |
US20040260544A1 (en) * | 2003-03-24 | 2004-12-23 | Roland Corporation | Vocoder system and method for vocal sound synthesis |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
US20130301839A1 (en) * | 2012-04-19 | 2013-11-14 | Peter Vogel Instruments Pty Ltd | Sound synthesiser |
WO2013170368A1 (en) * | 2012-05-18 | 2013-11-21 | Scratchvox Inc. | Method, system, and computer program for enabling flexible sound composition utilities |
CN104486708A (zh) * | 2014-11-04 | 2015-04-01 | 福州瑞芯微电子有限公司 | 音频系统参数设置方法和装置 |
JP2015118334A (ja) * | 2013-12-19 | 2015-06-25 | 富士通株式会社 | 音声合成装置及び音声合成用コンピュータプログラム |
CN107333120A (zh) * | 2017-08-11 | 2017-11-07 | 吉林大学 | 一种基于麦克风阵列和立体视觉的集成传感器 |
US20210375248A1 (en) * | 2019-02-20 | 2021-12-02 | Yamaha Corporation | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium |
-
2020
- 2020-12-29 CN CN202011586956.6A patent/CN112820257B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4344347A (en) * | 1980-03-26 | 1982-08-17 | Faulkner Alfred H | Digital envelope generator |
US4961364A (en) * | 1987-02-25 | 1990-10-09 | Casio Computer Co., Ltd. | Musical tone generating apparatus for synthesizing musical tone signal by combining component wave signals |
JPH11282468A (ja) * | 1998-03-31 | 1999-10-15 | Kawai Musical Instr Mfg Co Ltd | 楽音生成装置及び楽音生成方法 |
KR20010027891A (ko) * | 1999-09-16 | 2001-04-06 | 정선종 | 그래픽 사용자 인터페이스를 이용한 합성 음성 분석 방법 |
US20040260544A1 (en) * | 2003-03-24 | 2004-12-23 | Roland Corporation | Vocoder system and method for vocal sound synthesis |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
US20130301839A1 (en) * | 2012-04-19 | 2013-11-14 | Peter Vogel Instruments Pty Ltd | Sound synthesiser |
WO2013170368A1 (en) * | 2012-05-18 | 2013-11-21 | Scratchvox Inc. | Method, system, and computer program for enabling flexible sound composition utilities |
JP2015118334A (ja) * | 2013-12-19 | 2015-06-25 | 富士通株式会社 | 音声合成装置及び音声合成用コンピュータプログラム |
CN104486708A (zh) * | 2014-11-04 | 2015-04-01 | 福州瑞芯微电子有限公司 | 音频系统参数设置方法和装置 |
CN107333120A (zh) * | 2017-08-11 | 2017-11-07 | 吉林大学 | 一种基于麦克风阵列和立体视觉的集成传感器 |
US20210375248A1 (en) * | 2019-02-20 | 2021-12-02 | Yamaha Corporation | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium |
Non-Patent Citations (3)
Title |
---|
CHEN_TIANYANG: "基于MATLAB软件GUI界面的可编程电音合成器软件", 《HTTPS://BLOG.CSDN.NET/CTYQY2015301200079/ARTICLE/DETAILS/83152893?》, 18 October 2018 (2018-10-18) * |
SCHWARZ D,等: "Spectral envelope estimation and representation for sound analysis-synthesis", 《ICMC.1999》, 31 December 1999 (1999-12-31) * |
窦亚星: "钢琴音色库生成系统的设计与实现", 《中国优秀硕士学位论文全文数据库》, 15 June 2018 (2018-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN112820257B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JPH07319490A (ja) | 音声合成方法及び装置 | |
EP0860003B1 (en) | Inverse transform narrow band/broad band sound synthesis | |
JPH07319491A (ja) | 音声合成方法及び装置 | |
CN112820257B (zh) | 一种基于matlab的gui声音合成装置 | |
JP2018077283A (ja) | 音声合成方法 | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
Mehta et al. | Synthesis, analysis, and pitch modification of the breathy vowel | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
JP2002525663A (ja) | ディジタル音声処理装置及び方法 | |
Meron et al. | Synthesis of vibrato singing | |
CN100508025C (zh) | 合成语音的方法和设备及分析语音的方法和设备 | |
JP2001265330A (ja) | 旋律抽出装置および旋律抽出方法 | |
JP6834370B2 (ja) | 音声合成方法 | |
JP6683103B2 (ja) | 音声合成方法 | |
JP5251381B2 (ja) | 音処理装置およびプログラム | |
JPH09179576A (ja) | 音声合成方法 | |
JPH1115488A (ja) | 合成音声評価・合成装置 | |
JP3503268B2 (ja) | 音色パラメータ編集装置 | |
Kawahara et al. | Interactive tools for making temporally variable, multiple-attributes, and multiple-instances morphing accessible: Flexible manipulation of divergent speech instances for explorational research and education | |
JP2000003197A (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP6822075B2 (ja) | 音声合成方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |