CN116324965A - 信息处理方法、信息处理系统及程序 - Google Patents
信息处理方法、信息处理系统及程序 Download PDFInfo
- Publication number
- CN116324965A CN116324965A CN202080105738.8A CN202080105738A CN116324965A CN 116324965 A CN116324965 A CN 116324965A CN 202080105738 A CN202080105738 A CN 202080105738A CN 116324965 A CN116324965 A CN 116324965A
- Authority
- CN
- China
- Prior art keywords
- data
- string
- time
- user
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 32
- 238000003672 processing method Methods 0.000 title claims description 10
- 230000004044 response Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 abstract description 55
- 230000008569 process Effects 0.000 description 46
- 238000012545 processing Methods 0.000 description 30
- 238000012549 training Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/04—Transposing; Transcribing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,针对第1时间序列数据的每次编辑,将与该编辑后的第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,与来自利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与第1发音风格不同的第2发音风格对符号串进行了发音的声音的特征量的时间序列,针对第2时间序列数据的每次编辑,将与该编辑后的第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,取得对应于所保存的不同版本的多个第1履历数据之中与来自利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所保存的不同版本的多个第2履历数据之中与来自利用者的指示相对应的第2履历数据的第2时间序列数据。
Description
技术领域
本发明涉及一种时间序列数据的处理。
背景技术
以往提出有对任意的音韵的声音进行合成的各种声音合成技术。例如,在专利文献1中公开了对发音出由利用者对编辑画面指示的音符串的歌唱声音进行合成的技术。编辑画面是设定有时间轴和音高轴的钢琴卷轴画面。利用者针对构成乐曲的每个音符,对音韵(发音字符)、音高和发音期间进行指定。
专利文献1:日本特开2016-90916号公报
发明内容
为了对准确地反映出利用者的意图的声音进行合成,对利用者请求反复进行声音合成的条件(例如各种参数)的编辑和实际的声音的听取的试行错误。还能设想到容许将利用者依次指示的多个编辑之中最新编辑逆序地取消的处理(撤消)、或者重新执行已取消的编辑的处理(重做)的结构,但仅通过单纯的撤消或重做,实际上难以一边对多样的编辑的结果相互进行比较一边以试行错误的方式由利用者对编辑进行指示。此外,在以上说明中例示出声音合成的情况,但在生成时间序列数据的各种情况下能设想到同样的课题。考虑到以上情况,本发明的目的在于使遵从利用者的意图的时间序列数据的生成容易化。
为了解决以上课题,本发明的一个方式所涉及的信息处理方法,与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,与来自所述利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
本发明的一个方式所涉及的信息处理系统具有:编辑处理部,其与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,与来自所述利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列;以及信息管理部,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,所述信息管理部取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
本发明的一个方式所涉及的信息处理系统是使计算机系统作为如下功能部起作用的程序:编辑处理部,其与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,与来自所述利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列;以及信息管理部,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,其中,所述信息管理部取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
附图说明
图1是例示出第1实施方式所涉及的信息处理系统的结构的框图。
图2是编辑画面的示意图。
图3是例示出信息处理系统的功能结构的框图。
图4是例示出第1编辑处理的流程的流程图。
图5是例示出第2编辑处理的流程的流程图。
图6是例示出第3编辑处理的流程的流程图。
图7是履历区域的数据构造的说明图。
图8是例示出第1管理处理的流程的流程图。
图9是例示出第2管理处理的流程的流程图。
图10是例示出第3管理处理的流程的流程图。
图11是第2实施方式的编辑画面的示意图。
图12是例示出第2实施方式的信息处理系统的功能结构的框图。
图13是第2实施方式的履历区域的数据构造的说明图。
图14是对比画面的示意图。
图15是第3实施方式的合成音的说明图。
图16是第3实施方式的编辑画面的示意图。
图17是变形例的编辑画面的示意图。
具体实施方式
A:第1实施方式
图1是例示出本发明的第1实施方式所涉及的信息处理系统100的结构的框图。信息处理系统100是生成音响信号Z的音响处理系统。音响信号Z是表示合成音的波形的时间区域的信号。合成音是例如通过虚拟的演奏者对乐器进行演奏而发音的乐器音、或者例如通过虚拟的歌唱者歌唱乐曲而发音的歌唱音。
信息处理系统100由具有控制装置11、存储装置12、放音装置13、显示装置14和操作装置15的计算机系统实现。信息处理系统100例如通过智能手机、平板终端或个人计算机等信息设备而实现。此外,信息处理系统100除了由单体的装置实现以外,还能由彼此分体地构成的多个装置(例如顾客服务器系统)实现。
控制装置11是对信息处理系统100的各要素进行控制的单个或多个处理器。具体地说,例如通过CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或者ASIC(Application SpecificIntegrated Circuit)等1种以上的处理器构成控制装置11。控制装置11执行生成音响信号Z的各种处理。
存储装置12是对控制装置11执行的程序和控制装置11使用的数据进行存储的单个或多个存储器。存储装置12例如由磁记录介质或者半导体记录介质等公知的记录介质构成。可以通过多种记录介质的组合而构成存储装置12。另外,可以将相对于信息处理系统100可装拆的可移动型的记录介质、或者能够经由通信网的写入及读出的记录介质(例如网络硬盘)作为存储装置12进行利用。
放音装置13对由控制装置11生成的音响信号Z表示的合成音进行播放。放音装置13例如是扬声器或者耳机。此外,对于将音响信号Z从数字变换为模拟的D/A变换器和将音响信号Z放大的放大器,为了方便而省略图示。另外,在图1中,例示出放音装置13搭载于信息处理系统100的结构,但与信息处理系统100分体的放音装置13也可以通过有线或者无线的方式与信息处理系统100连接。
显示装置14基于控制装置11的控制对图像进行显示。显示装置14例如由液晶面板或者有机EL(Electro Luminescence)面板等显示面板构成。操作装置15是接受来自利用者的指示的输入设备。操作装置15例如是利用者操作的多个操作件、或者对利用者的接触进行检测的触摸面板。利用者能够通过对操作装置15进行操作而指示合成音的条件。显示装置14为了对合成音的条件进行指示而对利用者所参照的图像(以下,称为“编辑画面”)G进行显示。
图2是编辑画面G的示意图。编辑画面G包含多个编辑区域E(En、Ef及Ew)。在多个编辑区域E设定共通的时间轴(横轴)。合成音之中显示于编辑画面G的区间与针对操作装置15的来自利用者的指示相对应地变更。
在编辑区域En显示构成合成音的乐谱的多个音符的时间序列(以下,称为“音符串”)N。在编辑区域En设定由时间轴和音高轴(纵轴)规定的坐标平面。表示构成音符串N的各音符的图像配置于编辑区域En。针对音符串N的每个音符而指定音高(例如音符编号)和发音期间。另外,在合成音为歌唱音的情况下,针对每个音符而指定音韵。在编辑区域En,例如还显示渐强、加强或者减弱等演奏记号。利用者通过对操作装置15进行操作而能够赋予针对编辑区域En的编辑指示Qn。编辑指示Qn是对音符串N进行编辑的指示。具体地说,编辑指示Qn是音符串N的各音符的追加或删除的指示、各音符的条件(音高、发音期间或者音韵)的变更的指示、或者演奏记号的变更的指示。
在编辑区域Ef显示合成音的特征量的时间序列(以下,称为“特征串”)F。特征量是合成音的音响性特征量。具体地说,将合成音的基本频率(音高)作为特征量而在编辑区域Ef显示特征串F(即基本频率的时间上的迁移)。利用者通过对操作装置15进行操作而能够赋予针对编辑区域Ef的编辑指示Qf。编辑指示Qf是对特征串F进行编辑的指示。具体地说,编辑指示Qf例如是对在编辑区域Ef显示的特征串F之中利用者所希望的区间的特征量的时间变化进行变更的指示。
在编辑区域Ew显示时间轴上的合成音的波形W。利用者通过对操作装置15进行操作而能够赋予针对编辑区域Ew的编辑指示Qw。编辑指示Qw是对波形W进行编辑的指示。具体地说,编辑指示Qw是对在编辑区域Ew显示的波形W之中利用者所希望的区间的波形进行变更的指示。
编辑画面G除了以上例示的多个编辑区域E以外,还包含与相互不同的编辑区域E对应的多个操作区域(Gn、Gf及Gw)和操作图像B1(播放)。操作图像B1是利用者能够利用操作装置15进行操作的软件按钮。具体地说,操作图像B1是用于由利用者指示合成音的播放的操作件。具体地说,通过利用者对操作图像B1进行操作而从放音装置13播放在编辑区域Ew显示的波形W的合成音。
操作区域Gn是与音符串N相关的区域。具体地说,在操作区域Gn显示音符串版本编号Vn、操作图像Gn1和操作图像Gn2。音符串版本编号Vn是对显示于编辑区域En的音符串N的版本进行表示的编号。针对与编辑指示Qn相对应的音符串N的每次编辑,音符串版本编号Vn以1为单位增加。另外,利用者能够通过对操作装置15进行操作而将操作区域Gn内的音符串版本编号Vn变更为任意的数值。在过去的编辑的过程中生成的音符串N的多个版本之中与由利用者变更后的音符串版本编号Vn对应的版本的音符串N显示于编辑区域En。
操作图像Gn1及操作图像Gn2是能够利用操作装置15而由利用者进行操作的软件按钮。操作图像Gn1是用于由利用者指示将音符串N返回至执行前一个的编辑前的状态(Undo)的操作件。即,通过利用者对操作图像Gn1进行操作而音符串版本编号Vn变更为前一个的数值,并且与该变更后的音符串版本编号Vn对应的版本的音符串N显示于编辑区域En。因此,操作图像Gn1还表现为用于使音符串版本编号Vn后退至前一个的数值的(即,将与音符串N相关的前一个的编辑取消)的操作件。另一方面,操作图像Gn2是用于由利用者指示再次执行通过针对操作图像Gn1的操作而被取消的编辑(Redo)的操作件。
操作区域Gf是与特征串F相关的区域。具体地说,在操作区域Gf显示特征串版本编号Vf、操作图像Gf1和操作图像Gf2。特征串版本编号Vf是表示在编辑区域Ef显示的特征串F的版本的编号。针对与编辑指示Qf相对应的特征串F的每次编辑,特征串版本编号Vf以1为单位增加。另外,利用者能够通过对操作装置15进行操作而将操作区域Gf内的特征串版本编号Vf变更为任意的数值。在过去的编辑的过程中生成的特征串F的多个版本之中与由利用者变更后的特征串版本编号Vf对应的版本的特征串F显示于编辑区域Ef。
操作图像Gf1及操作图像Gf2是能够利用操作装置15由利用者操作的软件按钮。操作图像Gf1是用于由利用者指示将特征串F返回至执行前一个的编辑前的状态(Undo)的操作件。即,通过利用者对操作图像Gf1进行操作而将特征串版本编号Vf变更为前一个的数值,并且,与该变更后的特征串版本编号Vf对应的版本的特征串F显示于编辑区域Ef。因此,操作图像Gf1还表现为用于使特征串版本编号Vf后退至前一个的数值(即,将与特征串F相关的前一个的编辑取消)的操作件。另一方面,操作图像Gf2是用于由利用者指示再次执行通过针对操作图像Gf1的操作而被取消的编辑(Redo)的操作件。
操作区域Gw是与波形W相关的区域。具体地说,在操作区域Gw显示波形版本编号Vw、操作图像Gw1和操作图像Gw2。波形版本编号Vw是表示在编辑区域Ew显示的波形W的版本的编号。针对与编辑指示Qw相对应的波形W的每次编辑,波形版本编号Vw以1为单位增加。另外,利用者能够通过对操作装置15进行操作而将操作区域Gw内的波形版本编号Vw变更为任意的数值。在过去的编辑的过程中生成的波形W的多个版本之中与由利用者变更后的波形版本编号Vw对应的版本的波形W显示于编辑区域Ew。
操作图像Gw1及操作图像Gw2是能够利用操作装置15由利用者操作的软件按钮。操作图像Gw1是用于由利用者指示将波形W返回至执行前一个的编辑前的状态(Undo)的操作件。即,通过利用者对操作图像Gw1进行操作而波形版本编号Vw变更为前一个的数值,并且,与该变更后的波形版本编号Vw对应的版本的波形W显示于编辑区域Ew。因此,操作图像Gw1还表现为用于使波形版本编号Vw后退为前一个的数值(即,将与波形W相关的前一个的编辑取消)的操作件。另一方面,操作图像Gw2是用于由利用者指示再次执行通过针对操作图像Gw1的操作而被取消的编辑(Redo)的操作件。
如以上的例示那样,在第1实施方式中,使用多个版本编号V(Vn、Vf、Vw)。各版本编号的增加(increment)是指编辑作业的推进,各版本编号的减少(decrement)是指编辑作业的后退。
图3是例示出信息处理系统100的功能结构的框图。控制装置11通过执行存储装置12所存储的程序而实现用于合成音的条件的编辑和音响信号Z的生成的多个功能(显示控制部20、编辑处理部30及信息管理部40)。显示控制部20基于控制装置11的控制使显示装置14对图像进行显示。例如,显示控制部20将图2例示的编辑画面G显示于显示装置14。另外,显示控制部20与来自利用者的指示(Qn、Qf或Qw)相对应地,对编辑画面G进行更新。
图3的编辑处理部30与来自利用者的指示(Qn、Qf或Qw)相对应地,对合成音的条件(音符串N、特征串F及波形W)进行编辑。编辑处理部30具有第1编辑部31、第1生成部32、第2编辑部33、第2生成部34和第3编辑部35。
第1编辑部31对音符串数据Dn进行编辑。音符串数据Dn是表示合成音的音符串N的时间序列数据。具体地说,第1编辑部31与针对编辑区域En的来自利用者的编辑指示Qn相对应地,对音符串数据Dn进行编辑。显示控制部20将由第1编辑部31编辑后的音符串数据Dn表示的音符串N显示于编辑区域En。
第1生成部32根据由第1编辑部31编辑后的音符串数据Dn而生成特征串数据Df。特征串数据Df是表示合成音的特征串F的时间序列数据。此外,对于构成特征串F的多个特征量之中时间轴上的各时间点的特征量的生成,除了该时间点的音符的数据以外,还利用该音符的前方的音符及后方的音符中的至少一者的音符的数据。即,特征串数据Df是与音符串数据Dn表示的音符串N的内容相对应地生成的。
具体地说,第1生成部32利用第1生成模型M1而生成特征串数据Df。第1生成模型M1是将音符串数据Dn作为输入而输出特征串数据Df的统计性推定模型。具体地说,第1生成模型M1是对音符串N和特征串F之间的关系进行了学习的训练好的模型。第1生成模型M1例如由深度神经网络(DNN:Deep Neural Network)构成。例如,卷积神经网络(CNN:Convolutional Neural Network)或者递归型神经网络(RNN:Recurrent Neural Network)等任意形式的深度神经网络作为第1生成模型M1进行利用。此外,长短期存储(LSTM:LongShort-Term Memory)或者Self-Attention等附加要素可以搭载于第1生成模型M1。
第1生成模型M1通过使控制装置11执行根据音符串数据Dn生成特征串数据Df的运算的程序和应用于该运算的多个变量(具体地说,加权值及偏置)的组合而实现。对第1生成模型M1进行规定的多个变量通过利用了多个第1训练数据的机器学习而预先设定,存储于存储装置12。多个第1训练数据各自包含音符串数据Dn和特征串数据Df(正确值)。在第1生成模型M1的机器学习中,以使得相对于各第1训练数据的音符串数据Dn由暂定的第1生成模型M1输出的特征串数据Df和该第1训练数据的特征串数据Df之间的误差降低的方式,反复更新第1生成模型M1的多个变量。因此,第1生成模型M1基于在多个第1训练数据中音符串N和特征串F之间潜在的倾向,针对未知的音符串数据Dn而输出统计上合理的特征串数据Df。
第2编辑部33对由第1生成部32生成的特征串数据Df进行编辑。具体地说,第2编辑部33与针对编辑区域Ef的来自利用者的编辑指示Qf相对应地,对特征串数据Df进行编辑。显示控制部20将由第1生成部32生成的特征串数据Df表示的特征串F、或者由第2编辑部33编辑后的特征串数据Df表示的特征串F显示于编辑区域Ef。
第2生成部34根据音符串数据Dn和特征串数据Df而生成波形数据Dw。波形数据Dw是表示合成音的波形W的时间序列数据。即,波形数据Dw由表示音响信号Z的多个样本的时间序列构成。通过针对波形数据Dw的D/A变换及放大而生成音响信号Z。此外,可以将由第1生成部32生成的后一个的特征串数据Df(即,未由第2编辑部33编辑的特征串数据DF)利用于波形数据Dw的生成。
第2生成部34利用第2生成模型M2而生成波形数据Dw。第2生成模型M2是将音符串数据Dn和特征串数据Df的组(以下,称为“输入数据Din”)作为输入而输出波形数据Dw的统计性推定模型。具体地说,第2生成模型M2是对音符串N及特征串F的组和波形W之间的关系进行了学习的训练好的模型。第2生成模型M2例如由深度神经网络构成。例如,卷积神经网络或者递归型神经网络等任意形式的深度神经网络作为第2生成模型M2进行利用。此外,长短期存储或者Self-Attention等附加要素可以搭载于第2生成模型M2。
第2生成模型M2通过使控制装置11执行根据包含音符串数据Dn和特征串数据Df在内的输入数据Din生成波形数据Dw的运算的程序、和应用于该运算的多个变量(具体地说,加权值及偏置)的组合而实现。对第2生成模型M2进行规定的多个变量通过利用了多个第2训练数据的机器学习而事先设定,存储于存储装置12。多个第2训练数据各自包含输入数据Din和波形数据Dw(正确值)。在第2生成模型M2的机器学习中,以使得相对于各第2训练数据的输入数据Din而由暂定的第2生成模型M2输出的波形数据Dw和该第2训练数据的波形数据Dw之间的误差降低的方式,反复更新第2生成模型M2的多个变量。因此,第2生成模型M2基于在多个第2训练数据中音符串N及特征串F的组和波形W之间潜在的倾向,针对未知的输入数据Din而输出统计上合理的波形数据Dw。
第3编辑部35对由第2生成部34生成的波形数据Dw进行编辑。具体地说,第3编辑部35与针对编辑区域Ew的来自利用者的编辑指示Qw相对应地,对波形数据Dw进行编辑。显示控制部20将由第2生成部34生成的波形数据Dw表示的波形W、或者由第3编辑部35编辑后的波形数据Dw表示的波形W显示于编辑区域Ew。另外,在由利用者对操作图像B1(播放)进行了操作的情况下,与由第2生成部34生成的波形数据Dw或者由第3编辑部35编辑后的波形数据Dw相对应的音响信号Z被供给至放音装置13,由此播放合成音。
信息管理部40针对音符串数据Dn、特征串数据Df和波形数据Dw各自对版本进行管理。具体地说,信息管理部40对音符串版本编号Vn、特征串版本编号Vf和波形版本编号Vw进行管理。
另外,信息管理部40针对音符串数据Dn、特征串数据Df和波形数据Dw各自将不同版本的数据(以下,称为“履历数据”)保存于存储装置12。在存储装置12设定履历区域和作业区域。履历区域是存储与合成音的条件相关的编辑的履历的存储区域。另一方面,作业区域是在利用了编辑画面G的编辑的过程中暂时保存音符串数据Dn、特征串数据Df和波形数据Dw的存储区域。
具体地说,信息管理部40针对与编辑指示Qn相对应的音符串N的每次编辑,将编辑后的音符串数据Dn作为第1履历数据Hn[Vn,Vf,Vw]而保存于履历区域。即,新版本的音符串数据Dn作为第1履历数据Hn[Vn,Vf,Vw]而保存于存储装置12。
另外,信息管理部40将对应于与编辑指示Qf相对应的编辑后的特征串数据Df的第2履历数据Hf[Vn,Vf,Vw],作为新版本的数据而保存于履历区域。第1实施方式的第2履历数据Hf[Vn,Vf,Vw]是表示特征串数据Df与编辑指示Qf相对应地如何被编辑(即编辑指示Qf的时间序列)的数据。第2履历数据Hf[Vn,Vf,Vw]也称为表示编辑前后的特征串数据Df的差分的数据。
同样地,信息管理部40将对应于与编辑指示Qw相对应的编辑后的波形数据Dw的第3履历数据Hw[Vn,Vf,Vw],作为新版本的数据而保存于履历区域。第1实施方式的第3履历数据Hw[Vn,Vf,Vw]是表示波形数据Dw与编辑指示Qw相对应地如何被编辑(即编辑指示Qw的时间序列)的数据。第3履历数据Hw[Vn,Vf,Vw]也称为表示编辑前后的波形数据Dw的差分的数据。
图4至图6是例示出与来自利用者的编辑指示Q(Qn、Qf或Qw)相对应地对合成音的条件进行编辑的编辑处理Sa(Sa1、Sa2及Sa3)的具体流程的流程图。图4是与音符串N的编辑相关的第1编辑处理Sa1的流程图。将针对音符串N的编辑指示Qn作为契机而开始第1编辑处理Sa1。如果第1编辑处理Sa1开始,则第1编辑部31与编辑指示Qn相对应地,对当前时间点的音符串数据Dn进行编辑(Sa101)。
信息管理部40使音符串版本编号Vn以“1”为单位增加(Sa102)。此外,在最初赋予了编辑指示Qn的阶段中,新生成音符串数据Dn(Sa101),音符串版本编号Vn被初始化为“0”(Sa102)。另外,信息管理部40将特征串版本编号Vf初始化为“0”(Sa103),并且,将波形版本编号Vw初始化为“0”(Sa104)。而且,信息管理部40将由第1编辑部31编辑后的音符串数据Dn,作为音符串N的第1履历数据Hn[Vn,Vf=0,Vw=0]而保存于存储装置12的履历区域(Sa105)。
如根据以上的说明所理解的那样,针对与编辑指示Qn相对应的音符串数据Dn的每次编辑,该编辑后的版本的音符串数据Dn被作为第1履历数据Hn[Vn,Vf=0,Vw=0]而保存于履历区域(Sa105),音符串版本编号Vn增加(Sa102),并且,特征串版本编号Vf和波形版本编号Vw被初始化(Sa103及Sa104)。
第1生成部32通过将由第1编辑部31编辑后的音符串数据Dn供给至第1生成模型M1而生成特征串数据Df(Sa106)。由第1生成部32生成的特征串数据Df保存于存储装置12的作业区域。另外,第2生成部34通过将包含由第1编辑部31编辑后的音符串数据Dn和由第1生成部32生成的特征串数据Df在内的输入数据Din供给至第2生成模型M2而生成波形数据Dw(Sa107)。由第2生成部34生成的波形数据Dw保存于存储装置12的作业区域。
此外,音符串数据Dn针对每个音符而需要1个数据。特征串数据Df为了表示各音符内的音高的变化,每几毫秒至几十毫秒构成1个样本。波形数据Dw为了表示各音符的波形,在每个采样周期(例如1/50kHz~20μ秒)构成1个样本。如以上的例示那样,从1个音符串数据Dn创建的特征串数据Df的数据量是该音符串数据Dn的数据量的几百倍至几千倍,从1个特征串数据Df生成的波形数据Dw的数据量是该特征串数据Df的数据量的几百倍至几千倍。考虑到以上情况,在第1实施方式中,上级层的数据(音符串数据Dn)直接作为第1履历数据Hn[Vn,Vf=0,Vw=0]而保存。另一方面,阶层的数据(特征串数据Df及波形数据Dw)如前述那样,数据量大,因此仅与上级层的数据的差分被作为履历数据而保存。根据以上结构,与针对阶层的数据还保存该数据本身的结构相比,具有能够大幅地削减存储于存储装置12的数据量这一优点。
显示控制部20对编辑画面G进行更新(Sa108-Sa110)。具体地说,显示控制部20将由第1编辑部31编辑后的音符串数据Dn表示的音符串N显示于编辑区域En(Sa108)。另外,显示控制部20将保存于作业区域的当前时间点的特征串数据Df表示的特征串F显示于编辑区域Ef(Sa109)。同样地,显示控制部20将保存于作业区域的当前时间点的波形数据Dw表示的波形W显示于编辑区域Ew(Sa110)。
图5是与特征串F的编辑相关的第2编辑处理Sa2的流程图。将针对特征串F的编辑指示Qf作为契机而开始第2编辑处理Sa2。如果第2编辑处理Sa2开始,则第2编辑部33与编辑指示Qf相对应地,对当前时间点的特征串数据Df进行编辑(Sa201)。
信息管理部40使特征串版本编号Vf增加“1”(Sa202)。另外,信息管理部40将音符串版本编号Vn维持为当前值Cn(Sa203),并且将波形版本编号Vw初始化为“0”(Sa204)。而且,信息管理部40将表示此次的编辑指示Qf的第2履历数据Hf[Vn,Vf,Vw=0],作为新版本的数据而保存于履历区域(Sa205)。
如根据以上的说明所理解的那样,针对与编辑指示Qf相对应的特征串数据Df的每次编辑,与该编辑后的特征串数据Df相对应的第2履历数据Hf[Vn,Vf,Vw=0]被保存于履历区域(Sa205),维持音符串版本编号Vn不变(Sa203),特征串版本编号Vf增加(Sa202),并且,波形版本编号Vw被初始化(Sa204)。此外,步骤Sa203可以省略。
第2生成部34通过将包含当前时间点的音符串数据Dn和由第2编辑部33编辑后的特征串数据Df在内的输入数据Din供给至第2生成模型M2而生成波形数据Dw(Sa206)。由第2生成部34生成的波形数据Dw保存于存储装置12的作业区域。
显示控制部20对编辑画面G进行更新(Sa207及Sa208)。具体地说,显示控制部20将由第2编辑部33编辑后的特征串数据Df表示的特征串F显示于编辑区域Ef(Sa207)。另外,显示控制部20将保存于作业区域的当前时间点的波形数据Dw表示的波形W显示于编辑区域Ew(Sa208)。此外,在第2编辑处理Sa2中,编辑区域En内的音符串N不被更新。
图6是与波形W的编辑相关的第3编辑处理Sa3的流程图。将针对波形W的编辑指示Qw作为契机而开始第3编辑处理Sa3。如果第3编辑处理Sa3开始,则第3编辑部35与编辑指示Qw相对应地,对当前时间点的波形数据Dw进行编辑(Sa301)。
信息管理部40使波形版本编号Vw增加“1”(Sa302)。另外,信息管理部40将音符串版本编号Vn维持为当前值Cn(Sa303),并且,特征串版本编号Vf也维持为当前值Cf(Sa304)。而且,信息管理部40将表示此次的编辑指示Qw的第3履历数据Hw[Vn,Vf,Vw],作为新版本的数据而保存于履历区域(Sa305)。
如根据以上的说明所理解的那样,针对与编辑指示Qw相对应的波形数据Dw的每次编辑,将与该编辑后的波形数据Dw相对应的第3履历数据Hw[Vn,Vf,Vw]保存于履历区域(Sa305),维持音符串版本编号Vn和特征串版本编号Vf不变(Sa303及Sa304),波形版本编号Vw增加(Sa302)。此外,步骤Sa303及步骤Sa304可以省略。
显示控制部20将由第3编辑部35编辑后的波形数据Dw表示的波形W显示于编辑区域Ew(Sa306)。此外,在第3编辑处理Sa3中,编辑区域En内的音符串N和编辑区域Ef内的特征串F不被更新。
图7是存储装置12的履历区域的数据构造的说明图。在履历区域存储与音符串N的不同版本对应的多个第1履历数据Hn[Vn,Vf=0,Vw=0](音符串数据Dn)。针对多个第1履历数据Hn[Vn,Vf=0,Vw=0]各自,基于共通的音符串N而将与不同版本的特征串F对应的多个第2履历数据Hf[Vn,Vf,Vw=0]存储于履历区域。另外,针对多个第2履历数据Hf[Vn,Vf,Vw=0]各自,基于共通的特征串F将与不同版本的波形W对应的多个第3履历数据Hw[Vn,Vf,Vw]存储于履历区域。如以上的例示那样,下述阶层关系成立,即,音符串N位于特征串F的上级,特征串F位于波形W的上级。如果特征串F被编辑,则特征串版本编号Vf增加,并且,维持与上级层对应的音符串版本编号Vn不变,与下级层对应的波形版本编号Vw被初始化为“0”。
图8至图10是例示出与来自利用者的指示相对应地对版本进行管理的管理处理Sb(Sb1、Sb2及Sb3)的具体流程的流程图。图8是与音符串N的版本相关的第1管理处理Sb1的流程图。将音符串版本编号Vn的变更的指示作为契机而开始第1管理处理Sb1。
以下,将与来自利用者的指示相对应的变更后的音符串版本编号Vn的数值表述为“设定值Xn”。在利用者直接变更了操作区域Gn内的音符串版本编号Vn的情况下,该变更后的数值(即利用者所指定的数值)相当于设定值Xn。另外,在利用者对操作图像Gn1进行了操作的情况下,音符串版本编号Vn的当前值Cn的前一个的数值(=Cn-1)相当于设定值Xn。另一方面,在利用者对操作图像Gn2进行了操作的情况下,音符串版本编号Vn的当前值Cn的后一个的数值(=Cn+1)相当于设定值Xn。
如果第1管理处理Sb1开始,则信息管理部40将音符串版本编号Vn从当前值Cn变更为设定值Xn(Sb101)。
信息管理部40将特征串版本编号Vf设定为与音符串N的设定值Xn对应的最新值Yf(Sb102)。最新值Yf是基于与设定值Xn对应的版本的音符串N,针对每个编辑指示Qf而生成的特征串F的多个版本之中最新版本的编号。
信息管理部40将波形版本编号Vw设定为与音符串N的设定值Xn对应的最新值Yw(Sb103)。最新值Yw是基于与设定值Xn对应的版本的音符串N,针对每个编辑指示Qw而生成的波形W的多个版本之中最新版本的编号。
信息管理部40从存储装置12的履历区域取得音符串N的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]、特征串F的第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]和波形W的第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw](Sb104)。此外,第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]的取得在实际编辑了特征量F的情况下执行,在没有编辑特征量F的情况下不执行。音符串N的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]是表示音符串版本编号Vn为设定值Xn的版本的音符串N的音符串数据Dn。特征串F的第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]是表示基于音符串版本编号Vn为设定值Xn的音符串N而由利用者依次赋予的1个以上的编辑指示Qf之中第Yf个以前的编辑指示Qf的时间序列的数据。波形W的第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw]是表示基于音符串版本编号Vn为设定值Xn的版本的音符串N和特征串版本编号Vf为最新值Yf的版本的特征串F而由利用者依次赋予的1个以上的编辑指示Qw之中第Yw个以前的编辑指示Qw的时间序列的数据。
第1生成部32通过将信息管理部40所取得的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0](音符串数据Dn)供给至第1生成模型M1而生成特征串数据Df(Sb105)。第2编辑部33与信息管理部40所取得的1个以上的第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]表示的编辑指示Qf相对应地,依次对该特征串数据Df进行编辑(Sb106)。即,基于与设定值Xn对应的音符串N,生成与直至第Yf个为止的编辑指示Qf相对应地编辑出的特征串数据Df。此外,由第2编辑部33进行的编辑是多个音符范围的特征串数据Df之中的极少一部分。例如,仅乐曲内的特定的音符的起音部(attack)、或者乐曲内的第3个乐句的最初起的2个音符等相对于乐曲的整体非常微小的部分被编辑。
第2生成部34通过将包含信息管理部40所取得的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0](音符串数据Dn)和编辑后的特征串数据Df在内的输入数据Din供给至第2生成模型M2而生成波形数据Dw(Sb107)。第3编辑部35与信息管理部40所取得的1个以上的第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw]表示的编辑指示Qw相对应地,依次对波形数据Dw进行编辑(Sb108)。即,基于与设定值Xn对应的音符串N和与最新值Yf对应的特征串F,生成与直至第Yw个为止的编辑指示Qw相对应地编辑出的波形数据Dw。此外,在不存在第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]的情况下,不取得第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw]。即,波形数据Dw在步骤Sb108中不被编辑,该波形数据Dw被确定为最终的数据。此外,在指示了使波形W向时间轴的方向移动的编辑的情况下,仅是例如“将时间点1至时间点2的区间移动X毫秒”这样的编辑指示Qw作为第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw]而被保存。因此,与将移动后的波形W的样本数据在乐曲的整体范围保存的方式相比,能够大幅削减存储于存储装置12的数据量。关于针对波形W的音量的编辑或者文件的编辑也相同。关于针对波形W的音量的编辑,该编辑的区间的音量变化的迁移被保存,关于针对波形W的文件的编辑,该编辑的区间内的文件的参数被保存。
显示控制部20对编辑画面G进行更新(Sb109-Sb111)。具体地说,显示控制部20将信息管理部40所取得的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0](音符串数据Dn)表示的音符串N显示于编辑区域En,将操作区域Gn的音符串版本编号Vn的显示更新为设定值Xn(Sb109)。即,根据第Xn个编辑指示Qn进行编辑后的音符串N显示于编辑区域En。
另外,显示控制部20将由第2编辑部33编辑后的特征串数据Df表示的特征串F显示于编辑区域Ef,将操作区域Gf的特征串版本编号Vf的显示更新为最新值Yf(Sb110)。即,与设定值Xn和最新值Yf对应的特征串F显示于编辑区域E2。同样地,显示控制部20将由第3编辑部35编辑后的波形数据Dw表示的波形W显示于编辑区域Ew,将操作区域Gw的波形版本编号Vw的显示更新为最新值Yw(Sb111)。即,与设定值Xn、最新值Yf和最新值Yw对应的波形W显示于编辑区域Ew。在以上的状态下,利用者能够赋予与音符串N、特征串F和波形W各自相关的编辑的指示(Qn、Qf或Qw)。
图9是与特征串F的版本相关的第2管理处理Sb2的流程图。将特征串版本编号Vf的变更的指示作为契机而开始第2管理处理Sb2。
以下,将与来自利用者的指示相对应的变更后的特征串版本编号Vf的数值表述为“设定值Xf”。在利用者直接变更了操作区域Gf内的特征串版本编号Vf的情况下,该变更后的数值(即利用者所指定的数值)相当于设定值Xf。另外,在利用者对操作图像Gf1进行了操作的情况下,特征串版本编号Vf的当前值Cf的前一个的数值(=Cf-1)相当于设定值Xf。另一方面,在利用者对操作图像Gf2进行了操作的情况下,特征串版本编号Vf的当前值Cf的后一个的数值(=Cf+1)相当于设定值Xf。
如果第2管理处理Sb2开始,则信息管理部40将特征串版本编号Vf从当前值Cf变更为设定值Xf(Sb201)。另外,信息管理部40将音符串版本编号Vn维持为当前值Cn(Sb202),将波形版本编号Vw从当前值Cw变更为最新值Yw(Sb203)。波形版本编号Vw的最新值Yw是基于与设定值Xf对应的版本的特征串F,针对每个编辑指示Qw而生成的波形W的多个版本之中最新版本的编号。
信息管理部40从存储装置12的履历区域取得音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]、特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Xf,Vw=0]和波形W的第3履历数据Hw[Vn=Cn,Vf=Xf,Vw=1]~Hw[Vn=Xn,Vf=Xf,Vw=Yw](Sb204)。音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]是表示当前版本的音符串N的音符串数据Dn。特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Xf,Vw=0]是表示基于当前版本的音符串N而由利用者依次赋予的1个以上的编辑指示Qf之中第Xf个以前的编辑指示Qf的时间序列的数据。波形W的第3履历数据Hw[Vn=Cn,Vf=Xf,Vw=1]~Hw[Vn=Xn,Vf=Xf,Vw=Yw]是表示基于音符串版本编号Vn为当前值Cn的版本的音符串N和特征串版本编号Vf为设定值Xf的版本的特征串F而由利用者依次赋予的1个以上的编辑指示Qw之中第Yw个以前的编辑指示Qw的时间序列的数据。
第1生成部32通过将信息管理部40所取得的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0](音符串数据Dn)供给至第1生成模型M1而生成特征串数据Df(Sb205)。第2编辑部33与信息管理部40所取得的1个以上的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Xf,Vw=0]表示的编辑指示Qf相对应地,依次对该特征串数据Df进行编辑(Sb206)。即,基于与当前值Cn对应的音符串N,生成与直至第Xf个为止的编辑指示Qf相对应地编辑出的特征串数据Df。
第2生成部34通过将包含信息管理部40所取得的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0](音符串数据Dn)和编辑后的特征串数据Df在内的输入数据Din供给至第2生成模型M2而生成波形数据Dw(Sb207)。第3编辑部35与信息管理部40所取得的1个以上的第3履历数据Hw[Vn=Cn,Vf=Xf,Vw=1]~Hw[Vn=Xn,Vf=Xf,Vw=Yw]表示的编辑指示Qw相对应地,依次对波形数据Dw进行编辑(Sb208)。即,基于与当前值Cn对应的音符串N和与设定值Xf对应的特征串F,生成与直至第Yw个为止的编辑指示Qw相对应地编辑出的波形数据Dw。
显示控制部20对编辑画面G进行更新(Sb209-Sb210)。具体地说,显示控制部20将由第2编辑部33编辑后的特征串数据Df表示的特征串F显示于编辑区域Ef,将操作区域Gf的特征串版本编号Vf的显示更新为设定值Xf(Sb209)。即,与当前值Cn和设定值Xf对应的特征串F显示于编辑区域Ef。另外,显示控制部20将由第3编辑部35编辑后的波形数据Dw表示的波形W显示于编辑区域Ew,将操作区域Gw的波形版本编号Vw的显示更新为最新值Yw(Sb210)。即,与当前值Cn、设定值Xf和最新值Yw对应的波形W显示于编辑区域Ew。在以上的状态下,利用者能够赋予与音符串N、特征串F和波形W各自相关的编辑的指示(Qn、Qf或Qw)。
图10是与波形W的版本相关的第3管理处理Sb3的流程图。将波形版本编号Vw的变更的指示作为契机而开始第3管理处理Sb3。
以下,将与来自利用者的指示相对应的变更后的波形版本编号Vw的数值表述为“设定值Xw”。在利用者直接变更了操作区域Gw内的波形版本编号Vw的情况下,该变更后的数值(即,利用者所指定的数值)相当于设定值Xw。另外,在利用者对操作图像Gw1进行了操作的情况下,波形版本编号Vw的当前值Cw的前一个的数值(=Cw-1)相当于设定值Xw。另一方面,在利用者对操作图像Gw2进行了操作的情况下,波形版本编号Vw的当前值Cw的后一个的数值(=Cw+1)相当于设定值Xw。
如果第3管理处理Sb3开始,则信息管理部40将波形版本编号Vw从当前值Cw变更为设定值Xw(Sb301)。另外,信息管理部40将音符串版本编号Vn维持为当前值Cn(Sb302),将特征串版本编号Vf维持为当前值Cf(Sb303)。
信息管理部40从存储装置12的履历区域取得音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]、特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Cf,Vw=0]和波形W的第3履历数据Hw[Vn=Cn,Vf=Cf,Vw=1]~Hw[Vn=Cn,Vf=Cf,Vw=Xw](Sb304)。音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]是表示当前版本的音符串N的音符串数据Dn。特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Cf,Vw=0]是表示基于音符串版本编号Vn为设定值Xn的音符串N而由利用者依次赋予的1个以上的编辑指示Qf之中第Cf个以前的编辑指示Qf的时间序列的数据。波形W的第3履历数据Hw[Vn=Cn,Vf=Cf,Vw=1]~Hw[Vn=Cn,Vf=Cf,Vw=Xw]是表示基于当前版本的音符串N和当前版本的特征串F而由利用者依次赋予的1个以上的编辑指示Qw之中第Xw个以前的编辑指示Qw的时间序列的数据。
第1生成部32通过将信息管理部40所取得的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0](音符串数据Dn)供给至第1生成模型M1而生成特征串数据Df(Sb305)。第2编辑部33与信息管理部40所取得的1个以上的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Cf,Vw=0]表示的编辑指示Qf相对应地,依次对该特征串数据Df进行编辑(Sb306)。即,基于与当前值Cn对应的音符串N,生成与直至第Cf个为止的编辑指示Qf相对应地编辑出的特征串数据Df。
第2生成部34通过将包含信息管理部40所取得的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0](音符串数据Dn)和编辑后的特征串数据Df在内的输入数据Din供给至第2生成模型M2而生成波形数据Dw(Sb307)。第3编辑部35与信息管理部40所取得的1个以上的第3履历数据Hw[Vn=Cn,Vf=Cf,Vw=1]~Hw[Vn=Cn,Vf=Cf,Vw=Xw]表示的编辑指示Qw相对应地,依次对波形数据Dw进行编辑(Sb308)。即,基于与当前值Cn对应的音符串N和与当前值Cf对应的特征串F,生成与直至第Xw个的编辑指示Qw相对应地编辑出的波形数据Dw。
显示控制部20对编辑画面G进行更新(Sb309)。具体地说,显示控制部20将由第3编辑部35编辑后的波形数据Dw表示的波形W显示于编辑区域Ew,将操作区域Gw的波形版本编号Vw的显示更新为设定值Xw。即,与当前值Cn、当前值Cf和设定值Xf对应的波形W显示于编辑区域Ew。
如上所述,在第1实施方式中,音符串数据Dn和特征串数据Df与来自利用者的指示(编辑指示Qn及编辑指示Qf)相对应地被编辑。因此,与仅音符串数据Dn与来自利用者的指示相对应地被编辑的结构相比,能够生成精细地反映出来自利用者的指示的波形数据Dw。
另外,在音符串数据Dn被编辑的情况下,音符串版本编号Vn增加,并且,特征串版本编号Vf的数值被初始化,在特征串数据Df被编辑的情况下,维持音符串版本编号Vn的数值不变,特征串版本编号Vf的数值增加。而且,利用对应于音符串版本编号Vn的多个数值之中与来自利用者的指示相对应的设定值Xn的第1履历数据Hn[Vn,Vf,Vw]和对应于特征串版本编号Vf的多个数值之中与来自利用者的指示相对应的设定值Xf的第2履历数据Hf[Vn,Vf,Vw]中的至少一者,生成波形数据Dw。因此,利用者能够一边针对音符串版本编号Vn和特征串版本编号Vf的不同组合以试行错误的方式生成波形数据Dw,一边对音符串数据Dn及特征串数据Df的编辑进行指示。
B:第2实施方式
对第2实施方式进行说明。此外,对于以下例示的各方式中功能与第1实施方式同样的要素,使用与在第1实施方式的说明中使用的标号同样的标号,适当省略各自的详细说明。
图11是第2实施方式的编辑画面G的示意图。在第2实施方式的编辑画面G中,对与第1实施方式相同的要素追加操作图像B2。操作图像B2是用于由利用者选择合成音的发音风格的图像(具体是下拉菜单)。利用者能够通过对操作装置15进行操作而选择多个发音风格之中期望的发音风格。
发音风格是指与发音的方法相关的特征。例如,在合成音为乐器音的情况下,发音风格是与乐器的演奏的方法相关的特征。另外,例如在合成音为歌唱音的情况下,发音风格是与乐曲的歌唱的方法相关的特征(歌唱流转)。具体地说,作为发音风格而例示出流行音乐/摇滚/说唱等适于每个音乐流派的发音的方法。另外,作为发音风格还例示出明快/安静/激烈等演奏或者歌唱的音乐表情。
图12是例示出第2实施方式的控制装置11的功能结构的框图。对第2实施方式的第1生成部32及第2生成部34指示通过针对操作图像B2的操作而由利用者选择的发音风格s。
第1生成部32根据音符串数据Dn和发音风格s而生成特征串数据Df。特征串数据Df是表示与将音符串数据Dn表示的音符串N以发音风格s发音出的合成音相关的特征量(例如基本频率)的时间序列的时间序列数据。
具体地说,第1生成部32利用第1生成模型M1而生成特征串数据Df。第1生成模型M1是将音符串数据Dn和发音风格s输入而输出特征串数据Df的统计性推定模型。与第1实施方式相同地,第1生成模型M1例如由卷积神经网络或者递归型神经网络等任意构造的深度神经网络构成。具体地说,第1生成模型M1通过使控制装置11执行根据音符串数据Dn和发音风格s生成特征串数据Df的运算的程序和应用于该运算的多个变量的组合而实现。
对第1生成模型M1进行规定的多个变量通过利用了多个第1训练数据的机器学习而事先设定,存储于存储装置12。多个第1训练数据各自包含音符串数据Dn及发音风格s的组和特征串数据Df(正确值)。在第1生成模型M1的机器学习中,以使得相对于各第1训练数据的音符串数据Dn和发音风格s而由暂定的第1生成模型M1输出的特征串数据Df、和该第1训练数据的特征串数据Df之间的误差降低的方式,反复更新第1生成模型M1的多个变量。因此,第1生成模型M1基于在多个第1训练数据潜在的倾向,针对音符串数据Dn和发音风格s的未知的组合而输出统计上合理的特征串数据Df。
第2生成部34根据音符串数据Dn、特征串数据Df和发音风格s而生成波形数据Dw。波形数据Dw是表示将音符串数据Dn表示的音符串N以发音风格s发音出的合成音的波形的时间序列数据。
具体地说,第2生成部34利用第2生成模型M2而生成波形数据Dw。第2生成模型M2是将音符串数据Dn、特征串数据Df和发音风格s作为输入而输出波形数据Dw的统计性推定模型。与第1实施方式相同地,第2生成模型M2例如由卷积神经网络或者递归型神经网络等任意构造的深度神经网络构成。具体地说,第2生成模型M2通过使控制装置11执行根据音符串数据Dn、特征串数据Df和发音风格s生成波形数据Dw的运算的程序和应用于该运算的多个变量的组合而实现。
对第2生成模型M2进行规定的多个变量通过利用了多个第2训练数据的机器学习而事先设定,存储于存储装置12。多个第2训练数据各自包含音符串数据Dn、特征串数据Df和发音风格s的组、和波形数据Dw(正确值)。在第2生成模型M2的机器学习中,以使得相对于各第2训练数据的音符串数据Dn、特征串数据Df和发音风格s由暂定的第2生成模型M2输出的波形数据Dw、和该第2训练数据的波形数据Dw之间的误差降低的方式,反复更新第2生成模型M2的多个变量。因此,第2生成模型M2基于在多个第2训练数据潜在的倾向,针对音符串数据Dn、特征串数据Df和发音风格s的未知组合而输出统计上合理的波形数据Dw。
第1编辑部31在第2编辑处理Sa2的步骤Sa201中,与来自利用者的编辑指示Qf相对应地,对表示以由利用者选择的发音风格s发音出音符串N的合成音的特征串F的特征串数据Df进行编辑。另外,信息管理部40在第2编辑处理Sa2的步骤Sa205中,将与编辑后的特征串数据Df相对应的第2履历数据Hf[Vn,Vf,Vw]针对特征串数据Df的每个版本而保存于存储装置12的履历区域。
如根据以上的说明所理解的那样,基于特定的音符串N,生成与发音风格s相对应的特征串数据Df和与该发音风格s相对应的波形数据Dw。另一方面,音符串N不受发音风格s的影响。因此,如图13所例示的那样,针对与1个音符串N对应的第1履历数据Hn[Vn,Vf,Vw](音符串数据Dn),按每个发音风格s将与不同的特征串F对应的多个第2履历数据Hf[Vn,Vf,Vw]和与不同的波形W对应的多个第3履历数据Hw[Vn,Vf,Vw]保存于存储装置12的履历区域。
接下来,对第2实施方式的动作的具体例进行说明。在第1编辑处理Sa1中,由第1处理部生成特征串数据Df,该特征串数据Df表示将音符串N以发音风格s进行发音的合成音的特征串F(Sa106),由第2处理部生成表示该合成音的波形W的波形数据Dw(Sa107)。
在第2编辑处理Sa2中,第2编辑部33与来自利用者的编辑指示Qf相对应地,对与发音风格s相对应的特征串数据Df进行编辑。信息管理部40针对特征串数据Df的每次编辑(即特征串数据Df的每个版本),将与该编辑后的特征串数据Df相对应的第2履历数据Hf[Vn,Vf,Vw]保存于履历区域。
同样地,在第3编辑处理Sa3中,第3编辑部35与来自利用者的编辑指示Qw相对应地,对与发音风格s相对应的波形数据Dw进行编辑。信息管理部40针对波形数据Dw的每次编辑(即,波形数据Dw的每个版本),将与该编辑后的波形数据Dw相对应的第3履历数据Hw[Vn,Vf,Vw]保存于履历区域。
在第2实施方式中,在选择了发音风格s的状态下,将音符串版本编号Vn的变更的指示作为契机而开始第1管理处理Sb1。在第1管理处理Sb1的步骤Sb104中,信息管理部40从履历区域取得音符串N的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]、与发音风格s对应的特征串F的第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Yf,Vw=0]和与该发音风格s对应的波形W的第3履历数据Hw[Vn=Xn,Vf=Yf,Vw=1]~Hw[Vn=Xn,Vf=Yf,Vw=Yw]。在第1管理处理Sb1的步骤Sb105至步骤Sb108中,生成与发音风格s对应的特征串F的特征串数据Df和与发音风格s对应的波形W的波形数据Dw。
在第2实施方式中,在选择了发音风格s的状态下,将特征串版本编号Vf的变更的指示作为契机而开始第2管理处理Sb2。在第2管理处理Sb2的步骤Sb204中,信息管理部40从履历区域取得音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]、与发音风格s对应的特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Xf,Vw=0]、和与该发音风格s对应的波形W的第3履历数据Hw[Vn=Cn,Vf=Xf,Vw=1]~Hw[Vn=Xn,Vf=Xf,Vw=Yw]。关于“与发音风格s对应的特征串F”,具体地说,是与音符串版本编号Vn(设定值Xn)、发音风格s和特征串版本编号Vf(最新值Yf)对应的特征串F。另外,关于“与发音风格s对应的波形W”,具体地说,是与音符串版本编号Vn(设定值Xn)、发音风格s、特征串版本编号Vf(最新值Yf)和波形版本编号Vw(最新值Yw)对应的波形W。在第2管理处理Sb2的步骤Sb205至步骤Sb208中,生成与发音风格s对应的特征串F的特征串数据Df和与发音风格s对应的波形W的波形数据Dw。关于“与发音风格s对应的特征串F”,具体地说,是与音符串版本编号Vn(当前值Cn)、发音风格s和特征串版本编号Vf(设定值Xf)对应的特征串F。另外,关于“与发音风格s对应的波形W”,具体地说,是与音符串版本编号Vn(当前值Cn)、发音风格s、特征串版本编号Vf(设定值Xf)和波形版本编号Vw(最新值Yw)对应的波形W。
在第2实施方式中,在选择了发音风格s状态下,将波形版本编号Vw的变更的指示作为契机而开始第3管理处理Sb3。在第3管理处理Sb3的步骤Sb304中,信息管理部40从履历区域取得音符串N的第1履历数据Hn[Vn=Cn,Vf=0,Vw=0]、与发音风格s对应的特征串F的第2履历数据Hf[Vn=Cn,Vf=1,Vw=0]~Hf[Vn=Cn,Vf=Cf,Vw=0]、和与该发音风格s对应的波形W的第3履历数据Hw[Vn=Cn,Vf=Cf,Vw=1]~Hw[Vn=Cn,Vf=Cf,Vw=Xw]。在第3管理处理Sb3的步骤Sb305至步骤Sb308中,生成与发音风格s对应的特征串F的特征串数据Df和与发音风格s对应的波形W的波形数据Dw。关于“与发音风格s对应的特征串F”,具体地说,是与音符串版本编号Vn(当前值Cn)、发音风格s和特征串版本编号Vf(当前值Cf)对应的特征串F。另外,关于“与发音风格s对应的波形W”,具体地说,是与音符串版本编号Vn(当前值Cn)、发音风格s、特征串版本编号Vf(当前值Cf)和波形版本编号Vw(设定值Xw)对应的波形W。
在这里,着眼于利用者能够从多个发音风格s选择的发音风格s1和发音风格s2。发音风格s1和发音风格s2是相互不同的发音风格s。发音风格s1是“第1发音风格”的一个例子,发音风格s2是“第2发音风格”的一个例子。
首先,设想选择了发音风格s1的情况。在第2编辑处理Sa2中,第2编辑部33与来自利用者的编辑指示Qf相对应地,对与发音风格s1相对应的特征串数据Df进行编辑。而且,信息管理部40针对特征串数据Df的每次编辑,将与该编辑后的特征串数据Df相对应的第2履历数据Hf[Vn,Vf,Vw]保存于履历区域。同样地,在第3编辑处理Sa3中,第3编辑部35与来自利用者的编辑指示Qw相对应地,对与发音风格s1相对应的波形数据Dw进行编辑。而且,信息管理部40针对波形数据Dw的每次编辑,将与该编辑后的波形数据Dw相对应的第3履历数据Hw[Vn,Vf,Vw]保存于履历区域。此外,在选择了发音风格s1的状态下生成的特征串数据Df或波形数据Dw是“第1时间序列数据”的一个例子。另外,在选择了发音风格s1的状态下由利用者赋予的编辑指示Qf或编辑指示Qw是“第1指示”的一个例子。
在选择了发音风格s1的情况下,在第1管理处理Sb1的步骤Sb104、第2管理处理Sb2的步骤Sb204、第3管理处理Sb3的步骤Sb304中,生成与发音风格s1对应的特征串F的特征串数据Df和与发音风格s1对应的波形W的波形数据Dw。即,生成与履历数据H相对应的特征串数据Df及波形数据Dw,该履历数据H是与发音风格s1对应的多个履历数据H(Hn,Hf,Hw)之中与来自利用者的指示(Xn,Xf,Xw)相对应的履历数据。
接下来,设想选择了发音风格s2的情况。在第2编辑处理Sa2中,第2编辑部33与来自利用者的编辑指示Qf相对应地,对与发音风格s2相对应的特征串数据Df进行编辑。而且,信息管理部40针对特征串数据Df的每次编辑,将与该编辑后的特征串数据Df相对应的第2履历数据Hf[Vn,Vf,Vw]保存于履历区域。同样地,在第3编辑处理Sa3中,第3编辑部35与来自利用者的编辑指示Qw相对应地,对与发音风格s2相对应的波形数据Dw进行编辑。而且,信息管理部40针对波形数据Dw的每次编辑,将与该编辑后的波形数据Dw相对应的第3履历数据Hw[Vn,Vf,Vw]保存于履历区域。此外,在选择了发音风格s2的状态下生成的特征串数据Df或波形数据Dw是“第2时间序列数据”的一个例子。另外,在选择了发音风格s2的状态下由利用者赋予的编辑指示Qf或编辑指示Qw是“第2指示”的一个例子。
在选择了发音风格s2的情况下,在第1管理处理Sb1的步骤Sb104、第2管理处理Sb2的步骤Sb204和第3管理处理Sb3的步骤Sb304中,生成与发音风格s2对应的特征串F的特征串数据Df和与发音风格s2对应的波形W的波形数据Dw。即,生成与履历数据H相对应的特征串数据Df及波形数据Dw,该履历数据H是与发音风格s2对应的多个履历数据H(Hn,Hf及Hw)之中与来自利用者的指示(Xn,Xf或Xw)相对应的履历数据。
如根据以上的例示所理解的那样,第2实施方式的编辑处理部30与共通版本的音符串数据Dn相对应地,取得与发音风格s1对应的特征串数据Df及波形数据Dw、或者与发音风格s2对应的特征串数据Df及波形数据Dw。
如以上所例示的那样,在第2实施方式中,与发音风格s1对应的特征串数据Df及波形数据Dw的编辑的履历保存于存储装置12,与发音风格s2对应的特征串数据Df及波形数据Dw的编辑的履历保存于存储装置12。因此,能够与来自利用者的指示相对应地,以试行错误的方式执行与发音风格s1对应的特征串数据Df或者波形数据Dw的编辑、与发音风格s2对应的特征串数据Df或者波形数据Dw的编辑。
例如,如果利用者通过操作装置15的操作而对发音风格s之间的对比进行指示,则显示控制部20使图14的对比画面U显示于显示装置14。对比画面U包含第1区域U1和操作图像U1a(调用)、操作图像U1b(播放)、第2区域U2和操作图像U2a(调用)和操作图像U2b(播放)。
在第1区域U1及第2区域U2各自,显示第1履历数据Hn[Vn,Vf,Vw]、第2履历数据Hf[Vn,Vf,Vw]和第3履历数据Hw[Vn,Vf,Vw]之间的阶层关系。利用者能够通过对操作装置15进行操作而针对第1区域U1及第2区域U2各自选择所期望的履历数据H。具体地说,利用者通过对发音风格s和各版本编号(Vn、Vf、Vw)进行指定,针对第1区域U1及第2区域U2各自选择所期望的履历数据H。
在利用者选择了操作图像U1a(调用)的情况下,控制装置11从存储装置12取得在第1区域U1中选择出的履历数据H,将与该履历数据H相对应的编辑画面G显示于显示装置14。具体地说,控制装置11与针对第1区域U1选择出的履历数据H的发音风格s和各版本编号(Vn、Vf、Vw)相对应地,从履历区域取得音符串N的第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]、与发音风格s对应的特征串F的第2履历数据Hf[Vn=Xn,Vf=1,Vw=0]~Hf[Vn=Xn,Vf=Xf,Vw=0]、和与发音风格s对应的波形W的第3履历数据Hw[Vn=Xn,Vf=Xf,Vw=1]~Hw[Vn=Xn,Vf=Xf,Vw=Xw]。控制装置11利用从履历区域取得的各履历数据H,生成与发音风格s的版本编号(Vn、Vf、Vw)对应的特征串F的特征串数据Df和波形W的波形数据Dw。而且,控制装置11使包含第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]示出的音符串、特征串数据Df示出的特征串F、波形数据Dw示出的波形W在内的显示画面G显示于显示装置14。另外,在利用者选择了操作图像U1b(播放)的情况下,控制装置11通过将与针对第1区域U1在以上的流程中生成的波形数据Dw相对应的音响信号Z供给至放音装置13而对合成音进行播放。
同样地,在利用者选择了操作图像U2a(调用)的情况下,控制装置11从存储装置12取得在第2区域U2中选择的履历数据H,将与该履历数据H相对应的编辑画面G显示于显示装置14。具体地说,控制装置11通过与针对第1区域U1已叙述的流程同样的流程,生成与利用者针对第2区域U2指定的发音风格s和各版本编号(Vn、Vf、Vw)对应的特征串数据Df及波形数据Dw。而且,控制装置11使包含第1履历数据Hn[Vn=Xn,Vf=0,Vw=0]示出的音符串、特征串数据Df示出的特征串F和波形数据Dw示出的波形W在内的显示画面G显示于显示装置14。另外,在利用者选择了操作图像U2b(播放)的情况下,控制装置11通过将与针对第2区域U2在以上的流程中生成的波形数据Dw相对应的音响信号Z供给至放音装置13而对合成音进行播放。
如根据以上的例示所理解的那样,利用者能够一边对从第1区域U1选择出的版本及发音风格s的组合和从第2区域U2选择出的版本及发音风格s的组合相互进行对比,一边对音符串N、特征串F、波形W和发音风格s进行调整。
C:第3实施方式
图15是第3实施方式的合成音的说明图。第3实施方式的合成音由在时间轴上相互并列的多个音轨T(T1,T2,…)构成。例如,在将由多个演奏声部构成的乐器音作为合成音的情况下,各演奏声部相当于音轨T。另外,在将由多个歌唱声部构成的歌唱音作为合成音的情况下,各歌唱声部相当于音轨T。
多个音轨T各自包含在时间轴上相互不重复的多个区间(以下,称为“单位区间”)R。多个单位区间R各自是在时间轴上包含音符串N的区间(区域)。即,将在时间轴上相互接近的多个音符的集合作为音符串N,针对每个音符串N而设定单位区间R。各单位区间R的时间长度是与音符串N的音符的总数或者各音符的持续长度等相对应的可变长度。
图16是第3实施方式的编辑画面G的示意图。与由利用者从合成音的多个音轨T选择出的1个音轨T的多个单位区间R之中由利用者选择的1个单位区间R相关的信息(音符串N、特征串F或波形W)显示于编辑画面G。在第2实施方式的编辑画面G中,对与第1实施方式相同的要素追加操作区域Gt和操作区域Gr。
操作区域Gt是与合成音的音轨T相关的区域。具体地说,在操作区域Gt显示音轨版本编号Vt、操作图像Gt1和操作图像Gt2。音轨版本编号Vt是表示在编辑画面G显示的音轨T的版本的编号。针对与在编辑画面G显示的音轨T相关的信息(音符串N、特征串F或波形W)的每次编辑,音轨版本编号Vt以1为单位增加。另外,利用者能够通过对操作装置15进行操作而将操作区域Gt内的音轨版本编号Vt变更为任意的数值。
操作图像Gt1及操作图像Gt2是利用操作装置15能够由利用者操作的软件按钮。操作图像Gt1是用于由利用者指示将与音轨T相关的信息(音符串N、特征串F或波形W)返回至执行前一个的编辑前的状态(Undo)的操作件。另外,操作图像Gt2是用于由利用者指示再次执行通过针对操作图像Gt1的操作而被取消的编辑(Redo)的操作件。
操作区域Gr是与合成音的单位区间R相关的区域。具体地说,在操作区域Gr显示区间版本编号Vr、操作图像Gr1和操作图像Gr2。区间版本编号Vr是表示在编辑画面G显示的单位区间R的版本的编号。针对与在编辑画面G显示的单位区间R相关的信息(音符串N、特征串F或波形W)的每次编辑,区间版本编号Vr以1为单位增加。另外,利用者能够通过对操作装置15进行操作而将操作区域Gt内的音轨版本编号Vt变更为任意的数值。
操作图像Gr1及操作图像Gr2是利用操作装置15能够由利用者操作的软件按钮。操作图像Gr1是用于由利用者指示将与单位区间R相关的信息(音符串N、特征串F或波形W)返回至执行前一个的编辑前的状态(Undo)的操作件。另外,操作图像Gr2是用于由利用者指示再次执行通过针对操作图像Gr1的操作而被取消的编辑(Redo)的操作件。
针对在编辑画面G显示的1个音轨T内的多个单位区间R的每一者,执行编辑处理Sa(Sa1-Sa3)或者管理处理Sb(Sb1-Sb3)。在编辑处理Sa中,在每次编辑音符串N、特征串F和波形W的任意者时,信息管理部40使音轨版本编号Vt及区间版本编号Vr以1为单位增加。另外,在利用者对操作图像(Gn1、Gf1、Gw1、Gn2、Gf2或Gw2)进行了操作的情况下也同样地,信息管理部40使音轨版本编号Vt及区间版本编号Vr以1为单位增加。
在第3实施方式中,也实现与第1实施方式同样的效果。另外,在第3实施方式中,利用者能够一边针对时间轴上的多个单位区间R的每一者以试行错误的方式生成波形数据Dw,一边对音符串数据Dn、特征串数据Df和波形数据Dw各自的编辑进行指示。
D:变形例
以下,例示出对以上例示的各方式附加的具体变形的方式。可以在彼此不矛盾的范围,适当将从以下例示任意选择出的2个以上方式合并。
(1)在前述的各方式中,将各版本的音符串数据Dn作为第1履历数据Hn[Vn,Vf,Vw]而保存于履历区域,但第1履历数据Hn[Vn,Vf,Vw]表示的事项及第1履历数据Hn[Vn,Vf,Vw]的形式不限定于以上的例示。例如,也可以对表示音符串数据Dn如何被编辑(即,编辑指示Qn的时间序列)的第1履历数据Hn[Vn,Vf,Vw]进行保存。如根据以上的说明所理解的那样,第1履历数据Hn[Vn,Vf,Vw]总括地表现为与编辑后的音符串N相对应的数据。
(2)在前述的各方式中,将表示特征串数据Df如何被编辑(即编辑指示Qf的时间序列)的第2履历数据Hf[Vn,Vf,Vw]保存于履历区域,但第2履历数据Hf[Vn,Vf,Vw]表示的事项及第2履历数据Hf[Vn,Vf,Vw]的形式不限定于以上的例示。例如,也可以将与编辑指示Qf相对应的编辑后的特征串数据Df作为第2履历数据Hf[Vn,Vf,Vw]保存于履历区域。如根据以上的例示所理解的那样,第2履历数据Hf[Vn,Vf,Vw]总括地表现为与编辑后的特征串数据Df相对应的数据。
(3)在前述的各方式中,将表示波形数据Dw如何被编辑(即编辑指示Qw的时间序列)的第3履历数据Hw[Vn,Vf,Vw]保存于履历区域,但第3履历数据Hw[Vn,Vf,Vw]表示的事项及第3履历数据Hw[Vn,Vf,Vw]的形式不限定于以上的例示。例如,也可以将与编辑指示Qw相对应的编辑后的波形数据Dw作为第3履历数据Hw[Vn,Vf,Vw]而保存于履历区域。如根据以上的例示所理解的那样,第3履历数据Hw[Vn,Vf,Vw]总括地表现为与编辑后的波形数据Dw相对应的数据。
(4)在前述的各方式中,例示出将合成音的基本频率作为特征量的特征串F,但特征串数据Df表示的特征量不限定于基本频率。例如,也可以将频率区域的合成音的频谱(例如强度谱)、或者时间轴上的声压级作为特征量,将表示该特征量的时间序列(特征串F)的时间序列数据作为特征串数据Df。特征串数据Df总括地表现为表示音符串数据Dn的特征量的时间序列(特征串F)的时间序列数据。
(5)在前述的各方式中,第2生成部34根据音符串数据Dn和特征串数据Df而生成了波形数据Dw,但还能设想到第2生成部34根据音符串数据Dn而生成波形数据Dw的结构,或者第2生成部34根据特征串数据Df而生成波形数据Dw的结构。即,第2生成部34从音符串数据Dn及波形数据Dw中的至少一者确定出生成波形数据Dw的要素。
(6)在第2实施方式中,例示出针对包含发音风格s的输入而输出特征串数据Df的第1生成模型M1,用于由第1生成部32生成与发音风格s相对应的特征串数据Df的结构不限定于以上的例示。例如,可以选择性地利用与不同的发音风格s对应的多个第1生成模型M1而生成特征串数据Df。与各发音风格s对应的第1生成模型M1通过利用针对该发音风格s准备的多个第1训练数据的机器学习而构建。第1生成部32通过对多个第1生成模型M1之中与由利用者选择的发音风格s对应的第1生成模型M1输入音符串数据Dn而生成特征串数据Df。
另外,在第2实施方式中,例示出针对包含发音风格s的输入而输出波形数据Dw的第2生成模型M2,但用于由第2生成部34生成与发音风格s相对应的波形数据Dw的结构不限定于以上的例示。例如,可以选择性地利用与不同的发音风格s对应的多个第2生成模型M2而生成波形数据Dw。与各发音风格s对应的第2生成模型M2通过利用了针对该发音风格s准备的多个第2训练数据的机器学习而构建。第2生成部34通过对多个第2生成模型M2之中与由利用者选择的发音风格s对应的第2生成模型M2输入音符串数据Dn及特征串数据Df(输入数据Din)而生成波形数据Dw。
(7)在前述的各方式中,在编辑画面G的编辑区域Ew显示了音响信号Z的波形W,但也可以将音响信号Z的频谱的时间序列(即谱图)与波形W一起显示于编辑画面G。例如,图17所例示的编辑画面G包含编辑区域Ew1和编辑区域Ew2。在编辑区域Ew1,与前述的各方式的编辑区域Ew相同地显示波形W。另一方面,在编辑区域Ew2显示音响信号Z的频谱的时间序列。利用者除了针对编辑区域Ew1内的波形的编辑指示Qw以外,还能够通过针对操作装置15的操作,赋予针对编辑区域Ew2内的频谱的编辑指示Qw。
(8)音符串数据Dn是表示将时间轴上的多个音符作为要素的音符串N的时间序列数据。特征串数据Df是表示将时间轴上的多个特征量作为要素的特征串F的时间序列数据。波形数据Dw是表示将时间轴上的多个样本作为要素的波形W的时间序列数据。如根据以上的例示所理解的那样,音符串数据Dn、特征串数据Df和波形数据Dw总括地表现为表示多个要素的时间序列的时间序列数据。
(9)在前述的各方式中,将深度神经网络作为第1生成模型M1及第2生成模型M2进行了例示,但第1生成模型M1及第2生成模型M2的结构是任意的。例如也可以将HMM(HiddenMarkov Model)等其他构造的统计性推定模型作为第1生成模型M1或第2生成模型M2进行利用。
(10)在前述的各方式中,例示出与音符串N对应的合成音的合成,但在对表示多个要素的时间序列的时间序列数据进行处理的任意情况下,可以利用前述的各方式。例如,在前述的各方式中,例示出上级层与音符串N对应、中级层与特征串F对应、下级层与波形W对应的方式,但合成音的合成以外的情况的各阶层成为以下例示的组合。
例如,在生成旋律的自动作曲的情况下,构成该旋律的音符串与上级层对应,该旋律的和弦的时间序列与中级层对应,与该旋律匹配的伴奏音的音符串与下级层对应。另外,在对与字符列对应的声音进行合成的声音合成的情况下,该字符列与上级层对应,声音的发音的风格与中级层对应,该声音的波形与下级层对应。在对各种的信号进行处理的信号处理的情况下,该信号的波形与上级层对应,该信号的特征量的时间序列与中级层对应,与针对该信号的处理相关的参数的时间序列与下级层对应。在以上例示的任意方式中,都是上级层的数据表现为“上级数据”,中级层的数据表现为“中级数据”,下级层的数据表现为“下级数据”。下级数据是表示利用者实际利用的内容(例如,前述的各方式的波形W)的数据。
此外,构成前述的各方式的音符串N的各音符和构成声音合成的字符列的各字符总括地表现为表示声音的符号(symbol)。另外,音符串N及字符列总括地表现为多个符号以时间序列排列的符号串。
(11)以上例示出的音响处理系统的功能如前述的那样,通过构成控制装置11的单个或多个处理器、和存储于存储装置12的程序的协同动作而实现。本发明涉及的程序可以以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质,优选是CD-ROM等光学式记录介质(光盘),还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外,作为非临时性的记录介质,包含除了临时性的传输信号(transitory,propagating signal)以外的任意的记录介质,也可以不将易失性的记录介质除外。另外,在传送装置经由通信网而传送程序的结构中,在该传送装置,对程序进行存储的存储装置12相当于前述的非临时性的记录介质。
E:附录
根据以上例示的方式,例如能掌握以下结构。
本发明的一个方式(方式1)所涉及的信息处理方法与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,与来自所述利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,取得与第1履历数据对应的第1时间序列数据、或者与第2履历数据对应的第2时间序列数据,该第1履历数据是在所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据,该第2履历数据是在所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据。
根据以上的方式,保存与第1发音风格对应的第1时间序列数据的编辑的履历,保存与第2发音风格对应的第2时间序列数据的编辑的履历。因此,能够与来自利用者的指示对应地以试行错误的方式执行与第1发音风格对应的第1时间序列数据的编辑和与第2发音风格对应的第2时间序列数据的编辑。此外,“符号串”例如是音符串或字符串。
在方式1的具体例(方式2)中,所述符号串是包含以时间序列排列的多个音符的音符串。另外,在方式2的具体例(方式3)中,与来自所述利用者的指示相对应地,对表示所述音符串的音符串数据进行编辑,所述第1时间序列数据及所述第2时间序列数据是根据共通版本的所述音符串数据生成的。
在方式1至方式3的具体例(方式4)中,在所述取得中,取得所述多个第1履历数据之中前一个的编辑后的第1履历数据及所述多个第2履历数据之中前一个的编辑后的第2履历数据中的任意者。根据以上结构,能够取得执行前一个的编辑前(即,将该编辑取消后的状态)的第1履历数据或者第2履历数据。
在方式1至方式3的具体例(方式5)中,在所述取得中,取得所述多个第1履历数据之中由所述利用者指定的版本的第1履历数据及所述多个第2履历数据之中由所述利用者指定的版本的第2履历数据中的任意者。根据以上结构,能够取得对应于与来自利用者的指示相对应的任意版本的第1履历数据或第2履历数据。
本发明的一个方式所涉及的信息处理系统具有:编辑处理部,其与来自利用者的第1指示相对应地,对表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列的第1时间序列数据进行编辑,与来自所述利用者的第2指示相对应地,对表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列的第2时间序列数据进行编辑;以及信息管理部,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,所述信息管理部取得与第1履历数据对应的第1时间序列数据、或者与第2履历数据对应的第2时间序列数据,该第1履历数据是在所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据,该第2履历数据是在所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据。本发明的一个方式所涉及的程序使计算机系统作为以上的信息处理系统起作用。
标号的说明
100…信息处理系统,11…控制装置,12…存储装置,13…放音装置,14…显示装置,15…操作装置,20…显示控制部,30…编辑处理部,31…第1编辑部,32…第1生成部,33…第2编辑部,34…第2生成部,35…第3编辑部,M1…第1生成模型,M2…第2生成模型。
Claims (7)
1.一种信息处理方法,其是由计算机系统实现的,
与来自利用者的第1指示相对应地,对第1时间序列数据进行编辑,该第1时间序列数据表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列,
针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,
与来自所述利用者的第2指示相对应地,对第2时间序列数据进行编辑,该第2时间序列数据表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列,
针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,
取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
2.根据权利要求1所述的信息处理方法,其中,
所述符号串是包含以时间序列排列的多个音符的音符串。
3.根据权利要求2所述的信息处理方法,其中,
与来自所述利用者的指示相对应地,对表示所述音符串的音符串数据进行编辑,
所述第1时间序列数据及所述第2时间序列数据是根据共通版本的所述音符串数据生成的。
4.根据权利要求1至3中任一项所述的信息处理方法,其中,
在所述取得中,取得所述多个第1履历数据之中前一个的编辑后的第1履历数据及所述多个第2履历数据之中前一个的编辑后的第2履历数据中的任意者。
5.根据权利要求1至3中任一项所述的信息处理方法,其中,
在所述取得中,取得所述多个第1履历数据之中由所述利用者指定的版本的第1履历数据及所述多个第2履历数据之中由所述利用者指定的版本的第2履历数据中的任意者。
6.一种信息处理系统,其具有:
编辑处理部,其与来自利用者的第1指示相对应地,对表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列的第1时间序列数据进行编辑,与来自所述利用者的第2指示相对应地,对表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列的第2时间序列数据进行编辑;以及
信息管理部,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,
所述信息管理部取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
7.一种程序,其使计算机系统作为如下功能部起作用:
编辑处理部,其与来自利用者的第1指示相对应地,对表示以第1发音风格对符号串进行了发音的声音的特征量的时间序列的第1时间序列数据进行编辑,与来自所述利用者的第2指示相对应地,对表示以与所述第1发音风格不同的第2发音风格对所述符号串进行了发音的声音的特征量的时间序列的第2时间序列数据进行编辑;以及
信息管理部,针对所述第1时间序列数据的每次编辑,将与该编辑后的所述第1时间序列数据相对应的第1履历数据作为新版本的数据而保存,针对所述第2时间序列数据的每次编辑,将与该编辑后的所述第2时间序列数据相对应的第2履历数据作为新版本的数据而保存,
所述信息管理部取得对应于所述保存的不同版本的多个第1履历数据之中与来自所述利用者的指示相对应的第1履历数据的第1时间序列数据、或者对应于所述保存的不同版本的多个第2履历数据之中与来自所述利用者的指示相对应的第2履历数据的第2时间序列数据。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/037966 WO2022074754A1 (ja) | 2020-10-07 | 2020-10-07 | 情報処理方法、情報処理システムおよびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116324965A true CN116324965A (zh) | 2023-06-23 |
Family
ID=81125769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080105738.8A Pending CN116324965A (zh) | 2020-10-07 | 2020-10-07 | 信息处理方法、信息处理系统及程序 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2022074754A1 (zh) |
CN (1) | CN116324965A (zh) |
WO (1) | WO2022074754A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252719A (ja) * | 2003-02-20 | 2004-09-09 | Mitsubishi Electric Corp | データ管理装置及びデータ管理方法及びデータ管理プログラム |
JP2007034782A (ja) * | 2005-07-28 | 2007-02-08 | Keakomu:Kk | 文書編集装置 |
JP2017084356A (ja) * | 2015-03-23 | 2017-05-18 | ドロップボックス, インコーポレイテッド | 共有フォルダを支援する統合ワークスペース |
WO2019239971A1 (ja) * | 2018-06-15 | 2019-12-19 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
-
2020
- 2020-10-07 CN CN202080105738.8A patent/CN116324965A/zh active Pending
- 2020-10-07 JP JP2022555020A patent/JPWO2022074754A1/ja active Pending
- 2020-10-07 WO PCT/JP2020/037966 patent/WO2022074754A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252719A (ja) * | 2003-02-20 | 2004-09-09 | Mitsubishi Electric Corp | データ管理装置及びデータ管理方法及びデータ管理プログラム |
JP2007034782A (ja) * | 2005-07-28 | 2007-02-08 | Keakomu:Kk | 文書編集装置 |
JP2017084356A (ja) * | 2015-03-23 | 2017-05-18 | ドロップボックス, インコーポレイテッド | 共有フォルダを支援する統合ワークスペース |
WO2019239971A1 (ja) * | 2018-06-15 | 2019-12-19 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2022074754A1 (ja) | 2022-04-14 |
JPWO2022074754A1 (zh) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6547878B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6610714B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6610715B1 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN111418006B (zh) | 声音合成方法、声音合成装置及记录介质 | |
JP7484952B2 (ja) | 電子機器、電子楽器、方法及びプログラム | |
CN113160779A (zh) | 电子乐器、方法及存储介质 | |
JP6784022B2 (ja) | 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム | |
US20220238088A1 (en) | Electronic musical instrument, control method for electronic musical instrument, and storage medium | |
JP7180587B2 (ja) | 電子楽器、方法及びプログラム | |
CN111696498A (zh) | 键盘乐器以及键盘乐器的计算机执行的方法 | |
JP5625321B2 (ja) | 音声合成装置およびプログラム | |
JP6835182B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN114446266A (zh) | 音响处理系统、音响处理方法及程序 | |
JP2009217141A (ja) | 音声合成装置 | |
JP2023100776A (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
CN116324965A (zh) | 信息处理方法、信息处理系统及程序 | |
CN116324964A (zh) | 信息处理方法、信息处理系统及程序 | |
JP6801766B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6819732B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP6992894B2 (ja) | 表示制御方法、表示制御装置およびプログラム | |
WO2024089995A1 (ja) | 楽音合成方法、楽音合成システムおよびプログラム | |
WO2023171497A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
JP2003114680A (ja) | 楽曲情報編集装置及び楽曲情報編集プログラム | |
CN117121089A (zh) | 音响处理方法、音响处理系统、程序及生成模型的创建方法 | |
JP3797181B2 (ja) | 楽譜表示装置及び楽譜表示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |