CN114402389A

CN114402389A - 音响解析方法、音响解析装置及程序

Info

Publication number: CN114402389A
Application number: CN201980100452.8A
Authority: CN
Inventors: 筱井暖
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-04-26
Also published as: US20220215051A1; WO2021059473A1; JP7120468B2; JPWO2021059473A1

Abstract

音响解析装置具有：信号取得部，其取得表示乐曲的演奏音的音响信号；信号解析部，其针对多个音乐类别的每一者，通过音响信号的解析而计算包含乐曲属于该音乐类别的准确度在内的特征量；以及乐曲选择部，其选择多个候补乐曲中特征量与针对乐曲计算出的特征量相似的1个以上的候补乐曲。

Description

音响解析方法、音响解析装置及程序

技术领域

本发明涉及对音响信号进行解析的技术。

背景技术

以往提出了通过对表示乐曲的演奏音的音响信号进行解析而推定该乐曲所属的音乐流派(Music genre)的技术。例如在非专利文献1中，公开了通过利用机器学习技术的音响信号的解析而推定乐曲的音乐流派的技术。

非专利文献1：Hareesh Bahuleyan,"Music Genre Classification usingMachine Learning Techniques,"arXiv:1804.01149[cs.SD],3 Apr 2018

但是，实际的乐曲有时包含遍布多个音乐流派的音乐特征。因此，例如即使针对利用者所指定的乐曲而检索音乐流派共通的乐曲，实际上有时也检索到音乐特征明显不同的乐曲。此外，在以上的说明中关注了音乐流派，但设想到除了音乐流派以外对于包含基于“明快印象的乐曲”“忧郁印象的乐曲”等音乐印象的分类在内的音乐类别(Musiccategory)有同样的课题。考虑到以上情况，本发明的一个方式的目的在于，根据多个音乐类别的观点而选择与特定的乐曲相似的适当的乐曲。

发明内容

为了解决以上课题，本发明的一个方式涉及的音响解析方法，取得表示乐曲的演奏音的音响信号，针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算，选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

本发明的一个方式涉及的音响解析装置具有：信号取得部，其取得表示乐曲的演奏音的音响信号；信号解析部，其针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算；以及乐曲选择部，其选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

本发明的一个方式涉及的程序使计算机作为如下功能部起作用：信号取得部，其取得表示乐曲的演奏音的音响信号；信号解析部，其针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算；以及乐曲选择部，其选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

附图说明

图1是例示出第1实施方式涉及的音响解析装置的结构的框图。

图2是例示出音响解析装置的功能性结构的框图。

图3是特征量的说明图。

图4是例示出信号解析部的具体结构的框图。

图5是与变动模式Y的解析相关的说明图。

图6是例示出生成变动模式的处理的具体流程的流程图。

图7是单位特征量的计算的说明图。

图8是第1解析图像的示意图。

图9是第1解析图像的示意图。

图10是第2解析图像的示意图。

图11是例示出乐曲选择部的具体结构的框图。

图12是例示出音响解析处理的具体流程的流程图。

图13是例示出第2实施方式的音响解析装置的功能性结构的框图。

图14是例示出第2实施方式的音响解析处理的具体流程的流程图。

具体实施方式

A：第1实施方式

图1是例示出本发明的第1实施方式涉及的音响解析装置100的结构的框图。音响解析装置100是通过对表示特定的乐曲(以下称为“目标乐曲”)的演奏音的音响信号S进行解析，从而生成与音乐流派相关的特征量的信息处理装置。音乐流派是指以音乐观点对乐曲进行分类的区分(种类)。例如摇滚乐、流行乐、爵士乐、舞曲或者布鲁斯乐等的音乐区分是音乐流派的典型例。

音响解析装置100由具有控制装置11、存储装置12和显示装置13的计算机系统实现。例如，音响解析装置100通过智能机或者个人计算机等各种信息终端而实现。此外，音响解析装置100由单体的装置实现，除此以外也可以由相互分体地构成的多个装置(即系统)实现。

控制装置11由对音响解析装置100的各要素进行控制的单个或多个处理器构成。例如，控制装置11由CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或者ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。显示装置13基于控制装置11的控制而对图像进行显示。显示装置13例如是液晶显示面板。

存储装置12是对控制装置11执行的程序和控制装置11使用的数据进行存储的单个或多个存储器。存储装置12例如由磁记录介质或者半导体记录介质等公知的记录介质构成。此外，也可以通过多种记录介质的组合而构成存储装置12。另外，也可以将相对于音响解析装置100可装拆的可移动型的记录介质、或者能够与音响解析装置100通信的外部记录介质(例如网络硬盘)作为存储装置12进行利用。

存储装置12对音响解析装置100的解析对象即音响信号S进行存储。音响信号S例如是表示构成目标乐曲的多个演奏声部的演奏音的混合音的时间区域的信号。目标乐曲的演奏音例如包含乐器发音的乐音和歌唱者发音的语音中的至少一者。音响信号S例如作为从音乐传送装置(省略图示)传送至音响解析装置100的音乐文件而存储于存储装置12。

图2是例示出音响解析装置100的功能性结构的框图。控制装置11通过执行在存储装置12存储的程序而实现用于对音响信号S进行解析的多个功能(信号取得部21、信号解析部22、显示控制部23及乐曲选择部24)。此外，可以通过相互分体地构成的多个装置而实现控制装置11的功能，也可以通过专用电路而实现控制装置11的功能的一部分或全部。信号取得部21取得音响信号S。具体而言，信号取得部21从存储装置12依次读取音响信号S的各样本。此外，信号取得部21也可以从能够与音响解析装置100通信的外部装置取得音响信号S。

[信号解析部22]

信号解析部22通过音响信号S的解析而对特征量F进行计算。图3是特征量F的说明图。特征量F是包含与不同的音乐流派Gn相对应的N个准确度Q1～QN的N维向量(N为2以上的自然数)。与第n个(n＝1～N)音乐流派Gn相对应的准确度Qn是音响信号S所表示的目标乐曲属于该音乐流派Gn的概率的指标。即，例如，特征量F的1个准确度Qn越大，能够评价为目标乐曲属于第n个音乐流派Gn的可能性越高。如根据以上说明所理解的那样，特征量F是用于评价目标乐曲所属的音乐流派Gn的指标。

图4是例示出信号解析部22的具体结构的框图。信号解析部22具有第1处理部221、第2处理部222、第3处理部223。

第1处理部221通过音响信号S的解析而生成变动模式(Fluctuation pattern)Y。图5是与变动模式Y的解析相关的说明图。图5的记号f是指频率，记号t是指时间。第1处理部221针对将音响信号S在时间轴上进行区分的多个期间(以下称为“单位期间”)T的每一者而生成变动模式Y。单位期间T例如是与目标乐曲内的规定个数的小节相当的时间长度(例如4个小节)的期间。

变动模式Y由与不同的音色相对应的M个系数序列y1～yM构成。M种音色是能够在多个乐曲出现的音响成分的音色。M种音色中的与第m个(m＝1～M)的音色相对应的系数序列ym是表示与音响信号S的该音色的音响成分相关的强度(例如振幅或功率)的时间变动的非负的数值列。此外，例如针对乐器或者歌唱者等的发音源的每个种类而音色不同。因此，系数序列ym还可以称为M种发音源中的与第m个发音源的音响成分相关的强度的时间变动。

第1处理部221通过利用已知的基矩阵B的非负矩阵分解(NMF：Non-negativeMatrix Factorization)而根据音响信号S来生成变动模式Y。基矩阵B是包含与不同的音色相对应的M个频率特性b1～bM的非负矩阵。与第m个音色相对应的频率特性bm是与该音色的音响成分相关的每个频率的强度的系列。具体而言，频率特性bm例如是振幅谱或者功率谱。通过机器学习而预先生成的基矩阵B存储于存储装置12。

如根据以上说明所理解的那样，变动模式Y是与基矩阵B相对应的非负的系数矩阵(激活矩阵)。即，变动模式Y的各系数序列ym是加权值(激活度)相对于基矩阵B内的频率特性bm的时间变动。各系数序列ym还可以称为音响信号S的与第m个音色相关的韵律模式。每个音色的韵律模式的倾向针对每个音乐流派Gn而不同。

图6是例示出第1处理部221生成变动模式Y的处理的具体流程的流程图。针对音响信号S的每个单位期间T而执行图6的处理。

第1处理部221针对音响信号S的单位期间T而生成观测矩阵X(Sa1)。观测矩阵X如图5所例示的那样，是表示音响信号S的频率特性的时间序列的非负矩阵。具体而言，单位期间T内的振幅谱或者功率谱的时间序列(频谱图)作为观测矩阵X而生成。

第1处理部221通过利用在存储装置12存储的基矩阵B的非负矩阵分解而根据观测矩阵X来计算变动模式Y(Sa2)。具体而言，第1处理部221以使得基矩阵B和变动模式Y之积BY与观测矩阵X近似(理想情况为一致)的方式对变动模式Y进行计算。

图4的第2处理部222根据变动模式Y而计算单位特征量V。针对每个单位期间T而对单位特征量V进行计算。具体而言，第2处理部222如图3所例示的那样，针对多个单位期间T的每一者，根据该单位期间T的变动模式Y而计算单位特征量V。单位特征量V与前述的特征量F相同地，是包含与不同的音乐流派Gn相对应的N个准确度q1～qN的N维向量。与第n个音乐流派Gn相对应的准确度qn是音响信号S所表示的目标乐曲的单位期间T属于该音乐流派Gn的概率的指标。

第3处理部223通过针对目标乐曲内的多个单位期间T将单位特征量V进行平均而计算特征量F。具体而言，特征量F的第n个音乐流派Gn的准确度Qn是多个单位特征量V的该音乐流派Gn的准确度qn的平均值。因此，对反映了目标乐曲内的多个单位期间T整个范围的音响特性的特征量F进行计算。

图7是通过第2处理部222进行的单位特征量V的计算的说明图。在存储装置12存储与不同的音乐流派Gn相对应的N个变动模式Z1～ZN。各变动模式Zn与前述的变动模式Y相同地，由与不同的音色相对应的M个系数序列z1～zM构成。各变动模式Zn例如通过以下流程进行准备。

针对N个音乐流派Gn的每一者，准备该音乐流派Gn的与不同的乐曲相对应的多个参照信号Rn。根据针对各音乐流派Gn准备的多个参照信号Rn而生成该音乐流派Gn的变动模式Zn。参照信号Rn是表示属于第n个音乐流派Gn的乐曲的伴奏音的时间区域的信号。通过与图6的信号解析处理相同的流程，根据各参照信号Rn而生成变动模式Z'n，针对属于1个音乐流派Gn的多个乐曲而将变动模式Z'n进行平均，由此生成该音乐流派Gn的变动模式Zn。如根据以上说明所理解的那样，变动模式Zn的系数序列zm是在属于第n个音乐流派Gn的乐曲中在第m个音色容易发生的韵律模式。

第2处理部222针对N个音乐流派G1～GN的每一者对该音乐流派Gn的变动模式Zn和目标乐曲的变动模式Y进行对比，由此对单位特征量V的准确度qn进行计算。准确度qn是变动模式Zn和变动模式Y之间的相关性或距离。在以下的说明中，例示出变动模式Zn和变动模式Y之间的相关性的指标即相关系数作为准确度qn。因此，变动模式Zn和变动模式Y相互之间越相关，则准确度qn成为越大的数值。即，准确度qn是目标乐曲属于音乐流派Gn的概率的指标。如根据以上说明所理解的那样，特征量F的准确度Qn通过对音乐流派Gn的变动模式Zn和目标乐曲的变动模式Y进行对比而计算。

如根据以上说明所理解的那样，对表示音乐流派Gn的韵律模式的倾向的变动模式Zn和表示目标乐曲的韵律模式的倾向的变动模式Y进行对比，由此对单位特征量V的准确度qn(进一步为特征量F的准确度Qn)进行计算。因此，在音乐流派Gn共通的多个乐曲之间，存在特征量F相互相似的倾向。

[显示控制部23]

显示控制部23使通过信号解析部22进行的解析的结果显示于显示装置13。具体而言，显示控制部23使图8或图9的第1解析图像13a和图10的第2解析图像13b显示于显示装置13。

第1解析图像13a是表示特征量F的图像。图8是针对乐曲A计算出的特征量F的第1解析图像13a，图9是针对与乐曲A音乐印象不同的乐曲B计算出的特征量F的第1解析图像13a。第1解析图像13a是将构成特征量F的N个准确度Q1～QN的每一者表现于纵轴的直方图。利用者通过参照第1解析图像13a，能够在视觉上及直观地掌握乐曲属于N个音乐流派G1～GN的每一者的准确度Qn。例如，通过参照图8的第1解析图像13a，利用者能够确认乐曲A兼具音乐流派G1(摇滚乐)和音乐流派G4(舞曲)这两者的特征。另一方面，通过参照图9的第1解析图像13a，利用者能够确认乐曲A是音乐流派G1(摇滚乐)的典型性倾向强的乐曲。

另外，图10中例示出的第2解析图像13b是表示多个单位期间T的范围的单位特征量V的时间序列的图像。在第2解析图像13b设定相互正交的第1轴Ax和第2轴Ay。第1轴Ax是指时间轴。在第2轴Ay设定N个音乐流派G1～GN。第2解析图像13b是沿第1轴Ax及第2轴Ay将多个单位图像U以矩阵状排列的图像。与第1轴Ax的1个单位期间T和第2轴Ay的1个音乐流派Gn的组合相对应的单位图像U表现针对该单位期间T计算出的单位特征量V的N个准确度q1～qN中的与该音乐流派Gn相对应的准确度qn。具体而言，与各准确度qn相对应的单位图像U的显示方式(例如灰度或色彩)是与该准确度qn对应地设定的。例如，准确度qn越大，该单位图像U以越高的灰度进行显示。

如根据以上说明所理解的那样，在第2解析图像13b中，沿第2轴Ay的N个单位图像U的排列是指任意的1个单位期间T的单位特征量V(即，N个准确度q1～qN的系列)。另外，在第2解析图像13b中沿第1轴Ax的多个单位图像U的排列是指乐曲属于1个音乐流派Gn的准确度qn的时间上的变化。利用者通过参照第2解析图像13b，能够视觉上及直观地掌握单位特征量V或者各准确度qn的时间上的变化。

[乐曲选择部24]

图2的乐曲选择部24对多个(K个)候补乐曲中与目标乐曲音乐性相似的多个候补乐曲进行选择。图11是例示出乐曲选择部24的结构的框图。

在存储装置12存储候补表格C。候补表格C是针对K个候补乐曲的每一者而登记了特征量Fk(k＝1～K)和乐曲数据Dk的数据表。各候补乐曲的特征量Fk是以与目标乐曲的特征量F的生成相同的流程针对该候补乐曲而事先生成的特征量。即，特征量Fk由与不同的音乐流派相对应的N个准确度Q1～QN构成。各候补乐曲的乐曲数据Dk是与该候补乐曲相关联的信息。例如，候补乐曲的乐曲名或者演奏者名等各种信息包含于乐曲数据Dk。

乐曲选择部24对K个候补乐曲中特征量Fk与目标乐曲的特征量F相似的多个候补乐曲进行选择。乐曲选择部24具有相似度计算部241和选择处理部242。相似度计算部241针对K个候补乐曲的每一者，对该候补乐曲的特征量Fk和目标乐曲的特征量F之间的相似度σk进行计算。相似度σk是与特征量Fk和特征量F之间的相似程度相关的指标。具体而言，相似度σk是特征量Fk和特征量F之间的相关性或距离。在以下的说明中，例示出特征量Fk和特征量F之间的相关性的指标即相关系数作为相似度σk。因此，特征量Fk和特征量F越相似，相似度σk成为越大的数值。

选择处理部242对K个候补乐曲中相似度σk高的多个候补乐曲进行选择。具体而言，选择处理部242选择相似度σk大于规定的阈值的多个候补乐曲、或者按照相似度σk的降序而位于上位的规定个候补乐曲。即，对目标乐曲选择音乐印象(特别是，韵律模式)相似的候补乐曲。

显示控制部23将由乐曲选择部24(选择处理部242)选择的多个候补乐曲的每一者提示给利用者。具体而言，显示控制部23使各候补乐曲的乐曲数据Dk表示的信息(乐曲名及演奏者名)显示于显示装置13。

图12是例示出控制装置11执行的处理(音响解析处理)的具体流程的流程图。例如，将来自利用者对音响解析装置100的指示作为契机而开始音响解析处理。

如果开始音响解析处理，则信号取得部21取得音响信号S(Sb1)。信号解析部22针对将音响信号S在时间轴上进行区分的多个单位期间T的每一者而计算单位特征量V(Sb2)。信号解析部22通过针对多个单位期间T将单位特征量V进行平均而计算特征量F(Sb3)。显示控制部23使第1解析图像13a及第2解析图像13b显示于显示装置13(Sb4)。乐曲选择部24对K个候补乐曲中特征量Fk与目标乐曲的特征量F相似的多个候补乐曲进行选择(Sb5)。显示控制部23使由乐曲选择部24选择出的多个候补乐曲的每一者的乐曲数据Dk表示的信息显示于显示装置13(Sb6)。

如以上所说明的那样，在第1实施方式中，针对N个音乐流派G1～GN的每一者，对包含目标乐曲属于该音乐流派Gn的准确度Qn的特征量F进行计算。而且，对K个候补乐曲中特征量Fk与目标乐曲的特征量F相似的多个候补乐曲进行选择。因此，与对属于针对目标乐曲推定出的1个音乐流派Gn的候补乐曲进行选择的结构相比，能够选择在考虑了N个音乐类型G1～GN的综合性观点上音乐印象与目标乐曲相似的适当的候补乐曲。例如，在目标乐曲的特征量F的N个准确度Q1～QN中与摇滚乐及爵士乐相对应的准确度Qn相对高的情况下，能够选择属于摇滚乐的2个以上的候补乐曲中接近爵士乐的候补乐曲。

在第1实施方式中，特别是，利用针对多个音色的每一者而表示时间上的变动的变动模式Y，对目标乐曲属于各音乐流派Gn的准确度Qn进行计算。因此，能够对根据目标乐曲的韵律的观点适当地表现出目标乐曲属于各音乐流派Gn的准确度Qn的特征量F。

另外，在第1实施方式中，通过将针对多个单位期间T的每一者计算出的单位特征量V进行平均而计算特征量F。因此，能够对反映了目标乐曲内的多个单位期间T的范围的部分的音响特性的特征量F进行计算。

B：第2实施方式

对第2实施方式进行说明。此外，在以下所例示的各方式中，对功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号。适当省略各自的详细说明。

图13是例示出第2实施方式涉及的音响解析装置100的功能性结构的框图。第2实施方式的音响解析装置100是在与第1实施方式相同的要素(信号取得部21、信号解析部22、显示控制部23及乐曲选择部24)追加了构造解析部25的结构。

构造解析部25通过音响信号S的解析而确定目标乐曲的多个乐曲构造区间。乐曲构造区间是与音乐意义或者乐曲内的定位对应地将目标乐曲在时间轴上进行区分的区间。例如，乐曲构造区间是前奏(intro)、A主歌(verse)、B主歌(bridge)、副歌(chorus)或者结尾部分(outro)。基于构造解析部25进行的各乐曲构造区间的确定任意采用公知的音乐解析技术。

第2实施方式的信号解析部22(第3处理部223)利用针对每个乐曲构造区间设定的加权值对多个单位期间T的范围的单位特征量V进行加权平均，由此计算特征量F。即，信号解析部22将针对各单位特征量V的加权值针对每个乐曲构造区间而分别设定。例如，与A主歌、B主歌或者副歌相当的乐曲构造区间内的各单位期间T的加权值，大于与前奏或者结尾部分相当的乐曲构造区间内的各单位期间T的加权值。另外，与副歌相当的乐曲构造区间内的各单位期间T的加权值，大于与A主歌或者B主歌相当的乐曲构造区间内的各单位期间的加权值。

图14是例示出第2实施方式的音响解析处理的具体流程的流程图。如果执行音响信号S的取得(Sb1)和每个单位期间T的单位特征量V的计算(Sb2)，则构造解析部25通过音响信号S的解析而确定目标乐曲的多个乐曲构造区间(Sc)。信号解析部22通过应用了针对每个乐曲构造区间而设定的加权值的单位特征量V的加权平均而计算特征量F(Sb3)。显示控制部23及乐曲选择部24的动作(Sb4～Sb6)与第1实施方式相同。此外，也可以将单位特征量V的计算(Sb2)和乐曲构造区间的解析(Sc)的顺序颠倒。

在第2实施方式中，也实现与第1实施方式相同的效果。乐曲的音乐印象有时针对每个乐曲构造区间而变化。在第2实施方式中，针对每个乐曲构造区间而设定各单位特征量V的加权值，由此能够针对每个乐曲构造区间而计算适当地反映了音乐印象发生变化这一倾向的特征量F。

C：变形例

以下，例示出对以上例示的各方式附加的具体变形的方式。可以在彼此不矛盾的范围，适当将从以下例示任意选择出的2个以上方式合并。

(1)在前述的各方式中，通过将多个单位期间T范围的单位特征量V进行平均而计算特征量F，但也可以计算每个单位期间T的单位特征量V作为最终的特征量F。即，信号解析部22针对多个单位期间T的每一者而计算特征量F。在针对每个单位期间T而计算特征量F的结构中，省略第3处理部223。

(2)在前述的各方式中，在目标乐曲的全部的单位期间T将单位特征量V进行平均，但也可以针对目标乐曲内的特定的区间而计算特征量F。例如，也可以通过在目标乐曲内针对副歌等特定的乐曲构造区间内的2个以上的单位期间T将单位特征量V进行平均，计算特征量F。

(3)在前述的各方式中，例示出将变动模式Zn和变动模式Y之间的相关性作为单位特征量V的准确度qn，但也可以是第2处理部222对变动模式Zn和变动模式Y之间的距离进行计算，作为准确度qn。在以上结构中，变动模式Zn和变动模式Y相互之间越相关，准确度qn成为越小的数值。

(4)在前述的各方式中，乐曲选择部24选择了特征量Fk与目标乐曲的特征量F相似的多个候补乐曲，但乐曲选择部24也可以选择1个候补乐曲。具体而言，乐曲选择部24选择相似度σk最大的1个候补乐曲。

(5)在前述的各方式中，计算出候补乐曲的特征量Fk和目标乐曲的特征量F之间的相关性作为相似度σk，但也可以是相似度计算部241计算特征量Fk和特征量F之间的距离作为相似度σk。在以上结构中，特征量Fk和特征量F越相似，相似度σk成为越小的数值。因此，选择处理部242选择相似度σk小于规定的阈值的多个候补乐曲、或者按照相似度σk的升序而位于上位的规定个候补乐曲。

(6)在前述的各方式中，将各候补乐曲的乐曲数据Dk表示的信息显示于显示装置13，但针对乐曲选择部24选择出的候补乐曲而执行的处理不限定于以上的例示。例如，在乐曲数据Dk包含表示候补乐曲的演奏音的音乐文件的结构中，也可以利用该音乐文件而对候补乐曲的演奏音进行播放。另外，在候补乐曲的音乐文件没有存储于存储装置12的情况下，也可以从音乐传送装置取得该候补乐曲的音乐文件。

(7)在前述的各方式中，选择了特征量Fk与目标乐曲的特征量F相似的候补乐曲，但利用特征量F的方法不限定于以上的例示。例如，作为与目标乐曲的音响信号S相关的付加音乐信息，也可以登记特征量F。付加信息所包含的特征量F是为了对属于特定的音乐流派Gn的乐曲进行检索而利用的。如根据以上说明所理解的那样，特征量F作为乐曲的音乐信息而有用，特征量F的用途不限定于候补乐曲的选择。因此，在前述的各方式中例示出的乐曲选择部24也可以省略。

(8)前述的各方式的音乐流派Gn是“音乐类别”的一个例子。音乐类别是乐曲的音乐分类。在音乐类别，除了在前述的各方式中例示的音乐流派Gn以外，还包含基于“明快印象的乐曲”“忧郁印象的乐曲”等音乐印象进行的分类。

(9)也可以通过在与移动电话机或者智能机等终端装置之间进行通信的服务器装置而实现音响解析装置100。例如，音响解析装置100通过从终端装置接收到的音响信号S的解析而计算特征量F，将利用该特征量F而选择出的候补乐曲通知给请求源的终端装置。此外，还设想到将根据音响信号S计算出的特征量F发送至终端装置的结构、或者将候补乐曲的乐曲数据Dk发送至终端装置的结构。

(10)以上例示的音响解析装置100的功能如前述的那样，通过构成控制装置11的单个或多个处理器、和存储于存储装置12的程序的协同动作而实现。本发明涉及的程序可以以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质，优选是CD-ROM等光学式记录介质(光盘)，还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外，作为非临时性的记录介质，包含除了临时性的传输信号(transitory,propagating signal)以外的任意的记录介质，也可以不将易失性的记录介质除外。另外，在传送装置经由通信网而传送程序的结构中，在该传送装置，对程序进行存储的存储装置12相当于前述的非临时性的记录介质。

D：附录

根据以上例示的方式，例如能够掌握以下结构。

本发明的一个方式(方式1)涉及的音响解析方法，取得表示乐曲的演奏音的音响信号，针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算，选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。在以上的方式中，针对多个音乐类别的每一者，对包含乐曲属于该音乐类别的准确度的特征量进行计算。而且，选择多个候补乐曲中特征量与乐曲相似的1个以上的候补乐曲。因此，与选择属于针对乐曲而推定出的1个音乐类别的候补乐曲的结构相比，能够选择在考虑了多个音乐类别的综合性观点上音乐印象与乐曲相似的适当的候补乐曲。在方式1的具体例(方式2)中，所述多个音乐类别(Music category)是多个音乐流派(Music genre)。

此外，“音乐类别”是乐曲的音乐分类。“音乐类别”的代表例是音乐流派(例如，摇滚乐或者爵士乐等)，但基于“明快印象的乐曲”“忧郁印象的乐曲”等音乐印象进行的分类也包含于“音乐类别”的概念。

在方式1或方式2的具体例(方式3)中，在所述1个以上的候补乐曲的选择中，针对所述多个候补乐曲的每一者，计算该候补乐曲的特征量和所述计算出的特征量之间的相似度，选择所述多个候补乐曲中所述相似度高的所述1个以上的候补乐曲。在以上的方式中，能够与候补乐曲的特征量和乐曲的特征量之间的相似度对应地适当选择1个以上的候补乐曲。

“相似度”例如是与特征量间是否相似有关的指标，具体而言是距离或者相关性。“相似度高”这一概念包含“距离小”或者“相关性大”这两者。因此，“相似度大于阈值”包含“距离小于阈值”及“相关性大于阈值”这两者。“相似度高的1个以上的候补乐曲”例如是相似度大于阈值的1个以上的候补乐曲、或者按照相似度的降序而位于上位的1个以上的候补乐曲。

在方式1至方式3中任意者的具体例(方式4)中，在所述特征量的计算中，针对多个音色的每一者，通过所述音响信号的解析而生成表示时间上的变动的变动模式，针对多个音乐类别的每一者，通过对该音乐类别的变动模式和所述生成的变动模式进行对比，从而计算所述乐曲属于该音乐类别的准确度。在以上的方式中，针对多个音色的每一者，利用表示时间上的变动的变动模式，计算音响信号表示的乐曲属于各音乐类别的准确度。因此，能够计算根据乐曲的韵律的观点而适当地表现出该乐曲属于各音乐类别的准确度的特征量。

在方式1至方式4中任意者的具体例(方式5)中，在所述特征量的计算中，针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，计算所述特征量。在以上的方式中，针对多个单位期间的每一者而计算特征量，因此能够对乐曲内的特征量的时间上的迁移进行评价。

在方式1至方式4中任意者的具体例(方式6)中，在所述特征量的计算中，针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，对包含所述乐曲属于所述多个音乐类别的每一者的准确度的单位特征量进行计算，通过将所述多个单位期间中2个以上的单位期间的所述单位特征量进行平均而计算所述特征量。在以上的方式中，通过将针对2个以上的单位期间计算出的单位特征量进行平均而计算特征量，因此能够计算反映了乐曲内的2个以上的单位期间的范围的部分的音响特性的特征量。

方式6的具体例(方式7)涉及的所述音响解析方法，还通过所述音响信号的解析而确定所述乐曲的多个乐曲构造区间，在所述单位特征量的平均中，利用针对所述多个乐曲构造区间的每一者设定的加权值，将所述2个以上的单位期间的所述单位特征量进行加权平均。在以上的方式中，利用针对每个乐曲构造区间而设定的加权值，将多个单位特征量进行加权平均。因此，能够针对每个乐曲构造区间而计算适当地反映出了音乐印象发生变化这一倾向的特征量。

“乐曲构造区间”是与音乐意义或者乐曲内的定位对应地将乐曲在时间轴上进行区分的期间。例如，乐曲构造区间是前奏(intro)、A主歌(verse)、B主歌(bridge)、副歌(chorus)或者结尾部分(outro)。

本发明的一个方式(方式8)涉及的音响解析装置具有：信号取得部，其取得表示乐曲的演奏音的音响信号；信号解析部，其针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算；以及

乐曲选择部，其选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

本发明的一个方式(方式9)涉及的程序使计算机作为如下功能部起作用：信号取得部，其取得表示乐曲的演奏音的音响信号；信号解析部，其针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算；以及乐曲选择部，其选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

标号的说明

100…音响解析装置，11…控制装置，12…存储装置，13…显示装置，21…信号取得部，22…信号解析部，221…第1处理部，222…第2处理部，223…第3处理部，23…显示控制部，24…乐曲选择部，241…相似度计算部，242…选择处理部，25…构造解析部，C…候补表格，Dk…乐曲数据，F，Fk…特征量，Gn(G1～GN)…音乐流派，qn(q1～qN)，Qn(Q1～QN)…准确度，Rn…参照信号，S…音响信号，T…单位期间，U…单位图像，V…单位特征量，X…观测矩阵，Y…变动模式，Zn(Z1～ZN)…变动模式，ym(y1～yM)…系数序列，σk(σ1～σK)…相似度。

Claims

1.一种音响解析方法，其是由计算机实现的，其中，

取得表示乐曲的演奏音的音响信号，

针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算，

选择多个候补乐曲中特征量与针对所述乐曲计算出的特征量相似的1个以上的候补乐曲。

2.根据权利要求1所述的音响解析方法，其中，

所述多个音乐类别是多个音乐流派。

3.根据权利要求1或2所述的音响解析方法，其中，

在所述1个以上的候补乐曲的选择中，

针对所述多个候补乐曲的每一者，计算该候补乐曲的特征量和所述计算出的特征量之间的相似度，

选择所述多个候补乐曲中所述相似度高的所述1个以上的候补乐曲。

4.根据权利要求1至3中任一项所述的音响解析方法，其中，

在所述特征量的计算中，

针对多个音色的每一者，通过所述音响信号的解析而生成表示时间上的变动的变动模式，

针对多个音乐类别的每一者，通过对该音乐类别的变动模式和所生成的所述变动模式进行对比，从而计算所述乐曲属于该音乐类别的准确度。

5.根据权利要求1至4中任一项所述的音响解析方法，其中，

在所述特征量的计算中，

针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，计算所述特征量。

6.根据权利要求1至4中任一项所述的音响解析方法，其中，

在所述特征量的计算中，

针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，对包含所述乐曲属于所述多个音乐类别的每一者的准确度的单位特征量进行计算，

通过将所述多个单位期间中2个以上的单位期间的所述单位特征量进行平均而计算所述特征量。

7.根据权利要求6所述的音响解析方法，其中，

所述音响解析方法还通过所述音响信号的解析而确定所述乐曲的多个乐曲构造区间，

在所述单位特征量的平均中，利用针对所述多个乐曲构造区间的每一者设定的加权值，将所述2个以上的单位期间的所述单位特征量进行加权平均。

8.一种音响解析装置，其具有：

信号取得部，其取得表示乐曲的演奏音的音响信号；

信号解析部，其针对多个音乐类别的每一者，通过所述音响信号的解析而对包含所述乐曲属于该音乐类别的准确度的特征量进行计算；以及

9.根据权利要求8所述的音响解析装置，其中，

所述多个音乐类别是多个音乐流派。

10.根据权利要求8或9所述的音响解析装置，其中，

所述乐曲选择部包含：

相似度计算部，其针对所述多个候补乐曲的每一者，计算该候补乐曲的特征量和所述计算出的特征量之间的相似度；以及

选择处理部，其选择所述多个候补乐曲中所述相似度高的所述1个以上的候补乐曲。

11.根据权利要求8至10中任一项所述的音响解析装置，其中，

所述信号解析部针对多个音色的每一者，通过所述音响信号的解析而生成表示时间上的变动的变动模式，

12.根据权利要求8至11中任一项所述的音响解析装置，其中，

所述信号解析部针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，计算所述特征量。

13.根据权利要求8至11中任一项所述的音响解析装置，其中，

所述信号解析部针对将所述音响信号在时间轴上进行区分的多个单位期间的每一者，对包含所述乐曲属于所述多个音乐类别的每一者的准确度的单位特征量进行计算，

14.根据权利要求13所述的音响解析装置，其中，

还具有构造解析部，该构造解析部通过所述音响信号的解析而确定所述乐曲的多个乐曲构造区间，

所述信号解析部利用针对所述多个乐曲构造区间的每一者设定的加权值，将所述2个以上的单位期间的所述单位特征量进行加权平均。

15.一种程序，其使计算机作为如下功能部起作用：

信号取得部，其取得表示乐曲的演奏音的音响信号；