CN107851442B

CN107851442B - 匹配装置、判定装置、它们的方法、程序及记录介质

Info

Publication number: CN107851442B
Application number: CN201680019872.XA
Authority: CN
Inventors: 守谷健弘; 川西隆仁; 镰本优; 原田登; 龟冈弘和; 杉浦亮介
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2015-04-13
Filing date: 2016-04-11
Publication date: 2021-07-20
Anticipated expiration: 2036-04-11
Also published as: CN107851442A; JP6392450B2; WO2016167216A1; US10147443B2; JPWO2016167216A1; US20180090155A1

Abstract

匹配装置包括：匹配单元(51)，基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列，判定第一信号和第二信号的一致程度、和/或第一信号和第二信号是否一致。

Description

匹配装置、判定装置、它们的方法、程序及记录介质

技术领域

本发明涉及基于声音信号进行匹配或信号的区间或种类的判定的技术。

背景技术

作为表示声音信号等时序信号的特征的参数，已知LSP(Language ServerProtocol；语言服务器协议)等参数(例如，参照非专利文献1)。

LSP存在因为是多次，所以在直接地用于声音的分类和区间估计上难以处理的情况。例如，由于LSP为多次，所以不能说基于使用了LSP的阈值的处理容易。

可是，虽不为公知，但发明人提出了参数η。该参数η是，例如在将利用在3GPP EVS(Enhanced Voice Services；增强的语音服务)标准中使用的线性预测包络的频域的系数的量化值进行算术编码的编码方式中，确定属于算术代码的编码对象的概率分布的形状参数。参数η与编码对象的分布有关联性，若适当确定参数η，则可进行高效率的编码及解码。

此外，参数η可成为表示时序信号的特征的指标。因此，参数η可以用于上述编码处理以外的技术，例如用于匹配技术和信号的区间或种类的判定技术等的语音音响关联技术。

而且，参数η是1次值，所以与基于使用了LSP的阈值的处理比较，基于使用了参数η的阈值的处理是容易的。因此，参数η可以容易地用于匹配技术和信号的区间或种类的判定技术等的语音音响关联技术。

现有技术文献

非专利文献

非专利文献1：守谷健弘，“高圧縮语音编码の必須技术：線频谱対(LSP)”， NTT技术ジャーナル，2014年9月，P.58－60

发明内容

发明要解决的问题

但是，使用了参数η的匹配技术及信号的区间或种类的判定技术还未被认知。

本发明的目的在于，提供使用参数η进行匹配的匹配装置、使用参数η判定信号的区间或种类的判定装置、它们的方法、程序及记录介质。

解决问题的方案

根据本发明一方式的匹配装置，包括：匹配单元，将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，所述广义高斯分布近似白化频谱序列的直方图，所述白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列，基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列，判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。

根据本发明一方式的判定装置，包括：判定单元，将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列，所述广义高斯分布近似白化频谱序列的直方图，所述白化频谱序列是将通过将与该时序信号对应的频域样本串除以了上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列，基于上述第一序列，判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。

发明的效果

可以使用参数η进行匹配或信号的区间或种类的判定。

附图说明

图1是用于说明匹配装置的例子的框图。

图2是用于说明匹配方法的例子的流程图。

图3是用于说明判定装置的例子的框图。

图4是用于说明判定方法的例子的流程图。

图5是用于说明参数确定单元的例子的框图。

图6是用于说明参数确定单元的例子的流程图。

图7是用于说明广义高斯分布的图。

具体实施方式

[匹配装置及方法]

说明匹配装置及方法的一例。

如图1所示，匹配装置例如包括参数确定单元27’、匹配单元51及第二序列存储单元52。匹配装置的各单元通过进行图2中例示的各处理，实现匹配方法。

以下，说明匹配装置的各单元。

＜参数确定单元27’＞

参数确定单元27’中，每隔规定的时长被输入时序信号即第一信号。第一信号的例子是语音数字信号或音响数字信号等的声音信号。

参数确定单元27’基于输入的规定的时长的时序信号，通过后述的处理，确定该输入的规定的时长的时序信号参数η(步骤F1)。由此，得到与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构成该第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列称为“第一序列”。这样，参数确定单元27’对每个规定的时长的帧进行处理。

再者，构成第一信号的至少1个规定的时长的时序信号可以是构成第一信号的规定的时长的时序信号的全部，也可以是一部分。

由参数确定单元27’确定的参数η的第一序列，输出到匹配单元51。

参数确定单元27’的结构例子示于图5。如图5所示，参数确定单元27’ 例如包括频域转换单元41、频谱包络估计单元42、白化频谱序列生成单元 43和参数获取单元44。频谱包络估计单元42例如包括线性预测分析单元421 及非平滑化振幅频谱包络序列生成单元422。例如由该参数确定单元27’实现的参数确定方法的各处理的例子示于图6。

以下，说明图5的各单元。

＜频域转换单元41＞

频域转换单元41中，输入规定的时长的时序信号。

频域转换单元41以规定的时长的帧为单位，将输入的规定的时长的时序信号即时域的声音信号转换为频域的N点的MDCT系数串 X(0),X(1),…,X(N-1)。N为正整数。

得到的MDCT系数串X(0),X(1),…,X(N-1)输出到频谱包络估计单元42 及白化频谱序列生成单元43。

除非另有说明，以后的处理都假设以帧为单位进行。

这样一来，频域转换单元41求与规定的时长的时序信号对应的、例如 MDCT系数串即频域样本串(步骤C41)。

＜频谱包络估计单元42＞

频谱包络估计单元42中，输入频域转换单元21得到的MDCT系数串 X(0),X(1),…,X(N-1)。

频谱包络估计单元42基于以规定的方法确定的参数η₀，进行将与时序信号对应的频域样本串的绝对值的η₀次方用作功率谱的频谱包络的估计(步骤 C42)。

估计出的频谱包络被输出到白化频谱序列生成单元43。

频谱包络估计单元42通过例如以下说明的线性预测分析单元421及非平滑化振幅频谱包络序列生成单元422的处理，通过生成非平滑化振幅频谱包络序列进行频谱包络的估计。

假设参数η₀按规定的方法确定。例如，将η₀设为大于0的规定的数。例如，假设η₀＝1。此外，也可以用在比要求当前参数η的帧之前的帧中求得的η。在比要求当前参数η的帧(以下，设为当前帧。)之前的帧，例如是当前帧前面的帧且当前帧的附近的帧。当前帧的附近的帧，例如是紧接当前帧之前的帧。

＜线性预测分析单元421＞

线性预测分析单元421中，输入频域转换单元41得到的MDCT系数串 X(0),X(1),…,X(N-1)。

线性预测分析单元421使用MDCT系数串X(0),X(1),…,X(N-1)，对根据以下的式(C1)定义的～R(0),～R(1),…,～R(N-1)进行线性预测分析而生成线性预测系数β₁,β₂,…,β_p，将生成的线性预测系数β₁,β₂,…,β_p编码而生成线性预测系数码和对应于线性预测系数码的量化的线性预测系数即量化线性预测系数^β₁,^β₂,…,^β_p。

生成的量化线性预测系数^β₁,^β₂,…,^β_p输出到非平滑化频谱包络序列生成单元422。

具体而言，线性预测分析单元421首先通过进行相当于将MDCT系数串 X(0),X(1),…,X(N-1)的绝对值的η₀次方看作功率谱的傅立叶逆变换的运算、即式(C1)的运算，求与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η₀次方对应的时域的信号串即伪相关函数信号串～R(0),～R(1),…,～R(N-1)。然后，线性预测分析单元421用求得的伪相关函数信号串～R(0),～R(1),…,～R(N-1)进行线性预测分析，生成线性预测系数β₁,β₂,…,β_p。然后，线性预测分析单元421 通过将生成的线性预测系数β₁,β₂,…,β_p编码，得到线性预测系数码和对应于线性预测系数码的量化线性预测系数^β₁,^β₂,…,^β_p。

线性预测系数β₁,β₂,…,β_p是，与将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η₀次方看作功率谱时的时域的信号对应的线性预测系数。

基于线性预测分析单元421的线性预测系数码的生成，例如根据现有的编码技术进行。现有的编码技术，例如是将与线性预测系数本身对应的代码设为线性预测系数码的编码技术、将线性预测系数转换为LSP参数而将与 LSP参数对应的代码设为线性预测系数码的编码技术、将线性预测系数转换为PARCOR系数而将与PARCOR系数对应的代码设为线性预测系数码的编码技术等。

这样一来，线性预测分析单元421，例如用通过进行将MDCT系数串即频域样本串的绝对值的η₀次方看作功率谱的傅立叶逆变换得到的伪相关函数信号串，生成进行线性预测分析的线性预测系数(步骤C421)。

＜非平滑化振幅频谱包络序列生成单元422＞

非平滑化振幅频谱包络序列生成单元422中，输入线性预测分析单元421 生成的量化线性预测系数^β₁,^β₂,…,^β_p。

非平滑化振幅频谱包络序列生成单元422生成与量化线性预测系数^β ₁,^β₂,…,^β_p对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列 ^H(0),^H(1),…,^H(N-1)。

生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)输出到白化频谱序列生成单元43。

非平滑化振幅频谱包络序列生成单元422使用量化线性预测系数^β₁,^ β₂,…,^β_p作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)，生成由式 (C2)定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。

这样一来，非平滑化振幅频谱包络序列生成单元422通过根据可转换为由线性预测分析单元421生成的线性预测系数的系数而得到非平滑化频谱包络序列，进行频谱包络的估计(步骤C422)，其中非平滑化频谱包络序列是将与伪相关函数信号串对应的振幅频谱包络的序列1/η₀次方的序列。

再者，非平滑化频谱包络序列生成单元422通过使用线性预测分析单元 421生成的线性预测系数β₁,β₂,…,β_p取代量化线性预测系数^β₁,^β₂,…,^ β_p，也可以得到非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。这种情况下，线性预测分析单元421也可以不进行得到量化线性预测系数^β₁,^β ₂,…,^β_p的处理。

＜白化频谱序列生成单元43＞

白化频谱序列生成单元43中，输入频域转换单元41得到的MDCT系数串X(0),X(1),…,X(N-1)及非平滑化振幅频谱包络生成单元422生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。

白化频谱序列生成单元43通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数除以对应的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值，生成白化频谱序列X_W(0),X_W(1),…,X_W(N-1)。

生成的白化频谱序列X_W(0),X_W(1),…,X_W(N-1)输出到参数获取单元44。

白化频谱序列生成单元43，例如通过假设k＝0,1,…,N-1，将MDCT系数串X(0),X(1),…,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列 ^H(0),^H(1),…,^H(N-1)的各值^H(k)，生成白化频谱序列 X_W(0),X_W(1),…,X_W(N-1)的各值X_W(k)。即，假设k＝0,1,…,N-1， X_W(k)＝X(k)/^H(k)。

这样一来，白化频谱序列生成单元43得到例如以非平滑化振幅频谱包络序列即频谱包络除例如MDCT系数串即频域样本串的序列即白化频谱序列 (步骤C43)。

＜参数获取单元44＞

参数获取单元44中，输入白化频谱序列生成单元43生成的白化频谱序列X_W(0),X_W(1),…,X_W(N-1)。

参数获取单元44求将参数η设为形状参数的广义高斯分布近似白化频谱序列X_W(0),X_W(1),…,X_W(N-1)的直方图的参数η(步骤C44)。换句话说，参数获取单元44确定使得将参数η设为形状参数的广义高斯分布近似白化频谱序列X_W(0),X_W(1),…,X_W(N-1)的直方图的分布的参数η。

将参数η设为形状参数的广义高斯分布，例如以下那样定义。Γ是伽马函数。

广义高斯分布是，可以通过改变形状参数即η，如图3那样η＝1时表现为拉普拉斯分布、η＝2时表现为高斯分布的各种各样的分布。η是比0大的规定的数。η也可以是比0大的2以外的规定的数。具体而言，η也可以是低于2的规定的正数。φ是与方差对应的参数。

这里，参数获取单元44求的η，例如根据以下的式(C3)定义。F^-1是函数 F的反函数。该式根据所谓的力矩(moment)法导出。

在反函数F^-1被公式化的情况下，参数获取单元44可以通过计算对公式化的反函数F^-1输入了m₁/((m₂)^1/2)的值时的输出值而求参数η。

在反函数F^-1没有被公式化的情况下，参数获取单元44为了计算以式(C3) 定义的η的值，例如也可以根据以下说明的第一方法或第二方法来求参数η。

说明用于求参数η的第一方法。第一方法中，参数获取单元44基于白化频谱序列计算m₁/((m₂)^1/2)，参照预先准备的不同的多个的、与η对应的F(η) 的对，获取与最接近算出的m₁/((m₂)^1/2)的F(η)对应的η。

预先准备的不同的多个的、与η对应的F(η)的对，预先存储在参数获取单元44的存储单元441中。参数获取单元44参照存储单元441，发现最接近算出的m₁/((m₂)^1/2)的F(η)，从存储单元441读入输出与发现的F(η) 对应的η。

最接近算出的m₁/((m₂)^1/2)的F(η)是，与算出的m₁/((m₂)^1/2)之差的绝对值为最小的F(η)。

说明用于求参数η的第二方法。第二方法中，将反函数F^-1的近似曲线函数设为以例如以下的式(C3’)表示的～F^-1，参数获取单元44通过基于白化频谱序列计算m₁/((m₂)^1/2)，并计算对近似曲线函数～F^-1输入了算出的m₁/((m₂)^1/2) 时的输出值而求η。该近似曲线函数～F^-1在使用的定义域中，只要是输出为正值的单调增加函数即可。

再者，参数获取单元44求的η也可以不用式(C3)，而通过用如式(C3”)那样预先确定的正整数q1及q2(其中q1<q2)，将式(C3)广义化的式来定义。

再者，在η由式(C3”)定义的情况下，也可以根据与η由式(C3)定义的情况同样的方法，求η。即，参数获取单元44可以在基于白化频谱序列，计算了基于该q1次力矩即m_q1和该q2次力矩(moment)即m_q2m_q1/((m_q2)^q1/q2)值后，例如与上述的第一方法及第二方法同样，参照预先准备的不同的多个的、与η 对应的F’(η)的对，获取与算出的m_q1/((m_q2)^q1/q2)最接近的F’(η)对应的η，或者将反函数F’^-1的近似曲线函数设为～F’^-1、计算将对近似曲线函数～F^-1输入了算出的m_q1/((m_q2)^q1/q2)时的输出值而求η。

这样，η也可以说是基于次数不同的2个不同的力矩m_q1,m_q2的值。例如，基于次数不同的2个不同的力矩m_q1,m_q2之中、次数低的一方的力矩的值或基于它的值(以下，设为前者。)和次数高的一方的力矩的值或基于它的值(以下，设为后者)之比的值、基于该比的值的值、或基于将前者除以后者所得的值，也可以求η。基于力矩的值，例如是将该力矩设为m并将Q设为规定的实数而为m^Q。此外，也可以将这些值输入到近似曲线函数～F^-1中而求η。该近似曲线函数～F’^-1，与上述同样，只要是在使用的定义域中输出为正值的单调增加函数即可。

参数确定单元27’也可以通过循环处理而求参数η。即，参数确定单元 27’也可以将由参数获取单元44求得的参数η设为以规定的方法确定的参数 η₀的、频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44 的处理进而进行1次以上。

这种情况下，例如，如图5中虚线所示，参数获取单元44中求得的参数 η，输出到频谱包络估计单元42。频谱包络估计单元42将参数获取单元44 中求得的η用作参数η₀，进行与上述说明的处理同样的处理，进行频谱包络的估计。白化频谱序列生成单元43基于新估计出的频谱包络，生成与进行上述说明的处理同样的处理的白化频谱序列。参数获取单元44基于新生成的白化频谱序列，求进行与上述说明的处理同样的处理的参数η。

例如，频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44的处理也可以仅进一步进行规定的次数即τ次。τ是规定的正整数，例如 τ＝1或τ＝2。

此外，频谱包络估计单元42也可以反复进行频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44的处理，直至本次求得的参数η 和上次求得的参数η之差的绝对值为规定的阈值以下为止。

＜第二序列存储单元52＞

第二序列存储单元52中，存储与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的序列即第二序列。

第二信号是，作为对第一信号的匹配的对象的语音数字信号或音响数字信号等的声音信号。

第二序列，例如通过参数确定单元27’来求，存储在第二序列存储单元 52中。即，构成第二信号的至少1个规定的时长的时序信号的各个信号被输

再者，构成第二信号的至少1个规定的时长的时序信号可以是构成第二信号的规定的时长的时序信号的全部，也可以是一部分。

匹配单元51在将多个信号的各个设为第二信号，进行后述的判定的情况下，假设与多个信号的各个对应的第二序列被存储在第二序列存储单元52 中。

再者，由参数确定单元27’求得的第二序列也可以不通过第二序列存储单元52而直接输入到匹配单元51。这种情况下，第二序列存储单元52也可以不包括在匹配装置中。此外，这种情况下，参数确定单元27’例如从存储了多个信号(多个乐曲)的未图示的数据库读入各信号，从读入的信号求第二序列，输出到匹配单元51。

＜匹配单元51＞

匹配单元51中，输入参数确定单元27’得到的第一序列及例如从第二序列存储单元52读入的第二序列。

匹配单元51基于第一序列和第二序列，判定第一信号和第二信号的一致程度、和/或第一信号和第二信号是否一致，输出该判定结果(步骤F2)。

将第一序列表示为(η_1,1,η_1,2，…,η_1,N1)，将第二序列表示为(η_2,1,η_2,2，…, η_2,N2)。N1是构成第一序列的参数η的数。N2是构成第二序列的参数η的数。假设N1≤N2。

第一信号和第二信号的一致程度是第一序列和第二序列的相似度。第一序列和第二序列的相似度，例如，是包含在第二序列(η_2,1,η_2,2，…,η_2,N2)中的、最接近第一序列(η_1,1,η_1,2，…,η_1,N1)的序列和第一序列(η_1,1,η_1,2，…, η_1,N1)之间的距离。假设包含在第二序列(η_2,1,η_2,2，…,η_2,N2)中的、最接近第一序列(η_1,1,η_1,2，…,η_1,N1)的序列的元素数和第一序列(η_1,1,η_1,2，…,η_1,N1) 的元素数相同。

该第一序列和第二序列的相似度，例如由以下的算式定义。Min是输出最小值的函数。在本例中，作为距离，使用欧几里得距离，但也可以使用曼哈顿距离等其他的现有距离和误差的标准偏差。

将从第一序列(η_1,1,η_1,2，…,η_1,N1)得到的、参数η的代表值的序列设为代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)。同样地，将从第二序列(η_2,1,η_2,2，…, η_2,N2)得到的、参数η的代表值的序列设为代表第二序列(η_2,1 ^r,η_2,2 ^r，…,η_2,N2' ^r)。

例如，将c设为N1及N2的约数即规定的正整数，若对c个的每个参数 η得到代表值，则N1'＝N1/c，k＝1,2,…,N1'，代表值η_1,k ^r是第一序列之中的序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的代表值。同样地，代表值η_2,k ^r是第二序列之中的序列(η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc)的代表值。

k＝1,2,…,N1'，代表值η_1,k ^r是代表第一序列之中的序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的值，例如，是序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的平均值、中值、最大值或最小值。k＝1,2,…,N2'，代表值η_2,k ^r是代表第二序列之中的序列 (η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc)的值，例如，是序列(η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc) 的平均值、中值、最大值或最小值。

第一序列和第二序列的相似度，也可以设为包含在代表第二序列(η_2,1 ^r, η_2,2 ^r，…,η_2,N2' ^r)中的、最接近代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)的序列和代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)之间的距离。假设包含在代表第二序列(η_2,1 ^r,η_2,2 ^r，…,η_2,N2' ^r)中的、最接近代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r) 的序列的元素数和代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)的元素数相同。

使用了该代表值的第一序列和第二序列的相似度，例如由以下的算式定义。Min是输出最小值的函数。在本例中，作为距离，使用欧几里得距离，但也可以使用曼哈顿距离等其他的现有距离和误差的标准偏差。

第一信号和第二信号是否一致，例如，可以通过将第一信号和第二信号的一致程度与规定的阈值进行比较而判定。例如，匹配单元51在第一信号和第二信号的一致程度比规定的阈值小或为规定的阈值以下的情况下，判定为第一信号和第二信号一致，在不是那样的情况下判定为第一信号和第二信号不一致。

匹配单元51也可以将多个信号的各个设为第二信号，进行上述判定。这种情况下，匹配单元51也可以计算多个信号的各个信号和第一信号的一致程度，选择多个信号之中的、算出的一致程度最小的信号，输出有关该一致程度最小的信号的信息。

例如，假设与多个乐曲的各个对应的第二序列及信息存储在第二序列存储单元52中。假设用户想知道某段音乐是哪个乐曲。这种情况下，用户将与该音乐对应的声音信号作为第一信号输入到匹配装置，匹配单元51可以通过从第二序列存储单元52得到与该音乐对应的声音信号一致程度最小的乐曲的信息，知道与该音乐对应的乐曲的信息。

再者，匹配单元51基于第一序列(η_1,1,η_1,2，…,η_1,N1)的时变性的序列即时变第一序列(Δη_1,1,Δη_1,2，…,Δη_1,N1-1)、以及第二序列(η_2,1,η_2,2，…, η_2,N2)的时变性的序列即时变第二序列(Δη_2,1,Δη_2,2，…,Δη_2,N2-1)，也可以进行匹配。这里，例如，假设Δη_1,k＝η_1,k+1-η_1,k(k＝1,2,…,N1-1)、Δ η_2,k＝η_2,k+1-η_2,k(k＝1,2,…,N2-1)。

例如，在使用了上述的第一序列及第二序列的匹配处理中，可以通过用时变第一序列(Δη_1,1,Δη_1,2，…,Δη_1,N1-1)取代第一序列(η_1,1,η_1,2，…,η_1,N1)，用时变第二序列(Δη_2,1,Δη_2,2，…,Δη_2,N2-1)取代第二序列(η_2,1,η_2,2，…,η_2,N2)，基于时变第一序列和时变第二序列进行匹配。

此外，匹配单元51不仅用第一序列及第二序列，也可以用表示音的大小的指标(例如，振幅或能量)、表示音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、音调的周期性、基本周波数等的音响特征量进行匹配。例如，(1)基于第一序列及第二序列和表示音的大小的指标，也可以进行匹配。此外，(2)基于第一序列及第二序列和表示时序信号的音的大小的指标的时间性变动，也可以进行匹配。此外，(3)基于第一序列及第二序列和时序信号的频谱形状，也可以进行匹配。此外，(4)基于第一序列及第二序列和时序信号的频谱形状的时间性变动，也可以进行匹配。此外，(5) 基于第一序列及第二序列和时序信号的音调的周期性，也可以进行匹配。

而且，匹配单元51也可以用SVM(Support Vector Machine)、Boosting等的识别技术进行匹配。

再者，匹配单元51通过与后述的判定单元53的处理同样的处理，判定构成第一信号的各规定的时长的时序信号的种类，此外，也可以通过与后述的判定单元53的处理同样的处理，判定构成第二信号的各规定的时长的时序信号的种类，通过判定它们的判定结果是否相同进行匹配。例如，匹配单元 51在对第一信号的判定结果是“语音→音乐→语音→音乐”、对第二信号的判定结果是“语音→音乐→语音→音乐”的情况下，判定为第一信号和第二信号一致。

[判定装置及方法]

说明判定装置及方法的一例。

如图3所示，判定装置例如包括参数确定单元27’及判定单元53。判定装置的各单元通过进行图4中例示的各处理而实现判定方法。

以下，说明判定装置的各单元。

＜参数确定单元27’＞

参数确定单元27’中，每隔规定的时长被输入时序信号即第一信号。第一信号的例子是，语音数字信号或音响数字信号等的声音信号。

参数确定单元27’基于输入的规定的时长的时序信号，通过后述的处理，确定该输入的规定的时长的时序信号参数η(步骤F1)。由此，得到与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构成这种第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列称为“第一序列”。这样，参数确定单元27’对规定的时长的每个帧进行处理。

由参数确定单元27’确定的参数η的第一序列输出到判定单元53。

参数确定单元27’的细节，与[匹配装置及方法]栏中说明的细节是同样的，所以这里省略重复说明。

＜判定单元53＞

判定单元53中，输入由参数确定单元27’确定的第一序列。

判定单元53基于第一序列，判定第一信号之中的规定的种类的信号的区间、和/或第一信号的种类(步骤F3)。规定的种类的信号区间，例如是语音的区间、音乐的区间、非稳定音的区间、稳定音的区间等的区间。

将第一序列表示为(η_1,1,η_1,2，…,η_1,N1)。N1是构成第一序列的参数η 的数。

第一信号之中的规定的种类的信号的区间的判定，例如，可以通过将构成第一序列的参数η_1,k(k＝1,2,…,N1)和规定的阈值比较来进行。

例如，判定单元53在参数η_1,k≥阈值的情况下，将第一信号之中的、与该参数η_1,k对应的规定的时长的时序信号的区间判定为非稳定音(语音、无声等)的区间。

此外，判定单元53在阈值＞参数η_1,k的情况下，将第一信号之中的、与该参数η_1,k对应的规定的时长的时序信号的区间判定为稳定音(时间性变动平缓的音乐等)的区间。

此外，也可以通过与多个规定的阈值比较，进行第一信号之中的规定的种类的信号的区间的判定。以下，说明使用了2个阈值(第一阈值及第二阈值)的判定的例子。假设第一阈值＞第二阈值。

例如，判定单元53在参数η_1,k≧第一阈值的情况下，将第一信号之中的、与该参数η_1,k对应的规定的时长的时序信号的区间判定为无声的区间。

此外，判定单元53在第一阈值＞参数η_1,k≧第二阈值的情况下，将第一信号之中的、与该参数η_1,k对应的规定的时长的时序信号的区间判定为非稳定音的区间。

此外，判定单元53在第二阈值＞参数η_1,k的情况下，将第一信号之中的、与该参数η_1,k对应的规定的时长的时序信号的区间判定为稳定音的区间。

第一信号的种类的判定，例如，可以基于信号的区间的种类的判定结果进行。例如，判定单元53对判定出的信号的区间的每个种类计算第一信号之中的该种类的信号的区间所占的比例，在比例最大的信号的区间的种类的比例的值为处理的阈值以上或大于阈值的情况下，判定为第一信号是该信号的比例最大的信号的区间的种类。

将从第一序列(η_1,1,η_1,2，…,η_1,N1)得到的、参数η的代表值的序列设为代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)。例如，将c设为N1的约数即规定的正整数，若对c个的每个参数η得到代表值，则N1'＝N1/c，k＝1,2,…,N1'，代表值η_1,k ^r是第一序列之中的序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的代表值。 k＝1,2,…,N1'，代表值η_1,k ^r是代表第一序列之中的序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…, η_1,kc)的值，例如，是序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的平均值、中值、最大值或最小值。

判定单元53基于代表第一序列(η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r)，也可以判定第一信号之中的规定的种类的信号的区间、和/或判定第一信号的种类。

例如，判定单元53在代表值η_1,k ^r≧第一阈值的情况下，将第一信号之中的、与该代表值η_1,k ^r对应的规定的时长的时序信号的区间判定为语音的区间。

这里，与代表值η_1,k ^r对应的规定的时长的时序信号的区间是，与代表值 η_1,k ^r对应的第一序列之中的序列(η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc)的各自参数η 对应的规定的时长的时序信号的区间。

此外，判定单元53在第一阈值＞代表值η_1,k ^r≧第二阈值的情况下，将第一信号之中的、与该代表值η_1,k ^r对应的规定的时长的时序信号的区间判定为音乐的区间。

此外，判定单元53在第二阈值＞代表值η_1,k ^r≧第三阈值的情况下，将第一信号之中的、与该代表值η_1,k ^r对应的规定的时长的时序信号的区间判定为非稳定音的区间。

而且，判定单元53在第三阈值＞代表值η_1,k ^r的情况下，将第一信号之中的、与该代表值η_1,k ^r对应的规定的时长的时序信号的区间判定为稳定音的区间。

再者，判定单元53也可以基于第一序列(η_1,1,η_1,2，…,η_1,N1)的时变性的序列即时变第一序列(Δη_1,1,Δη_1,2，…,Δη_1,N1-1)，进行判定处理。这里，例如，假设Δη_1,k＝η_1,k+1-η_1,k(k＝1,2,…,N1-1)。

例如，在使用了上述的第一序列的判定处理中，可以通过使用时变第一序列(Δη_1,1,Δη_1,2，…,Δη_1,N1-1)取代第一序列(η_1,1,η_1,2，…,η_1,N1)，基于时变第一序列进行判定。

此外，判定单元53进而也可以使用表示时序信号的音的大小的指标(例如，振幅或能量)、表示音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、音调的周期性、基本频率等的音响特征量进行判定。例如， (1)判定单元53基于参数η_1,k和表示时序信号的音的大小的指标，也可以进行判定。此外，(2)判定单元53基于参数η_1,k和表示时序信号的音的大小的指标的时间性变动，也可以进行判定。此外，(3)判定单元53基于参数η_1,k和时序信号的频谱形状，也可以进行判定。此外，(4)判定单元53基于参数η_1,k和时序信号的频谱形状的时间性变动，也可以进行判定。此外，(5) 判定单元53基于参数η_1,k和时序信号的音调的周期性，也可以进行判定。

以下，分别说明：(1)判定单元53基于参数η_1,k和表示时序信号的音的大小的指标进行判定的情况，(2)判定单元53基于参数η_1,k和表示时序信号的音的大小的指标的时间性变动进行判定的情况，(3)判定单元53基于参数η_1,k和时序信号的频谱形状进行判定的情况，(4)判定单元53基于参数 η_1,k和时序信号的频谱形状的时间性变动进行判定的情况，(5)判定单元53 基于参数η_1,k和时序信号的音调的周期性进行判定的情况。

(1)基于参数η_1,k和表示音的大小的指标进行判定的情况下，判定单元 53判定与表示参数η_1,k对应的时序信号的音的大小的指标是否大，此外，判定参数η_1,k是否大。

在表示时序信号的音的大小的指标小，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。

表示时序信号的音的大小的指标是否大，例如可以基于规定的阈值C_E判定。即，如果表示时序信号的音的大小的指标≥规定的阈值C_E，则可以判定为表示时序信号的音的大小的指标大，不是那样的情况下可以判定为表示时序信号的音的大小的指标小。作为表示时序信号的音的大小的指标，例如，在使用了平均振幅(每个样本的平均能量的平方根)的情况下，C_E＝最大振幅值*(1/128)。例如若为16比特精度，则最大振幅值为32768，所以C_E＝256。

参数η_1,k是否大，例如可以基于规定的阈值C_η判定。即，如果参数η_1,k≥ 规定的阈值C_η，则可以判定为参数η_1,k大，不是那样的情况下可以判定为参数η_1,k小。例如，C_η＝1。

在表示时序信号的音的大小的指标小，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为有BGM那样的特征的背景音的区间。

在表示时序信号的音的大小的指标大，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为语音和热闹的音乐的区间。

在表示时序信号的音的大小的指标大，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为乐器演奏等的音乐的区间。

(2)在基于参数η_1,k和表示时序信号的音的大小的指标的时间性变动进行判定的情况下，判定单元53判定表示与参数η_1,k对应的时序信号的音的大小的指标的时间性变动是否大，此外，判定参数η_1,k是否大。

表示时序信号的音的大小的指标的时间性变动是否大，例如可以基于规定的阈值C_E'判定。即，如果表示时序信号的音的大小的指标的时间性变动≥ 规定的阈值C_E'，则可以判定为表示时序信号的音的大小的指标的时间性变动大，不是那样的情况下可以判定为表示时序信号的音的大小的指标的时间性变动小。作为表示时序信号的音的大小的指标，例如，在使用了将构成时序信号的4个子帧的能量的相加平均除以了相乘平均所得的值F＝((1/4)Σ4个子帧的能量)/((Π子帧的能量)^1/4)的情况下，C_E'＝1.5。

在表示时序信号的音的大小的指标的时间性变动小，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。

在表示时序信号的音的大小的指标的时间性变动小，并且参数η小的情况下，将与参数η_1,k对应的时序信号的区间判定为以连续音为主体的管乐器和弦乐器的音乐的区间。

在表示时序信号的音的大小的指标的时间性变动大，并且参数η_1,k大的情况下，判定单元53将与参数η_1,k对应的时序信号的区间判定为语音的区间。

在表示时序信号的音的大小的指标的时间性变动大，并且参数η_1,k小的情况下，判定单元53将与参数η_1,k对应的时序信号的区间判定为时间变动大的音乐的区间。

(3)在基于参数η_1,k和时序信号的频谱形状进行判定的情况下，判定单元53判定与参数η_1,k对应的时序信号的频谱形状是否平坦，此外，判定参数 η_1,k是否大。

在时序信号的频谱形状平坦，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为稳定的环境噪音(噪声)的区间。与参数η_1,k对应的时序信号的频谱形状是否平坦，可以基于规定的阈值E_V判定。例如，若与参数η_1,k对应的第1次的PARCOR系数的绝对值低于规定的阈值E_V(例如， E_V＝0.7)，则可以判定为与参数η_1,k对应的时序信号的频谱形状是平坦的，不是那样的情况下，可以判定为与参数η_1,k对应的时序信号的频谱形状不是平坦的。

在时序信号的频谱形状平坦，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为时间变动大的音乐的区间。

在时序信号的频谱形状不平坦，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为语音的区间。

在时序信号的频谱形状不平坦，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为以连续音为主体的管乐器和弦乐器的音乐的区间。

(4)在基于参数η_1,k和时序信号的频谱形状的时间性变动进行判定的情况下，判定单元53判定与参数η_1,k对应的时序信号的频谱形状的时间性变动是否大，此外，判定参数η_1,k是否大。

与参数η_1,k对应的时序信号的频谱形状的时间性变动是否平坦，可以基于规定的阈值E_V'判定。例如，若将构成时序信号的4个子帧的第1次的 PARCOR系数的绝对值的相加平均除以相乘平均所得的值F_V＝((1/4)Σ4个子帧的第1次的PARCOR系数的绝对值)/((Π第1次的PARCOR系数的绝对值)^1/4)为规定的阈值E_V'(例如，E_V'＝1.2)以上，则可以判定为与参数η_1,k对应的时序信号的频谱形状的时间性变动大，不是那样的情况下，可以判定为与参数η_1,k对应的时序信号的频谱形状的时间性变动小。

在时序信号的频谱形状的时间性变动大，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为语音的区间。

在时序信号的频谱形状的时间性变动大，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为时间变动大的音乐的区间。

在时序信号的频谱形状的时间性变动小，并且参数η_1,k大的情况下，将与参数η_1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。

在时序信号的频谱形状的时间性变动小，并且参数η_1,k小的情况下，将与参数η_1,k对应的时序信号的区间判定为以连续音作为主体的管乐器和弦乐器的音乐的区间。

(5)在基于参数η_1,k和时序信号的音调的周期性进行判定的情况下，判定单元53判定与参数η_1,k对应的时序信号的音调的周期性是否大，此外，此外，判定参数η_1,k是否大。

音调的周期性是否大，例如可以基于规定的阈值C_P判定。即，如果音调的周期性≧规定的阈值C_P，则可以判定为音调的周期性大，在不是那样的情况下，可以判定为音调的周期性小。作为音调的周期性，例如，在使用了与音调周期τ样本分离的序列的归一化相关函数

(其中x(i)是时序的样本值，N是帧的样本数))的情况下，C_P＝0.8。

在音调的周期性大，并且参数η_1,k大的情况下，将对应于参数η_1,k的时序信号的区间判定为语音的区间。

在音调的周期性大，并且参数η_1,k小的情况下，将对应于参数η_1,k的时序信号的区间判定为以连续音作为主体的管乐器和弦乐器的音乐的区间。

在音调的周期性小，并且参数η_1,k大的情况下，将对应于参数η_1,k的时序信号的区间判定为环境噪音(噪声)的区间。

在音调的周期性小，并且参数η小的情况下，将对应于参数η_1,k的时序信号的区间判定为时间变动大的音乐的区间。而且，判定单元53也可以使用 SVM(Support VectorMachine；支持向量机)、Boosting等识别技术进行判定。这种情况下，对每个参数η准备与语音、音乐、无声等标记相关联的学习数据，使用这样的学习数据，预先进行学习。

[程序及记录介质]

也可以由计算机实现各装置或各方法中的各部分。这种情况下，通过程序记述各装置或各方法的处理内容。然后，通过由计算机执行这样的程序，在计算机上实现各装置或各方法中的各部分。

记述了这样的处理内容的程序，可以预先记录在计算机可读取的记录介质中。作为计算机可读取的记录介质，例如，也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等那样的记录介质。

此外，例如通过贩卖、转让、出租记录了该程序的DVD、CD－ROM等可移动型记录介质等来进行该程序的流通。而且，也可以将该程序预先存储在服务器计算机的存储装置中，经由网络，将该程序通过从服务器计算机转发到其它计算机，使该程序流通。

执行这样的程序的计算机，例如，首先，将可移动型记录介质中记录的程序或者从服务器计算机转发的程序暂时存储在自己的存储单元中。然后，在执行处理时，该计算机读取自己的存储单元中存储的程序，执行按照读取的程序的处理。此外，作为该程序的其它实施方式，也可以计算机从可移动型记录介质直接读取程序，执行按照该程序的处理。进而，也可以在每次从服务器计算机对该计算机转发程序时，逐次执行按照接收到的程序的处理。此外，也可以构成为不进行从服务器计算机至该计算机的程序的转发，通过仅按照该执行指示和结果获取来实现处理功能的、所谓ASP(Application ServiceProvider，应用服务提供者)型的服务，执行上述的处理。再者，作为在程序中，包含作为供电子计算机的处理用的信息的、按照程序看待的内容 (具有虽然不是对于计算机的直接的指令，但是规定计算机的处理的性质的数据等)。

此外，虽然作为通过在计算机上执行规定的程序，构成各装置，但是这些处理内容的至少一部分也可以硬件方式地实现。

工业实用性

匹配装置、方法及程序，例如，可以用于歌曲来源的搜索、非法内容的检测、演奏乐器和歌曲的结构相似的另一歌曲的搜索。此外，判定装置、方法及程序，例如，可以用于著作权费的计算。

Claims

1.一种匹配装置，

将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，该广义高斯分布近似白化频谱序列的直方图，该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列，该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的，

上述匹配装置包括匹配单元，所述匹配单元基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列，判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。

2.如权利要求1所述的匹配装置，

上述匹配装置包括参数确定单元，上述参数确定单元包括：

频谱包络估计单元，将参数η₀及参数η设为正数，使用以规定的方法确定的参数η₀，将与输入的规定的时长的时序信号对应的频域样本串的绝对值的η₀次方看作功率谱进行频谱包络的估计；

白化频谱序列生成单元，得到将上述频域样本串除以了上述频谱包络而得到的序列即白化频谱序列；以及

参数获取单元，求将参数η设为形状参数的广义高斯分布近似上述白化频谱序列的直方图的参数η，将求得的参数η设为与上述输入的规定的时长的时序信号对应的参数η，

上述参数确定单元通过进行处理，得到上述第一序列，该处理将构成上述第一信号的至少1个规定的时长的时序信号的各个作为输入。

3.如权利要求1或2所述的匹配装置，包括：

第二序列存储单元，存储上述第二序列，

上述匹配单元用从上述第二序列存储单元读入的上述第二序列，进行上述判定。

4.如权利要求1或2所述的匹配装置，

构成上述第一信号的至少1个规定的时长的时序信号是构成上述第一信号的规定的时长的时序信号的全部或一部分，

构成上述第二信号的至少1个规定的时长的时序信号是构成上述第二信号的规定的时长的时序信号的全部或一部分。

5.如权利要求1或2所述的匹配装置，

将多个信号的各个信号设为上述第二信号，进行上述判定。

6.一种判定装置，

将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列，该广义高斯分布近似白化频谱序列的直方图，所述白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列，该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的，

上述判定装置包括判定单元，上述判定单元基于上述第一序列，判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。

7.一种匹配方法，包括：

将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，该广义高斯分布近似白化频谱序列的直方图，该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列，该频谱包络是通过将与该时序信号对应的频域样本串的绝对值的η次方看作功率谱而估计出的，

上述匹配方法包括匹配步骤，在上述匹配步骤中，匹配单元(51)基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列，判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。

8.一种判定方法，

将参数η设为正数，将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数，将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列，该广义高斯分布近似白化频谱序列的直方图，该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列，该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的，

上述判定方法包括判定步骤，在上述判定步骤中，判定单元基于上述第一序列，判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。

9.一种计算机可读取的记录介质，记录了用于使计算机具有权利要求1所述的匹配装置的各单元的功能或权利要求6所述的判定装置的各单元的功能的程序。