CN107851442A - 匹配装置、判定装置、它们的方法、程序及记录介质 - Google Patents
匹配装置、判定装置、它们的方法、程序及记录介质 Download PDFInfo
- Publication number
- CN107851442A CN107851442A CN201680019872.XA CN201680019872A CN107851442A CN 107851442 A CN107851442 A CN 107851442A CN 201680019872 A CN201680019872 A CN 201680019872A CN 107851442 A CN107851442 A CN 107851442A
- Authority
- CN
- China
- Prior art keywords
- parameter
- signal
- sequence
- mentioned
- clock signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000001228 spectrum Methods 0.000 claims description 103
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 15
- 241000894007 species Species 0.000 description 23
- 238000009499 grossing Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
匹配装置包括:匹配单元(51),基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定第一信号和第二信号的一致程度、和/或第一信号和第二信号是否一致。
Description
技术领域
本发明涉及基于声音信号进行匹配或信号的区间或种类的判定的技术。
背景技术
作为表示声音信号等时序信号的特征的参数,已知LSP(Language ServerProtocol;语言服务器协议)等参数(例如,参照非专利文献1)。
LSP存在因为是多次,所以在直接地用于声音的分类和区间估计上难以处理的情况。例如,由于LSP为多次,所以不能说基于使用了LSP的阈值的处理容易。
可是,虽不为公知,但发明人提出了参数η。该参数η是,例如在将利用在3GPP EVS(Enhanced Voice Services;增强的语音服务)标准中使用的线性预测包络的频域的系数的量化值进行算术编码的编码方式中,确定属于算术代码的编码对象的概率分布的形状参数。参数η与编码对象的分布有关联性,若适当确定参数η,则可进行高效率的编码及解码。
此外,参数η可成为表示时序信号的特征的指标。因此,参数η可以用于上述编码处理以外的技术,例如用于匹配技术和信号的区间或种类的判定技术等的语音音响关联技术。
而且,参数η是1次值,所以与基于使用了LSP的阈值的处理比较,基于使用了参数η的阈值的处理是容易的。因此,参数η可以容易地用于匹配技术和信号的区间或种类的判定技术等的语音音响关联技术。
现有技术文献
非专利文献
非专利文献1:守谷健弘,“高圧縮语音编码の必須技术:線频谱対(LSP)”,NTT技术ジャーナル,2014年9月,P.58-60
发明内容
发明要解决的问题
但是,使用了参数η的匹配技术及信号的区间或种类的判定技术还未被认知。
本发明的目的在于,提供使用参数η进行匹配的匹配装置、使用参数η判定信号的区间或种类的判定装置、它们的方法、程序及记录介质。
解决问题的方案
根据本发明一方式的匹配装置,包括:匹配单元,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
根据本发明一方式的判定装置,包括:判定单元,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将通过将与该时序信号对应的频域样本串除以了上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,基于上述第一序列,判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。
发明的效果
可以使用参数η进行匹配或信号的区间或种类的判定。
附图说明
图1是用于说明匹配装置的例子的框图。
图2是用于说明匹配方法的例子的流程图。
图3是用于说明判定装置的例子的框图。
图4是用于说明判定方法的例子的流程图。
图5是用于说明参数确定单元的例子的框图。
图6是用于说明参数确定单元的例子的流程图。
图7是用于说明广义高斯分布的图。
具体实施方式
[匹配装置及方法]
说明匹配装置及方法的一例。
如图1所示,匹配装置例如包括参数确定单元27’、匹配单元51及第二序列存储单元52。匹配装置的各单元通过进行图2中例示的各处理,实现匹配方法。
以下,说明匹配装置的各单元。
<参数确定单元27’>
参数确定单元27’中,每隔规定的时长被输入时序信号即第一信号。第一信号的例子是语音数字信号或音响数字信号等的声音信号。
参数确定单元27’基于输入的规定的时长的时序信号,通过后述的处理,确定该输入的规定的时长的时序信号参数η(步骤F1)。由此,得到与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构成该第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列称为“第一序列”。这样,参数确定单元27’对每个规定的时长的帧进行处理。
再者,构成第一信号的至少1个规定的时长的时序信号可以是构成第一信号的规定的时长的时序信号的全部,也可以是一部分。
由参数确定单元27’确定的参数η的第一序列,输出到匹配单元51。
参数确定单元27’的结构例子示于图5。如图5所示,参数确定单元27’例如包括频域转换单元41、频谱包络估计单元42、白化频谱序列生成单元43和参数获取单元44。频谱包络估计单元42例如包括线性预测分析单元421及非平滑化振幅频谱包络序列生成单元422。例如由该参数确定单元27’实现的参数确定方法的各处理的例子示于图6。
以下,说明图5的各单元。
<频域转换单元41>
频域转换单元41中,输入规定的时长的时序信号。
频域转换单元41以规定的时长的帧为单位,将输入的规定的时长的时序信号即时域的声音信号转换为频域的N点的MDCT系数串X(0),X(1),…,X(N-1)。N为正整数。
得到的MDCT系数串X(0),X(1),…,X(N-1)输出到频谱包络估计单元42及白化频谱序列生成单元43。
除非另有说明,以后的处理都假设以帧为单位进行。
这样一来,频域转换单元41求与规定的时长的时序信号对应的、例如MDCT系数串即频域样本串(步骤C41)。
<频谱包络估计单元42>
频谱包络估计单元42中,输入频域转换单元21得到的MDCT系数串X(0),X(1),…,X(N-1)。
频谱包络估计单元42基于以规定的方法确定的参数η0,进行将与时序信号对应的频域样本串的绝对值的η0次方用作功率谱的频谱包络的估计(步骤C42)。
估计出的频谱包络被输出到白化频谱序列生成单元43。
频谱包络估计单元42通过例如以下说明的线性预测分析单元421及非平滑化振幅频谱包络序列生成单元422的处理,通过生成非平滑化振幅频谱包络序列进行频谱包络的估计。
假设参数η0按规定的方法确定。例如,将η0设为大于0的规定的数。例如,假设η0=1。此外,也可以用在比要求当前参数η的帧之前的帧中求得的η。在比要求当前参数η的帧(以下,设为当前帧。)之前的帧,例如是当前帧前面的帧且当前帧的附近的帧。当前帧的附近的帧,例如是紧接当前帧之前的帧。
<线性预测分析单元421>
线性预测分析单元421中,输入频域转换单元41得到的MDCT系数串X(0),X(1),…,X(N-1)。
线性预测分析单元421使用MDCT系数串X(0),X(1),…,X(N-1),对根据以下的式(C1)定义的~R(0),~R(1),…,~R(N-1)进行线性预测分析而生成线性预测系数β1,β2,…,βp,将生成的线性预测系数β1,β2,…,βp编码而生成线性预测系数码和对应于线性预测系数码的量化的线性预测系数即量化线性预测系数^β1,^β2,…,^βp。
生成的量化线性预测系数^β1,^β2,…,^βp输出到非平滑化频谱包络序列生成单元422。
具体而言,线性预测分析单元421首先通过进行相当于将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方看作功率谱的傅立叶逆变换的运算、即式(C1)的运算,求与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方对应的时域的信号串即伪相关函数信号串~R(0),~R(1),…,~R(N-1)。然后,线性预测分析单元421用求得的伪相关函数信号串~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β1,β2,…,βp。然后,线性预测分析单元421通过将生成的线性预测系数β1,β2,…,βp编码,得到线性预测系数码和对应于线性预测系数码的量化线性预测系数^β1,^β2,…,^βp。
线性预测系数β1,β2,…,βp是,与将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方看作功率谱时的时域的信号对应的线性预测系数。
基于线性预测分析单元421的线性预测系数码的生成,例如根据现有的编码技术进行。现有的编码技术,例如是将与线性预测系数本身对应的代码设为线性预测系数码的编码技术、将线性预测系数转换为LSP参数而将与LSP参数对应的代码设为线性预测系数码的编码技术、将线性预测系数转换为PARCOR系数而将与PARCOR系数对应的代码设为线性预测系数码的编码技术等。
这样一来,线性预测分析单元421,例如用通过进行将MDCT系数串即频域样本串的绝对值的η0次方看作功率谱的傅立叶逆变换得到的伪相关函数信号串,生成进行线性预测分析的线性预测系数(步骤C421)。
<非平滑化振幅频谱包络序列生成单元422>
非平滑化振幅频谱包络序列生成单元422中,输入线性预测分析单元421生成的量化线性预测系数^β1,^β2,…,^βp。
非平滑化振幅频谱包络序列生成单元422生成与量化线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)输出到白化频谱序列生成单元43。
非平滑化振幅频谱包络序列生成单元422使用量化线性预测系数^β1,^β2,…,^βp作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),生成由式(C2)定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
这样一来,非平滑化振幅频谱包络序列生成单元422通过根据可转换为由线性预测分析单元421生成的线性预测系数的系数而得到非平滑化频谱包络序列,进行频谱包络的估计(步骤C422),其中非平滑化频谱包络序列是将与伪相关函数信号串对应的振幅频谱包络的序列1/η0次方的序列。
再者,非平滑化频谱包络序列生成单元422通过使用线性预测分析单元421生成的线性预测系数β1,β2,…,βp取代量化线性预测系数^β1,^β2,…,^βp,也可以得到非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。这种情况下,线性预测分析单元421也可以不进行得到量化线性预测系数^β1,^β2,…,^βp的处理。
<白化频谱序列生成单元43>
白化频谱序列生成单元43中,输入频域转换单元41得到的MDCT系数串X(0),X(1),…,X(N-1)及非平滑化振幅频谱包络生成单元422生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
白化频谱序列生成单元43通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数除以对应的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值,生成白化频谱序列XW(0),XW(1),…,XW(N-1)。
生成的白化频谱序列XW(0),XW(1),…,XW(N-1)输出到参数获取单元44。
白化频谱序列生成单元43,例如通过假设k=0,1,…,N-1,将MDCT系数串X(0),X(1),…,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值^H(k),生成白化频谱序列XW(0),XW(1),…,XW(N-1)的各值XW(k)。即,假设k=0,1,…,N-1,XW(k)=X(k)/^H(k)。
这样一来,白化频谱序列生成单元43得到例如以非平滑化振幅频谱包络序列即频谱包络除例如MDCT系数串即频域样本串的序列即白化频谱序列(步骤C43)。
<参数获取单元44>
参数获取单元44中,输入白化频谱序列生成单元43生成的白化频谱序列XW(0),XW(1),…,XW(N-1)。
参数获取单元44求将参数η设为形状参数的广义高斯分布近似白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图的参数η(步骤C44)。换句话说,参数获取单元44确定使得将参数η设为形状参数的广义高斯分布近似白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图的分布的参数η。
将参数η设为形状参数的广义高斯分布,例如以下那样定义。Γ是伽马函数。
广义高斯分布是,可以通过改变形状参数即η,如图3那样η=1时表现为拉普拉斯分布、η=2时表现为高斯分布的各种各样的分布。η是比0大的规定的数。η也可以是比0大的2以外的规定的数。具体而言,η也可以是低于2的规定的正数。φ是与方差对应的参数。
这里,参数获取单元44求的η,例如根据以下的式(C3)定义。F-1是函数F的反函数。该式根据所谓的力矩(moment)法导出。
在反函数F-1被公式化的情况下,参数获取单元44可以通过计算对公式化的反函数F-1输入了m1/((m2)1/2)的值时的输出值而求参数η。
在反函数F-1没有被公式化的情况下,参数获取单元44为了计算以式(C3)定义的η的值,例如也可以根据以下说明的第一方法或第二方法来求参数η。
说明用于求参数η的第一方法。第一方法中,参数获取单元44基于白化频谱序列计算m1/((m2)1/2),参照预先准备的不同的多个的、与η对应的F(η)的对,获取与最接近算出的m1/((m2)1/2)的F(η)对应的η。
预先准备的不同的多个的、与η对应的F(η)的对,预先存储在参数获取单元44的存储单元441中。参数获取单元44参照存储单元441,发现最接近算出的m1/((m2)1/2)的F(η),从存储单元441读入输出与发现的F(η)对应的η。
最接近算出的m1/((m2)1/2)的F(η)是,与算出的m1/((m2)1/2)之差的绝对值为最小的F(η)。
说明用于求参数η的第二方法。第二方法中,将反函数F-1的近似曲线函数设为以例如以下的式(C3’)表示的~F-1,参数获取单元44通过基于白化频谱序列计算m1/((m2)1/2),并计算对近似曲线函数~F-1输入了算出的m1/((m2)1/2)时的输出值而求η。该近似曲线函数~F-1在使用的定义域中,只要是输出为正值的单调增加函数即可。
再者,参数获取单元44求的η也可以不用式(C3),而通过用如式(C3”)那样预先确定的正整数q1及q2(其中q1<q2),将式(C3)广义化的式来定义。
再者,在η由式(C3”)定义的情况下,也可以根据与η由式(C3)定义的情况同样的方法,求η。即,参数获取单元44可以在基于白化频谱序列,计算了基于该q1次力矩即mq1和该q2次力矩(moment)即mq2mq1/((mq2)q1/q2)值后,例如与上述的第一方法及第二方法同样,参照预先准备的不同的多个的、与η对应的F’(η)的对,获取与算出的mq1/((mq2)q1/q2)最接近的F’(η)对应的η,或者将反函数F’-1的近似曲线函数设为~F’-1、计算将对近似曲线函数~F-1输入了算出的mq1/((mq2)q1/q2)时的输出值而求η。
这样,η也可以说是基于量纲不同的2个不同的力矩mq1,mq2的值。例如,基于量纲不同的2个不同的力矩mq1,mq2之中、量纲低的一方的力矩的值或基于它的值(以下,设为前者。)和量纲高的一方的力矩的值或基于它的值(以下,设为后者)之比的值、基于该比的值的值、或基于将前者除以后者所得的值,也可以求η。基于力矩的值,例如是将该力矩设为m并将Q设为规定的实数而为mQ。此外,也可以将这些值输入到近似曲线函数~F-1中而求η。该近似曲线函数~F’-1,与上述同样,只要是在使用的定义域中输出为正值的单调增加函数即可。
参数确定单元27’也可以通过循环处理而求参数η。即,参数确定单元27’也可以将由参数获取单元44求得的参数η设为以规定的方法确定的参数η0的、频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44的处理进而进行1次以上。
这种情况下,例如,如图5中虚线所示,参数获取单元44中求得的参数η,输出到频谱包络估计单元42。频谱包络估计单元42将参数获取单元44中求得的η用作参数η0,进行与上述说明的处理同样的处理,进行频谱包络的估计。白化频谱序列生成单元43基于新估计出的频谱包络,生成与进行上述说明的处理同样的处理的白化频谱序列。参数获取单元44基于新生成的白化频谱序列,求进行与上述说明的处理同样的处理的参数η。
例如,频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44的处理也可以仅进一步进行规定的次数即τ次。τ是规定的正整数,例如τ=1或τ=2。
此外,频谱包络估计单元42也可以反复进行频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44的处理,直至本次求得的参数η和上次求得的参数η之差的绝对值为规定的阈值以下为止。
<第二序列存储单元52>
第二序列存储单元52中,存储与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的序列即第二序列。
第二信号是,作为对第一信号的匹配的对象的语音数字信号或音响数字信号等的声音信号。
第二序列,例如通过参数确定单元27’来求,存储在第二序列存储单元52中。即,构成第二信号的至少1个规定的时长的时序信号的各个信号被输入到参数确定单元27’,参数确定单元27’也可以通过与求第一序列的处理同样的处理,求第二序列并存储在第二序列存储单元52中。
再者,构成第二信号的至少1个规定的时长的时序信号可以是构成第二信号的规定的时长的时序信号的全部,也可以是一部分。
匹配单元51在将多个信号的各个设为第二信号,进行后述的判定的情况下,假设与多个信号的各个对应的第二序列被存储在第二序列存储单元52中。
再者,由参数确定单元27’求得的第二序列也可以不通过第二序列存储单元52而直接输入到匹配单元51。这种情况下,第二序列存储单元52也可以不包括在匹配装置中。此外,这种情况下,参数确定单元27’例如从存储了多个信号(多个乐曲)的未图示的数据库读入各信号,从读入的信号求第二序列,输出到匹配单元51。
<匹配单元51>
匹配单元51中,输入参数确定单元27’得到的第一序列及例如从第二序列存储单元52读入的第二序列。
匹配单元51基于第一序列和第二序列,判定第一信号和第二信号的一致程度、和/或第一信号和第二信号是否一致,输出该判定结果(步骤F2)。
将第一序列表示为(η1,1,η1,2,…,η1,N1),将第二序列表示为(η2,1,η2,2,…,η2,N2)。N1是构成第一序列的参数η的数。N2是构成第二序列的参数η的数。假设N1≤N2。
第一信号和第二信号的一致程度是第一序列和第二序列的相似度。第一序列和第二序列的相似度,例如,是包含在第二序列(η2,1,η2,2,…,η2,N2)中的、最接近第一序列(η1,1,η1,2,…,η1,N1)的序列和第一序列(η1,1,η1,2,…,η1,N1)之间的距离。假设包含在第二序列(η2,1,η2,2,…,η2,N2)中的、最接近第一序列(η1,1,η1,2,…,η1,N1)的序列的元素数和第一序列(η1,1,η1,2,…,η1,N1)的元素数相同。
该第一序列和第二序列的相似度,例如由以下的算式定义。Min是输出最小值的函数。在本例中,作为距离,使用欧几里得距离,但也可以使用曼哈顿距离等其他的现有距离和误差的标准偏差。
将从第一序列(η1,1,η1,2,…,η1,N1)得到的、参数η的代表值的序列设为代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)。同样地,将从第二序列(η2,1,η2,2,…,η2,N2)得到的、参数η的代表值的序列设为代表第二序列(η2,1 r,η2,2 r,…,η2,N2' r)。
例如,将c设为N1及N2的约数即规定的正整数,若对c个的每个参数η得到代表值,则N1'=N1/c,k=1,2,…,N1',代表值η1,k r是第一序列之中的序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的代表值。同样地,代表值η2,k r是第二序列之中的序列(η2,(k-1)c+1,η2,(k-1)c+2,…,η2,kc)的代表值。
k=1,2,…,N1',代表值η1,k r是代表第一序列之中的序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的值,例如,是序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的平均值、中值、最大值或最小值。k=1,2,…,N2',代表值η2,k r是代表第二序列之中的序列(η2,(k-1)c+1,η2,(k-1)c+2,…,η2,kc)的值,例如,是序列(η2,(k-1)c+1,η2,(k-1)c+2,…,η2,kc)的平均值、中值、最大值或最小值。
第一序列和第二序列的相似度,也可以设为包含在代表第二序列(η2,1 r,η2,2 r,…,η2,N2' r)中的、最接近代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)的序列和代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)之间的距离。假设包含在代表第二序列(η2,1 r,η2,2 r,…,η2,N2' r)中的、最接近代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)的序列的元素数和代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)的元素数相同。
使用了该代表值的第一序列和第二序列的相似度,例如由以下的算式定义。Min是输出最小值的函数。在本例中,作为距离,使用欧几里得距离,但也可以使用曼哈顿距离等其他的现有距离和误差的标准偏差。
第一信号和第二信号是否一致,例如,可以通过将第一信号和第二信号的一致程度与规定的阈值进行比较而判定。例如,匹配单元51在第一信号和第二信号的一致程度比规定的阈值小或为规定的阈值以下的情况下,判定为第一信号和第二信号一致,在不是那样的情况下判定为第一信号和第二信号不一致。
匹配单元51也可以将多个信号的各个设为第二信号,进行上述判定。这种情况下,匹配单元51也可以计算多个信号的各个信号和第一信号的一致程度,选择多个信号之中的、算出的一致程度最小的信号,输出有关该一致程度最小的信号的信息。
例如,假设与多个乐曲的各个对应的第二序列及信息存储在第二序列存储单元52中。假设用户想知道某段音乐是哪个乐曲。这种情况下,用户将与该音乐对应的声音信号作为第一信号输入到匹配装置,匹配单元51可以通过从第二序列存储单元52得到与该音乐对应的声音信号一致程度最小的乐曲的信息,知道与该音乐对应的乐曲的信息。
再者,匹配单元51基于第一序列(η1,1,η1,2,…,η1,N1)的时变性的序列即时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1)、以及第二序列(η2,1,η2,2,…,η2,N2)的时变性的序列即时变第二序列(Δη2,1,Δη2,2,…,Δη2,N2-1),也可以进行匹配。这里,例如,假设Δη1,k=η1,k+1-η1,k(k=1,2,…,N1-1)、Δη2,k=η2,k+1-η2,k(k=1,2,…,N2-1)。
例如,在使用了上述的第一序列及第二序列的匹配处理中,可以通过用时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1)取代第一序列(η1,1,η1,2,…,η1,N1),用时变第二序列(Δη2,1,Δη2,2,…,Δη2,N2-1)取代第二序列(η2,1,η2,2,…,η2,N2),基于时变第一序列和时变第二序列进行匹配。
此外,匹配单元51不仅用第一序列及第二序列,也可以用表示音的大小的指标(例如,振幅或能量)、表示音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、音调的周期性、基本周波数等的音响特征量进行匹配。例如,(1)基于第一序列及第二序列和表示音的大小的指标,也可以进行匹配。此外,(2)基于第一序列及第二序列和表示时序信号的音的大小的指标的时间性变动,也可以进行匹配。此外,(3)基于第一序列及第二序列和时序信号的频谱形状,也可以进行匹配。此外,(4)基于第一序列及第二序列和时序信号的频谱形状的时间性变动,也可以进行匹配。此外,(5)基于第一序列及第二序列和时序信号的音调的周期性,也可以进行匹配。
而且,匹配单元51也可以用SVM(Support Vector Machine)、Boosting等的识别技术进行匹配。
再者,匹配单元51通过与后述的判定单元53的处理同样的处理,判定构成第一信号的各规定的时长的时序信号的种类,此外,也可以通过与后述的判定单元53的处理同样的处理,判定构成第二信号的各规定的时长的时序信号的种类,通过判定它们的判定结果是否相同进行匹配。例如,匹配单元51在对第一信号的判定结果是“语音→音乐→语音→音乐”、对第二信号的判定结果是“语音→音乐→语音→音乐”的情况下,判定为第一信号和第二信号一致。
[判定装置及方法]
说明判定装置及方法的一例。
如图3所示,判定装置例如包括参数确定单元27’及判定单元53。判定装置的各单元通过进行图4中例示的各处理而实现判定方法。
以下,说明判定装置的各单元。
<参数确定单元27’>
参数确定单元27’中,每隔规定的时长被输入时序信号即第一信号。第一信号的例子是,语音数字信号或音响数字信号等的声音信号。
参数确定单元27’基于输入的规定的时长的时序信号,通过后述的处理,确定该输入的规定的时长的时序信号参数η(步骤F1)。由此,得到与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构成这种第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列称为“第一序列”。这样,参数确定单元27’对规定的时长的每个帧进行处理。
再者,构成第一信号的至少1个规定的时长的时序信号可以是构成第一信号的规定的时长的时序信号的全部,也可以是一部分。
由参数确定单元27’确定的参数η的第一序列输出到判定单元53。
参数确定单元27’的细节,与[匹配装置及方法]栏中说明的细节是同样的,所以这里省略重复说明。
<判定单元53>
判定单元53中,输入由参数确定单元27’确定的第一序列。
判定单元53基于第一序列,判定第一信号之中的规定的种类的信号的区间、和/或第一信号的种类(步骤F3)。规定的种类的信号区间,例如是语音的区间、音乐的区间、非稳定音的区间、稳定音的区间等的区间。
将第一序列表示为(η1,1,η1,2,…,η1,N1)。N1是构成第一序列的参数η的数。
第一信号之中的规定的种类的信号的区间的判定,例如,可以通过将构成第一序列的参数η1,k(k=1,2,…,N1)和规定的阈值比较来进行。
例如,判定单元53在参数η1,k≥阈值的情况下,将第一信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为非稳定音(语音、无声等)的区间。
此外,判定单元53在阈值>参数η1,k的情况下,将第一信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为稳定音(时间性变动平缓的音乐等)的区间。
此外,也可以通过与多个规定的阈值比较,进行第一信号之中的规定的种类的信号的区间的判定。以下,说明使用了2个阈值(第一阈值及第二阈值)的判定的例子。假设第一阈值>第二阈值。
例如,判定单元53在参数η1,k≧第一阈值的情况下,将第一信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为无声的区间。
此外,判定单元53在第一阈值>参数η1,k≧第二阈值的情况下,将第一信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为非稳定音的区间。
此外,判定单元53在第二阈值>参数η1,k的情况下,将第一信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为稳定音的区间。
第一信号的种类的判定,例如,可以基于信号的区间的种类的判定结果进行。例如,判定单元53对判定出的信号的区间的每个种类计算第一信号之中的该种类的信号的区间所占的比例,在比例最大的信号的区间的种类的比例的值为处理的阈值以上或大于阈值的情况下,判定为第一信号是该信号的比例最大的信号的区间的种类。
将从第一序列(η1,1,η1,2,…,η1,N1)得到的、参数η的代表值的序列设为代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r)。例如,将c设为N1的约数即规定的正整数,若对c个的每个参数η得到代表值,则N1'=N1/c,k=1,2,…,N1',代表值η1,k r是第一序列之中的序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的代表值。k=1,2,…,N1',代表值η1,k r是代表第一序列之中的序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的值,例如,是序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的平均值、中值、最大值或最小值。
判定单元53基于代表第一序列(η1,1 r,η1,2 r,…,η1,N1' r),也可以判定第一信号之中的规定的种类的信号的区间、和/或判定第一信号的种类。
例如,判定单元53在代表值η1,k r≧第一阈值的情况下,将第一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为语音的区间。
这里,与代表值η1,k r对应的规定的时长的时序信号的区间是,与代表值η1,k r对应的第一序列之中的序列(η1,(k-1)c+1,η1,(k-1)c+2,…,η1,kc)的各自参数η对应的规定的时长的时序信号的区间。
此外,判定单元53在第一阈值>代表值η1,k r≧第二阈值的情况下,将第一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为音乐的区间。
此外,判定单元53在第二阈值>代表值η1,k r≧第三阈值的情况下,将第一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为非稳定音的区间。
而且,判定单元53在第三阈值>代表值η1,k r的情况下,将第一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为稳定音的区间。
再者,判定单元53也可以基于第一序列(η1,1,η1,2,…,η1,N1)的时变性的序列即时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1),进行判定处理。这里,例如,假设Δη1,k=η1,k+1-η1,k(k=1,2,…,N1-1)。
例如,在使用了上述的第一序列的判定处理中,可以通过使用时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1)取代第一序列(η1,1,η1,2,…,η1,N1),基于时变第一序列进行判定。
此外,判定单元53进而也可以使用表示时序信号的音的大小的指标(例如,振幅或能量)、表示音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、音调的周期性、基本频率等的音响特征量进行判定。例如,(1)判定单元53基于参数η1,k和表示时序信号的音的大小的指标,也可以进行判定。此外,(2)判定单元53基于参数η1,k和表示时序信号的音的大小的指标的时间性变动,也可以进行判定。此外,(3)判定单元53基于参数η1,k和时序信号的频谱形状,也可以进行判定。此外,(4)判定单元53基于参数η1,k和时序信号的频谱形状的时间性变动,也可以进行判定。此外,(5)判定单元53基于参数η1,k和时序信号的音调的周期性,也可以进行判定。
以下,分别说明:(1)判定单元53基于参数η1,k和表示时序信号的音的大小的指标进行判定的情况,(2)判定单元53基于参数η1,k和表示时序信号的音的大小的指标的时间性变动进行判定的情况,(3)判定单元53基于参数η1,k和时序信号的频谱形状进行判定的情况,(4)判定单元53基于参数η1,k和时序信号的频谱形状的时间性变动进行判定的情况,(5)判定单元53基于参数η1,k和时序信号的音调的周期性进行判定的情况。
(1)基于参数η1,k和表示音的大小的指标进行判定的情况下,判定单元53判定与表示参数η1,k对应的时序信号的音的大小的指标是否大,此外,判定参数η1,k是否大。
在表示时序信号的音的大小的指标小,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
表示时序信号的音的大小的指标是否大,例如可以基于规定的阈值CE判定。即,如果表示时序信号的音的大小的指标≥规定的阈值CE,则可以判定为表示时序信号的音的大小的指标大,不是那样的情况下可以判定为表示时序信号的音的大小的指标小。作为表示时序信号的音的大小的指标,例如,在使用了平均振幅(每个样本的平均能量的平方根)的情况下,CE=最大振幅值*(1/128)。例如若为16比特精度,则最大振幅值为32768,所以CE=256。
参数η1,k是否大,例如可以基于规定的阈值Cη判定。即,如果参数η1,k≥规定的阈值Cη,则可以判定为参数η1,k大,不是那样的情况下可以判定为参数η1,k小。例如,Cη=1。
在表示时序信号的音的大小的指标小,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为有BGM那样的特征的背景音的区间。
在表示时序信号的音的大小的指标大,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为语音和热闹的音乐的区间。
在表示时序信号的音的大小的指标大,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为乐器演奏等的音乐的区间。
(2)在基于参数η1,k和表示时序信号的音的大小的指标的时间性变动进行判定的情况下,判定单元53判定表示与参数η1,k对应的时序信号的音的大小的指标的时间性变动是否大,此外,判定参数η1,k是否大。
表示时序信号的音的大小的指标的时间性变动是否大,例如可以基于规定的阈值CE'判定。即,如果表示时序信号的音的大小的指标的时间性变动≥规定的阈值CE',则可以判定为表示时序信号的音的大小的指标的时间性变动大,不是那样的情况下可以判定为表示时序信号的音的大小的指标的时间性变动小。作为表示时序信号的音的大小的指标,例如,在使用了将构成时序信号的4个子帧的能量的相加平均除以了相乘平均所得的值F=((1/4)Σ4个子帧的能量)/((Π子帧的能量)1/4)的情况下,CE'=1.5。
在表示时序信号的音的大小的指标的时间性变动小,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
在表示时序信号的音的大小的指标的时间性变动小,并且参数η小的情况下,将与参数η1,k对应的时序信号的区间判定为以连续音为主体的管乐器和弦乐器的音乐的区间。
在表示时序信号的音的大小的指标的时间性变动大,并且参数η1,k大的情况下,判定单元53将与参数η1,k对应的时序信号的区间判定为语音的区间。
在表示时序信号的音的大小的指标的时间性变动大,并且参数η1,k小的情况下,判定单元53将与参数η1,k对应的时序信号的区间判定为时间变动大的音乐的区间。
(3)在基于参数η1,k和时序信号的频谱形状进行判定的情况下,判定单元53判定与参数η1,k对应的时序信号的频谱形状是否平坦,此外,判定参数η1,k是否大。
在时序信号的频谱形状平坦,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为稳定的环境噪音(噪声)的区间。与参数η1,k对应的时序信号的频谱形状是否平坦,可以基于规定的阈值EV判定。例如,若与参数η1,k对应的第1次的PARCOR系数的绝对值低于规定的阈值EV(例如,EV=0.7),则可以判定为与参数η1,k对应的时序信号的频谱形状是平坦的,不是那样的情况下,可以判定为与参数η1,k对应的时序信号的频谱形状不是平坦的。
在时序信号的频谱形状平坦,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为时间变动大的音乐的区间。
在时序信号的频谱形状不平坦,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为语音的区间。
在时序信号的频谱形状不平坦,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为以连续音为主体的管乐器和弦乐器的音乐的区间。
(4)在基于参数η1,k和时序信号的频谱形状的时间性变动进行判定的情况下,判定单元53判定与参数η1,k对应的时序信号的频谱形状的时间性变动是否大,此外,判定参数η1,k是否大。
与参数η1,k对应的时序信号的频谱形状的时间性变动是否平坦,可以基于规定的阈值EV'判定。例如,若将构成时序信号的4个子帧的第1次的PARCOR系数的绝对值的相加平均除以相乘平均所得的值FV=((1/4)Σ4个子帧的第1次的PARCOR系数的绝对值)/((Π第1次的PARCOR系数的绝对值)1/4)为规定的阈值EV'(例如,EV'=1.2)以上,则可以判定为与参数η1,k对应的时序信号的频谱形状的时间性变动大,不是那样的情况下,可以判定为与参数η1,k对应的时序信号的频谱形状的时间性变动小。
在时序信号的频谱形状的时间性变动大,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为语音的区间。
在时序信号的频谱形状的时间性变动大,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为时间变动大的音乐的区间。
在时序信号的频谱形状的时间性变动小,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
在时序信号的频谱形状的时间性变动小,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为以连续音作为主体的管乐器和弦乐器的音乐的区间。
(5)在基于参数η1,k和时序信号的音调的周期性进行判定的情况下,判定单元53判定与参数η1,k对应的时序信号的音调的周期性是否大,此外,此外,判定参数η1,k是否大。
音调的周期性是否大,例如可以基于规定的阈值CP判定。即,如果音调的周期性≧规定的阈值CP,则可以判定为音调的周期性大,在不是那样的情况下,可以判定为音调的周期性小。作为音调的周期性,例如,在使用了与音调周期τ样本分离的序列的归一化相关函数
(其中x(i)是时序的样本值,N是帧的样本数))的情况下,CP=0.8。
在音调的周期性大,并且参数η1,k大的情况下,将对应于参数η1,k的时序信号的区间判定为语音的区间。
在音调的周期性大,并且参数η1,k小的情况下,将对应于参数η1,k的时序信号的区间判定为以连续音作为主体的管乐器和弦乐器的音乐的区间。
在音调的周期性小,并且参数η1,k大的情况下,将对应于参数η1,k的时序信号的区间判定为环境噪音(噪声)的区间。
在音调的周期性小,并且参数η小的情况下,将对应于参数η1,k的时序信号的区间判定为时间变动大的音乐的区间。而且,判定单元53也可以使用SVM(Support VectorMachine;支持向量机)、Boosting等识别技术进行判定。这种情况下,对每个参数η准备与语音、音乐、无声等标记相关联的学习数据,使用这样的学习数据,预先进行学习。
[程序及记录介质]
也可以由计算机实现各装置或各方法中的各部分。这种情况下,通过程序记述各装置或各方法的处理内容。然后,通过由计算机执行这样的程序,在计算机上实现各装置或各方法中的各部分。
记述了这样的处理内容的程序,可以预先记录在计算机可读取的记录介质中。作为计算机可读取的记录介质,例如,也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等那样的记录介质。
此外,例如通过贩卖、转让、出租记录了该程序的DVD、CD-ROM等可移动型记录介质等来进行该程序的流通。而且,也可以将该程序预先存储在服务器计算机的存储装置中,经由网络,将该程序通过从服务器计算机转发到其它计算机,使该程序流通。
执行这样的程序的计算机,例如,首先,将可移动型记录介质中记录的程序或者从服务器计算机转发的程序暂时存储在自己的存储单元中。然后,在执行处理时,该计算机读取自己的存储单元中存储的程序,执行按照读取的程序的处理。此外,作为该程序的其它实施方式,也可以计算机从可移动型记录介质直接读取程序,执行按照该程序的处理。进而,也可以在每次从服务器计算机对该计算机转发程序时,逐次执行按照接收到的程序的处理。此外,也可以构成为不进行从服务器计算机至该计算机的程序的转发,通过仅按照该执行指示和结果获取来实现处理功能的、所谓ASP(Application Service Provider,应用服务提供者)型的服务,执行上述的处理。再者,作为在程序中,包含作为供电子计算机的处理用的信息的、按照程序看待的内容(具有虽然不是对于计算机的直接的指令,但是规定计算机的处理的性质的数据等)。
此外,虽然作为通过在计算机上执行规定的程序,构成各装置,但是这些处理内容的至少一部分也可以硬件方式地实现。
工业实用性
匹配装置、方法及程序,例如,可以用于歌曲来源的搜索、非法内容的检测、演奏乐器和歌曲的结构相似的另一歌曲的搜索。此外,判定装置、方法及程序,例如,可以用于著作权费的计算。
Claims (10)
1.一种匹配装置,包括:
匹配单元,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,所述广义高斯分布近似白化频谱序列的直方图,该白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,
基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
2.如权利要求1所述的匹配装置,包括:
参数确定单元,其包括:
频谱包络估计单元,将参数η0及参数η设为正数,使用以规定的方法确定的参数η0,将与输入的规定的时长的时序信号对应的频域样本串的绝对值的η0次方看作功率谱进行频谱包络的估计;
白化频谱序列生成单元,得到将上述频域样本串除以了上述频谱包络的序列即白化频谱序列;以及
参数获取单元,求将参数η设为形状参数的广义高斯分布近似上述白化频谱序列的直方图的参数η,将求得的参数η设为与上述输入的规定的时长的时序信号对应的参数η,
上述参数确定单元通过进行将构成上述第一信号的至少1个规定的时长的时序信号的各个作为输入的处理,得到上述第一序列。
3.如权利要求1或2所述的匹配装置,包括:
第二序列存储单元,存储上述第二序列,
上述匹配单元用从上述第二序列存储单元读入的上述第二序列,进行上述判定。
4.如权利要求1至3的任意一项所述的匹配装置,
构成上述第一信号的至少1个规定的时长的时序信号是构成上述第一信号的规定的时长的时序信号的全部或一部分,
构成上述第二信号的至少1个规定的时长的时序信号是构成上述第二信号的规定的时长的时序信号的全部或一部分。
5.如权利要求1至3的任意一项所述的匹配装置,
将多个信号的各个信号设为上述第二信号,进行上述判定。
6.一种判定装置,包括:
判定单元,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,
基于上述第一序列,判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。
7.一种匹配方法,包括:
匹配步骤,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,
匹配单元(51)基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
8.一种判定方法,包括:
判定步骤,将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的频谱包络的序列,
判定单元基于上述第一序列,判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。
9.一种程序,用于使计算机具有权利要求1至5的任意一项所述的匹配装置或权利要求6所述的判定装置的各单元的功能。
10.一种计算机可读取的记录介质,记录了用于使计算机具有权利要求1至5的任意一项所述的匹配装置的各单元的功能或权利要求6所述的判定装置的各单元的功能的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015081769 | 2015-04-13 | ||
JP2015-081769 | 2015-04-13 | ||
PCT/JP2016/061683 WO2016167216A1 (ja) | 2015-04-13 | 2016-04-11 | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107851442A true CN107851442A (zh) | 2018-03-27 |
CN107851442B CN107851442B (zh) | 2021-07-20 |
Family
ID=57126460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680019872.XA Active CN107851442B (zh) | 2015-04-13 | 2016-04-11 | 匹配装置、判定装置、它们的方法、程序及记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10147443B2 (zh) |
JP (1) | JP6392450B2 (zh) |
CN (1) | CN107851442B (zh) |
WO (1) | WO2016167216A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3270376B1 (en) * | 2015-04-13 | 2020-03-18 | Nippon Telegraph and Telephone Corporation | Sound signal linear predictive coding |
US9899038B2 (en) | 2016-06-30 | 2018-02-20 | Karen Elaine Khaleghi | Electronic notebook system |
US10235998B1 (en) | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
US10559307B1 (en) | 2019-02-13 | 2020-02-11 | Karen Elaine Khaleghi | Impaired operator detection and interlock apparatus |
US10735191B1 (en) | 2019-07-25 | 2020-08-04 | The Notebook, Llc | Apparatus and methods for secure distributed communications and data access |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6170333B1 (en) * | 1997-03-14 | 2001-01-09 | Entropy Software Laboratory, Inc. | Apparatus for detecting abnormal sound and method for judging wrong in machine |
CN1481545A (zh) * | 2000-11-14 | 2004-03-10 | ���뼼�����ɷݹ�˾ | 利用自适应滤波改善高频重建编码方法的感知性能 |
CN101406064A (zh) * | 2006-04-03 | 2009-04-08 | 三星电子株式会社 | 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备 |
US7653535B2 (en) * | 2005-12-15 | 2010-01-26 | Microsoft Corporation | Learning statistically characterized resonance targets in a hidden trajectory model |
CN102568474A (zh) * | 2010-10-29 | 2012-07-11 | 索尼公司 | 信号处理装置、信号处理方法及程序 |
WO2013035257A1 (ja) * | 2011-09-09 | 2013-03-14 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
CN103069483A (zh) * | 2010-09-10 | 2013-04-24 | 松下电器产业株式会社 | 编码装置以及编码方法 |
JP2013195511A (ja) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル推定装置、その方法及びプログラム |
CN103971689A (zh) * | 2013-02-04 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480474B1 (ko) * | 2013-10-08 | 2015-01-09 | 엘지전자 주식회사 | 오디오 재생장치와 이를 포함하는 시스템 |
-
2016
- 2016-04-11 JP JP2017512524A patent/JP6392450B2/ja active Active
- 2016-04-11 CN CN201680019872.XA patent/CN107851442B/zh active Active
- 2016-04-11 US US15/562,649 patent/US10147443B2/en active Active
- 2016-04-11 WO PCT/JP2016/061683 patent/WO2016167216A1/ja active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6170333B1 (en) * | 1997-03-14 | 2001-01-09 | Entropy Software Laboratory, Inc. | Apparatus for detecting abnormal sound and method for judging wrong in machine |
CN1481545A (zh) * | 2000-11-14 | 2004-03-10 | ���뼼�����ɷݹ�˾ | 利用自适应滤波改善高频重建编码方法的感知性能 |
US7653535B2 (en) * | 2005-12-15 | 2010-01-26 | Microsoft Corporation | Learning statistically characterized resonance targets in a hidden trajectory model |
CN101406064A (zh) * | 2006-04-03 | 2009-04-08 | 三星电子株式会社 | 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备 |
CN103069483A (zh) * | 2010-09-10 | 2013-04-24 | 松下电器产业株式会社 | 编码装置以及编码方法 |
CN102568474A (zh) * | 2010-10-29 | 2012-07-11 | 索尼公司 | 信号处理装置、信号处理方法及程序 |
WO2013035257A1 (ja) * | 2011-09-09 | 2013-03-14 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
JP2013195511A (ja) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル推定装置、その方法及びプログラム |
CN103971689A (zh) * | 2013-02-04 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
LEPAGE, KEVIN D.: "Higher Moment Estimation for Shallow-Water Reverberation Prediction", 《IEEE JOURNAL OF OCEANIC ENGINEERING》 * |
刘鑫: "宽带音频的非线性频带展宽技术", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107851442B (zh) | 2021-07-20 |
US20180090155A1 (en) | 2018-03-29 |
WO2016167216A1 (ja) | 2016-10-20 |
JP6392450B2 (ja) | 2018-09-19 |
US10147443B2 (en) | 2018-12-04 |
JPWO2016167216A1 (ja) | 2018-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107851442A (zh) | 匹配装置、判定装置、它们的方法、程序及记录介质 | |
CN104321814B (zh) | 频域基音周期分析方法和频域基音周期分析装置 | |
JP6422813B2 (ja) | 符号化装置、復号装置、これらの方法及びプログラム | |
JP6867528B2 (ja) | 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体 | |
CN105229736B (zh) | 用于选择第一编码算法与第二编码算法中的一个的装置及方法 | |
CN106415715A (zh) | 编码装置、解码装置、及其方法、程序 | |
JP6744471B2 (ja) | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体 | |
CN106233383B (zh) | 频域参数串生成方法、频域参数串生成装置以及记录介质 | |
CN107004422A (zh) | 编码装置、解码装置、它们的方法及程序 | |
CN106133830A (zh) | 编码方法、编码装置、程序以及记录介质 | |
KR20070085788A (ko) | 신호 속성들을 사용한 효율적인 오디오 코딩 | |
JP6499206B2 (ja) | パラメータ決定装置、方法、プログラム及び記録媒体 | |
Gulhane et al. | Indian classical musical instrument classification using Timbral features | |
JP6387117B2 (ja) | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 | |
CN111312285B (zh) | 一种开头爆音检测方法及装置 | |
Meister | Conformal predictors for detecting harmful respiratory events | |
Douwes | Hierarchical variational temporal learning for dynamic musical audio synthesis | |
Yang et al. | Harmonic Analysis With Neural Semi-CRF | |
Turunen et al. | New model for speech residual signal shaping with static nonlinearity. | |
Mauch | Simple chord estimate: Submission to the MIREX chord estimation task | |
Owen | Detection and Analysis of Musical Events Using Model-based Signal Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |