CN107851442B - 匹配装置、判定装置、它们的方法、程序及记录介质 - Google Patents

匹配装置、判定装置、它们的方法、程序及记录介质 Download PDF

Info

Publication number
CN107851442B
CN107851442B CN201680019872.XA CN201680019872A CN107851442B CN 107851442 B CN107851442 B CN 107851442B CN 201680019872 A CN201680019872 A CN 201680019872A CN 107851442 B CN107851442 B CN 107851442B
Authority
CN
China
Prior art keywords
signal
sequence
parameter
time series
predetermined time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680019872.XA
Other languages
English (en)
Other versions
CN107851442A (zh
Inventor
守谷健弘
川西隆仁
镰本优
原田登
龟冈弘和
杉浦亮介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Publication of CN107851442A publication Critical patent/CN107851442A/zh
Application granted granted Critical
Publication of CN107851442B publication Critical patent/CN107851442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Abstract

匹配装置包括:匹配单元(51),基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定第一信号和第二信号的一致程度、和/或第一信号和第二信号是否一致。

Description

匹配装置、判定装置、它们的方法、程序及记录介质
技术领域
本发明涉及基于声音信号进行匹配或信号的区间或种类的判定的技术。
背景技术
作为表示声音信号等时序信号的特征的参数,已知LSP(Language ServerProtocol;语言服务器协议)等参数(例如,参照非专利文献1)。
LSP存在因为是多次,所以在直接地用于声音的分类和区间估计上难以 处理的情况。例如,由于LSP为多次,所以不能说基于使用了LSP的阈值的 处理容易。
可是,虽不为公知,但发明人提出了参数η。该参数η是,例如在将利用 在3GPP EVS(Enhanced Voice Services;增强的语音服务)标准中使用的线 性预测包络的频域的系数的量化值进行算术编码的编码方式中,确定属于算 术代码的编码对象的概率分布的形状参数。参数η与编码对象的分布有关联 性,若适当确定参数η,则可进行高效率的编码及解码。
此外,参数η可成为表示时序信号的特征的指标。因此,参数η可以用于 上述编码处理以外的技术,例如用于匹配技术和信号的区间或种类的判定技 术等的语音音响关联技术。
而且,参数η是1次值,所以与基于使用了LSP的阈值的处理比较,基 于使用了参数η的阈值的处理是容易的。因此,参数η可以容易地用于匹配技 术和信号的区间或种类的判定技术等的语音音响关联技术。
现有技术文献
非专利文献
非专利文献1:守谷健弘,“高圧縮语音编码の必須技术:線频谱対(LSP)”, NTT技术ジャーナル,2014年9月,P.58-60
发明内容
发明要解决的问题
但是,使用了参数η的匹配技术及信号的区间或种类的判定技术还未被 认知。
本发明的目的在于,提供使用参数η进行匹配的匹配装置、使用参数η判 定信号的区间或种类的判定装置、它们的方法、程序及记录介质。
解决问题的方案
根据本发明一方式的匹配装置,包括:匹配单元,将参数η设为正数, 将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,所述 广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序 信号对应的频域样本串除以了通过将上述频域样本串的绝对值的η次方看作 功率谱而估计出的频谱包络的序列,基于与构成第一信号的至少1个规定的 时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个 规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上 述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
根据本发明一方式的判定装置,包括:判定单元,将参数η设为正数, 将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与 构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设 为第一序列,所述广义高斯分布近似白化频谱序列的直方图,所述白化频谱 序列是将通过将与该时序信号对应的频域样本串除以了上述频域样本串的绝 对值的η次方看作功率谱而估计出的频谱包络的序列,基于上述第一序列,判 定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种 类。
发明的效果
可以使用参数η进行匹配或信号的区间或种类的判定。
附图说明
图1是用于说明匹配装置的例子的框图。
图2是用于说明匹配方法的例子的流程图。
图3是用于说明判定装置的例子的框图。
图4是用于说明判定方法的例子的流程图。
图5是用于说明参数确定单元的例子的框图。
图6是用于说明参数确定单元的例子的流程图。
图7是用于说明广义高斯分布的图。
具体实施方式
[匹配装置及方法]
说明匹配装置及方法的一例。
如图1所示,匹配装置例如包括参数确定单元27’、匹配单元51及第 二序列存储单元52。匹配装置的各单元通过进行图2中例示的各处理,实现 匹配方法。
以下,说明匹配装置的各单元。
<参数确定单元27’>
参数确定单元27’中,每隔规定的时长被输入时序信号即第一信号。第 一信号的例子是语音数字信号或音响数字信号等的声音信号。
参数确定单元27’基于输入的规定的时长的时序信号,通过后述的处理, 确定该输入的规定的时长的时序信号参数η(步骤F1)。由此,得到与构成 第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构 成该第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列称 为“第一序列”。这样,参数确定单元27’对每个规定的时长的帧进行处理。
再者,构成第一信号的至少1个规定的时长的时序信号可以是构成第一 信号的规定的时长的时序信号的全部,也可以是一部分。
由参数确定单元27’确定的参数η的第一序列,输出到匹配单元51。
参数确定单元27’的结构例子示于图5。如图5所示,参数确定单元27’ 例如包括频域转换单元41、频谱包络估计单元42、白化频谱序列生成单元 43和参数获取单元44。频谱包络估计单元42例如包括线性预测分析单元421 及非平滑化振幅频谱包络序列生成单元422。例如由该参数确定单元27’实 现的参数确定方法的各处理的例子示于图6。
以下,说明图5的各单元。
<频域转换单元41>
频域转换单元41中,输入规定的时长的时序信号。
频域转换单元41以规定的时长的帧为单位,将输入的规定的时长的时序 信号即时域的声音信号转换为频域的N点的MDCT系数串 X(0),X(1),…,X(N-1)。N为正整数。
得到的MDCT系数串X(0),X(1),…,X(N-1)输出到频谱包络估计单元42 及白化频谱序列生成单元43。
除非另有说明,以后的处理都假设以帧为单位进行。
这样一来,频域转换单元41求与规定的时长的时序信号对应的、例如 MDCT系数串即频域样本串(步骤C41)。
<频谱包络估计单元42>
频谱包络估计单元42中,输入频域转换单元21得到的MDCT系数串 X(0),X(1),…,X(N-1)。
频谱包络估计单元42基于以规定的方法确定的参数η0,进行将与时序信 号对应的频域样本串的绝对值的η0次方用作功率谱的频谱包络的估计(步骤 C42)。
估计出的频谱包络被输出到白化频谱序列生成单元43。
频谱包络估计单元42通过例如以下说明的线性预测分析单元421及非平 滑化振幅频谱包络序列生成单元422的处理,通过生成非平滑化振幅频谱包 络序列进行频谱包络的估计。
假设参数η0按规定的方法确定。例如,将η0设为大于0的规定的数。例 如,假设η0=1。此外,也可以用在比要求当前参数η的帧之前的帧中求得的η。 在比要求当前参数η的帧(以下,设为当前帧。)之前的帧,例如是当前帧前 面的帧且当前帧的附近的帧。当前帧的附近的帧,例如是紧接当前帧之前的 帧。
<线性预测分析单元421>
线性预测分析单元421中,输入频域转换单元41得到的MDCT系数串 X(0),X(1),…,X(N-1)。
线性预测分析单元421使用MDCT系数串X(0),X(1),…,X(N-1),对根据 以下的式(C1)定义的~R(0),~R(1),…,~R(N-1)进行线性预测分析而生成线性预 测系数β12,…,βp,将生成的线性预测系数β12,…,βp编码而生成线性预 测系数码和对应于线性预测系数码的量化的线性预测系数即量化线性预测系 数^β1,^β2,…,^βp
Figure BDA0001423999810000041
生成的量化线性预测系数^β1,^β2,…,^βp输出到非平滑化频谱包络序 列生成单元422。
具体而言,线性预测分析单元421首先通过进行相当于将MDCT系数串 X(0),X(1),…,X(N-1)的绝对值的η0次方看作功率谱的傅立叶逆变换的运算、即 式(C1)的运算,求与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方对 应的时域的信号串即伪相关函数信号串~R(0),~R(1),…,~R(N-1)。然后,线性 预测分析单元421用求得的伪相关函数信号串~R(0),~R(1),…,~R(N-1)进行线 性预测分析,生成线性预测系数β12,…,βp。然后,线性预测分析单元421 通过将生成的线性预测系数β12,…,βp编码,得到线性预测系数码和对应于 线性预测系数码的量化线性预测系数^β1,^β2,…,^βp
线性预测系数β12,…,βp是,与将MDCT系数串X(0),X(1),…,X(N-1)的 绝对值的η0次方看作功率谱时的时域的信号对应的线性预测系数。
基于线性预测分析单元421的线性预测系数码的生成,例如根据现有的 编码技术进行。现有的编码技术,例如是将与线性预测系数本身对应的代码 设为线性预测系数码的编码技术、将线性预测系数转换为LSP参数而将与 LSP参数对应的代码设为线性预测系数码的编码技术、将线性预测系数转换 为PARCOR系数而将与PARCOR系数对应的代码设为线性预测系数码的编 码技术等。
这样一来,线性预测分析单元421,例如用通过进行将MDCT系数串即 频域样本串的绝对值的η0次方看作功率谱的傅立叶逆变换得到的伪相关函数 信号串,生成进行线性预测分析的线性预测系数(步骤C421)。
<非平滑化振幅频谱包络序列生成单元422>
非平滑化振幅频谱包络序列生成单元422中,输入线性预测分析单元421 生成的量化线性预测系数^β1,^β2,…,^βp
非平滑化振幅频谱包络序列生成单元422生成与量化线性预测系数^β 1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列 ^H(0),^H(1),…,^H(N-1)。
生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)输出到白化频 谱序列生成单元43。
非平滑化振幅频谱包络序列生成单元422使用量化线性预测系数^β1,^ β2,…,^βp作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),生成由式 (C2)定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
Figure BDA0001423999810000061
这样一来,非平滑化振幅频谱包络序列生成单元422通过根据可转换为 由线性预测分析单元421生成的线性预测系数的系数而得到非平滑化频谱包 络序列,进行频谱包络的估计(步骤C422),其中非平滑化频谱包络序列是 将与伪相关函数信号串对应的振幅频谱包络的序列1/η0次方的序列。
再者,非平滑化频谱包络序列生成单元422通过使用线性预测分析单元 421生成的线性预测系数β12,…,βp取代量化线性预测系数^β1,^β2,…,^ βp,也可以得到非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。这种情 况下,线性预测分析单元421也可以不进行得到量化线性预测系数^β1,^β 2,…,^βp的处理。
<白化频谱序列生成单元43>
白化频谱序列生成单元43中,输入频域转换单元41得到的MDCT系数 串X(0),X(1),…,X(N-1)及非平滑化振幅频谱包络生成单元422生成的非平滑 化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
白化频谱序列生成单元43通过将MDCT系数串X(0),X(1),…,X(N-1)的 各系数除以对应的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各 值,生成白化频谱序列XW(0),XW(1),…,XW(N-1)。
生成的白化频谱序列XW(0),XW(1),…,XW(N-1)输出到参数获取单元44。
白化频谱序列生成单元43,例如通过假设k=0,1,…,N-1,将MDCT系数 串X(0),X(1),…,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列 ^H(0),^H(1),…,^H(N-1)的各值^H(k),生成白化频谱序列 XW(0),XW(1),…,XW(N-1)的各值XW(k)。即,假设k=0,1,…,N-1, XW(k)=X(k)/^H(k)。
这样一来,白化频谱序列生成单元43得到例如以非平滑化振幅频谱包络 序列即频谱包络除例如MDCT系数串即频域样本串的序列即白化频谱序列 (步骤C43)。
<参数获取单元44>
参数获取单元44中,输入白化频谱序列生成单元43生成的白化频谱序 列XW(0),XW(1),…,XW(N-1)。
参数获取单元44求将参数η设为形状参数的广义高斯分布近似白化频谱 序列XW(0),XW(1),…,XW(N-1)的直方图的参数η(步骤C44)。换句话说,参 数获取单元44确定使得将参数η设为形状参数的广义高斯分布近似白化频谱 序列XW(0),XW(1),…,XW(N-1)的直方图的分布的参数η。
将参数η设为形状参数的广义高斯分布,例如以下那样定义。Γ是伽马函 数。
Figure BDA0001423999810000071
Figure BDA0001423999810000072
广义高斯分布是,可以通过改变形状参数即η,如图3那样η=1时表现 为拉普拉斯分布、η=2时表现为高斯分布的各种各样的分布。η是比0大的 规定的数。η也可以是比0大的2以外的规定的数。具体而言,η也可以是低 于2的规定的正数。φ是与方差对应的参数。
这里,参数获取单元44求的η,例如根据以下的式(C3)定义。F-1是函数 F的反函数。该式根据所谓的力矩(moment)法导出。
Figure BDA0001423999810000073
Figure BDA0001423999810000074
Figure BDA0001423999810000075
在反函数F-1被公式化的情况下,参数获取单元44可以通过计算对公式 化的反函数F-1输入了m1/((m2)1/2)的值时的输出值而求参数η。
在反函数F-1没有被公式化的情况下,参数获取单元44为了计算以式(C3) 定义的η的值,例如也可以根据以下说明的第一方法或第二方法来求参数η。
说明用于求参数η的第一方法。第一方法中,参数获取单元44基于白化 频谱序列计算m1/((m2)1/2),参照预先准备的不同的多个的、与η对应的F(η) 的对,获取与最接近算出的m1/((m2)1/2)的F(η)对应的η。
预先准备的不同的多个的、与η对应的F(η)的对,预先存储在参数获 取单元44的存储单元441中。参数获取单元44参照存储单元441,发现最 接近算出的m1/((m2)1/2)的F(η),从存储单元441读入输出与发现的F(η) 对应的η。
最接近算出的m1/((m2)1/2)的F(η)是,与算出的m1/((m2)1/2)之差的绝对 值为最小的F(η)。
说明用于求参数η的第二方法。第二方法中,将反函数F-1的近似曲线函数设为以例如以下的式(C3’)表示的~F-1,参数获取单元44通过基于白化频 谱序列计算m1/((m2)1/2),并计算对近似曲线函数~F-1输入了算出的m1/((m2)1/2) 时的输出值而求η。该近似曲线函数~F-1在使用的定义域中,只要是输出为正 值的单调增加函数即可。
Figure BDA0001423999810000081
Figure BDA0001423999810000082
再者,参数获取单元44求的η也可以不用式(C3),而通过用如式(C3”)那 样预先确定的正整数q1及q2(其中q1<q2),将式(C3)广义化的式来定义。
Figure BDA0001423999810000083
Figure BDA0001423999810000084
Figure BDA0001423999810000085
再者,在η由式(C3”)定义的情况下,也可以根据与η由式(C3)定义的情况 同样的方法,求η。即,参数获取单元44可以在基于白化频谱序列,计算了 基于该q1次力矩即mq1和该q2次力矩(moment)即mq2mq1/((mq2)q1/q2)值后, 例如与上述的第一方法及第二方法同样,参照预先准备的不同的多个的、与η 对应的F’(η)的对,获取与算出的mq1/((mq2)q1/q2)最接近的F’(η)对应 的η,或者将反函数F’-1的近似曲线函数设为~F’-1、计算将对近似曲线函数~F-1输入了算出的mq1/((mq2)q1/q2)时的输出值而求η。
这样,η也可以说是基于次数不同的2个不同的力矩mq1,mq2的值。例如, 基于次数不同的2个不同的力矩mq1,mq2之中、次数低的一方的力矩的值或基 于它的值(以下,设为前者。)和次数高的一方的力矩的值或基于它的值(以 下,设为后者)之比的值、基于该比的值的值、或基于将前者除以后者所得 的值,也可以求η。基于力矩的值,例如是将该力矩设为m并将Q设为规定 的实数而为mQ。此外,也可以将这些值输入到近似曲线函数~F-1中而求η。该近似曲线函数~F’-1,与上述同样,只要是在使用的定义域中输出为正值的 单调增加函数即可。
参数确定单元27’也可以通过循环处理而求参数η。即,参数确定单元 27’也可以将由参数获取单元44求得的参数η设为以规定的方法确定的参数 η0的、频谱包络估计单元42、白化频谱序列生成单元43及参数获取单元44 的处理进而进行1次以上。
这种情况下,例如,如图5中虚线所示,参数获取单元44中求得的参数 η,输出到频谱包络估计单元42。频谱包络估计单元42将参数获取单元44 中求得的η用作参数η0,进行与上述说明的处理同样的处理,进行频谱包络的 估计。白化频谱序列生成单元43基于新估计出的频谱包络,生成与进行上述 说明的处理同样的处理的白化频谱序列。参数获取单元44基于新生成的白化 频谱序列,求进行与上述说明的处理同样的处理的参数η。
例如,频谱包络估计单元42、白化频谱序列生成单元43及参数获取单 元44的处理也可以仅进一步进行规定的次数即τ次。τ是规定的正整数,例如 τ=1或τ=2。
此外,频谱包络估计单元42也可以反复进行频谱包络估计单元42、白 化频谱序列生成单元43及参数获取单元44的处理,直至本次求得的参数η 和上次求得的参数η之差的绝对值为规定的阈值以下为止。
<第二序列存储单元52>
第二序列存储单元52中,存储与构成第二信号的至少1个规定的时长的 时序信号分别对应的参数η的序列即第二序列。
第二信号是,作为对第一信号的匹配的对象的语音数字信号或音响数字 信号等的声音信号。
第二序列,例如通过参数确定单元27’来求,存储在第二序列存储单元 52中。即,构成第二信号的至少1个规定的时长的时序信号的各个信号被输
再者,构成第二信号的至少1个规定的时长的时序信号可以是构成第二 信号的规定的时长的时序信号的全部,也可以是一部分。
匹配单元51在将多个信号的各个设为第二信号,进行后述的判定的情况 下,假设与多个信号的各个对应的第二序列被存储在第二序列存储单元52 中。
再者,由参数确定单元27’求得的第二序列也可以不通过第二序列存储 单元52而直接输入到匹配单元51。这种情况下,第二序列存储单元52也可 以不包括在匹配装置中。此外,这种情况下,参数确定单元27’例如从存储 了多个信号(多个乐曲)的未图示的数据库读入各信号,从读入的信号求第 二序列,输出到匹配单元51。
<匹配单元51>
匹配单元51中,输入参数确定单元27’得到的第一序列及例如从第二 序列存储单元52读入的第二序列。
匹配单元51基于第一序列和第二序列,判定第一信号和第二信号的一致 程度、和/或第一信号和第二信号是否一致,输出该判定结果(步骤F2)。
将第一序列表示为(η1,11,2,…,η1,N1),将第二序列表示为(η2,12,2,…, η2,N2)。N1是构成第一序列的参数η的数。N2是构成第二序列的参数η的数。 假设N1≤N2。
第一信号和第二信号的一致程度是第一序列和第二序列的相似度。第一 序列和第二序列的相似度,例如,是包含在第二序列(η2,12,2,…,η2,N2)中 的、最接近第一序列(η1,11,2,…,η1,N1)的序列和第一序列(η1,11,2,…, η1,N1)之间的距离。假设包含在第二序列(η2,12,2,…,η2,N2)中的、最接近 第一序列(η1,11,2,…,η1,N1)的序列的元素数和第一序列(η1,11,2,…,η1,N1) 的元素数相同。
该第一序列和第二序列的相似度,例如由以下的算式定义。Min是输出 最小值的函数。在本例中,作为距离,使用欧几里得距离,但也可以使用曼 哈顿距离等其他的现有距离和误差的标准偏差。
Figure BDA0001423999810000101
将从第一序列(η1,11,2,…,η1,N1)得到的、参数η的代表值的序列设为 代表第一序列(η1,1 r1,2 r,…,η1,N1' r)。同样地,将从第二序列(η2,12,2,…, η2,N2)得到的、参数η的代表值的序列设为代表第二序列(η2,1 r2,2 r,…,η2,N2' r)。
例如,将c设为N1及N2的约数即规定的正整数,若对c个的每个参数 η得到代表值,则N1'=N1/c,k=1,2,…,N1',代表值η1,k r是第一序列之中的序 列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的代表值。同样地,代表值η2,k r是第二序列 之中的序列(η2,(k-1)c+12,(k-1)c+2,…,η2,kc)的代表值。
k=1,2,…,N1',代表值η1,k r是代表第一序列之中的序列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的值,例如,是序列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的平均值、中值、 最大值或最小值。k=1,2,…,N2',代表值η2,k r是代表第二序列之中的序列 (η2,(k-1)c+12,(k-1)c+2,…,η2,kc)的值,例如,是序列(η2,(k-1)c+12,(k-1)c+2,…,η2,kc) 的平均值、中值、最大值或最小值。
第一序列和第二序列的相似度,也可以设为包含在代表第二序列(η2,1 r, η2,2 r,…,η2,N2' r)中的、最接近代表第一序列(η1,1 r1,2 r,…,η1,N1' r)的序列 和代表第一序列(η1,1 r1,2 r,…,η1,N1' r)之间的距离。假设包含在代表第二序 列(η2,1 r2,2 r,…,η2,N2' r)中的、最接近代表第一序列(η1,1 r1,2 r,…,η1,N1' r) 的序列的元素数和代表第一序列(η1,1 r1,2 r,…,η1,N1' r)的元素数相同。
使用了该代表值的第一序列和第二序列的相似度,例如由以下的算式定 义。Min是输出最小值的函数。在本例中,作为距离,使用欧几里得距离, 但也可以使用曼哈顿距离等其他的现有距离和误差的标准偏差。
Figure BDA0001423999810000111
第一信号和第二信号是否一致,例如,可以通过将第一信号和第二信号 的一致程度与规定的阈值进行比较而判定。例如,匹配单元51在第一信号和 第二信号的一致程度比规定的阈值小或为规定的阈值以下的情况下,判定为 第一信号和第二信号一致,在不是那样的情况下判定为第一信号和第二信号 不一致。
匹配单元51也可以将多个信号的各个设为第二信号,进行上述判定。这 种情况下,匹配单元51也可以计算多个信号的各个信号和第一信号的一致程 度,选择多个信号之中的、算出的一致程度最小的信号,输出有关该一致程 度最小的信号的信息。
例如,假设与多个乐曲的各个对应的第二序列及信息存储在第二序列存 储单元52中。假设用户想知道某段音乐是哪个乐曲。这种情况下,用户将与 该音乐对应的声音信号作为第一信号输入到匹配装置,匹配单元51可以通过 从第二序列存储单元52得到与该音乐对应的声音信号一致程度最小的乐曲 的信息,知道与该音乐对应的乐曲的信息。
再者,匹配单元51基于第一序列(η1,11,2,…,η1,N1)的时变性的序列 即时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1)、以及第二序列(η2,12,2,…, η2,N2)的时变性的序列即时变第二序列(Δη2,1,Δη2,2,…,Δη2,N2-1),也可以 进行匹配。这里,例如,假设Δη1,k=η1,k+11,k(k=1,2,…,N1-1)、Δ η2,k=η2,k+12,k(k=1,2,…,N2-1)。
例如,在使用了上述的第一序列及第二序列的匹配处理中,可以通过用 时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1)取代第一序列(η1,11,2,…,η1,N1), 用时变第二序列(Δη2,1,Δη2,2,…,Δη2,N2-1)取代第二序列(η2,12,2,…,η2,N2), 基于时变第一序列和时变第二序列进行匹配。
此外,匹配单元51不仅用第一序列及第二序列,也可以用表示音的大小 的指标(例如,振幅或能量)、表示音的大小的指标的时间性变动、频谱形 状、频谱形状的时间性变动、音调的周期性、基本周波数等的音响特征量进 行匹配。例如,(1)基于第一序列及第二序列和表示音的大小的指标,也可 以进行匹配。此外,(2)基于第一序列及第二序列和表示时序信号的音的大 小的指标的时间性变动,也可以进行匹配。此外,(3)基于第一序列及第二 序列和时序信号的频谱形状,也可以进行匹配。此外,(4)基于第一序列及 第二序列和时序信号的频谱形状的时间性变动,也可以进行匹配。此外,(5) 基于第一序列及第二序列和时序信号的音调的周期性,也可以进行匹配。
而且,匹配单元51也可以用SVM(Support Vector Machine)、Boosting等 的识别技术进行匹配。
再者,匹配单元51通过与后述的判定单元53的处理同样的处理,判定 构成第一信号的各规定的时长的时序信号的种类,此外,也可以通过与后述 的判定单元53的处理同样的处理,判定构成第二信号的各规定的时长的时序 信号的种类,通过判定它们的判定结果是否相同进行匹配。例如,匹配单元 51在对第一信号的判定结果是“语音→音乐→语音→音乐”、对第二信号的 判定结果是“语音→音乐→语音→音乐”的情况下,判定为第一信号和第二 信号一致。
[判定装置及方法]
说明判定装置及方法的一例。
如图3所示,判定装置例如包括参数确定单元27’及判定单元53。判定 装置的各单元通过进行图4中例示的各处理而实现判定方法。
以下,说明判定装置的各单元。
<参数确定单元27’>
参数确定单元27’中,每隔规定的时长被输入时序信号即第一信号。第 一信号的例子是,语音数字信号或音响数字信号等的声音信号。
参数确定单元27’基于输入的规定的时长的时序信号,通过后述的处理, 确定该输入的规定的时长的时序信号参数η(步骤F1)。由此,得到与构成 第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列。将与构 成这种第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列 称为“第一序列”。这样,参数确定单元27’对规定的时长的每个帧进行处 理。
再者,构成第一信号的至少1个规定的时长的时序信号可以是构成第一 信号的规定的时长的时序信号的全部,也可以是一部分。
由参数确定单元27’确定的参数η的第一序列输出到判定单元53。
参数确定单元27’的细节,与[匹配装置及方法]栏中说明的细节是同 样的,所以这里省略重复说明。
<判定单元53>
判定单元53中,输入由参数确定单元27’确定的第一序列。
判定单元53基于第一序列,判定第一信号之中的规定的种类的信号的区 间、和/或第一信号的种类(步骤F3)。规定的种类的信号区间,例如是语 音的区间、音乐的区间、非稳定音的区间、稳定音的区间等的区间。
将第一序列表示为(η1,11,2,…,η1,N1)。N1是构成第一序列的参数η 的数。
第一信号之中的规定的种类的信号的区间的判定,例如,可以通过将构 成第一序列的参数η1,k(k=1,2,…,N1)和规定的阈值比较来进行。
例如,判定单元53在参数η1,k≥阈值的情况下,将第一信号之中的、与 该参数η1,k对应的规定的时长的时序信号的区间判定为非稳定音(语音、无声 等)的区间。
此外,判定单元53在阈值>参数η1,k的情况下,将第一信号之中的、与 该参数η1,k对应的规定的时长的时序信号的区间判定为稳定音(时间性变动平 缓的音乐等)的区间。
此外,也可以通过与多个规定的阈值比较,进行第一信号之中的规定的 种类的信号的区间的判定。以下,说明使用了2个阈值(第一阈值及第二阈 值)的判定的例子。假设第一阈值>第二阈值。
例如,判定单元53在参数η1,k≧第一阈值的情况下,将第一信号之中的、 与该参数η1,k对应的规定的时长的时序信号的区间判定为无声的区间。
此外,判定单元53在第一阈值>参数η1,k≧第二阈值的情况下,将第一 信号之中的、与该参数η1,k对应的规定的时长的时序信号的区间判定为非稳定 音的区间。
此外,判定单元53在第二阈值>参数η1,k的情况下,将第一信号之中的、 与该参数η1,k对应的规定的时长的时序信号的区间判定为稳定音的区间。
第一信号的种类的判定,例如,可以基于信号的区间的种类的判定结果 进行。例如,判定单元53对判定出的信号的区间的每个种类计算第一信号之 中的该种类的信号的区间所占的比例,在比例最大的信号的区间的种类的比 例的值为处理的阈值以上或大于阈值的情况下,判定为第一信号是该信号的 比例最大的信号的区间的种类。
将从第一序列(η1,11,2,…,η1,N1)得到的、参数η的代表值的序列设 为代表第一序列(η1,1 r1,2 r,…,η1,N1' r)。例如,将c设为N1的约数即规定 的正整数,若对c个的每个参数η得到代表值,则N1'=N1/c,k=1,2,…,N1', 代表值η1,k r是第一序列之中的序列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的代表值。 k=1,2,…,N1',代表值η1,k r是代表第一序列之中的序列(η1,(k-1)c+11,(k-1)c+2,…, η1,kc)的值,例如,是序列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的平均值、中值、 最大值或最小值。
判定单元53基于代表第一序列(η1,1 r1,2 r,…,η1,N1' r),也可以判定第 一信号之中的规定的种类的信号的区间、和/或判定第一信号的种类。
例如,判定单元53在代表值η1,k r≧第一阈值的情况下,将第一信号之中 的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为语音的区间。
这里,与代表值η1,k r对应的规定的时长的时序信号的区间是,与代表值 η1,k r对应的第一序列之中的序列(η1,(k-1)c+11,(k-1)c+2,…,η1,kc)的各自参数η 对应的规定的时长的时序信号的区间。
此外,判定单元53在第一阈值>代表值η1,k r≧第二阈值的情况下,将第 一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为 音乐的区间。
此外,判定单元53在第二阈值>代表值η1,k r≧第三阈值的情况下,将第 一信号之中的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为 非稳定音的区间。
而且,判定单元53在第三阈值>代表值η1,k r的情况下,将第一信号之中 的、与该代表值η1,k r对应的规定的时长的时序信号的区间判定为稳定音的区 间。
再者,判定单元53也可以基于第一序列(η1,11,2,…,η1,N1)的时变性 的序列即时变第一序列(Δη1,1,Δη1,2,…,Δη1,N1-1),进行判定处理。这里, 例如,假设Δη1,k=η1,k+11,k(k=1,2,…,N1-1)。
例如,在使用了上述的第一序列的判定处理中,可以通过使用时变第一 序列(Δη1,1,Δη1,2,…,Δη1,N1-1)取代第一序列(η1,11,2,…,η1,N1),基于 时变第一序列进行判定。
此外,判定单元53进而也可以使用表示时序信号的音的大小的指标(例 如,振幅或能量)、表示音的大小的指标的时间性变动、频谱形状、频谱形 状的时间性变动、音调的周期性、基本频率等的音响特征量进行判定。例如, (1)判定单元53基于参数η1,k和表示时序信号的音的大小的指标,也可以进 行判定。此外,(2)判定单元53基于参数η1,k和表示时序信号的音的大小的 指标的时间性变动,也可以进行判定。此外,(3)判定单元53基于参数η1,k和时序信号的频谱形状,也可以进行判定。此外,(4)判定单元53基于参 数η1,k和时序信号的频谱形状的时间性变动,也可以进行判定。此外,(5) 判定单元53基于参数η1,k和时序信号的音调的周期性,也可以进行判定。
以下,分别说明:(1)判定单元53基于参数η1,k和表示时序信号的音 的大小的指标进行判定的情况,(2)判定单元53基于参数η1,k和表示时序信 号的音的大小的指标的时间性变动进行判定的情况,(3)判定单元53基于 参数η1,k和时序信号的频谱形状进行判定的情况,(4)判定单元53基于参数 η1,k和时序信号的频谱形状的时间性变动进行判定的情况,(5)判定单元53 基于参数η1,k和时序信号的音调的周期性进行判定的情况。
(1)基于参数η1,k和表示音的大小的指标进行判定的情况下,判定单元 53判定与表示参数η1,k对应的时序信号的音的大小的指标是否大,此外,判 定参数η1,k是否大。
在表示时序信号的音的大小的指标小,并且参数η1,k大的情况下,将与 参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
表示时序信号的音的大小的指标是否大,例如可以基于规定的阈值CE判定。即,如果表示时序信号的音的大小的指标≥规定的阈值CE,则可以判 定为表示时序信号的音的大小的指标大,不是那样的情况下可以判定为表示 时序信号的音的大小的指标小。作为表示时序信号的音的大小的指标,例如, 在使用了平均振幅(每个样本的平均能量的平方根)的情况下,CE=最大振幅 值*(1/128)。例如若为16比特精度,则最大振幅值为32768,所以CE=256。
参数η1,k是否大,例如可以基于规定的阈值Cη判定。即,如果参数η1,k≥ 规定的阈值Cη,则可以判定为参数η1,k大,不是那样的情况下可以判定为参 数η1,k小。例如,Cη=1。
在表示时序信号的音的大小的指标小,并且参数η1,k小的情况下,将与 参数η1,k对应的时序信号的区间判定为有BGM那样的特征的背景音的区间。
在表示时序信号的音的大小的指标大,并且参数η1,k大的情况下,将与 参数η1,k对应的时序信号的区间判定为语音和热闹的音乐的区间。
在表示时序信号的音的大小的指标大,并且参数η1,k小的情况下,将与 参数η1,k对应的时序信号的区间判定为乐器演奏等的音乐的区间。
(2)在基于参数η1,k和表示时序信号的音的大小的指标的时间性变动进 行判定的情况下,判定单元53判定表示与参数η1,k对应的时序信号的音的大 小的指标的时间性变动是否大,此外,判定参数η1,k是否大。
表示时序信号的音的大小的指标的时间性变动是否大,例如可以基于规 定的阈值CE'判定。即,如果表示时序信号的音的大小的指标的时间性变动≥ 规定的阈值CE',则可以判定为表示时序信号的音的大小的指标的时间性变动 大,不是那样的情况下可以判定为表示时序信号的音的大小的指标的时间性 变动小。作为表示时序信号的音的大小的指标,例如,在使用了将构成时序 信号的4个子帧的能量的相加平均除以了相乘平均所得的值F=((1/4)Σ4个子 帧的能量)/((Π子帧的能量)1/4)的情况下,CE'=1.5。
在表示时序信号的音的大小的指标的时间性变动小,并且参数η1,k大的 情况下,将与参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
在表示时序信号的音的大小的指标的时间性变动小,并且参数η小的情 况下,将与参数η1,k对应的时序信号的区间判定为以连续音为主体的管乐器和 弦乐器的音乐的区间。
在表示时序信号的音的大小的指标的时间性变动大,并且参数η1,k大的 情况下,判定单元53将与参数η1,k对应的时序信号的区间判定为语音的区间。
在表示时序信号的音的大小的指标的时间性变动大,并且参数η1,k小的 情况下,判定单元53将与参数η1,k对应的时序信号的区间判定为时间变动大 的音乐的区间。
(3)在基于参数η1,k和时序信号的频谱形状进行判定的情况下,判定单 元53判定与参数η1,k对应的时序信号的频谱形状是否平坦,此外,判定参数 η1,k是否大。
在时序信号的频谱形状平坦,并且参数η1,k大的情况下,将与参数η1,k对 应的时序信号的区间判定为稳定的环境噪音(噪声)的区间。与参数η1,k对应 的时序信号的频谱形状是否平坦,可以基于规定的阈值EV判定。例如,若与 参数η1,k对应的第1次的PARCOR系数的绝对值低于规定的阈值EV(例如, EV=0.7),则可以判定为与参数η1,k对应的时序信号的频谱形状是平坦的,不 是那样的情况下,可以判定为与参数η1,k对应的时序信号的频谱形状不是平坦 的。
在时序信号的频谱形状平坦,并且参数η1,k小的情况下,将与参数η1,k对 应的时序信号的区间判定为时间变动大的音乐的区间。
在时序信号的频谱形状不平坦,并且参数η1,k大的情况下,将与参数η1,k对应的时序信号的区间判定为语音的区间。
在时序信号的频谱形状不平坦,并且参数η1,k小的情况下,将与参数η1,k对应的时序信号的区间判定为以连续音为主体的管乐器和弦乐器的音乐的区 间。
(4)在基于参数η1,k和时序信号的频谱形状的时间性变动进行判定的情 况下,判定单元53判定与参数η1,k对应的时序信号的频谱形状的时间性变动 是否大,此外,判定参数η1,k是否大。
与参数η1,k对应的时序信号的频谱形状的时间性变动是否平坦,可以基 于规定的阈值EV'判定。例如,若将构成时序信号的4个子帧的第1次的 PARCOR系数的绝对值的相加平均除以相乘平均所得的值FV=((1/4)Σ4个子 帧的第1次的PARCOR系数的绝对值)/((Π第1次的PARCOR系数的绝对 值)1/4)为规定的阈值EV'(例如,EV'=1.2)以上,则可以判定为与参数η1,k对 应的时序信号的频谱形状的时间性变动大,不是那样的情况下,可以判定为与参数η1,k对应的时序信号的频谱形状的时间性变动小。
在时序信号的频谱形状的时间性变动大,并且参数η1,k大的情况下,将 与参数η1,k对应的时序信号的区间判定为语音的区间。
在时序信号的频谱形状的时间性变动大,并且参数η1,k小的情况下,将 与参数η1,k对应的时序信号的区间判定为时间变动大的音乐的区间。
在时序信号的频谱形状的时间性变动小,并且参数η1,k大的情况下,将 与参数η1,k对应的时序信号的区间判定为环境噪音(噪声)的区间。
在时序信号的频谱形状的时间性变动小,并且参数η1,k小的情况下,将 与参数η1,k对应的时序信号的区间判定为以连续音作为主体的管乐器和弦乐 器的音乐的区间。
(5)在基于参数η1,k和时序信号的音调的周期性进行判定的情况下,判 定单元53判定与参数η1,k对应的时序信号的音调的周期性是否大,此外,此 外,判定参数η1,k是否大。
音调的周期性是否大,例如可以基于规定的阈值CP判定。即,如果音调 的周期性≧规定的阈值CP,则可以判定为音调的周期性大,在不是那样的情 况下,可以判定为音调的周期性小。作为音调的周期性,例如,在使用了与 音调周期τ样本分离的序列的归一化相关函数
Figure BDA0001423999810000181
(其中x(i)是时序的样本值,N是帧的样本数))的情况下,CP=0.8。
在音调的周期性大,并且参数η1,k大的情况下,将对应于参数η1,k的时序 信号的区间判定为语音的区间。
在音调的周期性大,并且参数η1,k小的情况下,将对应于参数η1,k的时序 信号的区间判定为以连续音作为主体的管乐器和弦乐器的音乐的区间。
在音调的周期性小,并且参数η1,k大的情况下,将对应于参数η1,k的时序 信号的区间判定为环境噪音(噪声)的区间。
在音调的周期性小,并且参数η小的情况下,将对应于参数η1,k的时序信 号的区间判定为时间变动大的音乐的区间。而且,判定单元53也可以使用 SVM(Support VectorMachine;支持向量机)、Boosting等识别技术进行判定。 这种情况下,对每个参数η准备与语音、音乐、无声等标记相关联的学习数据, 使用这样的学习数据,预先进行学习。
[程序及记录介质]
也可以由计算机实现各装置或各方法中的各部分。这种情况下,通过程 序记述各装置或各方法的处理内容。然后,通过由计算机执行这样的程序, 在计算机上实现各装置或各方法中的各部分。
记述了这样的处理内容的程序,可以预先记录在计算机可读取的记录介 质中。作为计算机可读取的记录介质,例如,也可以是磁记录装置、光盘、 光磁记录介质、半导体存储器等那样的记录介质。
此外,例如通过贩卖、转让、出租记录了该程序的DVD、CD-ROM等 可移动型记录介质等来进行该程序的流通。而且,也可以将该程序预先存储 在服务器计算机的存储装置中,经由网络,将该程序通过从服务器计算机转 发到其它计算机,使该程序流通。
执行这样的程序的计算机,例如,首先,将可移动型记录介质中记录的 程序或者从服务器计算机转发的程序暂时存储在自己的存储单元中。然后, 在执行处理时,该计算机读取自己的存储单元中存储的程序,执行按照读取 的程序的处理。此外,作为该程序的其它实施方式,也可以计算机从可移动 型记录介质直接读取程序,执行按照该程序的处理。进而,也可以在每次从 服务器计算机对该计算机转发程序时,逐次执行按照接收到的程序的处理。 此外,也可以构成为不进行从服务器计算机至该计算机的程序的转发,通过仅按照该执行指示和结果获取来实现处理功能的、所谓ASP(Application ServiceProvider,应用服务提供者)型的服务,执行上述的处理。再者,作为 在程序中,包含作为供电子计算机的处理用的信息的、按照程序看待的内容 (具有虽然不是对于计算机的直接的指令,但是规定计算机的处理的性质的 数据等)。
此外,虽然作为通过在计算机上执行规定的程序,构成各装置,但是这 些处理内容的至少一部分也可以硬件方式地实现。
工业实用性
匹配装置、方法及程序,例如,可以用于歌曲来源的搜索、非法内容的 检测、演奏乐器和歌曲的结构相似的另一歌曲的搜索。此外,判定装置、方 法及程序,例如,可以用于著作权费的计算。

Claims (9)

1.一种匹配装置,
将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,该广义高斯分布近似白化频谱序列的直方图,该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列,该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的,
上述匹配装置包括匹配单元,所述匹配单元基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
2.如权利要求1所述的匹配装置,
上述匹配装置包括参数确定单元,上述参数确定单元包括:
频谱包络估计单元,将参数η0及参数η设为正数,使用以规定的方法确定的参数η0,将与输入的规定的时长的时序信号对应的频域样本串的绝对值的η0次方看作功率谱进行频谱包络的估计;
白化频谱序列生成单元,得到将上述频域样本串除以了上述频谱包络而得到的序列即白化频谱序列;以及
参数获取单元,求将参数η设为形状参数的广义高斯分布近似上述白化频谱序列的直方图的参数η,将求得的参数η设为与上述输入的规定的时长的时序信号对应的参数η,
上述参数确定单元通过进行处理,得到上述第一序列,该处理将构成上述第一信号的至少1个规定的时长的时序信号的各个作为输入。
3.如权利要求1或2所述的匹配装置,包括:
第二序列存储单元,存储上述第二序列,
上述匹配单元用从上述第二序列存储单元读入的上述第二序列,进行上述判定。
4.如权利要求1或2所述的匹配装置,
构成上述第一信号的至少1个规定的时长的时序信号是构成上述第一信号的规定的时长的时序信号的全部或一部分,
构成上述第二信号的至少1个规定的时长的时序信号是构成上述第二信号的规定的时长的时序信号的全部或一部分。
5.如权利要求1或2所述的匹配装置,
将多个信号的各个信号设为上述第二信号,进行上述判定。
6.一种判定装置,
将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列,该广义高斯分布近似白化频谱序列的直方图,所述白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列,该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的,
上述判定装置包括判定单元,上述判定单元基于上述第一序列,判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。
7.一种匹配方法,包括:
将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,该广义高斯分布近似白化频谱序列的直方图,该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列,该频谱包络是通过将与该时序信号对应的频域样本串的绝对值的η次方看作功率谱而估计出的,
上述匹配方法包括匹配步骤,在上述匹配步骤中,匹配单元(51)基于与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的第一序列和与构成第二信号的至少1个规定的时长的时序信号分别对应的参数η的第二序列,判定上述第一信号和上述第二信号的一致程度、和/或上述第一信号和上述第二信号是否一致。
8.一种判定方法,
将参数η设为正数,将与规定的时长的时序信号对应的参数η设为广义高斯分布的形状参数,将与构成第一信号的至少1个规定的时长的时序信号分别对应的参数η的序列设为第一序列,该广义高斯分布近似白化频谱序列的直方图,该白化频谱序列是将与该时序信号对应的频域样本串除以了频谱包络而得到的序列,该频谱包络是通过将上述频域样本串的绝对值的η次方看作功率谱而估计出的,
上述判定方法包括判定步骤,在上述判定步骤中,判定单元基于上述第一序列,判定上述第一信号之中的规定的种类的信号的区间、和/或上述第一信号的种类。
9.一种计算机可读取的记录介质,记录了用于使计算机具有权利要求1所述的匹配装置的各单元的功能或权利要求6所述的判定装置的各单元的功能的程序。
CN201680019872.XA 2015-04-13 2016-04-11 匹配装置、判定装置、它们的方法、程序及记录介质 Active CN107851442B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015081769 2015-04-13
JP2015-081769 2015-04-13
PCT/JP2016/061683 WO2016167216A1 (ja) 2015-04-13 2016-04-11 マッチング装置、判定装置、これらの方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
CN107851442A CN107851442A (zh) 2018-03-27
CN107851442B true CN107851442B (zh) 2021-07-20

Family

ID=57126460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680019872.XA Active CN107851442B (zh) 2015-04-13 2016-04-11 匹配装置、判定装置、它们的方法、程序及记录介质

Country Status (4)

Country Link
US (1) US10147443B2 (zh)
JP (1) JP6392450B2 (zh)
CN (1) CN107851442B (zh)
WO (1) WO2016167216A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10325609B2 (en) * 2015-04-13 2019-06-18 Nippon Telegraph And Telephone Corporation Coding and decoding a sound signal by adapting coefficients transformable to linear predictive coefficients and/or adapting a code book
US9899038B2 (en) 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
US10559307B1 (en) 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US10735191B1 (en) 2019-07-25 2020-08-04 The Notebook, Llc Apparatus and methods for secure distributed communications and data access

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6170333B1 (en) * 1997-03-14 2001-01-09 Entropy Software Laboratory, Inc. Apparatus for detecting abnormal sound and method for judging wrong in machine
CN1481545A (zh) * 2000-11-14 2004-03-10 ���뼼�����ɷݹ�˾ 利用自适应滤波改善高频重建编码方法的感知性能
CN101406064A (zh) * 2006-04-03 2009-04-08 三星电子株式会社 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备
US7653535B2 (en) * 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
CN102568474A (zh) * 2010-10-29 2012-07-11 索尼公司 信号处理装置、信号处理方法及程序
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN103069483A (zh) * 2010-09-10 2013-04-24 松下电器产业株式会社 编码装置以及编码方法
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
CN103971689A (zh) * 2013-02-04 2014-08-06 腾讯科技(深圳)有限公司 一种音频识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480474B1 (ko) * 2013-10-08 2015-01-09 엘지전자 주식회사 오디오 재생장치와 이를 포함하는 시스템

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6170333B1 (en) * 1997-03-14 2001-01-09 Entropy Software Laboratory, Inc. Apparatus for detecting abnormal sound and method for judging wrong in machine
CN1481545A (zh) * 2000-11-14 2004-03-10 ���뼼�����ɷݹ�˾ 利用自适应滤波改善高频重建编码方法的感知性能
US7653535B2 (en) * 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
CN101406064A (zh) * 2006-04-03 2009-04-08 三星电子株式会社 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备
CN103069483A (zh) * 2010-09-10 2013-04-24 松下电器产业株式会社 编码装置以及编码方法
CN102568474A (zh) * 2010-10-29 2012-07-11 索尼公司 信号处理装置、信号处理方法及程序
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
CN103971689A (zh) * 2013-02-04 2014-08-06 腾讯科技(深圳)有限公司 一种音频识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Higher Moment Estimation for Shallow-Water Reverberation Prediction;LePage, Kevin D.;《IEEE JOURNAL OF OCEANIC ENGINEERING》;20101231;全文 *
宽带音频的非线性频带展宽技术;刘鑫;《中国优秀硕士学位论文全文数据库信息科技辑》;20111031;全文 *

Also Published As

Publication number Publication date
CN107851442A (zh) 2018-03-27
JP6392450B2 (ja) 2018-09-19
WO2016167216A1 (ja) 2016-10-20
US10147443B2 (en) 2018-12-04
JPWO2016167216A1 (ja) 2018-02-08
US20180090155A1 (en) 2018-03-29

Similar Documents

Publication Publication Date Title
CN107851442B (zh) 匹配装置、判定装置、它们的方法、程序及记录介质
US9224392B2 (en) Audio signal processing apparatus and audio signal processing method
US10621969B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
JP6422813B2 (ja) 符号化装置、復号装置、これらの方法及びプログラム
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN111863033A (zh) 音频质量识别模型的训练方法、装置、服务器和存储介质
CN106663437B (zh) 编码装置、解码装置、编码方法、解码方法、记录介质
JP6387117B2 (ja) 符号化装置、復号装置、これらの方法、プログラム及び記録媒体
CN107430869B (zh) 参数决定装置、方法及记录介质
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
KR20070085788A (ko) 신호 속성들을 사용한 효율적인 오디오 코딩
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Sinith et al. Pattern recognition in South Indian classical music using a hybrid of HMM and DTW
JP2015064602A (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
JP2018025644A (ja) 楽曲Key推定装置及び楽曲コード進行推定装置
CN116825085A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质
JP2009216733A (ja) フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
Mauch Simple chord estimate: Submission to the MIREX chord estimation task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant