CN105718503B

CN105718503B - 声音检索装置以及声音检索方法

Info

Publication number: CN105718503B
Application number: CN201510972004.0A
Authority: CN
Inventors: 富田宽基
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2014-12-22
Filing date: 2015-12-22
Publication date: 2019-03-08
Anticipated expiration: 2035-12-22
Also published as: US9754024B2; JP6003971B2; JP2016118999A; CN105718503A; US20160180834A1

Abstract

本发明涉及一种声音检索装置以及声音检索方法。变换部(112)将检索字符串变换为音素串。语速信息取得部(114)取得与检索对象的声音信号的语速对应的语速信息。时间长度变更部(115)根据语速信息变更音素的平均持续时间长度。时间长度导出部(116)使用变更后的持续时间长度，导出与检索字符串对应的声音的发声时间长度。区间指定部(117)指定多个检索对象的声音信号的似然取得区间。似然取得部(121)取得表示似然取得区间是发出与检索字符串对应的声音的区间的似然度的似然。确定部(127)根据对于选择出的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出了与检索字符串对应的声音的推定区间。

Description

声音检索装置以及声音检索方法

本申请主张以2014年12月22日申请的日本国专利申请2014-259418号为基础的优先权，将该基础申请的内容作为参照全部合并到本申请中。

技术领域

本发明涉及一种声音检索装置以及声音检索方法。

背景技术

随着声音和动画等多媒体内容的扩大/普及，寻求高精度的多媒体检索技术。其中，正在研究一种声音检索的技术，即从声音信号中确定发出与设为检索对象的检索词(查询)对应的声音的位置。

在声音检索中，还没有确立与使用了图像识别的字符检索的技术相比具有充分性能的检索方法。因此纷纷研究用于实现充分性能的声音检索的技术。

例如，非专利文献1(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping，”in Proc.ICASSP，2011，pp.5660-5663)中公开一种高速地比较声音信号之间的方法。这样，能够从检索对象的声音信号中高速地确定与通过声音输入的查询对应的位置。

在非专利文献1公开的技术中，在检索对象的声音的语速和查询输入者的语速不同的情况下有检索精度变差的问题。

发明内容

本发明是用于解决以上问题的发明，其目的在于提供能够从不同语速的声音信号中高精度地检索检索词的声音检索装置以及声音检索方法。

为了达到上述目的，本发明的声音检索装置具备：

记录单元，其记录检索对象的声音信号；时间长度取得单元，其从存储有与音素相关的持续时间长度数据的数据库取得检索字符串的音素串中包括的各个音素的持续时间长度；语速信息取得单元，其取得由用户指定的与语速相关的信息；时间长度变更单元，其根据上述语速信息取得单元取得的与语速相关的信息，变更上述时间长度取得单元取得的各个音素的持续时间长度；时间长度导出单元，其根据由上述时间长度变更单元变更的各个音素的持续时间长度，导出与上述检索字符串对应的声音发声时间长度；区间指定单元，其在上述检索对象的声音信号的时间长度中指定多个上述时间长度导出单元导出的发声时间长度的区间作为似然取得区间；似然取得单元，其取得似然，该似然表示上述区间指定单元指定的似然取得区间是发出与上述检索字符串对应的声音的区间的似然度；以及确定单元，其根据上述似然取得单元针对由上述区间指定单元指定的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出了与上述检索字符串对应的声音的推定区间。

根据本发明，能够从不同语速的声音信号中高精度地检索检索词。

附图说明

如果将以下详细的描述与以下的附图对应起来考虑，则能够更深地理解本申请。

图1是表示本发明实施方式1的声音检索装置的物理结构的图。

图2是表示本发明实施方式1的声音检索装置的功能结构的图。

图3是用于说明音素的状态的图。

图4是表示用于使音素各个状态的持续时间长度伸缩的语速信息的例子的图。

图5是表示用于使音素状态的持续时间长度伸缩的计算例的图。

图6A是检索对象的声音信号的波形图。图6B是表示在检索对象的声音信号中设定的帧的图。图6C是表示在检索对象的声音信号中指定的似然取得期间的图。

图7是将输出概率进行下限化的例子的图。

图8是表示本发明实施方式1的声音检索装置所执行的声音检索处理的流程的流程图。

图9是表示确定与检索字符串对应的区间的处理流程的流程图。

图10是表示将使持续时间长度伸缩的变更率仅设定为母音的持续时间长度的例子的图。

图11是表示本发明实施方式2的声音检索装置所执行的声音检索处理的流程的流程图。

图12是表示按照音素的每个状态设定使持续时间长度伸缩的变更率的例子的图。

图13是表示将使持续时间长度伸缩的变更率仅设定为音素的特定状态的例子的图。

具体实施方式

以下，一边参照附图一边说明本发明实施方式的声音检索装置、声音检索方法以及程序。另外，对于图中相同或相应的部分标注相同符号。

(实施方式1)

如图1所示，实施方式1的声音检索装置100物理地具备：ROM(Read Only Memory：只读存储器)1、RAM(Random Access Memory：随机存取存储器)2、外部存储装置3、输入装置4、输出装置5、CPU(Central Processing Unit：中央处理单元)6以及总线7。

ROM1存储声音检索程序。RAM2作为CPU6的工作区而使用。

外部存储装置3例如由硬盘构成，将作为检索对象的声音信号、后述的单音子模型、三音子模型以及音素的时间长度作为数据进行存储。

输入装置4例如由键盘和声音识别装置构成。输入装置4将用户输入的检索词作为文本数据提供给CPU6。输出装置5例如具备液晶显示器等画面、扬声器等。输出装置5将通过CPU6输出的文本数据显示在画面上，从扬声器输出声音数据。

CPU6将存储在ROM1中的声音检索程序读出到RAM2，通过执行该声音检索程序，实现以下所示的功能。总线7连接ROM1、RAM2、外部存储装置3、输入装置4、输出装置5以及CPU6。

如图2所示，声音检索装置100在功能上具备声音信号存储部101、单音子模型存储部102、三音子模型存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度取得部113、语速信息取得部114、时间长度变更部115、时间长度导出部116、区间指定部117、特征量计算部118、输出概率取得部119、置换部120、似然取得部121、重复部122、选择部123、第二变换部124、第二输出概率取得部125、第二似然取得部126以及确定部127。在外部存储装置3的存储区域中构筑声音信号存储部101、单音子模型存储部102、三音子模型存储部103以及时间长度存储部104。

声音信号存储部101存储检索对象的声音信号。检索对象的声音信号是例如与新闻广播等的声音、被录音的会议的声音、被录音的讲演会的声音、电影的声音相关的声音信号。

单音子模型存储部102以及三音子模型存储部103存储声学模型。声学模型是将构成作为检索字符串而能够取得的字符串的各个音素的频率特性进行模型化而得的模型。具体地说，单音子模型存储部102存储单音子(1个音素)的声学模型(单音子模型)，三音子模型存储部103存储三音子(3个音素)的声学模型(三音子模型)。

音素是构成由说话者发出的声音的成分单位。例如，“カテゴリ”这个单词由“k”、“a”、“t”、“e”、“g”、“o”、“r”、“i”这8个音素构成。

单音子模型是按照每个音素生成的声学模型，是不依存于相邻的音素，即将与前后的音素状态之间的状态迁移进行了固定化的声学模型。三音子模型是按照每3个音素生成的声学模型，依存于相邻的音素，即考虑了与前后的音素状态之间的状态迁移的声学模型，具有比单音子模型更多的信息。声音检索装置100通过一般的方法学习单音子模型以及三音子模型，分别预先存储在单音子模型存储部102以及三音子模型存储部103中。

作为单音子模型以及三音子模型，例如能够使用通过一般声音识别而使用的声学模型即HMM(Hidden Markov Model：隐马尔科夫模型)。HMM是用于通过统计方法根据声音信号概率地推定构成该声音信号的音素的模型。HMM使用将表示时间状态的摇摆的迁移概率、输出根据各个状态输入的特征量的概率(输出概率)设为参数的标准模式。

时间长度存储部104通过各个音素的状态单位来存储通过声学模型而使用的各个音素的平均持续时间长度。各个音素的平均持续时间长度是发出各个音素时的平均时间长度。各个音素的状态是在时间方向将各个音素进行了细化的单位，相当于声学模型的最小单位。针对各个音素预先决定状态数量。

在本实施方式中，以针对各个音素决定的状态数量为“3”的情况作为例子进行说明。例如，如图3所示，声音“あ”被分为包括该音素的发声开始时的第一状态“a1”、作为中间状态的第二状态“a2”、包括发声结束时的第三状态“a3”共3个状态。即，一个音素由3个状态构成。在将通过声学模型而使用的所有音素的数量设为Q的情况下，存在(3×Q)个状态。声音检索装置100对于音素的状态分别根据大量的声音信号数据来计算持续时间长度的平均值，预先存储在时间长度存储部104中。

检索字符串取得部111取得用户经由输入装置4而输入的检索字符串。即，用户通过字符串(文本)对声音检索装置100赋予用于从检索对象的声音信号检索发出目的声音的部分的检索词(查询)。

变换部112将不依存于相邻音素的声学模型即单音子模型的音素按照检索字符串取得部111取得的检索字符串进行排列，将检索字符串变换为音素串。即，变换部112按照与检索字符串中包括的字符相同的顺序，排列发声各个字符时的音素(单音子)，从而将检索字符串变换为单音子音素串。

在本实施方式中，说明检索日语“カテゴリ”的情况。当作为检索字符串输入日语“カテゴリ”时，“カテゴリ”包括“k”、“a”、“t”、“e”、“g”、“o”、“r”、“i”这8个音素(单音子)，因此变换部112生成音素串“k、a、t、e、g、o、r、i”。

时间长度取得部113从时间长度存储部104取得由变更部112生成的音素串所对应的音素的每个状态的平均持续时间长度。

语速信息取得部114取得用户经由输入装置4输入的语速信息。语速信息是表示变更率的信息，该变更率用于根据检索对象的声音信号的语速使时间长度存储部104所存储的音素的各个状态的平均持续时间长度伸缩。用户在检索对象的声音信号比平均语速慢的情况下，为了使存储在时间长度存储部104中的音素的各个状态的平均持续时间长度伸缩，输入表示检索对象的声音信号语速慢的信息。例如，如果以成为生成在时间长度存储部104中存储的持续时间长度的基础的声音数据的平均持续时间长度的语速进行发声，则用大约140秒说出需要100秒的时间的原稿，在该情况下，输入1.4倍的平均持续时间长度的语速信息(变更率)。

在本实施方式中，将用于变更音素的各个状态的平均持续时间长度的变更率用作语速信息。使用图4具体进行说明。1个音素具有从状态1到状态3的3个状态。并且，用T1表示状态1的持续时间长度，用T2表示状态2的持续时间长度，用T3表示状态3的持续时间长度。α是使持续时间长度伸缩的变更率。

在针对成为生成在时间长度存储部104中存储的持续时间长度的基础的声音信号的语速，生成大约慢1.4倍(读原稿的时间长)的语速所对应的持续时间长度的情况下，使用图4的伸长倍率进行说明。检索的声音信号的语速是相对于成为生成持续时间长度的基础的声音信号的语速而大约慢1.4倍的语速，所以用于检索的音素的状态的持续时间长度大约伸长1.4倍。另一方面，相对于语速变化的持续时间长度的变化有母音比子音变化更大的倾向。考虑该倾向，将相对于母音的持续时间长度的伸长倍率设定为1.6倍，将子音的伸长倍率设定为1.1倍，从而设定将持续时间长度的平均伸长大约1.4倍的语速信息。在本实施方式中，说明一样地设定各个状态的变更率的情况。

另外，在针对成为生成在时间长度存储部104中存储的持续时间长度的基础的声音信号的语速，作为用于生成大约快0.7倍(读原稿的时间短)的语速所对应的持续时间长度的语速信息，在图4的缩短倍率栏中表示将相对于母音持续时间长度的缩短倍率缩短0.6倍、子音的缩短倍率缩短0.9倍的语速信息(变更率)的例子。

时间长度变更部115使时间长度取得部113所取得的音素的各个状态的平均持续时间长度与语速信息取得部114所取得的语速信息对应，变更其时间长度。

使用图5说明使用图4所示的语速信息变更存储在时间长度存储部104中的音素的各个状态的平均持续时间长度。日语“カテゴリ”由“k、a、t、e、g、o、r、i”的音素构成，各个音素具有从状态1到状态3的3个状态。图5的第1列记载针对音素串“k、a、t、e、g、o、r、i”的24个状态。在第2列将从时间长度存储部104取得的音素的每个状态的平均持续时间长度记载为变更前持续时间长度。第3列是相对于成为生成持续时间长度的基础的声音数据的语速，生成了用于慢约1.4倍的语速的持续时间长度的结果。为了生成该持续时间长度，将第2列中记载的子音的平均持续时间长度伸长1.1倍，将母音的平均持续时间长度伸长1.6倍。第4列是相对于成为生成持续时间长度的基础的声音数据的语速，生成了说话时间缩短约0.7倍且用于快语速的持续时间长度的结果。此时，将第2列的子音的平均持续时间长度缩短为0.9倍，将母音的平均持续时间长度缩短为0.6倍。这样，时间长度变更部115根据取得的语速信息，将从时间长度存储部104取得的平均持续时间长度伸缩。将该伸缩后的持续时间长度存储在RAM2或外部存储装置3中。

时间长度导出部116从时间长度变更部115取得变换部112输出的音素串中包括的各个音素的每个状态的持续时间长度。并且，根据所取得的持续时间长度，导出与检索字符串对应的声音的时间长度(以下为发声时间长度)。

即，声音检索装置100为了从语速不同的声音信号中对检索对象的查询进行检索，输入与成为检索对象的声音信号的语速对应的语速信息，从而将时间长度存储部104中存储的平均持续时间长度变更为适应语速的持续时间长度。并且，使用音素的每个状态的变更后的持续时间长度，导出检索字符串取得部111取得的检索字符串所对应的声音的发声时间长度。

具体地说，时间长度导出部116首先对于检索对象即“k、a、t、e、g、o、r、i”的8个音素的合计24个状态，从时间长度变更部115取得变更后的持续时间长度。将加上取得的24个变更后的持续时间长度而得时间长度作为与检索字符串对应的声音的发声时间长度而导出。在取得了检索对象的声音信号的语速相对于生成了持续时间长度的声音数据的语速大约慢1.4倍的语速信息的情况下，在图5的第3列的下层所示的合计(852ms)相当于大约慢1.4倍语速所对应的发声时间长度。

返回图2，区间指定部117从声音信号存储部101取得检索对象的声音信号，从检索对象的声音信号的开头按照顺序，将时间长度导出部116导出的发声时间长度的区间指定为似然取得区间。似然是表示检索对象的声音和根据声学模型生成的检索字符串所对应的音素串之间的类似程度的指标。区间指定部117将从检索字符串进行了变换的音素串和声音信号进行比较，因此剪切指定的似然取得区间内的声音信号，将剪切的声音信号中包括的各个帧与音素串中包括的各个音素的状态进行对应。具体地说，关于从图5所示的“k1”到“i3”之间的24个状态，将剪切的声音信号中包括的24个帧和构成音素串的24个状态进行对应。

帧是具有音素的一个状态的时间长度的时间窗口。具体参照图6A、图6B和图6C说明设定为检索对象的声音信号的帧。图6A是从开头到末尾的时间长度T的检索对象的声音信号的波形图。纵轴表示波形的振幅，横轴表示时间t。图6B表示在图6A所示的声音信号中设定的帧。第一行是从声音信号的开头开始的第0帧列。“カテゴリ”的音素数是8个音素，24个状态，因此第0帧列中包括的帧数量是24个。第二行的第1帧列从声音信号的开头位移预定的位移长度S而进行设定。第1帧列的帧数也是24个。以后，同样设定帧列的开头位置每次位移1个位移长度S直到第(P-1)帧列为止。

持续时间长度根据音素的每个状态而不同，另外，持续时间长度根据语速信息而变更，所以根据语速持续时间长度也不同。帧是与音素的状态对应的时间窗口，因此帧长度根据语速或音素的每个状态而不同。

位移长度S是用于决定对检索对象的检查语存在于声音信号的哪个位置进行检索的检索位置的精度的长度。位移长度S被设定为固定在比帧长度更短的值。在本实施方式中，要求精度为10ms以下。另外，图5记载的持续时间长度的最短长度为9ms，所以位移长度S设为比2个数值要短的5ms。

图6C表示在检索对象的声音信号中由区间指定部117指定的似然取得区间。区间指定部117首先将包括从声音信号开头开始的24个帧的第0帧列的区间指定为时间长度L的第0似然取得区间。接着，将从声音信号开头开始位移了1个位移长度(S＝10ms)的位置开始的第一帧列的区间指定为第一似然取得区间。以下，同样依次指定，使得逐一位移一个位移长度(S＝10ms)，直到第(P-1)似然取得区间为止。

返回图2，特征量计算部118按照每个帧来计算由区间指定部117指定的似然取得区间的检索对象的声音信号的特征量。该特征量是通过将频率轴系特征参数与功率(power)系特征参数组合后得到的，其中，上述频率轴系特征参数是通过在频率轴上变换声音数据后而得到的，上述功率系特征参数是通过计算声音数据能量的平方和或其对数而得到的。

例如众所周知，特征量作为38维向量而构成，具有频率轴系特征参数12个分量(12维)和功率系特征参数1个分量(1维)、取得与之前的时间窗口的各个分量之间差分的即△频率轴系特征参数12个分量(12维)和功率系特征参数1个分量(1维)、取得与之前的时间窗口的各个分量之间差分的差分即△△频率轴系特征参数12个分量(12维)合计38个分量。

输出概率取得部119根据由特征量计算部118计算出的特征量，按照每帧取得从音素串中包括的各个音素输出该特征量的概率(输出概率)。具体地说，输出概率取得部119从单音子模型存储部102取得单音子模型，将由特征量计算部118计算出的各个帧的特征量与在音素串中包括的音素状态中该帧所对应的状态的单音子模型进行比较。然后，计算从各帧的特征量所对应的状态输出的概率。输出概率取得部119针对似然取得区间中包括的24个帧分别计算输出概率。

置换部120将由输出概率取得部119取得的输出概率分别置换为在相邻的前后几个帧中的最大输出概率的值。该置换处理被称为下限(Lower-Bound)化。

具体参照图7说明下限化。图7中，实线表示按照每个帧所取得的输出概率。纵轴表示输出概率的高度越往下越高，横轴表示时间t。置换部120将各个帧的输出概率置换为该帧、该帧之前的N1个帧、该帧之后的N2个帧中的最大输出概率。N1和N2是包括0的自然数，不过N1和N2都不是0。说明N1＝N2＝2。帧列内的第一帧的输出概率在之前没有帧，所以置换为在自身的第一帧和之后的第二帧和第三帧中的最大输出概率。第二帧的输出概率置换为之前第一帧和自身的第二帧和之后的第三帧和第四帧中最大的输出概率。第三帧的输出概率置换为之前的第一帧和第二帧、自身的第三帧、之后的第四帧和第五帧中最大的输出概率。这样，进行置换处理直到第24帧为止。置换的结果为，用实线表示的输出概率如用虚线表示的LB(下限)化输出概率那样，在时间方向被变换为值的变化变小的输出概率。

通过这样的下限化，能够将从时间长度变更部115取得的各个音素的持续时间长度与实际声音信号的持续时间长度之间的误差、由时间长度导出部116导出的检索字符串所对应的声音的发声时间长度与实际声音信号的发声时间长度之间的误差在前后几个帧的范围内缩短。

似然取得部121根据置换部120进行置换后的输出概率，取得表示区间指定部117所指定的似然取得区间是发出与检索字符串对应的声音的区间的似然度的似然。具体地说，似然取得部121将取得置换后的输出概率的对数后得到的值与从似然取得区间的开头到末尾之间的24个帧相加，从而求出一系列的输出概率的积，取得该似然取得区间的似然。即，越是包括很多输出概率高的帧的似然取得区间，似然取得部121取得的似然越大。

另外，是将各个帧的输出概率进行相乘的处理，所以可以不采用对数而直接进行输出概率的乘法，也可以代替对数而使用近似式。

重复部122改变区间指定部117进行指定的似然取得区间的声音信号的指定区间，控制各部，使得重复进行区间指定部117、特征量计算部118、输出概率取得部119、置换部120以及似然取得部121的处理。

如果具体参照图6B和图6C进行说明，则接受重复部122的控制，区间指定部117使帧的开头位置位移1个位移长度(S＝10ms)并指定第一帧列，将第一帧列的区间新指定为第一似然取得区间。并且，重复部122在新指定的第一似然取得区间中，使各部执行与从上述的特征量计算部118到似然取得部121之间的处理相同的处理，控制各部，使得取得第一似然取得区间的似然。

同样，重复部122控制各部，使得从第二似然取得区间到第(P-1)似然取得区间为止，由区间指定部117指定的似然取得区间逐个位移一个位移长度(S＝10ms)而取得关于似然取得区间各自的似然。其结果为，针对将检索对象的声音信号逐个位移了一个位移长度的似然取得区间的每一个，取得相对于根据单音子模型而生成的音素串“k、a、t、e、g、o、r、i”的似然。另外，在检索对象的声音信号中能够指定的似然取得区间的数量P使用声音信号的时间长度T和似然取得区间的时间长度L以及位移长度S，被定为P＝(T-L+S)/S。

选择部123根据似然取得部121取得的似然，从区间指定部117指定的似然取得区间中按照似然从高到低的顺序选择x个被推定为发出与检索字符串对应的声音的推定区间的候补。即，选择部123为了根据后段的三音子模型抑制精度更高的似然取得的计算量，从取得了似然的P个似然取得区间中预备地选择x个成为最终检索结果的候补的区间，从候补去除剩余的似然取得区间。

这时，由区间指定部117指定的似然取得区间具有大量的重叠，因此似然大的区间大多会时序地连续存在。因此，选择部123如果在P个似然取得区间中单纯地从似然大的区间按顺序选择推定区间的候补，则所选择的区间集中在检索对象的声音信号中一部分上的可能性变大。

为了避免上述问题，选择部123设置预定的选择时间长度，按照每个选择时间长度，逐个选择在从该预定的选择时间长度的区间中开始的似然取得区间中似然最大的似然取得区间。该预定的选择时间长度设定为比似然取得区间的时间长度L要短的时间，例如相当于似然取得区间的时间长度L的1/m(例如1/2)的时间长度。例如，在假设“カテゴリ”的发声时间长度为2秒以上(L≥2秒)的情况下，设m＝2，将选择时间长度设定为1秒。按照每个选择时间长度(L/m)逐个选择似然取得区间作为候补，剩余的从候补中排除。这样，选择部123能够毫无遗漏地检索对象的声音信号整体地选择推定区间的候补。

选择部123的选择结果经由输出装置5所具备的画面而显示在外部。之后，声音检索装置100针对选择出的x个区间，基于三音子模型以及动态计划法(DP(DynamicProgramming动态规划)匹配)执行精度更高的似然取得处理。DP匹配是选择状态迁移而使得分析区间的似然成为最大的方法。在三音子模型中，需要考虑和前后的音素之间的状态迁移，所以通过DP匹配决定前后音素的状态迁移，使似然取得区间的似然变得最大。

第二变换部124将依存于相邻的音素的第二声学模型即三音子模型的音素按照检索字符串取得部111所取得的检索字符串进行排列，将检索字符串变换为第二音素串即三音子音素串。例如，在作为检索字符串输入了日语“カテゴリ”的情况下，“カテゴリ”包括“k-a+t”、“a-t+e”、“t-e+g”、“e-g+o”、“g-o+r”、“o-r+i”六个三音子，因此第二变换部124生成将这六个三音子进行了排列的三音子音素串。并且，也会将由2个音素组成的双音子“k+a”、“r-i”分配给始端和终端。此时，预先将双音子模型存储在外部存储装置3中。另外位于“-”符号左侧的音素表示位于中心音素的前面，位于“+”符号右侧的音素位于中心音素的后面。

第二输出概率取得部125按照每个帧取得输出概率，该输出概率是从由第二变换部124进行变换而得的第二音素串(三音子音素串)中包括的各音素输出由选择部123作为推定区间的候补而选择的区间的检索对象的声音信号的特质量的输出概率。具体地说，第二输出概率取得部125从三音子模型存储部103取得三音子模型，比较由特征量计算部118计算出的各个帧的特征量和三音子音素串中包括的各三音子的模型。并且，计算从各个三音子输出各个帧的特征量的概率。

第二似然取得部126针对选择部123限定为x个的区间候补分别取得第二似然，该第二似然表示选择部123作为推定区间的候补而选择的区间是发出与检索字符串对应的声音的区间的似然度。第二似然是根据第二音素串即三音子音素串而取得的，因此根据单音子音素串与似然取得部121取得的似然相比，是精度更高的指标。

第二似然取得部126根据由第二输出概率取得部125取得的输出概率，针对由选择部123限定的第二似然取得区间中包括的各个帧，通过DP匹配来检索声音信号的特征量和三音子音素串中包括的各个三音子模型之间的对应。然后，将对针对选择部123选择出的区间(第二似然取得区间)的各个帧分别取得的输出概率取对数而得的值相加，由此得到该区间的第二似然。

确定部127根据第二似然取得部126所取得的第二似然，从选择部123选择出的x个区间的候补中确定推定区间，该推定区间是从检索对象的声音信号中推定发出与检索字符串对应的声音的区间。例如，确定部127按照第二似然取得部126所取得的第二似然从大到小的顺序将预定数量的区间确定为推定区间。或者，将似然在预定值以上的区间确定为推定区间。由确定部127确定的区间的位置信息作为最终的检索结果，经由输出装置5所具备的画面显示在外部。

参照图8所示的流程图说明由具有以上那样的物理结构以及功能结构的声音检索装置100所执行的声音检索处理。

用户将音素的每个状态的持续时间长度预先存储在时间长度存储部104中，将作为检索对象的声音信号存储在声音信号存储部101中。检索对象的声音信号设为例如一个小时演讲的录音的声音。这里，检索对象的查询设为“カテゴリ”。另外，用户将检索对象的声音信号的语速相对生成了持续时间长度的声音数据的语速有多快准备为语速信息。这里，说明针对成为生成持续时间长度的基础的声音数据的语速，从约慢1.4倍语速的声音信号中检测检索对象的查询“カテゴリ”的处理。另外，预先决定在使持续时间长度伸缩时的母音和子音的变更率的比。这里，准备图4所示的伸长倍率作为语速信息。

CPU6从ROM1读出声音检索软件，通过执行程序开始图8所示的流程图。用户从输入装置4输入检索对象的检索字符串“カテゴリ”作为文本数据，检索字符串取得部111取得检索字符串(步骤S11)。如果检索字符串取得部111取得检索字符串，则变换部112以及第二变换部124将检索字符串变换为音素串(步骤S12)，按照音素串的音素顺序排列声学模型的音素(步骤S13)。具体地说，变换部112将检索字符串变换为单音子模型的单音子音素串“k、a、t、e、g、o、r、i”，第二变换部124将检索字符串变换为三音子模型的三音子音素串“k-a+t”、“a-t+e”、“t-e+g”、“e-g+o”、“g-o+r”、“o-r+i”。另外，也可以追加双音子模型“k+a”、“r-i”。

语速信息取得部114取得与用户输入的声音信号的语速对应的语速信息(步骤S14)。针对成为生成持续时间长度的基础的声音数据的语速，从大约慢1.4倍语速的声音信号中检测出检索对象的查询“カテゴリ”，所以用户作为语速信息作为将持续时间长度伸长1.4倍的语速信息，输入图4所示的伸长倍率。即，关于母音输入1.6倍的变更率，关于子音输入1.1倍的变更率，将持续时间长度的平均伸长约1.4倍。

时间长度变更部115经由时间长度取得部113，根据语速信息变更从时间长度存储部104取得的平均持续时间长度(步骤S15)。具体地说，时间长度变更部115将图4所示的伸长倍率(变更率)乘以图5第2列所示的平均语速用的持续时间长度，作为慢1.4倍语速用的持续时间长度来生成图5的第3列所示的持续时间长度。

返回图8，如果变换部112将检索字符串变换为音素串，则时间长度导出部116导出与检索字符串对应的声音的发声时间长度(步骤S16)。具体地说，时间长度导出部116取得由时间长度变更部115将时间长度变更后的持续时间长度，通过加上取得的持续时间长度，导出与检索字符串对应的声音的发声时间长度。具体地说，为了生成与慢语速对应的发声时间长度，将加上了图5第3列所示的伸长后的持续时间长度的合计值(852ms)导出作为发声时间长度。

如果时间长度导出部116导出发声时间长度，则区间指定部117从检索对象的声音信号的开头到结尾，一边将导出的发声时间长度的区间即似然取得区间逐个位移一个位移长度S一边按顺序进行指定，转移到取得似然的处理。首先，区间指定部117指定从检索对象的声音信号开头开始的第0帧列，将第0帧列的24帧量的区间(0ms～852ms)指定为比平均语速慢1.4倍的语速用的第0似然取得区间(步骤S17)。

如果区间指定部117指定似然取得区间，则特征量计算部118按照每个帧来计算所指定的似然取得区间的声音信号的特征量(步骤S18)。然后，输出概率取得部119根据特征量计算部118计算出的特征量和相应的单音子模型，按照每个帧取得从音素串中包括的各个音素输出该特征量的输出概率(步骤S19)。即，针对图5所示的从“k1”到“i3”之间的24个状态分别取得输出概率。

如果输出概率取得部119取得输出概率，则置换部120将按照每个帧取得的输出概率置换为该帧和该帧之前的N1个帧和该帧之后的N2个帧的合计(1+N1+N2)个帧中最大的输出概率，从而执行下限化处理(步骤S20)。由此，缩小时间长度导出部116导出的发声时间长度和实际声音信号的发声时间长度之间的误差。

似然取得部121按照每个帧将输出概率取对数后进行相加，从而取得区间指定部117所指定的似然取得区间的似然(步骤S21)。如果似然取得部121取得似然，则重复部122判定检索对象的声音信号的所有区间的似然取得是否已结束(步骤S22)。

在所有区间的似然取得没有结束的情况下(步骤S22：否)，区间指定部117指定从之前指定的帧位移了一个位移长度(S＝10ms)的位置开始的似然取得区间(步骤S23)，声音检索处理返回步骤S18。然后，重复部122控制各部，使得针对区间指定部117新指定的似然取得区间重复上述步骤S18～S22的处理并取得似然。具体地说，区间指定部117根据从声音信号开头位移了一个位移长度(S＝10ms)的位置指定第一帧列，将该区间指定为第一似然取得区间。特征量计算部118按照第一帧列的每个帧计算特征量。输出概率取得部119按照第一帧列的每个帧取得输出概率，置换部120进行下限化处理。然后，似然取得部121取第一帧列的各个帧的输出概率的对数相加合计24个帧的量，从而取得第一似然取得区间的似然。

这样，重复部122控制区间指定部117、特征量计算部118、输出概率取得部119、置换部120、似然取得部122，使得在到达检索对象的声音信号的末尾为止使似然取得区间每次位移一个位移长度来依次取得似然。

最终，如果所有区间的似然取得结束(步骤S22：是)，则声音检索处理转移到根据所取得的似然来确定与检索字符串对应的区间的处理(步骤S24)。参照图9所示的流程图详细说明该确定处理。

在似然取得处理结束的状态下，选择部123按照每个预定的选择时间长度从区间指定部117所指定的似然取得区间中逐个选择区间(步骤S101)。假设“カテゴリ”的发声时间长度在2秒以上(L≥2)，选择时间长度设定为其一半(m＝2)的1秒。因此，选择部121按照1秒的选择时间长度来选择似然最高的似然取得区间。

进而选择部123从这样选择出的区间中按照似然从高到低的顺序选择x个区间(步骤S102)。即，选择部123预备选择作为最终的检索结果而确定的区间候补，使得从检索对象的声音信号整体毫无遗漏地留下候补。

在选择部123进行的预备选择后，第二输出概率取得部125根据三音子音素串，按照每个帧取得由选择部123选择的x个区间的输出概率(步骤S103)。然后，第二似然取得部126通过DP匹配取得选择部123选择出的区间的似然(步骤S104)。即，第二输出概率取得部125以及第二似然取得部126根据三音子模型以及DP匹配，执行比输出概率取得部119以及似然取得部121精度高的似然取得处理。

如果第二似然取得部126取得第二似然，则确定部127根据所取得的第二似然来确定与检索字符串对应的区间(步骤S105)。例如，确定部127按照第二似然取得部126所取得的第二似然从大到小的顺序将预定数量的区间确定为被推定为发出了与检索字符串对应的声音的区间。如果步骤S105的处理结束，则图9所示的流程图的处理转移到图8所示的流程图的步骤S25。

返回图8所示的流程图的说明，如果确定了与检索字符串对应的区间，则确定部127经由输出装置5输出确定结果(步骤S25)。至此，声音检索装置100所执行的声音检索处理结束。

如以上说明的那样，实施方式1的声音检索装置100使用与检索对象的声音信号的语素对应的语速信息，将音素的平均持续时间长度变更为与语速对应的持续时间长度。然后，使用与语速对应的持续时间长度，从检索对象的声音信号中确定被推定为发出与查询对应的声音的区间。通过该处理，即使在检索对象的声音信号的语速不同的情况下，也能够从检索对象的声音信号中准确地确定与查询对应的声音区间。

另外，在以上的说明中，说明了分别变更母音和子音的持续时间长度的变更率的情况，不过如图10所示，也可以将子音的变更率固定为1而只变更母音的持续时间长度。

另外，在以上的说明中，说明了分别设定母音和子音的变更率的情况，不过可以在声音检索程序中预先设定母音和子音的变更率的比，如果输入某个变更率则自动决定母音和子音的变更率。

另外，在实施方式1的说明中，进行了区间指定部117使帧列的开头位置逐次位移1个位移长度S，将每次位移时进行特征量的计算和输出概率的取得以及似然的取得的处理重复P次的说明。但是，区间指定部117也可以首先在进行了从第0帧到第(P-1)帧的指定、从第0似然取得区间到第(P-1)似然取得区间的指定后，进行特征量的计算、输出概率的取得以及似然的取得。

另外，在并用双音子模型的情况下，在进行了单音子模型下的预备选择后，进行使用了双音子模型的2次选择，之后也能够进行使用了三音子模型的3次选择(最终选择)。另外，可以在使用了单音子模型的预备检索中设为组合了单音子模型和双音子模型的一次选择，或设为组合了双音子模型和三音子模型的2次选择(最终选择)。

(实施方式2)

在实施方式1中，说明了假设语速为固定且只设定一个语速信息的情况。因此，语速信息也只能够对应一种。不过，在实际的演讲中，不限定必须要用相同语速发声相同单词。例如，如果有以平均的语速发声“カテゴリ”的单词的情况，也有强调地进行缓慢发声的情况。为了与此对应，在实施方式2中，通过使用多个语速信息来导出多个发声时间长度。在实施方式2中，说明使用0.7(快)、1.0(普通)、1.4(慢)的三种语速信息(持续时间长度的变更率)作为语速信息的情况。

实施方式2的声音检索装置与实施方式1的声音检索装置100相同，如图1所示那样物理地构成。另外，关于功能结构也和图2所示的结构相同。

参照图11所示的流程图说明实施方式2的声音检索装置100所执行的声音检索处理。

检索对象的声音信号是一个小时的讲话的录音的声音，预先存储在声音信号存储部101中，这里，检索字符串设为“カテゴリ”。作为语速信息，准备图4所示的变更率。

CPU6从ROM1读出声音检索软件，通过执行声音检索软件开始图11所示的流程图。用户从输入装置4输入检索对象的检索字符串“カテゴリ”作为文本数据，检索字符串取得部111取得检索字符串(步骤S31)。如果检索字符串取得部111取得检索字符串，则变换部112以及第二变换部122将检索字符串变换为音素串(步骤S32)，按照音素串的音素顺序排列声学模型的音素(步骤S33)。具体地说，变换部112将检索字符串变换为单音子的单音子音素串，第二变换部122将检索字符串变换为三音子的三音子音素串。

语速信息取得部114取得用户提供的0.7(快)、1.0(普通)、1.4(慢)的三种语速信息(步骤S34)。具体地说，取得图4所示的伸缩变更率(伸长倍率和缩短倍率)。与“普通”的语速对应的变更率，母音和子音的变更率都是1.0，所以省略记载。

时间长度变更部115根据从时间长度存储部104取得的音素的各个状态的平均持续时间长度来生成与3种语速信息对应的3种持续时间长度(步骤S35)。

具体地说，作为与音素串“k、a、t、e、g、o、r、i”的24个状态对应的时间长度，经由时间长度取得部113取得从时间长度存储部104取得的平均持续时间长度作为与语速“普通”对应的持续时间长度。时间长度变更部115在取得的持续时间长度上乘以1.0，设为对于语速“普通”的持续时间长度。将其记载在图5的第2列中。时间长度变更部115将图4所示的伸长倍率乘以图5的第2列所记载的平均持续时间长度来作为与语速“慢”对应的时间持续长度，将图5的第3列所记载的值生成为语速“慢”用的持续时间长度。作为与语速“快”对应的持续时间长度，将图4所示的缩短倍率乘以图5的第2列所记载的平均持续时间长度，将图5的第4列所记载的值生成为语速“快”用的持续时间长度。

接着，如果变换部112将检索字符串变换为音素串，则时间长度导出部116导出3个时间长度作为与检索字符串对应的声音的发声时间长度(步骤S36)。具体地说，将合计了24个图5的第2列所记载的持续时间长度的值(620ms)导出作为针对语速“普通”的发声时间长度。将合计了24个图5的第3列所记载的持续时间长度的值(825ms)导出作为针对语速“慢”的发声时间长度。将合计了24个图5的第4列所记载的持续时间长度的值(456ms)导出作为针对语速“快”的发声时间长度。

返回图11，如果时间长度导出部116导出3个时间长度作为发声时间，则声音检索处理转移到从检索对象的声音信号的开头到末尾为止，按照顺序指定所导出的各个时间长度的区间即似然取得区间，并取得似然的处理。

首先，区间指定部117针对由时间长度导出部116导出的3个时间长度，分别指定从检索对象的声音信号的开头开始的第0帧列，将该24帧量的区间指定为第0似然取得区间(步骤S37)。具体地说，使用语速“普通”用持续时间长度指定第0帧列，将该24帧量的区间(0ms～620ms)指定为语速“普通”用的第0似然取得区间。使用语速“慢”用的持续时间长度指定第0帧列，将从声音信号的开头(0ms～852ms)的区间指定为语速“慢”用的第0似然取得区间。同样，将从声音信号的开头(0ms～456ms)的区间指定为语速“快”用的第0似然取得区间。

区间指定部117如果对各个时间长度(620ms、852ms、456ms)指定似然取得区间，则特征量计算部118按照每个帧计算所指定的似然取得区间的声音信号的特征量(步骤S38)。具体地说，首先从声音信号剪切针对语速“普通”的似然取得区间(620ms)，按照语速“普通”所对应的图5第2列中记载的各音素的每个状态的每个帧长度而将声音信号的特征量进行24帧量计算。接着，从声音信号剪切针对语速“慢”的似然取得区间(852ms)，按照语速“慢”所对应的图5第3列中记载的各音素的每个状态的每个帧长度而将声音信号的特征量进行24帧量计算。接着，从声音信号剪切针对语速“快”的似然取得区间(456ms)，按照语速“快”所对应的图5第4列中记载的各音素的每个状态的每个帧长度而将声音信号的特征量进行24帧量计算。

然后，输出概率取得部119根据与特征量计算部118计算出的特征量对应的单音子模型，按照每个帧取得从音素串中包括的各个音素输出该特征量的输出概率(步骤S39)。这里，取得(语速3种类×似然取得区间P个×帧数24帧)量的输出概率。

如果输出概率取得部119取得输出概率，则置换部120将按照每个帧取得的输出概率置换为其前后几个帧(前2个帧和自身的帧以及之后的2个帧)中的最大输出概率，从而执行下限化处理(步骤S40)。由此，缩小由时间长度导出部116导出的发声时间长度与实际的发声时间长度之间的误差。

似然计算部121按照每个帧将下限化后的输出概率取对数进行相加，由此取得区间指定部117对3个语速分别指定的似然取得区间的似然(步骤S41)。如果似然取得部121取得似然，则重复部122对于由时间长度导出部116导出的发声时间长度的各个时间长度判定检索对象的声音信号的所有区间的似然取得是否结束(步骤S42)。

在所有区间的似然取得没有结束的情况下(步骤S42：否)，针对作为发声时间长度而由时间长度导出部116导出的3个时间长度的每一个，区间指定部177指定从之前指定的帧位移了一个位移长度(S＝10ms)的帧开始的似然取得区间(步骤S43)，声音检索处理返回步骤S38。具体地说，在从声音信号的开头位移了10ms的位置指定语速“普通”用的第一帧列，将该帧列的区间(10ms～630ms)指定为语速“普通”用的第一似然取得区间。同样，指定语速“慢”的第一帧列，将该帧列的区间(10ms～862ms)指定为语速“慢”用的第一似然取得区间。同样，指定语速“快”的第一帧列，将该帧列的区间(10ms～466ms)指定为语速“快”用的第一似然取得区间。

然后，重复部122控制各部，针对关于各时间长度而新指定了的似然取得区间重复上述步骤S38～S42的处理并取得似然。这样，重复部122控制各部，使得在到达检索对象的声音信号末尾之前，由区间指定部117指定的似然取得区间逐次位移一个位移长度(S＝10ms)，依次取得似然。

最终，如果与3种类的语速对应的各自P个区间的似然取得结束(步骤S42：是)，则声音检索处理转移到根据取得的似然确定与检索字符串对应的区间的处理(步骤S44)。该确定处理与参照图9的流程图进行了说明的处理相同。

即，选择部123按照预定的选择时间长度(1秒)在区间指定部117中与3个语速对应的似然取得区间(各自P个)中逐个选择区间(步骤S101)。在该选择时间长度中包括与3个语速对应的似然取得区间，不过选择其中一个似然最高的似然取得区间。因此，选择部121如果也会根据一个小时讲话的声音信号中的语速来选择与语速“快”对应的似然取得区间，则也会有选择与语速“慢”对应的似然取得区间的情况。

进而选择部123从这样进行选择的区间中按照似然从高到低的顺序选择x个区间(步骤S102)。

第二输出概率取得部125根据三音子音素串，按照每个帧取得由选择部123选择出的区间的输出概率(步骤S103)。第二似然计算部126通过DP匹配取得由选择部123选择出的区间的似然(步骤S104)。然后，确定部127根据所取得的第二似然确定被推定为发出了与检索字符串对应的声音的区间(步骤S105)。

如果确定了与检索字符串对应的区间，则确定部127经由输出装置5输出确定结果(步骤S45)。至此，声音检索装置100所执行的声音检索处理结束。

如以上说明的那样，实施方式2的声音检索装置100将3个语速信息设定为与检索字符串对应的声音的发声时间长度，导出作为发声时间长度而与语速对应的3个时间长度。然后，将分别相当于导出的3个时间长度的时间长度的区间指定为似然取得区间，从指定的似然取得区间中确定被推定为发出与检索字符串对应的声音的区间。其结果为，减少由于语速的不同造成似然恶化并从候补漏掉的情况，即使在针对与平均语速有偏差的声音信号的声音检索中也能够提高检索精度。

本实施方式2的声音检索装置100通过设定多个语速信息，根据多个持续时间长度来导出多个发声时间长度进行预备选择，所以预备选择的处理量增加。不过，预备选择的处理是针对单音子模型进行似然的计算，所以如果与使用信息量多的三音子模型进行似然计算的最终区间的确定处理相比，则计算处理负荷轻。因此，即使如本实施方式说明的那样设定3个语速信息，针对检索处理时间的整体的增加也少。

这样，本实施方式的检索装置导出在预备选择中与不同语速对应的大多发声时间长度并检索区间的候补，从而即使针对中途语速发生变化的声音信号也确保高的检索精度。并且，通过在预备选择时限定候补的区间数，虽然是使用了信息量多的三音子模型的高精度但减少了计算处理繁重的处理。其结果为，声音检索装置100能够抑制计算量，同时进行高精度的声音检索。

另外，在实施方式2的说明中，说明了以下情况，即在根据语速信息使持续时间长度伸缩之后，将变更后的持续时间长度与单音子音素串对应地进行相加，导出多个发声时间长度。不过，可以在将母音和子音的持续时间长度的变更率成为一样的情况下，根据存储在时间长度存储部104中的平均持续长度求出一个发声时间长度，根据1.4倍或0.7倍的语速信息变更该发声时间长度。

另外，在实施方式2的说明中，说明了输入3种语速信息的情况，不过不限定语速信息的数量。另外，可以在声音检索程序中预先设定3个语速信息，自动地生成3种持续时间长度。

另外，在实施方式2的说明中，说明了与语速对应地只变更持续时间长度的情况。不过最好对声学模型也进行与语速对应的分类，能够根据语速选择使用的声学模型。

(变形例1)

说明了实施方式1和2的声音检索装置100将变更率一样地乘以音素各个状态的持续时间长度的情况。不过，本发明不限定于此。例如，说明按照音素的每个状态改变变更率的情况。

使用图12说明按照音素的每个状态改变变更率的情况。将针对音素的状态1的持续时间长度T1的变更率设为α1，将针对状态2的持续时间长度T2的变更率设为α2，将针对状态3的持续时间长度T3的变更率设为α3。

在本变形例中，在伸长持续时间长度的情况下，关于母音，将状态1的变更率设为1.3，将状态2的变更率设为1.6，将状态3的变更率设为1.3。关于子音，将状态1的变更率设为1.1，将状态2的变更率设为1.2，将状态3的变更率设为1.1。在缩短持续时间长度的情况下，关于母音，将状态1的变更率设为0.8，将状态2的变更率设为0.6，将状态3的变更率设为0.8。关于子音，将状态1的变更率设为0.9，将状态2的变更率设为0.8，将状态3的变更率设为0.9。

在一般的会话中，比起音素两端的状态(图12中，状态1和状态3)，音素中央的状态(图12中，状态2)有针对语速变化持续时间长度发生较大变化的倾向。利用该倾向，在图12所示的例子中，相对于与状态1和状态3对应的变更率α1和α3较大地设定针对状态2的变更率α2。

另外，在唱歌声音的情况下，比起图12的状态1，状态3有时会根据歌唱的速度而发生较大变化。在这种情况下，将针对图12所示的状态3的变更率α3设定得比针对状态1的变更率α1要大。

这样，通过按照音素的每个状态设定变更率，能够使音素的每个状态的持续时间长度的比率与语速所对应的实际持续时间长度近似。这样，能够实现更准确的声音检索。

另外，在变形例1的说明中，使用图12说明了设定音素的每个状态的变更率的情况，不过也可以在声音检索程序中预先设定各个状态的变更率，根据一个持续时间长度自动生成多个持续时间长度。

另外，在变形例1的说明中，说明了变更状态1、状态2、状态3各自的持续时间长度的情况。不过，也可以只变更2个状态或1个状态的持续时间长度。例如，可以不变更包括发声开始时或发声结束时的状态(状态1和状态3)的持续时间长度，而只变更不包括发声开始时或发声结束时的状态(状态2)的持续时间长度。图13表示以将状态1和状态3的变更率设为1，只变更状态2的持续时间长度的方式来设定变更率的例子。

另外，在以上的实施方式1和2的说明中，说明了按照似然从高到低的顺序选择x个似然取得区间的情况。不过，选择的方法不限定于此。例如，也可以将特定的似然值设为阈值，选择该值以上的似然取得区间。

另外，在没有要求检索精度的情况下，也能够省略下限化处理。即使在要求检索精度的情况中，在如实施方式2那样使用与多个语速对应的持续时间长度进行检索的情况下，有时也能够省略下限化处理。

另外，在以上的说明中，说明了根据文本数据从输入装置4输入检索词的情况，不过可以将检索词作为声音数据输入到声音识别装置的麦克风中，通过声音识别装置识别检索词。

另外，在以上说明中说明了从输入装置4输入语速信息(持续时间长度的变更率)的情况。不过，也可以分析声音信号的一部分，根据单位时间所包括的声音的间隔信息推定语速，并根据该推定决定针对持续时间长度的变更率。

另外，在外部的服务器装置中设置时间长度存储部104，时间长度取得部113可以经由通信线路取得由变更部112生成的音素串所对应的音素的每个状态的平均持续时间长度。

另外，当然能够作为预先具备用于实现本发明的功能的结构的声音检索装置来提供，也可以通过程序的应用，使现有的个人计算机或信息终端设备等作为本发明的声音检索装置发挥功能。即，以控制现有的个人计算机或信息终端设备等的CPU等能够执行用于实现在上述实施方式中示例的声音检索装置100的各功能结构的程序的方式来应用，由此能够作为本发明的声音检索装置发挥功能。另外，能够使用声音检索装置实施本发明的声音检索方法。

另外，这样的程序的应用方法是任意的。除了能够在例如计算机可读取的记录介质(CD-ROM(Compact Disc Read-Only Memory光盘只读存储器)、DVD(Digital VersatileDisc数字多功能光盘)、MD(Magneto Optical disc磁光盘)等)中存储程序来应用外，也能够在因特网等网络上的存储装置中存储程序，通过下载该程序来应用。

以上，说明了本发明的优选实施方式，不过本发明不限定于特定的实施方式，本发明包括专利请求范围所记载的发明及其均等的范围。

Claims

1.一种声音检索装置，该声音检索装置特征在于，具备：

记录单元，其记录检索对象的声音信号；

变换单元，其将检索字符串变换为音素串；

时间长度取得单元，其从存储有与音素相关的持续时间长度数据的数据库取得由上述变换单元变换的音素串中包括的各个音素的持续时间长度；

语速信息取得单元，其取得由用户指定的与语速相关的信息；

时间长度变更单元，其根据上述语速信息取得单元取得的与语速相关的信息，变更上述时间长度取得单元取得的各个音素的持续时间长度；

时间长度导出单元，其根据由上述时间长度变更单元变更的各个音素的持续时间长度，导出与上述检索字符串对应的声音发声时间长度；

区间指定单元，其在上述检索对象的声音信号的时间长度中指定多个上述时间长度导出单元导出的发声时间长度的区间作为似然取得区间；

似然取得单元，其取得似然，该似然表示上述区间指定单元指定的似然取得区间是发出与上述检索字符串对应的声音的区间的似然度；以及

确定单元，其根据上述似然取得单元针对由上述区间指定单元指定的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出了与上述检索字符串对应的声音的推定区间。

2.根据权利要求1所述的声音检索装置，其特征在于，

上述时间长度变更单元通过个别决定的变更率来变更上述时间长度取得单元取得的各个音素的持续时间长度中母音音素的持续时间长度和子音音素的持续时间长度。

3.根据权利要求1或2所述的声音检索装置，其特征在于，

上述时间长度变更单元通过比子音音素的持续时间长度的变更率大的变更率来变更上述时间长度取得单元取得的各个音素的持续时间长度中母音音素的持续时间长度。

4.根据权利要求1所述的声音检索装置，其特征在于，

上述时间长度变更单元只变更上述时间长度取得单元取得的母音和子音的音素的持续时间长度中母音音素的持续时间长度。

5.根据权利要求1或2所述的声音检索装置，其特征在于，

上述时间长度取得单元按照各个音素的每个状态取得上述变换单元变换的音素串中包括的各个音素的持续时间长度，

上述时间长度变更单元通过按照每个状态决定的变更率来变更上述时间长度取得单元按照各个音素的每个状态取得的持续时间长度。

6.根据权利要求5所述的声音检索装置，其特征在于，

上述时间长度变更单元通过比不包括音素的发声开始时或发声结束时的状态的持续时间长度的变更率小的变更率来变更各个音素状态中包括音素的发声开始时或发声结束时的状态的持续时间长度。

7.根据权利要求1或2所述的声音检索装置，其特征在于，

该声音检索装置还具备：

特征量计算单元，其按照比较声音信号和音素模型的区间即每帧来计算上述区间指定单元指定的似然取得区间的上述检索对象的声音信号的特征量；和

输出概率取得单元，其按照每个帧取得从上述音素串中包括的各个音素输出上述检索对象的声音信号的特征量的输出概率，

上述似然取得单元将按照上述区间指定单元指定的似然取得区间中包括的每个帧所取得的输出概率的对数的值相加，取得该似然取得区间的上述似然。

8.根据权利要求7所述的声音检索装置，其特征在于，

上述变换单元将不依存于相邻的音素的声学模型的音素进行排列，并将上述检索字符串变换为上述音素串，

上述似然取得单元根据上述音素串，取得上述区间指定单元指定的似然取得区间的上述似然，

上述声音检索装置还具备：

选择单元，其根据上述似然取得单元取得的似然，从上述指定的多个似然取得区间中选择上述推定区间的候补；

第二变换单元，其将依存于相邻的音素的第二声学模型的音素进行排列，并将上述检索字符串变换为第二音素串；以及

第二似然取得单元，其根据上述第二音素串，针对由上述选择单元选择的多个候补分别取得第二似然，该第二似然表示由上述选择单元选择为上述推定区间的候补的区间是发出与上述检索字符串对应的声音的区间的似然度，

上述确定单元根据上述第二似然取得单元取得的第二似然，从上述选择单元选择出的多个候补中确定上述推定区间。

9.根据权利要求8所述的声音检索装置，其特征在于，

上述选择单元按照每个预定的选择时间长度，从上述区间指定单元指定的似然取得区间中逐个选择在从该预定的选择时间长度的区间中开始的似然取得区间中上述似然最大的似然取得区间，从而选择上述推定区间的多个候补。

10.一种声音检索方法，其是具有记录检索对象的声音信号的存储器的声音检索装置的声音检索方法，该声音检索方法的特征在于，包括：

变换步骤，将检索字符串变换为音素串；

时间长度取得步骤，从存储有与音素相关的持续时间长度数据的数据库取得由上述变换步骤进行变换的音素串中包括的各个音素的持续时间长度；

语速信息取得步骤，取得由用户指定的与语速相关的信息；

时间长度变更步骤，根据上述语速信息取得步骤取得的与语速相关的信息，变更上述时间长度取得步骤取得的各个音素的持续时间长度；

时间长度导出步骤，根据由上述时间长度变更步骤进行变更的各个音素的持续时间长度，导出与上述检索字符串对应的声音的发声时间长度；

区间指定步骤，在上述检索对象的声音信号的时间长度中指定多个上述时间长度导出步骤导出的发声时间长度的区间作为似然取得区间；

似然取得步骤，取得似然，该似然表示上述区间指定步骤指定的似然取得区间是发出与上述检索字符串对应的声音的区间的似然度；以及

确定步骤，根据上述似然取得步骤针对由上述区间指定步骤指定的似然取得区间分别取得的似然，确定从检索对象的声音信号中推定发出了与上述检索字符串对应的声音的推定区间。

11.根据权利要求10所述的声音检索方法，其特征在于，

上述时间长度变更步骤通过个别决定的变更率来变更上述时间长度取得步骤取得的各个音素的持续时间长度中母音音素的持续时间长度和子音音素的持续时间长度。

12.根据权利要求10或11所述的声音检索方法，其特征在于，

上述时间长度变更步骤通过比子音音素的持续时间长度的变更率大的变更率来变更上述时间长度取得步骤取得的各个音素的持续时间长度中母音音素的持续时间长度。

13.根据权利要求10所述的声音检索方法，其特征在于，

上述时间长度变更步骤只变更上述时间长度取得步骤取得的母音和子音音素的持续时间长度中母音音素的持续时间长度。

14.根据权利要求10或11所述的声音检索方法，其特征在于，

上述时间长度取得步骤按照各个音素的每个状态取得由上述变换步骤变换的音素串中包括的各个音素的持续时间长度，

上述时间长度变更步骤通过按照每个状态决定的变更率来变更上述时间长度取得步骤按照各个音素的每个状态取得的持续时间长度。

15.根据权利要求14所述的声音检索方法，其特征在于，

上述时间长度变更步骤通过比不包括音素的发声开始时或发声结束时的状态的持续时间长度的变更率小的变更率来变更各个音素状态中包括音素的发声开始时或发声结束时的状态的持续时间长度。

16.根据权利要求10或11所述的声音检索方法，其特征在于，

该声音检索方法还包括：

特征量计算步骤，其按照比较声音信号和音素模型的区间即每帧来计算上述区间指定步骤指定的似然取得区间的上述检索对象的声音信号的特征量；和

输出概率取得步骤，其按照每帧取得从上述音素串中包括的各个音素输出上述检索对象的声音信号的特征量的输出概率，

上述似然取得步骤将按照上述区间指定步骤指定的似然取得区间中包括的每个帧所取得的输出概率的对数的值相加，取得该似然取得区间的上述似然。

17.根据权利要求16所述的声音检索方法，其特征在于，

上述变换步骤将不依存于相邻的音素的声学模型的音素进行排列，并将上述检索字符串变换为上述音素串，

上述似然取得步骤根据上述音素串，取得上述区间指定步骤指定的似然取得区间的上述似然，

上述声音检索方法还包括：

选择步骤，其根据上述似然取得步骤取得的似然，从上述指定的多个似然取得区间中选择上述推定区间的候补；

第二变换步骤，其将依存于相邻的音素的第二声学模型的音素进行排列，并将上述检索字符串变换为第二音素串；以及

第二似然取得步骤，其根据上述第二音素串，针对由上述选择步骤选择的多个候补分别取得第二似然，该第二似然表示由上述选择步骤选择为上述推定区间的候补的区间是发出与上述检索字符串对应的声音的区间的似然度，

上述确定步骤根据上述第二似然取得步骤取得的第二似然，从上述选择步骤选择出的多个候补中确定上述推定区间。

18.根据权利要求17所述的声音检索方法，其特征在于，

上述选择步骤按照每个预定的选择时间长度，从上述区间指定步骤指定的似然取得区间中逐个选择在从该预定的选择时间长度的区间中开始的似然取得区间中上述似然最大的似然取得区间，从而选择上述推定区间的多个候补。