CN104900231B

CN104900231B - 语音检索装置以及语音检索方法

Info

Publication number: CN104900231B
Application number: CN201510098118.7A
Authority: CN
Inventors: 井手博康
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2014-03-05
Filing date: 2015-03-05
Publication date: 2018-12-28
Anticipated expiration: 2035-03-05
Also published as: JP5888356B2; US9437187B2; JP2015169699A; US20150255059A1; CN104900231A

Abstract

本发明提供一种语音检索装置以及语音检索方法。在本发明的语音检索装置中，检索字符串取得部(111)取得检索字符串。变换部(112)将检索字符串变换为音素列。时间长度导出部(113)导出与检索字符串对应的语音的发言时间长度。区间指定部(114)指定作为检索对象的语音信号中的似然度取得区间。似然度取得部(118)取得表示似然度取得区间是发出与检索字符串对应的语音的区间的似然性的似然度。重复部(119)改变区间指定部(114)指定的似然度取得区间，重复进行区间指定部(114)和似然度取得部(118)的处理。确定部(124)根据针对似然度取得区间分别取得的似然度，从作为检索对象的语音信号中确定被推定为发出与检索字符串对应的语音的推定区间。

Description

语音检索装置以及语音检索方法

本申请主张以2014年3月5日申请的日本专利申请特愿2014-42542为基础的优先权，将该基础申请的内容全部组合到本申请中。

技术领域

本发明涉及一种语音检索装置以及语音检索方法。

背景技术

近年来，伴随着语音、动画等多媒体内容的扩大、普及，要求高精度的多媒体检索技术。关于语音检索，研究了从语音中确定发出与所给出的检索词(查询)对应的语音的位置的语音检索技术。在语音检索中，由于语音识别的难度等特有的原因，与从字符串中确定包含希望的检索词的位置的字符串检索技术相比，还没有确立充分性能的检索方法。因此，研究了各种用于实现充分性能的语音检索的技术。

例如，非专利文献1(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping”，in Proc.ICASSP，2011，pp.5660～5663.)公开了将语音信号彼此高速地比较的方法。由此，能够从作为检索对象的语音信号中高速地确定与用语音输入的查询对应的位置。

但是，在非专利文献1中用语音输入查询，因此在作为检索对象的语音包含多个发言者的语音的情况下，有时特征与查询输入者的语音近似的发言者的发言优先。

另外，在查询输入者的语音在声音上特异的情况下，或查询输入者原本就难以发声的情况下，无法利用通过语音输入查询的方法。

发明内容

本发明用于解决上述那样的问题，其目的在于提供一种能够高精度并且高速地进行语音检索的语音检索装置以及语音检索方法。

为了达到上述目的，本发明的语音检索装置具备：

检索字符串取得单元，其取得检索字符串；

变换单元，其将上述检索字符串取得单元取得的检索字符串变换为音素列；

时间长度导出单元，其取得在上述变换单元变换而得的音素列中包含的各音素的持续长度，根据该取得的持续长度，导出与上述检索字符串对应的语音的发言时间长度；

区间指定单元，其指定作为检索对象的语音信号中的由上述时间长度导出单元导出的时间长度的区间即似然度取得区间；

似然度取得单元，其取得表示上述区间指定单元指定的似然度取得区间是发出与上述检索字符串对应的语音的区间的似然性的似然度；

重复单元，其改变上述区间指定单元指定的似然度取得区间，重复进行上述区间指定单元和上述似然度取得单元的处理；以及

确定单元，其根据上述似然度取得单元针对上述区间指定单元指定的似然度取得区间分别取得的似然度，从上述作为检索对象的语音信号中确定被推定为发出与上述检索字符串对应的语音的推定区间。

根据本发明，能够高精度并且高速地进行语音检索。

附图说明

图1是表示本发明的实施方式1的语音检索装置的物理结构的图。

图2是表示本发明的实施方式1的语音检索装置的功能结构的图。

图3(a)是作为检索对象的语音信号的波形图。图3(b)是表示在作为检索对象的语音信号中设定的帧的图。图3(c)是表示在作为检索对象的语音信号中指定的似然度计算区间的图。

图4是表示对输出概率进行下界化的例子的图。

图5是表示本发明的实施方式1的语音检索装置执行的语音检索处理的流程的流程图。

图6是表示确定与检索字符串对应的区间的处理的流程的流程图。

图7是表示本发明的实施方式2的语音检索装置执行的语音检索处理的流程的流程图。

图8是表示本发明的实施方式3的语音检索装置的功能结构的图。

具体实施方式

以下，参照附图说明本发明的实施方式。此外，在图中对相同或相当的部分赋予相同符号。

(实施方式1)

实施方式1的语音检索装置在物理上如图1所示那样构成。语音检索装置100具备ROM(只读存储器)1、RAM(随机存取存储器)2、外部存储装置3、输入装置4、输出装置5和CPU(中央处理单元)6。

ROM1存储用于进行各种初始设定、硬件的检查、程序的装载等的初始程序。RAM2暂时存储CPU6执行的各种软件程序、这些软件程序的执行所需要的数据等。

外部存储装置3例如是硬盘等，存储各种软件程序、数据等。在这些软件程序中包含应用软件程序、OS(操作系统)那样的基本软件程序等。

输入装置4例如是键盘等。输入装置4将用户使用键盘操作输入的文本数据等输入到CPU6。输出装置5例如具备液晶显示器等的画面、扬声器等。输出装置5将由CPU6输出的文本数据显示在画面上，从扬声器输出语音数据。

CPU6将存储在外部存储装置3中的软件程序读出到RAM2中，执行控制该软件程序，由此实现以下的功能结构。

语音检索装置100在功能上如图2所示那样构成。语音检索装置100具备语音信号存储部101、单音素模型(mono-phone model)存储部102、三音素模型(tri-phone model)存储部103、时间长度存储部104、检索字符串取得部111、变换部112、时间长度导出部113、区间指定部114、特征量计算部115、输出概率取得部116、置换部117、似然度计算部118、重复部119、选择部120、第二变换部121、第二输出概率取得部122、第二似然度计算部123、确定部124。在外部存储装置3的存储区域中构筑语音信号存储部101、单音素模型存储部102、三音素模型存储部103以及时间长度存储部104。

语音信号存储部101存储作为检索对象的语音信号。作为检索对象的语音信号例如是新闻广播等的语音、被录音的会议的语音、电影的语音等的语音信号。

单音素模型存储部102和三音素模型存储部103存储声音模型。对构成能够作为检索字符串而取得的字符串的各音素的频率特性进行模型化来得到声音模型。具体地说，单音素模型存储部102存储基于单音素(一个音素)的声音模型(mono-phone model)，三音素模型存储部103存储基于三音素(3个音素)的声音模型(tri-phone model)。

单音素模型是对每个音素生成的声音模型，是不依存于相邻的音素的、即将与前后的音素状态的状态转移固定化了的声音模型。三音素模型是对每3个音素生成的声音模型，是依存于相邻的音素的、即考虑到与前后的音素状态的状态转移的声音模型。语音检索装置100通过普通的方法学习单音素模型和三音素模型，分别预先存储在单音素模型存储部102和三音素模型存储部103中。

作为单音素模型和三音素模型，例如可以利用作为在普通的语音识别中利用的声音模型的HMM(Hidden Markov Model，隐马尔科夫模型)。HMM是用于通过统计的方法概率地从语音信号中推定成为输出该语音信号的基础的词汇的模型。HMM使用以表示时间性的状态波动的转移概率、输出从各状态输入的特征量的概率(输出概率)作为参数的标准模式。通过将用预定的加权系数加权后的高斯(正态)分布相加所得的混合高斯分布来表示该输出概率。

时间长度存储部104以各音素的状态为单位存储在声音模型中利用的各音素的平均持续长度。各音素的平均持续长度是发出各音素时的平均的时间长度。各音素的状态是指在时间方向上对各音素进行细分所得的单位，相当于声音模型的最小单位。对各音素预先确定了状态数。

以下，以对各音素确定的状态数是“3”的情况为例进行说明。例如，音素“a”被分为包含该音素的发言开始时的第一状态“a1”、作为中间状态的第二状态“a2”、包含发言结束时的第三状态“a3”这3个状态。在将在声音模型中利用的全部音素的个数设为Q的情况下，存在(3×Q)个状态。语音检索装置100针对(3×Q)个状态分别根据大量语音信号的数据计算持续长度的平均值，预先存储在时间长度存储部104中。

此外，为了提高检索精度，适合的是在与发出作为检索对象的语音信号的域(环境)相同的域中发出用于学习声音模型的语音信号、以及用于计算音素的平均持续长度的语音信号。例如，在检索对象是在会议室中录音的语音信号的情况下，适合的是使用在会议室中录音的语音信号学习声音模型，计算音素的平均持续长度。但是，也可以在与发出作为检索对象的语音信号的域不同的域中发出用于学习声音模型的语音信号、以及用于计算音素的平均持续长度的语音信号。

检索字符串取得部111取得检索字符串。检索字符串取得部111例如取得用户经由输入装置4输入的检索字符串。即，用户用字符串(文本)给出用于从作为检索对象的语音信号中检索发出目标语音的部分的检索词(查询)。

变换部112依照检索字符串取得部111取得的检索字符串，对不依存于相邻的音素的声音模型即单音素模型的音素进行排列，将检索字符串变换为音素列。即，变换部112按照与包含在检索字符串中的字符相同的顺序，排列对各字符发声时的音素(单音素)，由此将检索字符串变换为单音素音素列。

例如，在输入日语“ラーメン”作为检索字符串的情况下，“ラーメン”包含“r”、“a：”、“m”、“e”、“N”这5个音素(单音素)，因此变换部112生成音素列“r，a：，m，e，N”。或者，在输入了英语“cake”作为检索字符串的情况下，“cake”包含“k”、“e”、“i”、“k”这4个音素(单音素)，因此变换部112生成音素列“k，e，i，k”。

时间长度导出部113从时间长度存储部104取得在变换部112变换后的音素列中包含的各音素的平均持续长度。然后，根据取得的平均持续长度，导出与检索字符串对应的语音的发言时间长度。

即，语音检索装置100用字符串取得查询，因此无法直接得到与该查询对应的语音的发言时间长度的信息。因此，语音检索装置100预先在时间长度存储部104中对每个音素的状态准备发言时的典型的持续长度，使用每个状态的持续长度预测与检索字符串取得部111取得的检索字符串对应的语音的发言时间长度。

例如，在音素列是“r，a：，m，e，N”的情况下，时间长度导出部113针对这5个音素的3个状态分别取得存储在时间长度存储部104中的合计15个平均持续长度。然后，导出将取得的15个平均持续长度相加所得的时间长度作为与检索字符串对应的语音的发言时间长度。

区间指定部114从语音信号存储部101取得作为检索对象的语音信号，从作为检索对象的语音信号的开头开始按顺序地指定时间长度导出部113导出的时间长度的区间即似然度计算区间。似然度是表示与检索字符串对应的语音和指定的区间的语音信号之间的类似程度的指标。区间指定部114为了对从检索字符串变换所得的音素列和语音信号进行比较，而分割出所指定的似然度计算区间内的语音信号，使包含在分割出的语音信号中的各帧和包含在音素列中的各音素的状态对应起来。

帧是指语音信号中的具有预定时间长度的时间窗。具体地，参照图3说明在作为检索对象的语音信号中设定的帧。图3(a)是从开头到末尾的时间长度T的作为检索对象的语音信号的波形图。纵轴表示波形的振幅(能量)的大小，横轴表示时间t。图3(b)表示在图3(a)所示的语音信号中设定的帧。从第0帧到第(N-1)帧，逐次偏移预定的偏移长度S地设定帧长度为F的N个帧。

帧长度F和偏移长度S与在制作声音模型时设定的时间长度一致(例如帧长度F＝25毫秒(msec)，偏移长度S＝10毫秒(msec)等)。帧长度F比偏移长度S长，因此各帧与相邻的帧只重复时间长度(F-S)。

图3(c)表示在作为检索对象的语音信号中通过区间指定部114指定的似然度计算区间。区间指定部114首先指定包含从第0帧到第(M-1)帧的M个帧的时间长度L的第0似然度计算区间。

特征量计算部115针对每个帧计算区间指定部114指定的似然度计算区间中的作为检索对象的语音信号的特征量。例如通过组合在频率轴上对被称为倒频谱、梅尔频率倒频谱的语音数据进行变换所得的频率轴系特征参数、和通过计算语音数据的能量的平方和、其对数所得的功率系特征参数，而得到该特征量。

例如，将特征量构成为具有合计38个分量的38维向量量。该38维向量量，由频率轴系特征参数的12个分量(12维)、功率系特征参数的1个分量(1维)、Δ频率轴系特征参数的12个分量(12维)、Δ功率系特征参数的1个分量(1维)、ΔΔ频率轴系特征参数的12个分量(12维)构成。此外，Δ频率轴系特征参数的12个分量(12维)采用与上一个时间窗的各分量的差。另外，ΔΔ频率轴系特征参数的12个分量(12维)采用与上一个时间窗的各分量的差的差。

输出概率取得部116根据特征量计算部115计算出的特征量，对每个帧取得从包含在音素列中的各音素输出该特征量的输出概率。具体地说，输出概率取得部116从单音素模型存储部102取得单音素模型，对特征量计算部115计算出的各帧的特征量、与包含在音素列中的音素状态中的与该帧对应的状态的单音素模型进行比较。然后，计算从对应的状态输出各帧的特征量的概率。通过对多个高斯分布加权地相加所得的正态混合连续分布来表示该输出概率。

如果输出概率取得部116针对似然度计算区间中的全部帧取得输出概率，则置换部117将取得的输出概率分别置换为在包含该输出概率的连续多个帧中取得的多个输出概率中的值最大的输出概率。将该置换处理称为下界化。

具体地参照图4说明下界化。在图4中，实线表示对每个帧取得的输出概率。纵轴表示为越向下则输出概率的高度越高，横轴表示时间t。置换部117将各帧的输出概率置换为其前后n个帧中的最大的输出概率。例如将n设定为相当于100msec的帧数。置换的结果是将用实线表示的输出概率变换为如用虚线所示的LB(Lower-Bound：下界)化输出概率那样在时间方向上值的变化变小的输出概率。

通过这样的下界化，能够在前后n个帧的范围内吸收存储在时间长度存储部104中的各音素的平均持续长度和实际的持续长度之间的误差、以及与时间长度导出部113导出的检索字符串对应的语音的发言时间长度和实际的发言时间长度之间的误差。

似然度计算部118根据置换部117的置换后的输出概率，计算表示区间指定部114指定的似然度计算区间是发出与检索字符串对应的语音的区间的似然性的似然度。具体地说，似然度计算部118通过在似然度计算区间的从开头到末尾的全部帧中将取得置换后的输出概率的对数所得的值相加，来取得该似然度计算区间的似然度。即，越多地包含输出概率高的帧的似然度计算区间，则似然度计算部118计算出的似然度越大。

重复部119改变区间指定部114指定的似然度计算区间，重复进行区间指定部114、特征量计算部115、输出概率取得部116、置换部117以及似然度计算部118的处理。

如果具体地参照图3(c)进行说明，则重复部119使区间指定部114指定的似然度计算区间偏移1帧的量，新指定包含从第1帧到第M帧的M个帧的时间长度L的第一似然度计算区间。然后，在新指定的第一似然度计算区间中，执行与上述的从特征量计算部115到似然度计算部118的处理相同的处理，来计算第一似然度计算区间的似然度。

同样，重复部119从第二似然度计算区间到第(P-1)似然度计算区间，使区间指定部114指定的似然度计算区间每次偏移1帧，针对在作为检索对象的语音信号中能够指定的P个似然度计算区间分别计算似然度。其结果是针对作为检索对象的语音信号的每一个帧，计算假定为从该区间发出与检索字符串对应的语音的情况下的似然度。此外，使用语音信号的时间长度T和似然度计算区间的时间长度L和偏移长度S，将在作为检索对象的语音信号中能够指定的似然度计算区间的个数P确定为P＝(T-L+S)。

选择部120根据似然度计算部118计算出的似然度，从区间指定部114指定的似然度计算区间中选择被推定为发出与检索字符串对应的语音的推定区间的多个候选。即，选择部120为了抑制后级的基于三音素模型更高精度地计算似然度的计算量，从计算出似然度的P个似然度计算区间中预备地选择成为最终检索结果的候选的区间，从候选中排除剩余的似然度推定区间。

这时，区间指定部114指定的似然度计算区间具有多个重叠，因此时序地连续存在似然度大的区间的情况多。因此，如果选择部120从P个似然度计算区间中简单地从似然度大的区间起按顺序选择推定区间的候选，则选择的区间集中在作为检索对象的语音信号中的一部分的可能性变大。

为了避免该情况，选择部120从区间指定部114指定的似然度计算区间中，针对每个预定的选择时间长度，逐一地选择从该预定的选择时间长度的区间中开始的似然度计算区间中的似然度最大的似然度计算区间，由此选择推定区间的多个候选。例如将该预定的选择时间长度设定为如相当于似然度计算区间的时间长度L的1/k(例如1/2)的时间长度那样，比似然度计算区间的时间长度L短的时间。在该情况下，对每个时间长度(L/k)逐一地选择似然度计算区间作为候选，从候选中排除剩余。由此，选择部120能够在作为检索对象的语音信号整体中均匀地选择推定区间的候选。

从这样选择出的推定区间的候选中，选择部120从似然度大的区间起按顺序地再选择x个区间。经由输出装置5具备的画面向外部显示选择部120的选择结果。然后，语音检索装置100针对选择出的x个区间，执行基于三音素模型和动态计划法(DP(DynamicProgramming：动态编程)匹配)的更高精度的似然度计算处理。

第二变换部121依照检索字符串取得部111取得的检索字符串，对作为依存于相邻的音素的第二声音模型的三音素模型的音素进行排列，将检索字符串变换为作为第二音素列的三音素音素列。例如在输入了日语“ラーメン”作为检索字符串的情况下，“ラーメン”包含“r-a：+m”、“a：-m+e”、“m-e+N”3个三音素模型，因此第二变换部121生成排列了这3个三音素所得的三音素音素列。

第二输出概率取得部122针对每个帧取得从包含在第二变换部121变换后的第二音素列中的各音素输出由选择部120选择为推定区间的候选的区间中的作为检索对象的语音信号的特征量的输出概率。具体地说，第二输出概率取得部122从三音素模型存储部103取得三音素模型，对特征量计算部115计算出的各帧的特征量和包含在三音素音素列中的各三音素的模型进行比较。然后，计算从各三音素输出各帧的特征量的概率。

第二似然度计算部123针对选择部120选择出的多个候选，分别计算表示由选择部120选择为推定区间的候选的区间是发出与检索字符串对应的语音的区间的似然性的第二似然度。第二似然度根据作为第二音素列的三音素音素列计算，因此与似然度计算部118根据单音素音素列和下界化的输出概率计算出的似然度相比，是表示与检索字符串对应的语音和选择出的区间的语音信号之间的类似程度的更高精度的指标。

例如，第二似然度计算部123根据第二输出概率取得部122取得的输出概率，通过DP匹配来搜索选择部120选择出的区间中的各帧和包含在三音素音素列中的各三音素之间的对应。然后，通过将取得针对与选择部120选择出的区间中的各帧对应的三音素分别取得的输出概率的对数所得的值相加，得到该区间中的第二似然度。

确定部124根据第二似然度计算部123计算出的第二似然度，从选择部120选择出的多个候选中确定从作为检索对象的语音信号中推定为发出与检索字符串对应的语音的推定区间。例如，确定部124按照第二似然度计算部123计算出的第二似然度从大到小的顺序将预定个数的区间确定为推定区间。确定部124确定的区间的位置信息作为最终的检索结果，经由输出装置5具备的画面向外部显示。

参照图5所示的流程图说明以上那样的语音检索装置100执行的语音检索处理的流程。

如果检索字符串取得部111取得检索字符串(步骤S11)，则开始图5所示的流程图的处理。如果检索字符串取得部111取得检索字符串，则变换部112和第二变换部121将检索字符串变换为音素列(步骤S12)，按照音素列的音素顺序排列声音模型的音素(步骤S13)。具体地说，变换部112将检索字符串变换为基于单音素的单音素音素列，第二变换部121将检索字符串变换为基于三音素的三音素音素列。

如果将检索字符串变换为音素列，则时间长度导出部113导出与检索字符串对应的语音的发言时间长度(步骤S14)。具体地说，时间长度导出部113取得在时间长度存储部104中针对每个音素的状态存储的平均持续长度，将取得的平均持续长度相加，由此导出与检索字符串对应的语音的发言时间长度。

如果时间长度导出部113导出发言时间长度，则语音检索处理从作为检索对象的语音信号的开始到末尾，按顺序地指定所导出的发言时间长度的区间即似然度计算区间，转移到计算似然度的处理。首先，区间指定部114指定从作为检索对象的语音信号的开头帧开始的似然度计算区间(步骤S15)。

如果区间指定部114指定似然度计算区间，则特征量计算部115针对每个帧计算所指定的似然度计算区间的语音信号的特征量(步骤S16)。然后，输出概率取得部116根据特征量计算部115计算出的特征量和对应的单音素模型，对每个帧取得从包含在音素列中的各音素输出该特征量的输出概率(步骤S17)。

如果输出概率取得部116取得输出概率，则置换部117将对每个帧取得的输出概率置换为其前后n个帧中的最大的输出概率，由此执行下界化处理(步骤S18)。由此，吸收时间长度导出部113导出的发言时间长度和实际的发言时间长度之间的误差。

似然度计算部118取得下界化后的输出概率在对数轴上的和，由此计算区间指定部114指定的似然度计算区间的似然度(步骤S19)。如果似然度计算部118计算出似然度，则重复部119判定作为检索对象的语音信号的全部区间的似然度计算是否结束(步骤S20)。

在全部区间的似然度计算没有结束的情况下(步骤S20：否)，区间指定部114指定从上一个指定的帧的下一个帧开始的似然度计算区间(步骤S21)，语音检索处理返回到步骤S16。然后，重复部119针对新指定的似然度计算区间重复进行上述的步骤S16～S20的处理，计算似然度。这样，重复部119直到到达作为检索对象的语音信号的末尾为止，使区间指定部114指定的似然度计算区间逐帧地偏移，依次计算似然度。

最终，如果全部区间的似然度计算结束(步骤S20：是)，则语音检索处理转移到根据计算出的似然度确定与检索字符串对应的区间的处理(步骤S22)。参照图6所示的流程图说明该确定处理的细节。

在似然度计算处理结束的状态下，选择部120从区间指定部114指定的似然度计算区间中，针对每个预定的选择时间长度逐一地选择区间(步骤S101)。进而，选择部120从这样选择出的区间中，按照似然度从高到低的顺序选择x个区间(步骤S102)。即，选择部120从作为检索对象的语音信号的全体中预备地选择确定为最终检索结果的区间的候选，使得候选均匀地剩余。

在选择部120的预备选择后，第二输出概率取得部122根据三音素音素列，对每个帧取得选择部120选择出的区间中的输出概率(步骤S103)。然后，第二似然度计算部123通过DP匹配计算选择部120选择出的区间的似然度(步骤S104)。即，第二输出概率取得部122和第二似然度计算部123根据三音素模型和DP匹配，执行精度比输出概率取得部116和似然度计算部118高的似然度计算处理。

如果第二似然度计算部123计算出第二似然度，则确定部124根据计算出的第二似然度确定与检索字符串对应的区间(步骤S105)。例如，确定部124按照第二似然度计算部123计算出的第二似然度从大到小的顺序，将预定个数的区间确定为推定为发出与检索字符串对应的语音的区间。以上，图6所示的流程图的处理结束。

返回到图5所示的流程图的说明，如果确定与检索字符串对应的区间，则确定部124经由输出装置5输出确定结果(步骤S23)。通过以上步骤，语音检索装置100执行的语音检索处理结束。

如以上说明的那样，实施方式1的语音检索装置100用字符串(文本)取得检索词(查询)，从作为检索对象的语音信号中确定被推定为发出与查询对应的语音的区间。由于用字符串取得检索词，因此在作为检索对象的语音包含多个发言者的语音的情况、查询输入者的语音在声音上特异的情况、或查询输入者原本就难以发声等情况下，也能够高精度并且高速地进行语音检索。

另外，实施方式1的语言检索装置100首先通过进行使用了将状态转移固定化了的高速声音模型即单音素模型的计算量少的匹配，来预备选择被推定为发出与查询对应的语音的区间的候选。然后，语音检索装置100进行使用了考虑到状态转移的声音模型即三音素模型的计算量多并且高精度的匹配，由此得到最终的检索结果。其结果是语音检索装置100能够在抑制计算量的同时高精度地进行语音检索。

(实施方式2)

接着，说明本发明的实施方式2。

在实施方式1中，时间长度导出部113导出一个时间长度作为与检索字符串取得部111取得的一个检索字符串对应的语音的发言时间长度。另外，通过下界化在各音素的前后n帧的范围内吸收了时间长度导出部113导出的发言时间长度和实际的发言时间长度之间的误差。

但是，存在以下的问题，即在语速原本快或慢的情况下，导出的发言时间长度比实际的发言时间长度长或短，超过了前后n帧的范围。为了应对该问题，在实施方式2中，时间长度导出部113导出相互不同的多个时间长度作为与检索字符串取得部111取得的一个检索字符串对应的语音的发言时间长度。

为此，在实施方式2中，时间长度存储部104对各音素以状态为单位对应地存储在声音模型中利用的各音素的平均持续长度、比平均持续长度短的时间长度、比平均持续长度长的时间长度这3种时间长度。比平均持续长度长的时间长度例如是平均持续长度的1.3倍的时间长度。比平均持续长度短的时间长度例如是平均持续长度的0.7倍的时间长度。

即，实施方式2的语音检索装置100准备与快/普通/慢这3个语速对应的时间长度，作为各音素的每个状态的持续时间长度。由此，防止由于语速的不同而检索精度恶化。

参照图7所示的流程图说明实施方式2的语音检索装置100执行的语音检索处理的流程。

如果检索字符串取得部111取得检索字符串(步骤S31)，则开始图7所示的流程图的处理。如果检索字符串取得部111取得检索字符串，则变换部112和第二变换部121将检索字符串变换为音素列(步骤S32)，按照音素列的音素顺序排列声音模型的音素(步骤S33)。具体地说，变换部112将检索字符串变换为基于单音素的单音素音素列，第二变换部121将检索字符串变换为基于三音素的三音素音素列。

如果将检索字符串变换为音素列，则时间长度导出部113导出3个时间长度作为与检索字符串对应的语音的发言时间长度(步骤S34)。作为3个时间长度，第一，时间长度导出部113取得在时间长度存储部104中对每个状态存储的平均持续长度，将取得的平均持续长度相加，由此导出第一时间长度。第二，时间长度导出部113取得比在时间长度存储部104中对每个状态存储的平均持续长度短的时间长度，将取得的时间长度相加，由此导出第二时间长度。第三，时间长度导出部113取得比在时间长度存储部104中对每个状态存储的平均持续长度长的时间长度，将取得的时间长度相加，由此导出第三时间长度。

在比在时间长度存储部104中对每个状态存储的平均持续长度短的时间长度一律是平均持续长度的0.7倍的时间长度的情况下，第二时间长度为第一时间长度的0.7倍。在比在时间长度存储部104中对每个状态存储的平均持续长度长的时间长度一律是平均持续长度的1.3倍的时间长度的情况下，第三时间长度为第一时间长度的1.3倍。

如果时间长度导出部113导出3个时间长度作为发言时间长度，则语音检索处理从作为检索对象的语音信号的开始到末尾，顺序地指定导出的各时间长度的区间即似然度计算区间，转移到计算似然度的处理。首先，区间指定部114针对时间长度导出部113导出的3个时间长度，分别指定从作为检索对象的语音信号的开头帧开始的似然度计算区间(步骤S35)。

如果区间指定部114针对各时间长度指定似然度计算区间，则特征量计算部115针对每个帧计算指定的似然度计算区间的语音信号的特征量(步骤S36)。然后，输出概率取得部116根据特征量计算部115计算出的特征量和对应的单音素模型，对每个帧取得从包含在音素列中的各音素输出该特征量的输出概率(步骤S37)。

如果输出概率取得部116取得输出概率，则置换部117将对每个帧取得的输出概率置换为其前后n个帧中的最大的输出概率，由此执行下界化处理(步骤S38)。由此，吸收时间长度导出部113导出的发言时间长度和实际的发言时间长度之间的误差。

似然度计算部118取得下界化后的输出概率在对数轴上的和，由此计算区间指定部114针对3个时间长度分别指定的似然度计算区间的似然度(步骤S39)。如果似然度计算部118计算出似然度，则重复部119针对时间长度导出部113导出的各时间长度，判定作为检索对象的语音信号的全部区间的似然度计算是否结束(步骤S40)。

在全部区间的似然度计算没有结束的情况下(步骤S40：否)，针对时间长度导出部113导出的3个时间长度，分别由区间指定部114指定从上一个指定的帧的下一个帧开始的似然度计算区间(步骤S41)，语音检索处理返回到步骤S36。然后，重复部119针对各时间长度对新指定的似然度计算区间重复进行上述的步骤S36～S40的处理，计算似然度。这样，重复部119直到到达作为检索对象的语音信号的末尾为止，使区间指定部114指定的似然度计算区间逐帧地偏移，依次计算似然度。

最终，如果区间的似然度计算结束(步骤S40：是)，则语音检索处理转移到根据计算出的似然度确定与检索字符串对应的区间的处理(步骤S42)。该确定处理与参照图6的流程图说明的处理相同。

即，选择部120从区间指定部114针对3个时间长度分别指定的似然度计算区间中，针对每个预定的选择时间长度逐一地选择区间(步骤S101)。进而，选择部120从这样选择出的区间中按照似然度从高到低的顺序选择x个区间(步骤S102)。第二输出概率取得部122根据三音素音素列，对每个帧取得选择部120选择出的区间中的输出概率(步骤S103)。第二似然度计算部123通过DP匹配计算选择部120选择出的区间的似然度(步骤S104)。然后，确定部124根据计算出的第二似然度，确定被推定为发出与检索字符串对应的的语音的区间(步骤S105)。

如果确定与检索字符串对应的区间，则确定部124经由输出装置5输出确定结果(步骤S43)。通过以上步骤，语音检索装置100执行的语音检索处理结束。

如以上说明的那样，实施方式2的语音检索装置100导出与快/普通/慢的3个语速对应的3个时间长度，作为与检索字符串对应的语音的发言时间长度。然后，将分别与导出的3个时间长度相当的时间长度的区间指定为似然度计算区间，从指定的似然度计算区间中确定被推定为发出与检索字符串对应的语音的区间。其结果是能够减少由于语速的不同而似然度恶化，从候选中遗漏的情况，在针对与平均的语速有偏差的语音信号的语音检索中，也能够提高检索精度。

(实施方式3)

接着，说明本发明的实施方式3。

实施方式1和实施方式2的语音检索装置100在检索字符串取得部111取得了检索字符串后执行用于似然度的计算的输出概率的计算。但是，输出概率的计算是计算量多的处理。因此，实施方式3的语音检索装置，预先在预备选择与检索字符串对应的区间的候选时使用单音素模型计算输出概率，谋求检索时的高速化。以下进行说明。

实施方式3的语音检索装置与实施方式1的语音检索装置100同样地在物理上如图1所示那样构成。因此，在此省略详细的说明。

实施方式3的语音检索装置在功能上如图8所示那样构成。语音检索装置300不具备实施方式1和实施方式2的语音检索装置100所具备的单音素模型存储部102，代替它而具备输出概率存储部105。在外部存储装置3的存储区域中构筑输出概率存储部105。另外，与实施方式1和实施方式2的语音检索装置100相比，替换了各部的处理的顺序。以下，说明各部的细节。

输出概率存储部105对包含在作为检索对象的语音信号中的每个帧，对应地存储声音模型的各音素、从该各音素输出作为检索对象的语音信号的特征量的输出概率。声音模型是在预备选择时使用的单音素模型。例如，日语的单音素全部具有约40种音素。输出概率存储部105将针对向这40种音素追加了无音的1个音素的41个音素123状态预先计算作为检索对象的语音信号的从开头到末尾的全部帧的全部输出概率所得的结果存储为检索索引。

例如，如果假定用8字节的双精度(double)型保存每一个状态的输出概率，则可以用约960字节存储每一帧的输出概率。另一方面，如果基于16位PCM/16kHz采样的条件，将偏移长度S假定为10msec，则语音信号的容量对每一个偏移长度是320字节。因此，为了存储输出概率所需要的容量只是为了存储语音信号所需要的容量的最多3倍。

此外，可以由语音检索装置300执行使用单音素模型预先计算输出概率的处理。或者，也可以由其他信息处理装置计算输出概率，由语音检索装置300取得其结果，存储在输出概率存储部105中。

检索字符串取得部111取得检索字符串。检索字符串取得部111例如经由操作部12取得用户输入的检索字符串。变换部112依照检索字符串取得部111取得的检索字符串对不依存于相邻的音素的声音模型即单音素模型的音素进行排列，将检索字符串变换为音素列。

如果变换部12将检索字符串变换为音素列，则输出概率取得部116从存储在输出概率存储部105中的输出概率中取得与包含在该音素列中的各音素对应地存储的输出概率。具体地说，输出概率取得部116从对每帧存储的单音素模型的全部音素的输出概率中，针对作为检索对象的语音信号的全部帧取得检索所需要的音素的输出概率。

如果输出概率取得部116取得输出概率，则置换部117针对取得的输出概率执行下界(Lower-Bound)化处理。即，置换部117将针对作为检索对象的语音信号的全部帧取得的输出概率置换为在连续的多个帧中取得的多个输出概率中的值最大的输出概率。

时间长度导出部113从时间长度存储部104取得包含在变换部112变换后的音素列中的各音素的平均持续长度。然后，根据取得的平均持续长度，导出与检索字符串对应的语音的发言时间长度。区间指定部114从作为检索对象的语音信号的开头开始按顺序地指定时间长度导出部113导出的时间长度的区间即似然度计算区间。

似然度计算部118根据置换部117的置换后的输出概率，计算表示区间指定部114指定的似然度计算区间是发出与检索字符串对应的语音的区间的似然性的似然度。具体地说，似然度计算部118确定区间指定部114指定的似然度计算区间中的各帧、包含在音素列中的音素的状态中的与该帧对应的状态的置换后的输出概率。然后，通过在似然度计算区间的从开头到末尾的全部帧中将取所确定的输出概率的对数而得的值相加，得到该似然度计算区间的似然度。

重复部119使区间指定部114指定的似然度计算区间每次偏移1帧，重复进行区间指定部114、似然度计算部118的处理。然后，针对在作为检索对象的语音信号中能够指定的似然度计算区间分别计算似然度。

选择部120根据似然度计算部118计算出的似然度，从区间指定部114指定的似然度计算区间中，选择被推定为发出与检索字符串对应的语音的推定区间的多个候选。经由输出装置5所具备的画面向外部显示选择部120的选择结果。然后，语音检索装置300针对选择出的x个区间，执行基于三音素模型和DP匹配的更高精度的似然度计算处理。

特征量计算部115从语音信号存储部101取得作为检索对象的语音信号，对每个帧计算作为检索对象的语音信号的特征量。第二变换部121依照检索字符串取得部111取得的检索字符串，对作为依存于相邻的音素的第二声音模型的三音素模型的音素进行排列，将检索字符串变换为作为第二音素列的三音素音素列。

第二输出概率取得部122从三音素模型存储部103取得三音素模型，对每个帧取得从包含在第二变换部121变换后的三音素音素列中的各音素输出选择部120选择为推定区间的候选的区间中的作为检索对象的语音信号的特征量的输出概率。

第二似然度计算部123针对选择部120选择出的多个候选分别计算表示由选择部120选择为推定区间的候选的区间是发出与检索字符串对应的语音的区间的似然性的第二似然度。

例如，第二似然度计算部123根据第二输出概率取得部122取得的输出概率，通过DP匹配来搜索选择部120选择出的区间中的各帧和包含在三音素音素列中的各三音素之间的对应。然后，通过将取针对与选择部120选择出的区间中的各帧对应的三音素分别取得的输出概率的对数所得的值相加，而得到该区间中的第二似然度。

确定部124根据第二似然度计算部123计算出的第二似然度，从选择部120选择出的多个候选中，确定被推定为从作为检索对象的语音信号中发出与检索字符串对应的语音的推定区间。例如，确定部124按照第二似然度计算部123计算出的第二似然度从大到小的顺序将预定个数的区间确定为推定区间。确定部124所确定的区间的位置信息作为最终的检索结果，经由输出装置5具备的画面向外部显示。

如以上说明的那样，实施方式3的语音检索装置300在预备选择的似然度计算时不计算输出概率，而预先计算作为检索对象的语音信号全体的输出概率，保存为检索索引。然后，在检索时，语音检索装置300利用该检索索引预备选择最终结果的候选，只针对作为候选而剩下的区间，使用包含在检索字符串中的三音素音素来计算输出概率。其结果是能够高速地进行语音检索。

此外，如果能够作为预先具备用于实现本发明的功能的结构的语音检索装置来提供，则也能够通过程序的应用而使现有的个人计算机、信息终端设备等作为本发明的语音检索装置发挥功能。即，通过以由控制现有的个人计算机、信息终端设备等的CPU等能够执行用于实现在上述实施方式中例示的语音检索装置100、300的各功能结构的程序的方式来应用，能够使其作为本发明的语音检索装置发挥功能。另外，能够使用语音检索装置实施本发明的语音检索方法。

另外，这样的程序的应用方法是任意的。例如，可以将程序存储在计算机可读取的记录介质(CD-ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc：磁光盘)等)中来应用。另外，也可以将程序存储在因特网等网络上的存储装置中，通过下载它来应用。

Claims

1.一种语音检索装置，其特征在于，具备：

检索字符串取得单元，其取得检索字符串；

确定单元，其根据上述似然度取得单元针对上述区间指定单元指定的似然度取得区间分别取得的似然度，从上述作为检索对象的语音信号中确定被推定为发出与上述检索字符串对应的语音的推定区间；

其中，上述语音检索装置还具备：输出概率取得单元，其对每个帧取得从包含在上述音素列中的各音素输出上述作为检索对象的语音信号的特征量的输出概率，

上述似然度取得单元根据上述输出概率取得单元在上述区间指定单元指定的似然度取得区间中取得的输出概率，取得该似然度取得区间的上述似然度。

2.根据权利要求1所述的语音检索装置，其特征在于，

上述输出概率取得单元对包含在上述似然度取得区间的多个帧的每一个取得从包含在上述音素列中的各音素输出上述作为检索对象的语音信号的特征量的输出概率，

上述似然度取得单元根据上述输出概率取得单元在上述区间指定单元指定的似然度取得区间中取得的上述多个帧的每一个的输出概率，取得该似然度取得区间的上述似然度。

3.根据权利要求2所述的语音检索装置，其特征在于，

还具备：特征量计算单元，其对每个帧计算上述区间指定单元指定的似然度取得区间中的上述作为检索对象的语音信号的特征量，

上述输出概率取得单元根据上述特征量计算单元计算出的特征量，取得与包含在上述似然度取得区间且区间相互重复的多个帧的每一个对应的上述输出概率。

4.根据权利要求2所述的语音检索装置，其特征在于，

还具备：输出概率存储单元，其对包含在上述作为检索对象的语音信号中的每个帧，对应地存储声音模型的各音素、从该各音素输出上述作为检索对象的语音信号的特征量的输出概率，

如果上述变换单元将上述检索字符串变换为上述音素列，则上述输出概率取得单元从存储在上述输出概率存储单元中的输出概率中取得与包含在该音素列中的各音素对应地存储的输出概率。

5.根据权利要求2所述的语音检索装置，其特征在于，

还具备：置换单元，其将上述输出概率取得单元对每个帧取得的输出概率分别置换为在包含该输出概率的连续的多个帧中取得的多个输出概率中的值最大的输出概率，

上述似然度取得单元根据上述置换单元的置换后的输出概率，取得上述区间指定单元指定的似然度取得区间的上述似然度。

6.根据权利要求2所述的语音检索装置，其特征在于，

上述变换单元对不依存于相邻的音素的声音模型的音素进行排列，将上述检索字符串变换为上述音素列，

上述似然度取得单元根据上述音素列，取得上述区间指定单元指定的似然度取得区间的上述似然度，

所述语音检索装置还具备：

选择单元，其根据上述似然度取得单元取得的似然度，从上述区间指定单元指定的似然度取得区间中选择上述推定区间的多个候选；

第二变换单元，其对依存于相邻的音素的第二声音模型的音素进行排列，将上述检索字符串变换为第二音素列；以及

第二似然度取得单元，其根据上述第二音素列，针对上述选择单元选择出的多个候选分别取得表示上述选择单元选择为上述推定区间的候选的区间是发出与上述检索字符串对应的语音的区间的似然性的第二似然度，

上述确定单元根据上述第二似然度取得单元取得的第二似然度，从上述选择单元选择出的多个候选中确定上述推定区间。

7.根据权利要求6所述的语音检索装置，其特征在于，

上述选择单元，针对每个预定的选择时间长度，在该预定的选择时间长度的区间中包含的似然度取得区间中，逐一地选择上述似然度最大的似然度取得区间，由此选择上述推定区间的多个候选。

8.根据权利要求1所述的语音检索装置，其特征在于，

上述时间长度导出单元导出相互不同的多个时间长度，作为与上述检索字符串取得单元取得的一个检索字符串对应的语音的发言时间长度，

上述区间指定单元针对上述多个时间长度分别指定上述作为检索对象的语音信号中的由上述时间长度导出单元导出的时间长度的区间即似然度取得区间，

上述似然度取得单元取得上述区间指定单元针对上述多个时间长度分别指定的似然度取得区间的上述似然度，

上述确定单元根据上述似然度取得单元取得的似然度，从上述区间指定单元针对上述多个时间长度分别指定的似然度取得区间中确定上述推定区间。

9.一种语音检索方法，其特征在于，具备：

取得检索字符串的检索字符串取得步骤；

将在上述检索字符串取得步骤中取得的检索字符串变换为音素列的变换步骤；

取得在上述变换步骤中变换而得的音素列中包含的各音素的持续长度，根据该取得的持续长度，导出与上述检索字符串对应的语音的发言时间长度的时间长度导出步骤；

指定作为检索对象的语音信号中的由上述时间长度导出单元导出的时间长度的区间即似然度取得区间的区间指定步骤；

取得表示在上述区间指定步骤中指定的似然度取得区间是发出与上述检索字符串对应的语音的区间的似然性的似然度的似然度取得步骤；

改变在上述区间指定步骤中指定的似然度取得区间，重复进行上述区间指定步骤和上述似然度取得步骤的处理的重复步骤；以及

根据上述似然度取得步骤针对在上述区间指定步骤中指定的似然度取得区间分别取得的似然度，从上述作为检索对象的语音信号中确定被推定为发出与上述检索字符串对应的语音的推定区间的确定步骤；

其中，上述语音检索方法还具备：针对每个帧取得从包含在上述音素列中的各音素输出上述作为检索对象的语音信号的特征量的输出概率的输出概率取得步骤，

在上述似然度取得步骤中，根据上述输出概率取得步骤在上述区间指定步骤中指定的似然度取得区间中取得的输出概率，取得该似然度取得区间的上述似然度。

10.根据权利要求9所述的语音检索方法，其特征在于，

在上述输出概率取得步骤中，还对包含在上述似然度取得区间的多个帧的每一个取得从包含在上述音素列中的各音素输出上述作为检索对象的语音信号的特征量的输出概率，

在上述似然度取得步骤中，根据上述输出概率取得步骤在上述区间指定步骤中指定的似然度取得区间中取得的上述多个帧的每一个的输出概率，取得该似然度取得区间的上述似然度。

11.根据权利要求10所述的语音检索方法，其特征在于，

还具备：针对每个帧计算在上述区间指定步骤中指定的似然度取得区间中的上述作为检索对象的语音信号的特征量的特征量计算步骤，

在上述输出概率取得步骤中，根据上述特征量计算步骤计算出的特征量，取得与包含在上述似然度取得区间且区间相互重复的多个帧的每一个对应的上述输出概率。

12.根据权利要求10所述的语音检索方法，其特征在于，

还具备：对包含在上述作为检索对象的语音信号中的每个帧，对应地存储声音模型的各音素、从该各音素输出上述作为检索对象的语音信号的特征量的输出概率的输出概率存储步骤，

在上述输出概率取得步骤中，如果上述变换步骤将上述检索字符串变换为上述音素列，则从在上述输出概率存储步骤中存储的输出概率中取得与包含在该音素列中的各音素对应地存储的输出概率。

13.根据权利要求10所述的语音检索方法，其特征在于，

还具备：将在上述输出概率取得步骤中针对每个帧取得的输出概率分别置换为在包含该输出概率的连续的多个帧中取得的多个输出概率中的值最大的输出概率的置换步骤，

在上述似然度取得步骤中，根据上述置换步骤的置换后的输出概率，取得上述区间指定步骤指定的似然度取得区间的上述似然度。

14.根据权利要求10所述的语音检索方法，其特征在于，

在上述变换步骤中，对不依存于相邻的音素的声音模型的音素进行排列，将上述检索字符串变换为上述音素列，

在上述似然度取得步骤中，根据上述音素列，取得在上述区间指定步骤中指定的似然度取得区间的上述似然度，

所述语音检索方法还具备：

根据在上述似然度取得步骤中取得的似然度，从在上述区间指定步骤中指定的似然度取得区间中选择上述推定区间的多个候选的选择步骤；

对依存于相邻的音素的第二声音模型的音素进行排列，将上述检索字符串变换为第二音素列的第二变换步骤；以及

根据上述第二音素列，针对在上述选择步骤中选择出的多个候选分别取得表示上述选择步骤选择为上述推定区间的候选的区间是发出与上述检索字符串对应的语音的区间的似然性的第二似然度的第二似然度取得步骤，

上述确定步骤根据上述第二似然度取得步骤取得的第二似然度，从在上述选择步骤中选择出的多个候选中确定上述推定区间。

15.根据权利要求14所述的语音检索方法，其特征在于，

在上述选择步骤中，针对每个预定的选择时间长度，在该预定的选择时间长度的区间中包含的似然度取得区间中，逐一地选择上述似然度最大的似然度取得区间，由此选择上述推定区间的多个候选。

16.根据权利要求9所述的语音检索方法，其特征在于，

在上述时间长度导出步骤中，导出相互不同的多个时间长度，作为与上述检索字符串取得步骤取得的一个检索字符串对应的语音的发言时间长度，

在上述区间指定步骤中，针对上述多个时间长度分别指定上述作为检索对象的语音信号中的由上述时间长度导出步骤导出的时间长度的区间即似然度取得区间，

在上述似然度取得步骤中，取得上述区间指定步骤针对上述多个时间长度分别指定的似然度取得区间的上述似然度，

在上述确定步骤中，根据上述似然度取得步骤取得的似然度，从在上述区间指定步骤中针对上述多个时间长度分别指定的似然度取得区间中确定上述推定区间。