CN101441649A

CN101441649A - 声音数据检索系统

Info

Publication number: CN101441649A
Application number: CNA2008101777905A
Authority: CN
Inventors: 佐川浩彦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-11-21
Filing date: 2008-11-20
Publication date: 2009-05-27
Anticipated expiration: 2028-11-20
Also published as: US8150678B2; US20090132251A1; JP4887264B2; JP2009128508A; CN101441649B

Abstract

本发明提供一种声音数据检索系统，即使在声音数据成为大规模的情况下，也可以从声音数据中高速且高精度地检索发声了用户所指定的关键字的位置。通过根据从关键字生成的子词串预先确定候补区间，并且对包括子词的候补区间的计数值进行加法运算这样的单纯的处理，对候补区间进行排序，选择成为检索结果的候补区间。另外，对从关键字生成的子词串进行假想了声音识别的误识别的校正，根据校正后的子词串进行候补区间的生成以及选择。

Description

声音数据检索系统

技术领域

本发明涉及从声音数据中检索发声了用户所指定的关键字的位置，并向用户提示检索结果的声音数据检索系统。

背景技术

作为从声音数据中检索发声了用户所指定的关键字的位置的技术，提出了日本特开2002-221984号公报、日本特开2002-278579号公报以及日本特开2005-257954号公报的技术。

在日本特开2002-221984号公报中，在将声音数据以及关键字变换成子音素序列之后，通过利用动态规划法的词定位技术，从自声音数据变换而得到的字音素序列中搜索从关键字变换而得到的子音素序列。在日本特开2002-278579号公报中，在将声音数据以及检索语变换成声音符号串之后，使用全文检索系统检测候补声音区间，进而在候补声音区间中进行词定位声音识别，从而决定检索结果。在日本特开2005-257954号公报中，根据通过音素的出现频度的统计决定的展开规则，生成将从关键字生成的音素串、音节串中的音素置换而得到的新音素串、音节串，通过对它们与检索对象的音素串、音节串进行对照而进行检索。

另外，作为更一般的数据序列的检索技术，提出了日本特开2001-125903号公报的方法。在日本特开2001-125903号公报中，通过以数据单位分类参照数据序列，而制成所类似的数据集合。在提供了查询的数据序列的情况下，选择与查询中的各数据类似的数据集合，针对所选择出的数据集合中的各数据，在参照数据序列的时间轴上的对应位置处考虑时间顺序关系而进行投票，从而制成直方图，将直方图所连续的区间设为检索结果。

专利文献1：日本特开2002-221984号公报

专利文献2：日本特开2002-278579号公报

专利文献3：日本特开2005-257954号公报

专利文献4：日本特开2001-125903号公报

发明内容

上述以往技术是以从声音数据、数据序列高速且高精度地检索与用户所指定的关键字、数据序列对应的位置为目的的技术。但是，在上述以往技术中，在声音数据、数据序列成为大规模的情况下，产生问题。

例如在日本特开2002-221984号公报的技术中，在将声音数据以及关键字变换成子音素序列之后，使用动态规划法进行检索。子音素序列是记号，所以在与基于声音的韵律参数的检索技术相比时，可以实现高速的检索，但由于进行还考虑了时间的伸缩的详细比较，所以如果成为检索对象的声音数据量成为大规模，则无法忽略该检索时间。

在日本特开2002-278579号公报的技术中，通过使用文本检索中使用的全文检索技术，实现高速的候补确定。但是，在使用了全文检索技术的情况下，仅将在成为对象的声音数据中是否包含有构成检索语的声音符号设为判定基准，所以例如在声音数据中的声音符号的顺序不同的情况下也被检索成候补的情况较多。另外，成为检索对象的声音数据(候补声音区间)的长度越长，在实际上发声了检索语的位置以外出现构成检索语的声音符号的可能性越高，检测出多余的候补的比率也变高。进而，在全文检索技术中，由于难以详细地判定声音数据中的检索语的位置，所以在之后进行的词定位处理中所需的时间也无法忽略。这样，如果成为检索对象的声音数据量成为大规模，则使用了全文检索技术的方式也产生检索时间的问题。

另外，在日本特开2001-125903号公报中，在直方图生成中可以期待高速的处理，但为了检测连续区间，需要确认所有成为检索对象的数据序列上的时间轴，所以在成为检索对象的声音数据量成为大规模的情况下，仍产生检索时间的问题。

另一方面，为了将声音数据变换成子音素串或声音符号串、音素串、音节串等而使用了声音识别技术，但一般存在在声音识别技术中发生误识别这样的问题。在日本特开2002-221984号公报以及日本特开2005-257954号公报中，提高了假想了误识别的检索精度。在日本特开2002-221984号公报中，通过预先定义子音素串间的距离而解决误识别，但由于仅定义代表性的子音素彼此的距离，所以在发生了误识别的情况下难以说是充分的。另一方面，在日本特开2005-257954号公报中，通过对统计性地求出的误识别的易于发生性进行规则化，并使用将从检索语生成的声音符号串中的声音符号置换而生成的声音符号串执行检索，提高检索精度。但是，对通过各种置换生成的声音符号串分别执行检索，并综合其结果，所以检索时间与所生成的声音符号串的数量成比例地增大，所以可以生成的声音符号串的数量存在限制。

为了解决以上问题，而从大规模的声音数据高速且高精度地检索发声了用户所指定的关键字的声音数据中的位置，在本发明中，首先，使用声音识别技术将声音数据变换成音素、音节或音素n-gram等子词串，并且将各子词与子词在声音数据中的位置的对应关系记录成子词-声音数据对应表。

接下来，在用户指定了关键字的情况下，从关键字生成子词串，从子词-声音数据对应表取得处于子词串的开头的子词在声音数据中的位置。生成将所取得的声音数据中的位置设为开始时刻，将根据从关键字生成的子词串的长度决定的时间设为区间长的区间，而作为候补区间。通过对所生成的候补区间中的子词串或韵律参数与从关键字生成的子词串或韵律参数进行比较，而决定作为检索结果输出的候补区间。

此处，预先准备假想了作为声音误识别的置换、删除或插入的校正规则，并根据校正规则，对从关键字生成的子词串中的子词实施假想了声音误识别的校正。校正后的结果，针对存在成为子词串的开头的可能性的所有子词，生成候补区间。

另外，在选择作为检索结果输出的候补区间时，针对从关键字生成的子词串中的各子词，检索包括子词的候补区间，进行对所检索出的候补区间分配的计数值的加法运算。在针对从关键字生成的子词串中的所有子词，进行了相应的候补区间的计数值的加法运算之后，根据计数值对候补区间进行排序，并根据其结果选择作为检索结果输出的候补区间。

根据本发明，通过根据从关键字生成的子词串预先确定候补区间，并且对包括子词的候补区间的计数值进行加法运算这样的单纯的处理，对候补区间进行排序，从而选择成为检索结果的候补区间，所以可以进行高速的声音数据的检索。另外，在对从关键字生成的子词串进行了假想了声音数据的误识别的校正之后，通过进行候补区间的生成，可以进行高精度的声音数据的检索。

附图说明

图1是示出应用了本发明的第一实施例中的声音数据检索系统的结构例的概念框图。

图2是在计算机上实现应用了本发明的第一实施例中的声音数据检索系统时的结构图。

图3是示出子词-声音数据对应表中存储的信息的形式的图。

图4是示出从关键字向子词串的变换结果的一个例子的图。

图5是示出子词-声音数据对应表中存储的信息的一个例子的图。

图6是示出生成候补区间的处理流程的图。

图7是示出所生成的候补区间的内容的一个例子的图。

图8是示出所生成的候补区间与包含在其中的子词的时间位置关系的一个例子的图。

图9是示出候补区间的计数值伴随处理进展而变化的情况的图。

图10是示出应用了本发明的第二实施例中的声音数据检索系统的结构例的概念框图。

图11是在计算机上实现应用了本发明的第二实施例中的声音数据检索系统时的结构图。

图12是示出对子词串进行了校正后的状态的一个例子的图。

图13是示出在对子词串进行了校正的情况下生成的候补区间的内容的一个例子的图。

图14是示出在候补区间中设置了存储2种计数值的区域时的候补区间的内容的一个例子的图。

图15是示出在候补区间中设置了存储前一处理中的子词的开始位置的区域时的候补区间的内容的一个例子的图。

图16是示出与计数值的加法运算相伴的子词的开始位置处存储的值的变化的一个例子的图。

图17是示出应用了本发明的第四实施例中的声音数据检索系统的结构例的图。

标号说明

101 声音数据

102 声音识别部

103 子词-声音数据对应表

104 关键字

105 子词串变换部

106 候补区间生成部

107 子词计数部

108 候补区间选择部

109 结果输出部

110 监视器

111 扬声器

1001 子词串校正部

1002 校正规则

具体实施方式

以下，对本发明的实施方式进行说明。

(实施例1)

参照图1～图9对本发明的第一实施例进行说明。

图1是示出本发明的第一实施例的声音数据检索系统的结构例的概念框图。在图1中，101为作为检索对象的声音数据，假定成是对从所录像的TV节目中抽取的声音、会议/演讲等录音声音进行数据化而制成的。声音数据是对每个TV节目、每个演讲进行文件化并进行记录而得到的。

102为用于将声音数据变换成音素、音节n-gram等子词的声音识别部，可以将公知的声音识别技术用作用于将声音变换成文字的技术。作为声音识别技术，虽然还存在可以直接输出作为目的的子词的技术，但在使用了输出文字的技术的情况下，通过进而组合词素解析技术等公知的自然语言处理技术，可以容易地得到子词。进而，在本发明的声音识别部102中，制成表示从声音数据得到的子词与声音数据的对应关系的信息，并存储到子词-声音数据对应表103。

104为用户所输入的关键字，用于从声音数据101中检索发声了该关键字的位置。作为关键字的形式，设为从键盘输入的字符串、或者从麦克风输入的声音中的任意一个。子词串变换部105将关键字104变换成子词串。在关键字为字符串的情况下，通过使用公知的自然语言处理技术，可以容易地变换成子词串。另外，在可以预先预测关键字的情况下，通过准备关键字与子词串的对应表，并对其进行检索，可以容易地取得子词串。另外，在关键字为声音的情况下，与将声音数据101变换成子词的情况同样地，通过使用公知的声音识别技术，可以容易地变换成子词串。

在图1中，候补区间生成部106根据从关键字104得到的子词串以及子词-声音数据对应表的内容，生成被预测成存在发声关键字104的可能性的声音数据上的区间即候补区间。进而，在子词计数部107中，根据子词-声音数据对应表的内容，对从关键字104得到的子出串中的子词包含在各自的候补区间中的数量进行计数。在候补区间选择部108中，根据子词计数部107中的计数结果，对候补区间进行排序，进行作为结果输出的候补区间的选择。在结果输出部109中，在监视器110上显示由候补区间选择部108选择出的候补区间的信息，并且向扬声器111输出与候补区间对应的声音。

图2是在一般使用的计算机上实现图1所示的声音数据检索系统时的结构图。图2中的201是用于执行声音数据的检索中所需的各种程序的信息处理装置。202是用于输入图1中的关键字104的输入装置，在关键字为字符串的情况下可以使用键盘，在关键字为声音的情况下可以使用麦克风。显示装置203是用于输出检索结果的装置，对应于图1中的监视器110、扬声器111。在图2中，204是用于存储声音数据检索中所需的各种程序、与处理的中间过程相关的信息的存储装置。205是用于进行与图1中的声音识别部102对应的处理的声音识别程序，206是用于进行与子词串变换部105对应的处理的子词串变换程序，207是用于进行与候补区间生成部106对应的处理的候补区间生成程序，208是用于进行与子词计数部107对应的处理的子词计数程序，209是进行与候补区间选择部108对应的处理的候补区间选择程序，210是进行与结果输出部109对应的处理的结果输出程序。进而，声音数据211、子词-声音数据对应表212分别对应于图1中的101、103。

使用图3对存储在子词-声音数据对应表103中的信息的形式进行说明。从声音识别部102输出的信息为对存储在声音数据101中的各声音数据进行声音识别而得到的子词串，对各子词附加有表示声音数据中的位置的信息、例如从声音数据的开始起测量的时间、表示以预定的时间长分割声音数据时的第几个分割的数值等。可以通过公知的声音识别技术容易地取得各子词在声音数据中的位置。在声音识别部102中，根据从声音数据得到的子词的信息，以图3的形式存储子词与声音数据上的位置的对应关系而作为子词-声音数据对应表103。

在图3中，子词名310是表示成为对象的子词的名称的字符串，登记数302是与成为对象的子词对应的声音数据上的位置所相关的信息的数量，声音数据名303以及305是表示识别到成为对象的子词的声音数据的名称的字符串，304以及306是表示成为对象的子词的声音数据上的开始位置的数值。利用该子词-声音数据对应表，可以容易地发现在哪个声音数据的哪个位置处识别到各子词。在图3中，仅记录了子词的开始位置，但还可以记录结束位置。

接下来，使用图4至图7，对候补区间生成部106的处理进行说明。图4示出将用户所输入的关键字“speech recognition”在子词串变换部105中变换成子词串的情况。此处，为便于说明，示出了子词为音素的情况。在以下说明中，也设成子词为音素而进行说明，但即使在音节、音素n-gram等的情况下，仅仅子词的记载不同，而本质上没有差异。

在图4中，401为用户所输入的关键字，402为从关键字生成的子词串。关于从关键字向子词串的变换，可以使用公知的自然语言处理技术，或者可以预先准备关键字与子词串的对应表，并通过参照该对应表来进行。

图5是示出子词-声音数据对应表103的一个例子的图。在图5中，501表示子词“s”，502表示子词“p”，503表示子词“_I：”，504表示关于子词“t∫”登记的信息的一部分。例如如果观察子词“s”，则可知登记数为Ns个，在声音数据D1的开始位置t1、声音数据D1的开始位置t2、声音数据D2的开始位置t3、...识别成子词“s”。

图6示出候补区间生成部106中的处理流程图。在候补区间生成部106中，首先在步骤601中，从将用户所输入的关键字变换成子词串的结果，选择位于开头的子词。在用户所输入的关键字设为图4所示的关键字的情况下，选择出子词“s”。接下来在步骤602中，从子词-声音数据对应表103取得与在步骤601中选择的子词相关的信息。如果子词-声音数据对应表的内容设为图5，则此处取得与子词“s”对应的信息即501的内容。在步骤603中，判定针对在步骤602中取得的信息中包含的所有位置信息，是否已进行了以下处理。在针对所有位置信息的处理完成的情况下，结束候补区间生成部的处理。否则，进入到步骤604。

在步骤604中，从在步骤602中取得的信息，选择一个子词的位置信息。在子词-声音数据对应表103的形式为图3所示的形式的情况下，选择声音数据名与开始位置的组而作为位置信息。在步骤605中，将所选择出的位置信息设为候补区间的开始位置，将从该处起离开预定长度的位置设为候补区间的结束位置。此处，作为结束位置的决定方法，当将开始位置设为T1，将从用户所输入的关键字生成的子词串中的子词数设为N，将子词的平均时间长设为L，将结束位置设为T2时，可以利用下式来决定。

T2＝T1+N×L

通过预先准备几个采样声音数据，并从它们的识别结果合计子词的时间长，可以容易地求出子词的平均时间长。另外，不仅仅使用子词数来决定，例如还可以使用作为声音长度的单位的莫拉(mora)，通过关键字的莫拉数与1莫拉的平均时间长之积，求出候补区间的时间长。通过准备子词与莫拉的关系而作为规则，利用子词串可以容易地求出莫拉数。最后在步骤606中，登记与通过步骤605决定的候补区间相关的信息，返回到步骤603。

以图7所示的形式存储通过以上处理登记的候补区间的信息。在图7中，区间序号701为对候补区间附加的序号，是按照所登记的顺序附加的连续序号。区间序号只要是用于识别各候补区间的记号、数值，则可以是任意的。声音数据名702为包含有候补区间的声音数据的名称，直接登记从子词-声音数据对应表103取得的信息。开始位置703为候补区间的开始位置，其也直接登记从子词-声音数据对应表103取得的信息。结束位置704为在图6的步骤605中决定的候补区间的结束位置。计数值705为用于对子词的数量进行计数的区域，作为初始值而代入0。在图5的501中示出了3个位置信息，所以在图7中，登记有与各个位置信息对应的候补区间706、707以及708。另外，在候补区间706、707以及708中，结束位置成为下式。

t1’＝t1+N×L

t2’＝t2+N×L

t3’＝t3+N×L

此处，与上述同样地，N为从关键字生成的子词串中的子词数，L为子词的平均时间长。

接下来，使用图8以及图9，对图1中的子词计数部107的处理进行说明。此处，注目于与声音数据D1相关的子词的信息，图5中的t1、t2、t4、t7、t8、t9以及图7中的t1’、t2’的时间关系为图8所示的关系。在该情况下，成为对象的候补区间仅为图7中的706以及707。在图8中，801对应于图7中的区间信号1，802对应于用区间序号2表示的候补区间。在子词计数部107中，针对从关键字生成的子词串中的子词，依次检查子词是否包含在候补区间中，在包含的情况下反复对计数值进行加1这样的处理。

图9示出针对图4所示的子词串的“sp_I：t∫”的部分进行该处理时的计数值的变化。图9(a)是开始处理前的状态，901以及902与图7中的706以及707同样地是计数值为0的状态。图9(b)示出针对子词“s”进行了处理的状态。子词“s”由于包含在任一候补区间中，所以进行了处理后的计数值如903以及904所示，都成为1。图9(c)示出针对子词“p”进行了处理的状态。子词“p”由于仅包含在区间序号2的候补区间中，所以905的计数值仍为1，仅906的计数值增加为2。进而，子词“_I：”也仅包含在区间序号2的候补区间中，所以如图9(d)所示，907的计数值仍为1，980的计数值成为3。子词“t∫”由于包含在任一候补区间中，所以各自的计数值被加1，如图9(e)所示，909的计数值成为2，910的计数值成为4。

在以上的处理中，通过成为对象的子词是否包含在候补区间中，而决定是否对候补区间的计数值加1，但也可以根据成为对象的子词的候补区间中的位置，来变更进行加法运算的值。例如，在将从成为对象的子词的关键字生成的子词串中的顺序设为M，将子词的平均时间长设为L的情况下，可以进行在从候补区间的(M×L)至“M×(L+1)”的范围内包含有成为对象的子词的情况下对计数值加1，否则对计数值加0.5这样的处理。在希望将计数值仅设为整数的情况下，例如也可以在成为对象的子词包含于上述范围内的情况下对计数值加2，否则加1。

在候补区间选择部108中，根据候补区间的计数值，进行候补区间的排序，进行作为结果输出的候补区间的选择。作为排序的方法，可以通过按照候补区间的计数值从大到小的顺序排列候补区间来进行。另外，在通过所使用的声音识别技术可以取得所识别的子词的评价值的情况下，也可以将计数值与评价值之积等用作候补区间的评价值而进行排序。进而，在所选择的候补区间的数量多的情况下，也可以对计数值、评价值设置阈值，而仅选择比阈值大的候补区间。可以将对变换关键字而得到的子词串中的子词数乘上预定的系数而得到的值等用作计数值的阈值。例如，利用子词数×0.8这样的式来决定阈值即可。进而，还可以根据所选择的候补区间，对声音数据进行排序。作为该方法，例如可以通过针对每个声音数据合计候补区间的数量，并按照候补区间的数量从大到小的顺序排列声音数据来进行。另外，还可以使用每个声音数据的计数值、评价值之和；每个声音数据的平均的计数值、评价值；候补区间的数量与平均的计数值、评价值之积；候补区间的数量与平均的计数值、评价值的加权和等，进行排序。

在结果输出部109中，向监视器110、扬声器111输出由候补区间选择部108选择出的候补区间、声音数据。

作为进行候补区间的排序的方法，除了上述以外，还可以通过抽取包含在候补区间中的子词串，并使用动态规划法等公知的技术对从关键字生成的子词串与所抽取的子词串进行比较而求出子词串间的类似度来进行。此时，为了高速地抽取包含在候补区间中的子词，也可以预先存储对声音数据进行声音识别而得到的子词串。进而，如果存储在对声音数据进行声音识别时使用的韵律参数，则还可以通过使用动态规划法、HMM法等公知的技术对包含在候补区间中的韵律参数与从关键字生成的韵律参数进行比较，而进行候补区间的排序。对于从关键字向韵律参数的变换，通过针对每个子词准备典型的韵律参数，并将这些结合，而可以容易地进行。另外，关于动态规划法、HMM，例如在Chin-Hui.Lee，Frank K.Soong and Kuldip K.Paliwal编“Automatic Speech & Speaker Recognition”Kluwer AcademicPublishers(1996)的Chapter 16“Dynamic Programming”(pp.385-411)以及Chapter 7“HMM(Hidden Markov Model)”(pp.159-184)中进行了说明。

(实施例2)

使用图10至图14，对本发明的第二实施例进行说明。

图10是示出本发明中的第二实施例的声音数据检索系统的结构例的概念框图。在图10中，除了图1以外，还追加有子词串校正部1001以及校正规则1002。图11是在一般使用的计算机上实现本发明的第二实施例的声音数据检索系统时的结构图。在图11中，向图2追加了执行与子词串校正部1001对应的处理的子词串校正程序1101以及与校正规则1002对应的信息。

图10中的子词串校正部1001进行如下的处理：针对从用户所输入的关键字生成的子词串，进而根据校正规则1002的内容对在声音识别中产生了误识别时预测的子词进行校正。如日本特开2005-257954号公报所示，预先对几个成为采样的声音数据执行声音识别，并根据其结果，对于各子词易于被误识别成什么样的子词，同时求得其频度、前后的子词的联系方式等，通过将这些用作校正规则，可以容易地实现子词的校正。

图12示出校正后的子词串的例子。在图12中，1201表示从关键字生成的子词串，示出1202以及1203的行中记载的子词被校正后的子词。此处，1202以及1203的内容并非意味着例如子词串“sp_I：t∫”成为“zk_I：t∫”，而表示关于各子词存在被误识别的可能性的子词。即，意味着“s”被误识别成“z”以及“-”，“p”被误识别成“k”的可能性高。另外，“-”表示相应的子词未被识别(删除)。

在候补区间生成部1003中，使用校正后的子词串，进行候补区间的生成。与第一实施例的差异在于，首先，在图6中的步骤601中，从校正后的子词串，选择全部存在成为开头的可能性的子词。如果校正后的子词串为图12所示的子词串，则存在成为开头的可能性的子词还考虑未被识别的子词而成为“s”、“z”、“p”以及“k”。在步骤602中，从子词-声音数据对应表103取得与这些选择出的所有子词相关的位置信息。针对所取得的所有位置信息，执行步骤604至步骤606。如果子词-声音数据对应表103的内容为图5，则利用与子词“s”以及“p”相关的信息，生成图13所示的候补区间。如果与图7所示的候补区间进行比较，则追加与子词“p”相关的候补区间1301、1302以及1303。

在子词计数部1004中，针对校正后的子词串中的所有子词，分别判定子词是否存在于候补区间中，在子词存在于候补区间中的情况下，对候补区间的计数值加1。

在候补区间选择部1005中，与第一实施例同样地，根据候补区间的计数值进行候补区间的排序，并且进行声音数据的排序，进行作为结果输出的候补区间的选择。

另外，作为候补区间的计数值，也可以分别计算出仅利用从关键字生成的子词的计数值、和利用通过校正追加的子词的计数值，并将其比率用于候补区间、声音数据的排序。为此，在存储候补区间的信息的形式中，如图14中的1401以及1402所示准备2个计数值，例如对1401记录从关键字生成的子词的计数值，对1402记录利用通过校正追加的子词的计数值即可。另外，在候补区间的排序中，例如考虑如下的方法：在使用从关键字生成的子词的计数值进行了排序之后，针对从关键字生成的子词的计数值相同的候补区间，使用利用通过校正追加的子词的计数值进一步进行排序。另外，还可以是将从关键字生成的子词的计数值与利用通过校正追加的子词的计数值的加权和、加权平均等、根据两个值计算出的值作为候补区间的评价值而进行排序这样的方法。

进而，作为候补区间的计数值，还可以仅设为1种，而将仅利用从关键字生成的子词对计数值加法运算而得到的值、和利用通过校正追加的子词对计数值进行加法运算而得到的值设为不同的值。例如，也可以在从关键字生成的子词包含于候补区间中的情况下对计数值加2，在通过校正追加的子词包含于候补区间中的情况下对计数值加1即可。另外，在将日本特开2005-257954号公报的技术用作校正规则的情况下，通过合计声音识别结果中的子词的频度，可以得到表示某子词易于以何种程度被误识别成什么样的子词的指标。通过向校正规则存储这样的指标，可以进一步详细指定在通过校正追加的子词包含于候补区间中的情况下对计数值进行加法运算的值。即，进行在易于以高的比率被误识别的子词存在于候补区间中的情况下对计数值加1.5，在以中等程度的比率易于被误识别的子词的情况下对计数值加1.0，在被误识别的比率低的子词的情况下对计数值加0.5这样的处理即可。

作为校正后的子词的利用方法，进而也可以利用还包含校正后的子词的所有可能的子词的组合求出所有子词串，并针对各个子词串，求出成为检索结果的候补区间之后，结合针对所有子词串的候补区间，从而最终求出作为检索结果输出的候补区间。此时，通过根据包含在子词串中的通过校正附加的子词的数量对候补区间的计数值、评价值进行加权，而进行所有候补区间的排序即可。

(实施例3)

使用图15以及图16，对本发明的第三实施例进行说明。在第一以及第二实施例中，进行在相应的子词包含于候补区间中的情况下对候补区间的计数值执行加法运算这样的处理，所以存在子词的顺序不同的候补区间也被选成结果这样的可能性。

因此，在第三实施例中，将存储候补区间的信息的形式设为图15所示的形式。在图15中，与图7的差异在于，存储子词的开始位置的区域1501。向存储子词的开始位置的区域，在上次进行的对计数值进行加法运算的处理中，代入判定为包含于候补区间中的子词的开始位置。另外，在计数值的加法运算中，在将判定为包含于候补区间中的子词的开始位置设为P1，将存储在子词的开始位置1501处的值设为P2的情况下，对P1与P2进行比较，并根据比较结果变更对计数值进行加法运算的值。例如，还可以进行如果P1大于P2则对计数值加1、如果P1小于P2则对计数值不进行加法运算这样的处理，或者如果P1大于P2则对计数值加1、如果P1小于P2则对计数值加0.5这样的处理、或在P1从P2处于预定的时间内的情况下对计数值加1、否则对计数值加0.5这样的处理。进而，还可以根据通过这些的组合决定计数值的方法、P1与P2的关系，连续地变更计数值。

使用图16对使用了图15所示形式的子词计数部107以及1004的处理进行进一步说明。为便于说明，在以下说明中仅将“sp_I：t∫”假想成子词串，而未考虑通过校正附加的子词，但即使在包括通过校正附加的子词的情况下也是同样的。图16(a)是开始处理前的状态，示出从图5所示的子词-声音数据对应表取得与子词“s”相关的位置信息而得到的2个候补区间。此处，向子词的开始位置的区域1601以及1602代入了表示空白的“-”。图16(b)是进行了与子词“s”相关的处理后的状态，向子词的开始位置的区域1603以及1604分别代入了各个候补区间中的子词“s”的开始位置t1以及t2。

进而图16(c)示出进行了与子词“p”相关的处理后的状态。在该情况下，首先，子词“p”由于仅包含于区间序号2的候补区间，所以仅对区间序号2的候补区间进行处理。进而，子词“p”的开始位置t4与图8相比，比存储在候补区间中的子词的开始位置t2大，所以对区间序号2的区间空间的计数值加1，而计数值成为2。另外，向子词的开始位置代入了子词“p”的开始位置，所以其结果区间序号1的候补区间中的子词的开始位置如1605所示仍为t1，关于区间序号2的候补区间如1606所示被变更成作为子词“p”的开始位置的t4。图16(d)示出进行了与子词“_I：”相关的处理后的状态。在该情况下也与子词“p”的情况同样地，仅对区间序号2的候补区间进行处理，其结果，区间序号1的候补区间中的子词的开始位置如1607所示仍为t1，关于区间序号2的候补区间如1608所示被变更成作为子词“_I：”的开始位置的t7。图16(e)是进行了与子词“t∫”相关的处理后的状态。子词“t∫”如图8所示包含于区间序号1以及2的候补区间中，所以针对两个候补区间进行处理，各个候补区间中的子词的开始位置如1609以及1610所示成为t8以及t9。

在与图15所示的候补区间相关的信息的形式中，仅记录前一处理中的子词的开始位置，但也可以记录所有处理中的子词的开始位置。如果使用该信息，则在进行向计数值的加法运算时，可以确认候补区间中的子词的顺序关系，可以容易地实现仅选择包括与从关键字生成的子词串相同顺序的子词的候补区间。

(实施例4)

使用图17，对本发明的第四实施例进行说明。在上述的实施例中，示出了用于在单独的计算机上实现声音数据检索系统的实施例。图17所示的实施例示出用于利用配置在网络上的声音数据检索系统检索在该网络上分散配置的声音数据的结构。

在图17中，1701、1702以及1703是具有在网络上提供各种服务的服务器功能的计算机系统。1704为网络，服务器经由该网络连接。1705是图1以及图10所示的概念框图、或者是图2以及图11所示的结构图中示出的声音数据检索系统。其中，在1705中，追加了用于经由网络进行关键字的取得、以及检索结果的输出的通信部。另外在图17中，子词-声音数据对应表被分割记载成1706，声音数据也被独立记载成存储在与声音数据检索系统1705相同的服务器上的声音数据1707、或者存储在其他服务器上的声音数据1708以及1709。在图17中，1710是具有如下功能的客户机终端：进行来自用户的关键字输入，经由网络向声音数据检索系统1705发送关键字，并且经由网络取得检索结果，而向用户提示。

在图17中声音数据检索系统预先对可以经由网络访问的声音数据1707、1708以及1709执行声音识别，并使用其结果制成子词-声音数据对应表1706。由此，可以容易地实现以声音数据1707、1708以及1709为对象的检索。在追加了可以访问的声音数据的情况下，仅对所追加的声音数据执行声音识别，从其结果，针对每个子词抽取位置信息，向子词-声音数据对应表追加信息即可。在图3所示的形式的子词-声音数据对应表中，由于是针对各子词依次排列了位置信息的形式，所以仅通过向相应的子词的信息的最后追加新得到的位置信息，可以容易地构筑还与所追加的声音数据对应的子词-声音数据对应表。

(产业上的可利用性)

本发明可以用作实现在硬盘记录器中从记录在其中的包括声音的大量的运动图像内容，检索包括用户所指定的关键字的内容的功能的技术。另外，还可以用作实现从存在于因特网上的大量的声音内容、运动图像内容中检索包括用户所指定的关键字的内容的服务的技术。

Claims

1.一种声音数据检索系统，其特征在于，具有：

存储表示从声音数据抽取的子词与该子词在上述声音数据中的位置的关系的对应表即子词-声音数据对应表的单元；

生成将所输入的关键字变换成子词串后的关键字子词串的单元；

从上述子词-声音数据对应表，取得处于上述关键字子词串的开头的子词在声音数据中的位置的单元；

候补区间生成单元，生成将上述取得的子词的位置设为开始位置并具有根据上述关键字子词串的长度决定的时间长的区间，作为候补区间；

候补区间选择单元，根据上述关键字与上述候补区间中的声音数据或子词的类似度，选择作为检索结果输出的候补区间；以及

输出上述选择出的候补区间而作为检索结果的单元。

2.根据权利要求1所述的声音数据检索系统，其特征在于，具有如下的单元：通过从声音数据抽取音素、音节或音素n-gram等子词而将上述声音数据变换成子词串，根据上述抽取的子词在上述声音数据中的位置制成上述子词-声音数据对应表。

3.根据权利要求1所述的声音数据检索系统，其特征在于，具有：

存储登记了子词的置换、插入、删除的校正规则的单元；以及

根据上述校正规则，针对每个上述关键字子词串中的子词，生成附加了可以置换的子词的候补的校正后子词串的单元，

上述候补区间生成单元使用上述校正后子词串中的删除、插入、置换的所有组合，从上述子词-声音数据对应表，取得存在成为上述开头的子词的可能性的所有子词在声音数据中的位置，将所取得的位置设为上述候补区间的开始位置。

4.根据权利要求1所述的声音数据检索系统，其特征在于，

上述候补区间选择单元具有：针对上述关键字子词串中的各子词，选择包括子词的候补区间，进行对所选择出的候补区间分配的计数值的加法运算的单元；以及

根据候补区间的计数值对候补区间进行排序，并根据其结果选择输出的候补区间的单元。

5.根据权利要求4所述的声音数据检索系统，其特征在于，进行对上述候补区间分配的计数值的加法运算的单元，在进行了计数值的加法运算时将存储判定为包含于候补区间中的子词的位置的区域准备成候补区间，在新进行计数值的加法运算时，对判定为包含于候补区间中的子词的位置与记录在候补区间中的位置进行比较，在判定为包含于候补区间中的子词的位置比所记录的位置大的情况下，对计数值加上与判定为小的情况相比大的值。

6.根据权利要求5所述的声音数据检索系统，其特征在于，在新进行计数值的加法运算时，在相应的子词的位置包含于从记录在候补区间中的位置起预定的范围内的情况、和除此以外的情况下，改变对计数值加上的值。

7.根据权利要求4所述的声音数据检索系统，其特征在于，

上述候补区间选择单元在选择输出的候补区间时，选择具有根据上述关键字子词串的长度决定的阈值以上的计数值的候补区间。

8.根据权利要求4所述的声音数据检索系统，其特征在于，

将利用根据上述校正规则置换或插入的子词进行加法运算而得到的计数值和利用除此以外的子词进行加法运算而得到的计数值分别记录到候补区间中，根据两者的比率、子词串长、计数值的合计值中的任意一个以上对候补区间进行排序。

9.根据权利要求4所述的声音数据检索系统，其特征在于，

在存在多个声音数据的情况下，根据从各个声音数据检索出的候补区间的计数值、候补区间的数量中的任意一个以上进行声音数据的排序。

10.根据权利要求3所述的声音数据检索系统，其特征在于，

使用上述校正后子词串中的插入、删除、置换的可能组合，对各个组合生成子词串，针对所生成的各个子词串，进行候补区间的生成以及选择，通过综合其结果来决定最终的检索结果。

11.根据权利要求10所述的声音数据检索系统，其特征在于，

在对使用上述校正后子词串中的插入、删除、置换的可能组合而生成的各个子词串的检索结果进行综合时，通过根据所生成的子词串中包含的插入、删除、置换的数量对候补区间进行加权，决定所有检索结果的顺序。

12.根据权利要求1所述的声音数据检索系统，其特征在于，

上述候补区间选择单元利用动态规划法等对上述关键字子词串与候补区间中包含的子词串进行比较，并根据其结果选择输出的候补区间。

13.根据权利要求1所述的声音数据检索系统，其特征在于，

上述候补区间选择单元通过利用HMM、动态规划法等对从上述关键字生成的韵律参数与从相应于候补区间的声音数据中的范围抽取的韵律参数进行比较，而选择输出的候补区间。