CN103390404A

CN103390404A - 信息处理装置、信息处理方法和信息处理程序

Info

Publication number: CN103390404A
Application number: CN2013101636147A
Authority: CN
Inventors: 山口健; 加藤靖彦; 木原信之; 樱庭洋平
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-05-07
Filing date: 2013-05-07
Publication date: 2013-11-13
Also published as: JP2013235050A; US20130297311A1

Abstract

一种信息处理装置，包括：高质量声音确定部分，配置为确定能够确定为已经在好条件下收集的声音作为好条件声音，所述好条件声音包括在属于在不同条件下收集的一组声音的混合声音中；以及声音识别部分，配置为通过使用预定参数对由所述高质量声音确定部分确定的所述好条件声音执行声音识别处理，基于对所述好条件声音执行的所述声音识别处理的结果，修改所述预定参数的值，并且通过使用具有所述修改值的所述预定参数，对作为不同于所述好条件声音的声音的、包括在所述混合声音中的声音执行所述声音识别处理。

Description

信息处理装置、信息处理方法和信息处理程序

技术领域

一般地，本技术涉及信息处理装置、信息处理方法和信息处理程序。更具体地，本技术涉及能够改进不同声音收集条件下收集的一组声音的声音识别精度的信息处理装置、涉及为该信息处理装置提供的信息处理方法、并且涉及实施该信息处理方法的信息处理程序。

背景技术

在过去，通过利用声音记录器等记录由会议室中的会议参加者输出的声音，并且此外在编码和解码之后由参加者发送和接收由TV（电视）会议参加者输出的声音。因此，在这样的会议中，存在下文中也被称为声音收集系统的声音记录系统。作为用于应用声音识别技术到这样的声音收集系统的现有技术，提供了一种用于自动创建会议纪要的技术以及一种用于检测不当表述以便避免发送该表述的声音的技术。对于关于用于自动创建会议纪要的技术的更多信息，参见日本专利公开No.2004-287201和2003-255979（下文中分别称为专利文献1和2）。另一方面，对于关于用于检测不当表述的技术的更多信息，参见日本专利公开No.2011-205243（下文中称为专利文献3）。

发明内容

然而，当通过利用声音记录器等记录由会议室中的多个会议参加者输出的声音时，在许多情况下声音通常通过不同距离从参加者传播到记录器的扩音器。此外，在一些情况下，用于在任何特定会议室中的TV会议参加者输出的声音的编码和解码的音频编解码器，不同于用于在TV会议中连接到该特定会议室的另一会议室中的TV会议参加者输出的声音的编码和解码的音频编解码器。如上所述，在许多情况下，声音收集系统具有不同的声音收集条件。

在包括专利文献1到3中公开的那些的现有技术的声音识别技术中，对于在不同声音收集条件下收集的一组声音，以单个统一方式执行声音识别处理。在此情况下，在好条件下收集的一组声音可以用高精度识别。然而，担心在一些情况下其他声音不能用高精度识别。

因此，希望本技术解决上述问题，以便改进对于在不同声音收集条件下收集的一组声音的声音识别精度。

根据本技术实施例的一种信息处理装置，包括：

高质量声音确定部分，配置为确定能够确定为已经在好条件下收集的声音作为好条件声音，好条件声音包括在属于在不同条件下收集的一组声音的混合声音中；以及

声音识别部分，配置为

通过使用预定参数对由高质量声音确定部分确定的好条件声音执行声音识别处理，

基于对好条件声音执行的声音识别处理的结果，修改预定参数的值，并且

通过使用具有修改值的预定参数，对作为不同于好条件声音的声音的、包括在混合声音中的声音执行声音识别处理。

高质量声音确定部分能够将混合声音分割为声音输出时段，对于每个声音输出时段计算S/N比，并且基于计算的S/N比对于每个声音输出时段确定好条件声音。

高质量声音确定部分能够将混合声音分割为声音输出时段，对于每个声音输出时段计算S/N比，并且基于计算的S/N比对于每个声音输出人确定好条件声音。

混合声音包括多个声音，其每个源自由多个音频编解码器之一执行的处理；并且在确定好条件声音的处理中，高质量声音确定部分能够在与源自由每个其他音频编解码器执行的处理的声音的比较中，确定源自由音频编解码器执行的处理的声音为具有高质量的声音。

声音识别部分包括：

特征量提取块，配置为从包括在混合声音中的处理对象提取特征量；

似然度计算块，配置为基于由特征量提取块提取的特征量，对于处理对象生成声音识别处理结果的多个候选者，并且对于每个候选者计算似然度；

比较块，配置为比较每个对于候选者之一由似然度计算块计算的每个似然度与预定阈值，以便基于比较的结果从候选者选择处理对象的声音识别处理结果，并且输出选择的声音识别处理结果；以及

参数修改块，配置为当已经设置好条件声音以用作处理对象时，基于由比较块输出的声音识别处理结果，修改作为预定参数在特征量提取块、似然度计算块和比较块的至少一个中使用的参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改在似然度的计算中由似然度计算块使用的先验概率，作为包括在好条件声音的声音识别处理结果中的包括词的候选者的预定参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改在比较块中使用的阈值，作为预定参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改在似然度的计算中由似然度计算块使用的先验概率，作为包括在好条件声音的声音识别处理结果中的包括词的相关词的候选者的预定参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改在特征量提取块中采用来提取特征量的频率分析技术，作为预定参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改由特征量提取块提取的特征量的类型，作为预定参数。

如果已经设置不同于好条件声音的声音以用作处理对象，则参数修改块能够修改在似然度计算块中使用的候选者的数目，作为预定参数。

参数修改块能够设置好条件声音前后预定数目的时间单元，以用作预定参数的修改时间范围，并且对于在包括在修改时间范围中的时间输出的声音统一地修改预定参数的值。

参数修改块能够设置好条件声音前后预定数目的时间单元，以用作预定参数的修改时间范围，并且根据从好条件声音到在包括在修改时间范围中的时间输出的声音的时间距离，对于在包括在修改时间范围中的时间输出的声音修改预定参数的值。

参数修改块能够设置好条件声音前后预定数目的声音输出时段，以用作预定参数的修改时间范围，并且对于在包括在修改时间范围中的时间输出的声音统一地修改预定参数的值。

参数修改块能够设置好条件声音前后预定数目的声音输出时段，以用作预定参数的修改时间范围。此外，从紧接在好条件声音之前的声音输出时段计数的序列号分配给好条件声音之前的每个声音输出时段，从紧接在好条件声音之后的声音输出时段计数的序列号分配给好条件声音之后的每个声音输出时段。此外，对于包括在修改时间范围中的声音输出时段，参数修改块能够根据分配给声音输出时段的序列号，修改预定参数的值。

根据本技术实施例的一种信息处理方法是为信息处理装置提供的方法，而根据本技术实施例的一种信息处理程序是实施该方法的程序。

在根据本技术实施例的信息处理方法和根据本技术实施例的信息处理程序中，执行信息处理如下。首先，确定能够确定为已经在好条件下收集的声音作为好条件声音，好条件声音包括在属于在不同条件下收集的一组声音的混合声音中。然后，通过使用预定参数对确定的好条件声音执行声音识别处理。随后，基于对好条件声音执行的声音识别处理的结果，修改预定参数的值。最后，通过使用具有修改值的预定参数，对作为不同于好条件声音的声音的、包括在混合声音中的声音执行声音识别处理。

如上，凭借本技术，可能改进对于在不同声音收集条件下收集的一组声音的声音识别的精度。

附图说明

图1是示出声音识别装置的典型配置的框图；

图2是由高质量声音确定部分采用的高质量声音确定技术的说明时参照的图；

图3是由声音识别部分采用的声音识别技术的说明时参照的图；

图4是混合声音识别处理的典型流程的说明时参照的流程图；

图5是对处理对象执行的声音识别处理的典型详细流程的说明时参照的流程图；以及

图6是示出根据本技术的信号处理装置采用的硬件的典型配置的框图。

具体实施方式

技术的概述

首先，为了使得本技术容易理解，说明本技术的概述如下。

凭借本技术，可能在不同条件下通过使用多种声音收集系统的任一个，收集一组声音。

例如，在用于通过使用声音记录器等记录会议室中多个会议参加者输出的声音的声音收集系统中，每个参加者在与其他参加者的那些条件不同的条件下说话。条件包括声音响度、声音质量和参加者与扩音器之间的距离。因此，在不同声音收集条件下收集由这样的会议参加者输出的声音。

此外，在用于TV会议的声音收集系统中，由会议室中的会议参加者输出的声音发送到另一会议室。因此，对于每个会议室，需要提供用于编码和解码声音的音频编解码器。如果音频编解码器会议室与会议室不同，那么在不同收集条件下收集声音。

如上所述，在本技术中，如果在不同声音收集条件下收集声音，那么在不同声音收集条件下收集的一组声音用作经历声音识别处理的处理对象。在以下描述中，构成这样一组的声音称为混合声音。

具体地，在本技术中，首先，从混合声音确定好条件声音。好条件声音是可以确定为在好声音收集条件下收集的声音。然后，对好条件声音执行声音识别处理，并且基于对好条件声音执行的声音识别处理的结果，修改在声音识别处理中使用的参数值。最终，利用具有修改值的参数，对不同于好条件声音的声音执行声音识别处理。

因此，可能改进对不同于好条件声音的声音执行的声音识别处理的精度。结果，可能一致地改进对所有声音执行的声音识别处理的精度。

声音识别装置的典型配置

图1是示出应用本技术实施例的声音识别装置的典型配置的框图。

如图所示，声音识别装置1包括高质量声音确定部分11和声音识别部分12。

高质量声音确定部分11分析由声音识别装置1接收的混合声音，以便确定包括在混合声音中的好条件声音，并且将确定结果提供到声音识别部分12。要注意的是，稍后将参照图2说明由高质量声音确定部分11采用来确定好条件声音的技术。

首先，基于从高质量声音确定部分11接收的确定结果，声音识别部分12将包括在由声音识别装置1接收的混合声音中的好条件声音处理为处理对象，并且通过使用预先确定的参数对处理对象执行声音识别处理。然后，声音识别部分12基于对好条件声音执行的声音识别处理的结果，修改预定参数的值。随后，声音识别部分12将作为不同于好条件声音的声音的、包括在由声音识别装置1接收的混合声音中的声音处理为处理对象。最终，声音识别部分12通过使用其值已经修改的预定参数，对用作处理对象的其他声音执行声音识别处理。

由声音识别部分12执行的声音识别处理是用于发现词列W’作为处理结果（也就是说，作为词列W的推理结果）的处理。词列W’是具有词列W的输入声音（也就是说，处理对象）的特征量X的最大后验概率p（W=X）的词列。然而，因为声音识别部分12难以直接发现后验概率p（W=X），所以通过使用根据贝叶斯法则的似然度和先验概率计算声音识别处理的结果。因此，声音识别部分12配置为包括用于执行这样的声音识别处理的特征量提取块21、似然度计算块22、比较块23和参数修改块24。

基于通过高质量声音确定部分11产生的确定结果，特征量提取块21从由声音识别装置1接收的混合声音确定要用作处理对象的声音。也就是说，如稍后描述的，特征量提取块21最初确定好条件声音作为处理对象。然后，在已经修改参数值之后，特征量提取块21确定不同于好条件声音的声音作为处理对象。随后，特征量提取块21对于诸如帧的每个预定单元从处理对象提取特征量。

也就是说，特征量提取块21对于每个预定单元执行诸如FFT（快速傅里叶变换）的声学处理，以便顺序提取典型的MFCC（美尔频率倒谱系数）的特征量，并且将时间轴序列的特征量提供到似然度计算块22。要注意的是，特征量提取块21可以提取不同于MFCC的量作为特征量。不同于MFCC的量的典型示例是光谱、线性预测系数、倒谱系数和线谱对，且举几种。

似然度计算块22生成通过以词为单元连接诸如HMM（隐马尔可夫模型）的声学模块获得的多个组，作为识别结果的候选。在以下描述中，该组称为词模型组。然后，对于多个词模型组的每个，似然度计算块22使用先验概率作为参数之一，以便计算观察到从特征量提取块21接收的处理对象特征量的时间轴序列的似然度。

比较块23比较对于多个词模型组的每个由似然度计算块22计算的似然度与预先确定的阈值，并且输出具有大于预定阈值的似然度的词模型组，以用作对处理对象执行的声音识别处理的结果。

参数修改块24基于对于好条件声音取为处理对象的情况由比较块23输出的声音识别处理结果，改变由特征量提取块21、似然度计算块22和比较块23的至少一个使用的参数值。

因此，当不同于好条件声音的声音取为处理对象时，通过使用其中已经由参数修改块24修改其值的参数，由特征量提取块21、似然度计算块22和比较块23执行上述处理的序列，以便对处理对象执行声音识别处理。

要注意的是，参照图3，稍后描述将说明其中需要修改的参数的具体示例，并且说明由声音识别部分12采用的声音识别技术。

用于确定具有高质量的声音的技术

图2是在由高质量声音确定部分11采用的高质量声音确定技术的以下说明中参照的图。

高质量声音确定部分11通过采用三种技术（即，分别在图2中示出的模式A、B和C的技术），确定包括在混合声音中的好条件声音。

A模式技术是比较声音输出时段的S/N（信号对噪声）比的技术。具体地，高质量声音确定部分11将混合声音分割为声音输出时段，并且对于作为分割的结果获得的每个声音输出时段计算S/N比。然后，基于计算的S/N比，高质量声音确定部分11确定具有高S/N比的声音输出时段的声音作为好条件声音。

B模式技术也是比较声音输出时段的S/N比的技术，但是不同于A模式技术。具体地，高质量声音确定部分11将混合声音分割为声音输出时段，并且以与A模式技术相同的方式对于每个输出时段计算S/N比。然后，高质量声音确定部分11识别混合声音的每个声音输出时段中的声音输出人，并且对于每个声音输出人分组混合声音。随后，通过在混合声音的每个声音输出时段中对于每个声音输出人执行包括收集计算的S/N比的处理，高质量声音确定部分11确定具有高S/N比的声音输出人的声音作为好条件声音。

要注意的是，不特别规定用于识别声音输出人的技术。如果例如从声音的频率提取特征量，那么可能采用基于特征量识别声音输出人的技术。此外，也不特别规定用于计算每个声音输出人的S/N比的技术。例如，可能采用这样的技术，其中对于声音输出人的所有声音输出时段，简单地累加求和为声音输出人计算的S/N比，以得到声音输出人的和，然后将该和除以声音输出人的声音输出时段的数目，以便给出声音输出人的每个声音输出时段的S/N比。

C模式技术是比较使用的音频编解码器的技术。在TV会议系统中，在一些情况下在两端使用的终端和在终端中使用的音频编解码器可能相互不同。在这样的情况下，由音频编解码器执行的处理结果可能导致声音质量的差别。为了解决该问题，高质量声音确定部分11预先获得关于在两端使用的终端中采用的音频编解码器的信息，并且确定由采用输出具有较高质量的声音的音频编解码器的终端生成的声音为好条件声音。在该技术的情况下，预先排名输出具有较高质量的声音的音频编解码器。

要注意的是，对于不使用音频编解码器的情况不采用C模式技术。该情况的典型示例是利用声音记录器的声音收集。

声音识别技术

接下来，通过参照图3描述由声音识别部分12采用的声音识别技术如下。

图3是在由声音识别部分12采用的声音识别技术的以下说明中参照的图。

声音识别部分12通过采用三种技术（即，分别在图3中示出的模式a、b和c的技术），对处理对象执行声音识别处理。在以下描述中，模式a、b和c的技术分别称为a模式技术、b模式技术和c模式技术。

a模式技术是提高词的识别率的技术。

具体地，首先，特征量提取块21、似然度计算块22和比较块23对好条件声音执行声音识别处理，并且输出预先确定的词模型组作为声音识别处理的结果。假定包括在作为对好条件声音执行的声音识别处理的结果输出的预定词模型组的词也出现在不同于好条件声音的声音中，并且特别在好条件声音前后输出的声音中的概率为高。要注意的是，在以下描述中，技术术语“好条件声音前”意味着时间轴上领先好条件声音的头部位置的时间范围。另一方面，技术术语“好条件声音后”意味着时间轴上滞后好条件声音的尾部位置的时间范围。因此，参数修改块24修改在似然度计算块22或比较块23中使用的参数的值，使得在采用好条件声音前后输出的声音作为处理对象的声音识别处理中，通过包括在声音识别处理的结果中，更容易地输出词。也就是说，参数修改块24修改参数的值，以便改进识别率。

具体地，如果采用好条件声音前后输出的声音作为处理对象，则参数修改块24改变由似然度计算块22使用的先验概率，以便计算包括该词的词模型组的似然度。因此，词的似然度变得容易增加到高的值。结果，从处于稍后级的比较块23，词变得更容易可选择为声音识别处理的结果的一部分。也就是说，词变得容易识别。

此外，如果采用好条件声音前后输出的声音作为处理对象，则参数修改块24改变由比较块23使用的阈值。如前所述，参数修改块24比较从似然度计算块22接收的似然度与预先确定的阈值。具有等于或小于预先确定的阈值的似然度的词模型组视为不是由包括在用作处理对象的混合声音中的声音指示的词模型组。排除具有这样的似然度的词模型组。即使在这样的情况下，例如，参数修改块24减小阈值到使得词模型组难以排除的低的值。因此，几乎不排除该词模型组。结果，包括在用作处理对象的词模型组中的词变得容易选择为声音识别处理的结果的一部分。也就是说，识别处理对象。

b模式技术是改进识别词的相关词的识别率的技术。

具体地，预先在存储器中创建和存储词集列表。词集列表是示出每个由识别词和识别词的相关词构成的多个词集。可以由用户手动地或声音识别装置1自动地创建词集列表。要注意的是，不特别规定由声音识别装置1采用来创建词集列表的技术。例如在该实施例的情况下，通过分析已经存储在存储器中的会议纪要创建词集列表。以词“特征量”取为示例。词“提取”是词“特征量”的相关词，并且相关词“提取”在接近词“特征量”的位置出现的概率高。在此情况下，由词“特征量”和词“提取”构成的词集包括在词集列表中。以词“屏幕”取为另一示例。词“监视器”是具有与词“屏幕”的含义类似含义的相关词。在此情况下，由词“屏幕”和词“监视器”构成的词集包括在词集列表上。

在这样的词集列表存在的情况下，特征量提取块21、似然度计算块22和比较块23对好条件声音执行声音识别处理，并且输出预先确定的词模型组作为声音识别处理的结果。假定包括在作为对好条件声音执行的声音识别处理的结果输出的预定词模型组的词的相关词也出现在不同于好条件声音的声音中，并且特别在好条件声音前后输出的声音中的概率为高。因此，参数修改块24修改在似然度计算块22或比较块23中使用的参数的值，使得在采用好条件声音前后输出的声音作为处理对象的声音识别处理中，通过包括在声音识别处理的结果中，更容易地输出相关词。也就是说，参数修改块24修改参数的值，以便改进识别率。

具体地，如果采用好条件声音前后输出的声音作为处理对象，则参数修改块24改变由似然度计算块22使用的先验概率，以便计算包括在词模型组中的词的相关词的似然度。因此，相关词的似然度变得容易增加到高的值。结果，从处于稍后级的比较块23，相关词变得更容易可选择为声音识别处理的结果的一部分。也就是说，相关词变得容易识别。

此外，如果采用好条件声音前后输出的声音作为处理对象，则参数修改块24改变由比较块23使用的阈值。如前所述，参数修改块24比较从似然度计算块22接收的似然度与预先确定的阈值。具有等于或小于预先确定的阈值的似然度的词模型组视为不是由包括在用作处理对象的混合声音中的声音指示的词模型组。排除具有这样的似然度的词模型组。即使在这样的情况下，例如，参数修改块24减小阈值到使得词模型组难以排除的低的值。因此，几乎不排除该词模型组。结果，包括在用作处理对象的词模型组中的相关词变得容易选择为声音识别处理的结果的一部分。也就是说，识别处理对象。

c模式技术是如果执行声音识别处理以搜索词则改进指定词的识别率的技术。

采用c模式技术以对于指定词搜索混合词。具体地，在对于指定词搜索混合词的处理中，如果从好条件声音识别指定词，那么假定制定词也出现在好条件声音前后输出的声音中的概率高。因此，参数修改块24修改在特征量提取块21或似然度计算块22中使用的参数的值，使得可以以高的精确度搜索指定词。

具体地，当对于执行词搜索好条件声音前后输出的声音，参数修改块24改变在由特征量提取块21执行的声学处理中采用的频率分析技术。例如，参数修改块24作为一种声学处理由特征量提取块21执行的FFT处理中的窗口大小和/或偏移大小。

例如如果增加窗口大小，那么可以增加频率分辨率。另一方面，例如减小窗口大小，那么可以增加时间分辨率。此外，如果增加偏移大小，那么可以分析更多频率。通过以此方式适当地改变窗口大小和/或偏移大小，也可以以高精确度对于指定词搜索好条件声音前后输出的声音。

此外，如果对于指定词搜索好条件声音前后输出的声音，参数修改块24可以增加要由特征量提取块21提取的特征量的类型的数目。通过增加要使用的特征量的类型的数目，在由稍后级的似然度计算块22执行的处理中计算高似然度。因此，也可以以高精确度对于指定词搜索好条件声音前后输出的声音。

要注意的是，如果参数修改块24取由特征量提取块21使用的参数作为要改变的对象，那么担心由声音识别部分12执行的计算量增加。然而，在该实施例中，使用修改参数的声音识别处理的处理对象限于好条件声音前后输出的声音。因此，可以最小化由声音识别部分12执行的计算量的增加。

此外，参数修改块24增加由似然度计算块22使用的声学模型的数目。通过增加由似然度计算块22使用的声学模型的数目，可能提高用于识别结果的候选者的数目，并且提升在稍后级提供的似然度计算块22和比较块23的识别性能。因此，以高精确度搜索指定词。要注意的是，通过增加由似然度计算块22使用的声学模型的数目，由参数修改块24等执行的计算量升高。因此，不错的是增加由似然度计算块22使用的声学模型的数目到需要预先适当地调整的值。

如上所述，在根据该实施例的声音识别装置1中，高质量声音确定部分11采用三种高质量声音确定技术，而声音识别部分12采用三种声音识别技术。因此，根据该实施例的声音识别装置1通过采用总共九种组合技术执行声音识别处理。

上面的描述已经说明了作为三种声音识别技术由声音识别部分12采用的a模式、b模式和c模式技术。在作为三种声音识别技术由声音识别部分12采用的a模式、b模式和c模式技术的实施中，参数修改块24采用四种模式技术作为如下所述的参数修改技术。

根据第一模式参数修改技术，从开始起，参数修改块24设置直到好条件声音之前n秒和直到好条件声音之后n秒的参数修改时间范围。在此情况下，n是任何整数。参数修改块24然后设置预先确定的参数的改变值在q。在此情况下，参数修改块24对于在从好条件声音之前n秒到好条件声音之后n秒的时段内的声音修改参数值为q。也就是说，根据第一模式参数修改技术，参数修改块24设置跨越好条件声音的参数修改时间范围在好条件声音的两端n秒的预定时段，并且在参数修改时间范围内统一地修改预定参数的值为q。

根据第二模式参数修改技术，从开始起，参数修改块24设置直到好条件声音之前n秒和直到好条件声音之后n秒的参数修改时间范围。参数修改块24然后设置预先确定的参数的最大改变值在q。在此情况下，对于在领先好条件声音x秒的时间位置输出的声音，参数修改块24改变预定参数的值为(q×x/n)。同样地，对于在滞后好条件声音x秒的时间位置输出的声音，参数修改块24也改变预定参数的值为(q×x/n)。也就是说，根据第二模式参数修改技术，参数修改块24设置跨越好条件声音的参数修改时间范围在好条件声音的两端n秒的预定时段，并且在参数修改时间为中修改预定参数的值为(q×x/n)，该(q×x/n)依赖于距好条件声音x秒的时间距离。

根据第三模式参数修改技术，从开始起，参数修改块24设置直到好条件声音之前n个会话（每个也称为声音输出时段）和直到好条件声音之后n个会话的参数修改时间范围。在此情况下，n是任何整数。参数修改块24然后设置预先确定的参数的改变值在q。在此情况下，参数修改块24对于在从好条件声音之前n个会话到好条件声音之后n个会话的每个会话的声音修改参数值为q。也就是说，根据第三模式参数修改技术，参数修改块24设置跨越好条件声音的参数修改时间范围在好条件声音的两端n个会话的预定时段，并且在参数修改时间范围内统一地修改预定参数的值为q。

根据第四模式参数修改技术，从开始起，参数修改块24设置直到好条件声音之前n个会话（每个也称为声音输出时段）和直到好条件声音之后n个会话的参数修改时间范围。参数修改块24然后设置预先确定的参数的最大改变值在q。在此情况下，对于在领先好条件声音y个会话中输出的声音，参数修改块24改变预定参数的值为(q×y/n)。同样地，对于在滞后好条件声音y个会话中输出的声音，参数修改块24也改变预定参数的值为(q×y/n)。也就是说，根据第四模式参数修改技术，参数修改块24设置跨越好条件声音的参数修改时间范围在好条件声音的两端n个会话的预定时段，并且对于包括在参数修改时间范围中的会话，参数修改块24修改预定参数的值为依赖于y的(q×y/n)，y是从紧接领先好条件声音或紧接滞后好条件声音的会话计数的声音输出序列数。

声音识别处理

接下来，以下描述说明由声音识别装置1对混合声音执行的声音识别处理的流程。在以下描述中，声音识别处理也称为混合声音识别处理。

图4是在混合声音识别处理的典型流程的以下说明中参照的流程图。

如图所示，流程图在步骤S1开始，在步骤S1，高质量声音确定部分11接收混合声音。

然后，在接下来的步骤S2，高质量声音确定部分11确定包括在由高质量声音确定部分11接收的混合声音中的好条件声音。更具体地，通过采用之前通过参照图2说明的A模式、B模式和C模式技术之一，高质量声音确定部分11确定包括在混合声音中的好条件声音。随后，高质量声音确定部分11将确定结果提供到声音识别部分12。

然后，在接下来的步骤S3，基于从高质量声音确定部分11接收的确定结果，特征量提取块21设置包括在由声音识别装置1接收的混合声音中的好条件声音为处理对象。

然后，在接下来的步骤S4，声音识别部分12对处理对象执行混合声音识别处理。也就是说，如果在步骤S3之后对处理对象执行步骤S4的处理，那么步骤S4的处理是对好条件声音执行的混合声音识别处理，因为处理对象是好条件声音。如果对稍后描述的步骤S7之后的处理对象执行步骤S4的处理，那么步骤S4的处理是对不同于好条件声音的声音执行的混合声音识别处理，因为处理对象是不同于好条件声音的声音。不同于好条件声音的声音的典型示例是领先好条件声音的声音或滞后好条件声音的声音。在步骤S4对处理对象执行的处理中，计算处理对象的特征量的似然度，并且与阈值比较。要注意的是，将通过参照图5所示的流程图详细描述在步骤S4对处理对象执行的处理。

然后，在接下来的步骤S5，参数修改块24确定好条件声音是否是处理对象。

例如，如果步骤S4的处理是对步骤S3之后的处理对象执行，那么好条件声音是处理对象。在此情况下，在步骤S5执行的确定的结果为是，并且混合声音识别处理的流程进到步骤S6。

在步骤S6，特征量提取块21设置包括在混合声音中的声音作为不同于好条件声音的声音以用作处理对象。

然后，在接下来的步骤S7，参数修改块24改变至少由特征量提取块21、似然度计算块22和比较块23之一使用的参数值。

后来，混合声音识别处理的流程回到步骤S4。然而，此时，不同于好条件声音的声音用作处理对象。因此，通过使用其值已经在步骤S7改变的参数，对作为不同于好条件声音的声音的处理对象在步骤S4执行混合声音识别处理。在此情况下，在步骤S5执行的确定的结果是否，并且完全结束混合声音识别处理。

如上所述，混合声音识别处理包括在步骤S4执行的处理。在步骤S4执行的处理是对处理对象执行的混合声音识别处理。在步骤S4执行的处理详细说明如下。

处理对象的声音识别处理

图5是在对处理对象执行的声音识别处理的典型详细流程的以下说明中参照的流程图。

如图所示，流程图在步骤S21开始，在步骤S21，特征量提取块21从处理对象提取特征量。具体地，特征量提取块21将处理对象分割为预先确定的多个单元，并且对于每个预定单元顺序提取特征量。随后，特征量提取块21提供时间轴序列的特征量到似然度计算块22。

然后，在接下来的步骤S22，似然度计算块22计算处理对象的似然度。也就是说，似然度计算块22生成每个用作声音识别结果的候选者的多个词模型组，对于每个生成的词模型组，计算观察到从特征量提取块21接收的时间轴序列的特征量的似然度。随后，似然度计算块22将似然度提供到比较块23。

然后，在接下来的步骤S23，比较块23对于每个词模型组比较由似然度计算块22计算的似然度与预先确定的阈值，并且取具有大于预定阈值的似然度的词模型组作为处理对象的声音识别结果。

然后，在接下来的步骤S24，比较块23输出处理对象的声音识别结果。

当比较块23输出处理对象的声音识别结果时，结束对处理对象执行的声音识别处理。也就是说，结束图4所示的流程图的步骤S4执行的处理，并且混合声音识别处理的流程进到步骤S5。

如上所述，根据声音识别装置，首先，确定包括在混合声音中的好条件声音。然后，对好条件声音执行声音识别处理。随后，基于声音识别处理的结果，修改声音识别处理的参数，并且对不同于好条件声音的声音执行声音识别处理。因此，可能改进对不同于好条件声音的声音执行的声音识别处理的精度。相应地，在对混合声音执行的声音识别处理中，可以改进对不同于好条件声音的声音执行的声音识别处理的精度。因此，总体上，可能改进声音识别处理的精度。

本技术到程序的应用

上述处理序列可以通过使用硬件或通过运行软件来执行。如果通过运行软件执行处理序列，那么构成软件的程序安装在计算机中。典型地，计算机时嵌入专用硬件的计算机或通用个人计算机。通用个人计算机时能够根据个人计算机中安装的各种程序执行多种功能的个人计算机。

图6是示出在用于通过运行安装在计算机中的程序执行处理序列的计算机中采用的典型硬件配置的框图。

如图所示，该计算机包括通过总线104相互连接的CPU（中央处理单元）101、ROM（只读存储器）102和RAM（随机存取存储器）103。

总线104进一步连接到输入/输出接口105，该输入/输出接口105还连接到输入部分106、输出部分107、存储部分108、通信部分109和驱动器110。

输入部分106包括键盘、鼠标和麦克风，而输出部分107包括显示单元和扬声器。存储部分108包括硬盘和非易失性存储器。通信部分109典型地是网络接口。驱动器110是用于驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质111的部分。

在如上所述配置的计算机中，例如，CPU101通过输入/输出接口105和总线104将程序从存储部分108加载到RAM103。然后，CPU101然后运行程序以便执行上述处理序列。

要由CPU101运行的程序可以记录在诸如封装记录介质的可移除记录介质111上。在此情况下，程序从可移除记录介质111安装到存储部分108。作为替代，要由CPU101运行的程序还可以是通过传送介质和通信部分109从程序提供者下载到存储部分108的程序。传送介质可以是诸如局域网、因特网或广播卫星的无线电或有线传送介质。

为了将程序从可移除记录介质111安装到存储部分108，可移除记录介质111安装在驱动器110上。在可移除记录介质111安装在驱动器110上的情况下，程序可以通过输入/输出接口105安装在存储部分108中。此外，程序通过无线电或有线传送介质和通信部分109从程序提供者下载到存储部分108如下。在安装在存储部分108中之前，通过通信部分109接收来自程序提供者的程序。作为另一替代，程序可以预先存储在ROM102或存储部分108中。

要注意的是，由CPU101运行的程序可以是运行来以本说明书中之前说明的顺序沿着时间轴执行处理序列的程序。作为替代，由CPU101运行的程序可以是运行来在并发处理环境中执行处理序列的程序，或者运行来以适当定时执行处理序列的程序，也就是说，典型地当调用程序时运行来执行处理序列的程序。

本技术的实施绝不限于上述实施例。也就是说，本技术可以在不背离本技术的实质的范围内实施到多种实施例。

例如，本技术可以实施到云计算配置，其包括用于通过经由分布式处理环境中的网络的装置间合作来执行功能的多个装置。

此外，之前描述的流程图的各步骤可以由分布式处理环境中的装置或多个装置执行。

此外，如果流程图步骤包括多个处理，那么包括在步骤中的各处理可以由分布式处理环境中的装置或多个装置执行。

要注意的是，本技术还可以实现为以下实施方式：

（1）一种信息处理装置，包括：

高质量声音确定部分，配置为确定能够确定为已经在好条件下收集的声音作为好条件声音，所述好条件声音包括在属于在不同条件下收集的一组声音的混合声音中；以及

声音识别部分，配置为

通过使用预定参数对由所述高质量声音确定部分确定的所述好条件声音执行声音识别处理，

基于对所述好条件声音执行的所述声音识别处理的结果，修改所述预定参数的值，并且

通过使用具有所述修改值的所述预定参数，对作为不同于所述好条件声音的声音的、包括在所述混合声音中的声音执行所述声音识别处理。

（2）如实施方式（1）所述的信息处理装置，其中所述高质量声音确定部分将所述混合声音分割为声音输出时段，对于每个所述声音输出时段计算S/N比，并且基于所述计算的S/N比对于每个所述声音输出时段确定所述好条件声音。

（3）如实施方式（1）或（2）所述的信息处理装置，其中所述高质量声音确定部分将所述混合声音分割为声音输出时段，对于每个所述声音输出时段计算S/N比，并且基于所述计算的S/N比对于每个声音输出人确定所述好条件声音。

（4）如实施方式（1）到（3）的任一所述的信息处理装置，其中：

所述混合声音包括多个声音，其每个源自由多个音频编解码器之一执行的处理；并且

在确定所述好条件声音的处理中，所述高质量声音确定部分在与源自由每个所述其他音频编解码器执行的所述处理的所述声音的比较中，确定源自由音频编解码器执行的处理的声音为具有高质量的声音。

（5）如实施方式（1）到（4）的任一所述的信息处理装置，其中所述声音识别部分包括：

特征量提取块，配置为从包括在所述混合声音中的处理对象提取特征量；

似然度计算块，配置为基于由所述特征量提取块提取的特征量，对于所述处理对象生成声音识别处理结果的多个候选者，并且对于每个所述候选者计算似然度；

比较块，配置为比较每个对于所述候选者之一由所述似然度计算块计算的每个所述似然度与预定阈值，以便基于所述比较的结果从所述候选者选择所述处理对象的声音识别处理结果，并且输出所述选择的声音识别处理结果；以及

参数修改块，配置为当已经设置所述好条件声音以用作所述处理对象时，基于由所述比较块输出的所述声音识别处理结果，修改作为所述预定参数的在所述特征量提取块、所述似然度计算块和所述比较块的至少一个中使用的参数。

（6）如实施方式（1）到（5）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在似然度的计算中由所述似然度计算块使用的先验概率，作为包括在所述好条件声音的声音识别处理结果中的包括词的候选者的所述预定参数。

（7）如实施方式（1）到（6）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述比较块中使用的所述阈值，作为所述预定参数。

（8）如实施方式（1）到（7）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在似然度的计算中由所述似然度计算块使用的先验概率，作为包括在所述好条件声音的声音识别处理结果中的包括词的相关词的候选者的所述预定参数。

（9）如实施方式（1）到（8）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述特征量提取块中采用来提取特征量的频率分析技术，作为所述预定参数。

（10）如实施方式（1）到（9）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改由所述特征量提取块提取的特征量的类型，作为所述预定参数。

（11）如实施方式（1）到（10）的任一所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述似然度计算块中使用的候选者的数目，作为所述预定参数。

（12）如实施方式（1）到（11）的任一所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的时间单元，以用作所述预定参数的修改时间范围，并且对于在包括在所述修改时间范围中的时间输出的声音统一地修改所述预定参数的值。

（13）如实施方式（1）到（12）的任一所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的时间单元，以用作所述预定参数的修改时间范围，并且根据从所述好条件声音到在包括在所述修改时间范围中的时间输出的声音的时间距离，对于在包括在所述修改时间范围中的时间输出的所述声音修改所述预定参数的值。

（14）如实施方式（1）到（13）的任一所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的声音输出时段，以用作所述预定参数的修改时间范围，并且对于在包括在所述修改时间范围中的时间输出的声音统一地修改所述预定参数的值。

（15）如实施方式（1）到（14）的任一所述的信息处理装置，其中：

所述参数修改块设置所述好条件声音前后预定数目的声音输出时段，以用作所述预定参数的修改时间范围；

从紧接在所述好条件声音之前的所述声音输出时段计数的序列号分配给所述好条件声音之前的每个所述声音输出时段，从紧接在所述好条件声音之后的所述声音输出时段计数的序列号分配给所述好条件声音之后的每个所述声音输出时段；并且

对于包括在所述修改时间范围中的声音输出时段，所述参数修改块根据分配给所述声音输出时段的所述序列号，修改所述预定参数的值。

本技术可以应用于取混合声音作为处理对象的声音识别装置。

本公开包含涉及于2012年5月7日在日本专利局提交的日本优先权专利申请JP2012-105948中公开的主题，在此通过引用并入其整个内容。

本领域的技术人员应该理解，取决于设计要求和其他因素，可以出现各种修改、组合、子组合和替换，只要它们在所附权利要求或其等价物的范围内。

Claims

1.一种信息处理装置，包括：

声音识别部分，配置为

2.如权利要求1所述的信息处理装置，其中所述高质量声音确定部分将所述混合声音分割为声音输出时段，对于每个所述声音输出时段计算信噪比，并且基于所述计算的信噪比对于每个所述声音输出时段确定所述好条件声音。

3.如权利要求1所述的信息处理装置，其中所述高质量声音确定部分将所述混合声音分割为声音输出时段，对于每个所述声音输出时段计算信噪比，并且基于所述计算的信噪比对于每个声音输出人确定所述好条件声音。

4.如权利要求1所述的信息处理装置，其中：

5.如权利要求1所述的信息处理装置，其中所述声音识别部分包括：

6.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在似然度的计算中由所述似然度计算块使用的先验概率，作为包括在所述好条件声音的声音识别处理结果中的包括词的候选者的所述预定参数。

7.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述比较块中使用的所述阈值，作为所述预定参数。

8.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在似然度的计算中由所述似然度计算块使用的先验概率，作为包括在所述好条件声音的声音识别处理结果中的包括词的相关词的候选者的所述预定参数。

9.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述特征量提取块中采用来提取特征量的频率分析技术，作为所述预定参数。

10.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改由所述特征量提取块提取的特征量的类型，作为所述预定参数。

11.如权利要求5所述的信息处理装置，其中如果已经设置不同于所述好条件声音的声音以用作所述处理对象，则所述参数修改块修改在所述似然度计算块中使用的候选者的数目，作为所述预定参数。

12.如权利要求5所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的时间单元，以用作所述预定参数的修改时间范围，并且对于在包括在所述修改时间范围中的时间输出的声音统一地修改所述预定参数的值。

13.如权利要求5所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的时间单元，以用作所述预定参数的修改时间范围，并且根据从所述好条件声音到在包括在所述修改时间范围中的时间输出的声音的时间距离，对于在包括在所述修改时间范围中的时间输出的所述声音修改所述预定参数的值。

14.如权利要求5所述的信息处理装置，其中所述参数修改块设置所述好条件声音前后预定数目的声音输出时段，以用作所述预定参数的修改时间范围，并且对于在包括在所述修改时间范围中的时间输出的声音统一地修改所述预定参数的值。

15.如权利要求5所述的信息处理装置，其中：

16.一种由信息处理装置采用的信息处理方法，以用做包括以下步骤的方法：

确定能够确定为已经在好条件下收集的声音作为好条件声音，所述好条件声音包括在属于在不同条件下收集的一组声音的混合声音中；

通过使用预定参数对所述确定的好条件声音执行声音识别处理；

基于对所述好条件声音执行的所述声音识别处理的结果，修改所述预定参数的值；以及

17.一种由计算机运行的信息处理程序，以便用作：

声音识别部分，配置为