CN101740035B

CN101740035B - 通话语音处理装置、通话语音处理方法

Info

Publication number: CN101740035B
Application number: CN2009102093334A
Authority: CN
Inventors: 难波隆一; 安部素嗣; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-11-04
Filing date: 2009-11-04
Publication date: 2012-10-31
Anticipated expiration: 2029-11-04
Also published as: JP2010112995A; US20100111290A1; JP4816711B2; CN101740035A

Abstract

本发明公开了通话语音处理装置、通话语音处理方法及程序。提供了一种通话语音处理装置，包括：输入校正单元，将从第一输入装置输入的第一输入声音的特性校正为与第一输入声音的特性不同的、从第二输入装置输入的第二输入声音的特性；声音分离单元，当多个声音被包含在第二输入声音中时，将第二输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型来计算每个声音的混合比；声音混合单元，以混合比计算单元计算出的混合比混合经声音分离单元分离的多个声音；以及提取单元，利用由声音混合单元混合的经混合声音从经输入校正单元校正后的第一输入声音中提取特定声音。

Description

通话语音处理装置、通话语音处理方法

技术领域

本发明涉及通话语音处理装置、通话语音处理方法及程序，并且更具体地涉及利用成像麦克风(imaging microphone)提高通话语音质量的通话语音处理装置、通话语音处理方法及程序。

背景技术

在诸如移动电话之类的通信装置中通常仅使用单个通话麦克风来拨打电话。因此，难以通过利用多个麦克风来使用空间传输特性的差异从而提高质量。为了通过使用单个语音移除噪声，不存在对诸如频谱删减(spectrum subtraction)之类的将失真添加到输出声音的技术的替代技术。

因此，考虑了添加麦克风来收集或移除环境声音以提高通话语音质量的方法。根据该方法，可以通过从通话麦克风所记录的声音中删减去所添加麦克风收集的环境声音来实现较高质量的通话语音。

顺便提及，近年来，通信装置逐渐具有成像功能。因此，利用成像麦克风提高通话语音质量可以认为是可实现的，而无需如上所述的添加麦克风。例如，可以考虑如下方法：通过分离来源于多个声源的声音，来仅强调通话语音。作为强调声音的方法，例如，可以考虑如下方法：将包括多个部分的音乐信号分离为各个部分，并且在重新混合经分离的声音之前强调重要的部分(例如，日本专利申请早期公开No.2002-236499)。

发明内容

然而，日本专利申请早期公开No.2002-236499是打算用于音乐信号的，而不是用于通话语音的技术。还存在如下问题：成像麦克风的频率特性与通话麦克风的频率特性极不相同，并且各个麦克风的布置未必被优化用于提高通话语音的质量。

本发明是鉴于上面的问题而作出的，并且希望提供能够利用不同特性的麦克风来强调通话语音的通话语音处理装置、通话语音处理方法及程序。

根据本发明的一个实施例，提供了通话语音处理装置，包括：输入校正单元，将从第一输入装置输入的第一输入声音的特性校正为与第一输入声音的特性不同的、从第二输入装置输入的第二输入声音的特性；声音分离单元，当多个声音被包含在第二输入声音中时，将第二输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型来计算每个声音的混合比；声音混合单元，以混合比计算单元计算出的混合比混合经声音分离单元分离的多个声音；以及提取单元，利用由声音混合单元混合的经混合声音从经输入校正单元校正后的第一输入声音中提取特定声音。

根据上面的配置，从通话语音处理装置的第一输入装置输入的第一输入声音的特性被校正为从第二输入装置输入的第二输入声音的特性。第二输入声音被分离为由多个声源产生的声音，并且多个经分离的声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比，并且以混合比重新混合每个经分离的声音。然后，利用被重新混合后的经混合声音，从校正了其特性的第一输入声音中提取通话语音。

因此，可以利用诸如具有不同特性的麦克风之类的输入装置来强调通话语音。即，可以通过利用与通话语音处理装置设置在一起的第二输入装置从输入到第一输入装置的第一输入声音中提取通话语音，来舒适地进行通话。例如，在所希望的通话语音被音量高于通话语音音量的噪声掩盖而使得难以听见所希望通话语音后，可以防止适当的通话语音中断。而且，可以利用第二输入装置来提取用户所希望的通话语音，而不用将收集或移除环境声音的麦克风添加到通话语音处理装置。

第一输入装置可以是通话麦克风，第二输入装置可以是成像麦克风，并且由提取单元提取的特定声音可以是通话者的语音。

声音分离单元可以将第一输入声音和第二输入声音分离为多个声音。

声音确定单元确定第一输入声音是否包含通话者的语音。

声音确定单元可以通过利用输入声音的音量、频谱、多个输入声音的相位差以及离散时间处的幅度信息分布中的至少一个来确定声源的方向、距离和音调(tone)，从而判断通话者声源是否被包含。

输入校正单元可以校正第一输入声音和/或第二输入声音的频率特性。

输入校正单元可以对第一输入声音和/或第二输入声音执行采样速率转换。

输入校正单元可以校正因第一输入声音和/或第二输入声音的A/D转换引起的延迟差。

相同性(identity)确定单元判断经声音分离单元分离的声音在多个块间是否相同，并且记录单元以块为单位记录经声音分离单元分离的声音。

声音分离单元可以利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。

声音分离单元可以利用声源的时间频率分量之间的少量重叠(apaucity of overlappin)来将输入声音分离为源自特定声源的声音以及其它声音。

声音类型估计单元可以利用输入声音的离散时间处的幅度信息分布、方向、音量、零交叉数等来估计输入声音是稳定声音还是不稳定声音。

声音类型估计单元可以估计被估计为不稳定声音的声音是噪声声音还是人发出的语音。

混合比计算单元可以计算不会明显改变由声音类型估计单元估计为稳定声音的声音的音量的混合比。

混合比计算单元可以计算使被声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。

根据本发明的另一实施例，提供了通话语音处理方法，包括以下步骤：将从第一输入装置输入的第一输入声音的特性校正为与第一输入声音的特性不同的、从第二输入装置输入的第二输入声音的特性；当多个声音被包含在第二输入声音中时，将第二输入声音分离为多个声音；估计多个经分离的声音的声音类型；根据估计出的声音类型来计算每个声音的混合比；以计算出的混合比混合多个经分离的声音；以及利用通过混合获得的经混合声音从经校正后第一输入声音中提取特定声音。

根据本发明的另一实施例，提供了用于使得计算机用作通话语音处理装置的程序，该通话语音处理装置包括：输入校正单元，将从第一输入装置输入的第一输入声音的特性校正为与第一输入声音的特性不同的、从第二输入装置输入的第二输入声音的特性；声音分离单元，当多个声音被包含在第二输入声音中时，将第二输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型来计算每个声音的混合比；声音混合单元，以混合比计算单元计算出的混合比混合经声音分离单元分离的多个声音；以及提取单元，利用由声音混合单元混合的经混合声音从经输入校正单元校正后的第一输入声音中提取特定声音。

根据本发明，如上所述，可以利用不同特性的麦克风来强调通话语音。

附图说明

图1是示出了根据本发明第一实施例的通话语音处理装置的功能配置的框图；

图2是示出了根据实施例的声音类型估计单元的配置的功能框图；

图3是示出了基于两个输入声音的相位差来估计输入声音的声源位置的状态的示例图；

图4是示出了基于三个输入声音的相位差来估计输入声音的声源位置的状态的示例图；

图5是示出了基于两个输入声音的音量来估计输入声音的声源位置的状态的示例图；

图6是示出了基于三个输入声音的音量来估计输入声音的声源位置的状态的示例图；

图7是图示出根据实施例由提取单元提取通话语音的一个示例的示例图；

图8是示出了根据实施例由通话语音处理装置执行的通话语音处理方法的流程的流程图；以及

图9是示出了根据本发明第二实施例的通话语音处理装置的功能配置的框图。

具体实施方式

下面，将参考附图详细描述本发明的优选实施例。注意，在本说明书和附图中，用相同的标号表示具有基本上相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

将以如下所示的顺序来描述“具体实施方式”：

[1]实施例的目的

[2]根据本发明第一实施例的通话语音处理装置的描述

[2-1]根据本实施例的通话语音处理装置的功能配置

[2-2]根据本实施例的通话语音处理装置的操作

[3]根据本发明第二实施例的通话语音处理装置的描述

[3-1]根据本实施例的通话语音处理装置的功能配置

[1]实施例的目的

首先，将描述本发明实施例的目的。在诸如移动电话之类的通信装置中通常仅使用单个通话麦克风来拨打电话。因此，难以通过利用多个麦克风来使用空间传输特性的差异从而提高质量。为了通过使用单个语音移除噪声，不存在对诸如频谱删减之类的将失真添加到输出声音的技术的替代技术。

顺便提及，近年来，通信装置逐渐具有成像功能。因此，可以认为利用成像麦克风提高通话语音质量是可实现的，而无需如上所述的添加麦克风。例如，可以考虑分离来源于多个声源的声音以仅强调通话语音的方法。

然而，存在如下问题：成像麦克风的特性与通话麦克风的特性极不相同并且各个麦克风的布置未必被优化用于提高通话语音的质量。因此，鉴于所关注的上面的情形，开发了根据本发明实施例的通话语音处理装置。根据实施例中的通话语音处理装置10，可以利用不同特性的麦克风来强调通话语音。

[2]根据本发明第一实施例的通话语音处理装置的描述

接下来，将描述作为根据本实施例的通话语音处理装置一个示例的通话语音处理装置10的功能配置和操作。

[2-1]根据本实施例的通话语音处理装置的功能配置

将参考图1描述通话语音处理装置10的功能配置。如上所述，根据本实施例的通话语音处理装置10利用不同特性的麦克风来强调通话语音。作为通话语音处理装置10，例如可以诸如具有成像相机的移动电话之类的通信装置为例。

当利用具有通话功能和成像功能的通信装置进行通话时，讲话者发出的语音通常被由另一声源引起的声音掩盖，从而使讲话者发出的语音不能清晰地被发送。此外，当周围状况改变时，例如在移动时，在通话语音中出现较大波动，这使得接收侧难以以恒定再现音量来舒适地收听通话语音。然而，根据本实施例中的通话语音处理装置10，成像麦克风被用作通话麦克风，并且通过调节通话语音和除通话语音之外的声音之间的音量平衡或者调节通话音量的水平，使得能够提高通话语音的质量。

图1是示出了根据本实施例的通话语音处理装置10的功能配置的框图。如图1所示，通话语音处理装置10包括第一声音记录单元102、输入校正单元104、提取单元106、声音确定单元108、第二声音记录单元110、声音分离单元112、记录单元114、存储单元116、相同性确定单元118、声音类型估计单元122、混合比计算单元120以及声音混合单元124。

第一声音记录单元102具有记录声音并离散地量化所记录声音的功能。第一声音记录单元102是本发明第一输入装置的一个示例，并且例如是通话麦克风。第一声音记录单元102包含两个或更多个实体上分离的记录单元(例如，麦克风)。第一声音记录单元102可以包含两个记录单元，一个用于记录左边的声音，并且另一个用于记录右边的声音。

第一声音记录单元102将经离散量化的声音作为输入声音提供给输入校正单元104。第一声音记录单元102可以将输入声音提供给声音确定单元108。第一声音记录单元102可以以预定长度的块为单位将输入声音提供给输入校正单元104和/或声音确定单元108。

输入校正单元104具有校正具有不同特性的通话麦克风的特性的功能。即，从作为第一输入装置的通话麦克风输入的第一输入声音(通话语音)的特性被校正为从作为第二输入装置的成像麦克风输入的第二输入声音(成像期间的声音)的特性。校正输入声音例如是：在采样频率与另一麦克风的采样频率不同时执行速率转换，并且在频率特性不同时采用频率特性的逆特性。如果因A/D转换等而使延迟量不同，则可以校正延迟量。

声音确定单元108具有判断通话者的语音是否被包含在由第一声音记录单元102提供的第一输入声音(通话语音)中的功能。更具体地，声音确定单元108在根据第一输入声音的音量、频谱、多个输入声音的相位差信息以及离散时间处的幅度信息的分布判断出是否存在语音输入之后，判断通话者发出的语音输入是否被包含。如果作为判断结果，声音确定单元108确定通话者发出的语音的输入被包含，则声音确定单元108向声音分离单元112通知判断结果。

第二声音记录单元110具有记录声音并离散地量化所记录声音的功能。第二声音记录单元110是本发明第二输入装置的一个示例，并且例如是成像麦克风。第二声音记录单元110包含两个或更多个实体上分离的记录单元(例如，麦克风)。第二声音记录单元110可以包含两个记录单元，一个用于记录左边的声音而另一个用于记录右边的声音。第二声音记录单元110将经离散量化的声音作为输入声音提供给声音分离单元112。第二声音记录单元110可以以预定长度的块为单位将输入声音提供给声音分离单元112。

声音分离单元112具有将第二声音记录单元110提供的第二输入声音分离为由多个声源引起的多个声音的功能。更具体地，利用声源的统计独立性以及空间传输特性差异来分离第二输入声音。当如上所述，输入声音由第二声音记录单元110以预定长度的块为单位来提供时，可以以块为单位来分离声音。

作为通过声音分离单元112分离声源的具体技术，例如可以使用利用独立分量分析的技术(文章1：Y.Mori，H.Saruwatari，T.Takatani，S.Ukai，K.Shikano，T.Hietaka，T.Morita的Real-Time Implementation of Two-StageBlind Source Separation Combining SIMO-ICA and Binary Masking，IWAENC2005学报，(2005))。还可以使用利用声音的时间频率分量之间的少量重叠的技术(文章2：O.Yilmaz和S.Richard的Blind Separationof Speech Mixtures via Time-Frequency Masking，IEEE TRANSACTIONSON SIGNAL PROCESSING，VOL.52，NO.7，7月(2004))。

当声音确定单元108的通话者发出的语音被包含的判断结果被通知时，可以分离第一输入声音。当声音确定单元108的通话者发出的语音不被包含的判断结果被通知时，可以防止分离第一输入声音。

虽然在本实施例中第一输入声音由声音确定单元108来进行确定，然而，还可以采用省略声音确定单元108的功能的配置。即，第一输入声音全部被提供给声音分离单元112，而不对第一输入声音进行确定。

相同性确定单元118具有如下功能：当声音分离单元112将输入声音分离为以块为单位的多个声音时，判断分离后的声音在多个块间是否相同。相同性确定单元118例如利用由声音分离单元112提供的经分离声音的幅度信息的分布、音量、离散时间处的方向信息等，来判断连续块之间的分离声音是否源自相同声源。

记录单元114具有以块为单位将经声音分离单元112分离的声音的音量信息记录在存储单元116中的功能。记录在存储单元116中的音量信息例如包括：由相同性确定单元118获取的每个经分离声音的声音类型信息，以及由声音分离单元112获取的经分离声音的平均值、最大值、方差等。除了实时声音之外，还可以记录过去被执行了声音处理的经分离声音的音量平均值。如果在输入声音之前可获得输入声音的音量信息，则可以记录该音量信息。

声音类型估计单元122具有估计经声音分离单元112分离的多个声音的声音类型的功能。例如根据从经分离声音的音量以及幅度信息的分布、最大值、平均值、方差、零交叉数等获得的声音信息，以及方向距离信息来估计声音类型(稳定或不稳定，噪声或声音)。这里，将描述声音类型估计单元122的详细功能。下面将描述通话语音处理装置10被安装在通信装置中的情况。声音类型估计单元122判断源自成像装置附近的任何声音(例如成像装置的操作者的语音或操作者的操作产生的噪声)是否被包含。从而，可以估计出产生声音的声源。

图2是示出了声音类型估计单元122的配置的功能框图。声音类型估计单元122包括音量检测单元130、声音质量检测单元138、距离/方向估计器144以及声音估计器146，其中，音量检测单元130包括音量检测器132、平均音量检测器134和最大音量检测器136，声音质量检测单元138包括频谱检测器140和声音质量检测器142。

音量检测器132检测以预定长度(例如，数十兆秒)的帧给出的输入声音的音量值序列(幅度)，并且将检测到的输入声音的音量值序列输出给平均音量检测器134、最大音量检测器136、声音质量检测器142和距离/方向估计器144。

平均音量检测器134基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的平均值。平均音量检测器134将检测到的音量的平均值输出给声音质量检测器142和声音估计器146。

最大音量检测器136基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的最大值。最大音量检测器136将检测到的输入声音的音量的最大值输出给声音质量检测器142和声音估计器146。

频谱检测器140例如通过对输入声音执行FFT(快速傅立叶变换)来在输入声音的频域中检测各个频谱。频谱检测器140将检测到的频谱输出给声音质量检测器142和距离/方向估计器144。

声音质量检测器142具有输入给它的输入声音、音量的平均值、音量的最大值以及频谱，检测人类语音的相似度、音乐的相似度、稳定性以及输入声音的脉冲特性，然后将检测结果输出到声音估计器146。人类语音的相似度可以是指示部分或所有输入声音与人类语音相匹配或者输入声音与人类语音的类似程度的信息。此外，音乐的相似度可以是指示部分或所有输入声音与音乐相匹配或者输入声音与音乐的类似程度的信息。

稳定性例如指示像空调声音的，声音的统计特性随着时间改变不大的特性。脉冲特性例如指示像吹出的声音或爆破音的，能量集中在较短的时间段中的充满噪声的特性。

声音质量检测器142例如可以基于输入声音的频谱分布与人类语音的频谱分布的匹配程度来检测人类语音的相似度。声音质量检测器142还可以通过将各帧的音量的最大值相比较或者与其它帧相比较，来检测音量的最大值增加时的较高脉冲特性。

声音质量检测器142可以利用诸如零交叉方法和LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的声音质量。根据零交叉方法，输入声音的基本周期被检测到，因此，声音质量检测器142可以根据该基本周期是否被包含在人类语音的基本周期(例如，100到200Hz)中来检测人类语音的相似度。

距离/方向估计器144具有输入给它的输入声音、输入声音的音量值序列、输入声音的频谱等。距离/方向估计器144具有如下功能：基于输入，作为位置信息计算单元来估计输入声音的声源，或者诸如产生了输入声音所包含的主要声音的声源的方向信息和距离信息之类的位置信息。距离/方向估计器144通过将输入声音的相位、音量和音量值序列与基于过去的平均音量值和最大音量值的声源位置信息估计方法相结合，即使在由成像装置的主体引起的声音的回响或反射具有较大影响时，也可以总地估计出声源的位置。将参考图3至图6描述距离/方向估计器144对方向信息和距离信息的估计方法的一个示例。

图3是示出基于两个输入声音的相位差来估计输入声音的声源位置的状态的示例图。如果假设声源是点声源，则可以测量到达构成第二声音记录单元110的麦克风M1和麦克风M2的每个输入声音的相位以及输入声音的相位差。此外，可以根据输入声音的相位差以及频率f和声速c的值来计算从麦克风M1到输入声音的声源位置的距离与从麦克风M2到输入声音的声源位置的距离之间的差值。声源出现在一组点上，其中，距离差是恒定的。已经知道，距离差恒定的这样一组点形成了双曲线。

例如，假设麦克风M1位于(x1，0)而麦克风M2位于(x2，0)(基于该假设，不失一般性)。如果要确定的一组声源位置上的点在(x，y)处并且距离差为d，则下面所示的公式1成立：

[式1]

\sqrt{{(x - x_{1})}^{2} + y^{2}} - \sqrt{{(x - x_{2})}^{2} + y^{2}} = d

(公式1)

此外，公式1可被扩展为用来得出表示双曲线的公式3的公式2：

[式2]

{(x-x₁)²+2y²+(x-x₂)²-d²}²＝4{(x-x₁)²+y²}{(x-x₂)²+y²}

(公式2)

[式3]

\frac{{(x - \frac{x_{1} + x_{2}}{2})}^{2}}{{(\frac{d}{2})}^{2}} - \frac{y^{2}}{{(\frac{1}{2})}^{2}} = 1

(公式3)

距离/方向估计器144还可以基于由麦克风M1和麦克风M2所记录的输入声音之间的音量差，来确定距离/方向估计器144更接近麦克风M1和麦克风M2中的哪个。因此，例如如图3所示，可以确定声源出现在更接近麦克风M2的双曲线1上。

顺便提及，用来计算相位差的输入声音的频率f需要满足公式4中的与麦克风M1和麦克风M2之间的距离有关的条件：

[式4]

f < \frac{c}{2 d}

(公式4)

图4是示出了基于三个输入声音间的相位差来估计输入声音的声源位置的状态的示例图。假设构成了第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图4所示。与到达麦克风M3和麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延迟。在此情况中，距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线1的、麦克风M5的相对侧(前面/后面确定)。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的相位差来计算其上将出现声源的双曲线2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的相位差来计算其上将出现声源的双曲线3。结果，距离/方向估计器144可以估计出双曲线2和双曲线3的交点P1是声源位置。

图5是示出了基于两个输入声音的音量来估计输入声音的声源位置的状态的示例图。如果假设声源是点声源，则根据平方反比定律(inversesquare law)，在一点处测得的音量与距离的平方成反比。如果假设构成了第二声音记录单元110的麦克风M6和麦克风M7如图5所示，则到达麦克风M6和麦克风M7的音量的比为恒定的一组点形成了圆周。距离/方向估计器144可以通过从自音量检测器132输入的音量值确定音量的比，从而确定声源将出现在其上的圆周的半径和中心位置。

如图5所示，假设麦克风M6位于(x3，0)而麦克风M7位于(x4，0)。在此情况中(基于该假设，不失一般性)，如果要确定的一组声源位置上的点在(x，y)，则从每个麦克风到声源的距离r1和r2可以表达为下面的公式5：

[式5]

r_{1} = \sqrt{{(x - x_{3})}^{2} + y^{2}}

r_{2} = \sqrt{{(x - x_{4})}^{2} + y^{2}}

(公式5)

这里，由于平方反比定律，下面的公式6成立：

[式6]

(公式6)

利用正常数d(例如，4)将公式6变换为公式7：

[式7]

\frac{r_{2}^{2}}{r_{1}^{2}} = d

(公式7)

通过将r1和r2代入公式7得出了下面的公式8：

[式8]

\frac{{(x - x_{4})}^{2} + y^{2}}{{(x - x_{3})}^{2} + y^{2}} = d

{(x - \frac{x_{4} - d x_{3}}{1 - d})}^{2} + y^{2} = \frac{d {(x_{4} - x_{3})}^{2}}{{(1 - d)}^{2}}

(公式8)

从公式8，距离/方向估计器144可以估计出声源出现在圆周1上(如图5所示)，圆周1的中心坐标用公式9表示并且其半径用公式10表示。

[式9]

(\frac{x_{4} - {dx}_{3}}{1 - d}, 0)

(公式9)

[式10]

| \frac{x_{4} - x_{3}}{1 - d} | \sqrt{d}

(公式10)

图6是示出了基于三个输入声音的音量来估计输入声音的声源位置的状态的示例图。假设构成了第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图6所示。与到达麦克风M3或麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延迟。在此情况中，距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线2的、麦克风M5的相对侧(前面/后面确定)。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的音量比来计算其上将出现声源的圆周2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的音量比来计算其上将出现声源的圆周3。结果，距离/方向估计器144可以估计出圆周2和圆周3的交点P2是声源位置。如果使用四个或更多个麦克风，则距离/方向估计器144可以进行包括声源的空间布置在内的更精确地估计。

距离/方向估计器144如上所述那样基于输入声音的相位差或音量比来估计输入声音的声源的位置，并且将估计出的声源的方向信息或距离信息输出给声音估计器146。下面的表1列出了上述音量检测单元130、声音质量检测单元138和距离/方向估计器144中的每个组件的输入/输出。

[表1]

块	输入	输出
			音量检测器	输入声音	以帧为单位的音量值序列(幅度)
平均音量检测器	以帧为单位的音量值序列 (幅度)	音量的平均值
			最大音量检测器	以帧为单位的音量值序列 (幅度)	音量的最大值
频谱检测器	输入声音	频谱
			声音质量检测器	输入声音音量的平均值音量的最大值频谱	人类语音的相似度音乐的相似度稳定或不稳定脉冲特性
距离/方向估计器	输入声音以帧为单位的音量值序列 (幅度) 频谱	方向信息距离信息

如果源自多个声源的声音被叠加在输入声音上，则距离/方向估计器144难以精确地估计出输入声音中所主要包含的声音的声源位置。然而，距离/方向估计器144可以估计出接近输入声音中所主要包含的声音的声源位置。估计出的声源位置可以用作声音分离单元112进行声音分离的初始值，因此，通话语音处理装置10即使在距离/方向估计器144估计出的声源位置存在误差时，也可以执行所希望的操作。

将参考图2继续描述声音类型估计单元122的配置。声音估计器146基于输入声音的音量、声音质量和位置信息中的至少一个，总地判断输入声音中是否包含源自通话语音处理装置10附近的特定声源的任何邻近声音，例如操作者的语音或从操作者的操作产生的噪声。如果声音估计器146确定输入声音中包含邻近声音，则声音估计器146具有如下功能：作为声音确定单元来将邻近声音被包含在输入声音中的消息(操作者语音出现信息)以及由距离/方向估计器144估计出的位置信息输出到声音分离单元112。

更具体地，如果距离/方向估计器144估计出输入声音的声源的位置在成像方向上位于对视频成像的成像单元(未示出)之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定邻近声音被包含在输入声音中。

如果输入声音的声源的位置在成像方向上位于对视频成像的成像单元之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定在输入声音中主要包含操作者的语音作为邻近声音。结果，可从后面所述的声音混合单元124获得降低了操作者语音的声音比的经混合声音。

声音估计器146具有离记录位置设置距离的范围内(通话语音处理装置10的附近，例如，通话语音处理装置10的1m内)的输入声音的声源的位置。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则声音估计器146可以确定输入声音包含由特定声源产生的邻近声音。这里，当成像装置的操作者操作成像装置的按钮或者将成像装置从一只手移到另一只手时，会频繁地产生诸如“滴答”和“砰”之类的脉冲声音。此外，脉冲声音由装配有通话语音处理装置10的成像装置产生，因此，很有可能记录较大音量的脉冲声音。

因此，声音估计器146具有离记录位置设置距离的范围内的输入声音的声源的位置。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则输入声音可被确定为主要包含作为邻近声音的从操作者的操作产生的噪声。结果，可从后面所述的声音混合单元124获得降低了从操作者的操作产生的噪声的声音比的经混合声音。

另外，表2总结了输入到声音估计器146的信息以及声音估计器146 基于输入信息的确定结果的示例。通过组合接近传感器(proximitysensor)、温度传感器等，可以提高声音估计器146的确定精度。

[表2]

返回图1，混合比计算单元120具有根据由声音类型估计单元122估计出的声音类型计算每个声音的混合比的功能。例如，利用由声音分离单元112分离的经分离声音、声音类型估计单元122的声音类型信息以及记录在记录单元114中的音量信息来计算降低主要声音的音量的混合比。

当声音类型较稳定时，还参考输出类型估计单元122的输出信息来计算出使得连续块之间的音量信息不会明显改变的混合比。当声音类型不稳定(非稳定)并且更可能是噪声时，混合比计算单元120降低所关注的声音的音量。另一方面，如果声音类型是不稳定的并且更可能是由人发出的语音，则与噪声声音相比，较少地降低所关注的声音的音量。

声音混合单元124具有以混合比计算单元120提供的混合比来混合经声音分离单元112分离的多个声音的功能。例如，声音混合单元124可以将通话语音处理装置10的邻近语音与要记录的声音相混合，以使得邻近声音所占的音量比低于邻近声音在输入声音中所占的音量比。因此，如果第一输入声音的邻近声音的音量不必要地高，则可以获得这样的混合声音，其中，从输入声音中所占的要记录的声音的音量比来增加要记录的声音所占的音量比。结果，可以防止要记录的声音被邻近声音隐藏。

提取单元106具有利用经声音混合单元124混合的混合声音从经输入校正单元104校正的第一输入声音中提取特定声音的功能。例如，可以通过强调被包含在由输入校正单元104提供的第一输入声音中的通话语音来提取通话语音。

可以将诸如频谱删减之类的非线性处理当作提取通话语音的机制，该机制不限于这种示例。这里，将参考图7描述提取单元106对通话语音的提取。图7是图示出提取单元106提取通话语音的一个示例的示例图。

如图7所示，曲线图700所示的频率特性a是通话语音占主要部分的声音的频率特性。频率特性b是噪声声音占主要部分的声音的频率特性。然后，频率特性c示出了通话语音被强调的声音。

提取单元106通过从频率特性a指示的通话语音占主要部分的声音特性中删减由频率特性b指示的噪声声音占主要部分的声音特性，来提取由频率特性c指示的通话语音被强调的声音。

[2-2]根据本实施例的通话语音处理装置的操作

在前面已描述了根据本实施例的通话语音处理装置10的功能配置。接下来，将参考图8描述由通话语音处理装置10执行的通话语音处理方法。图8是示出了根据本实施例的由通话语音处理装置10执行的通话语音处理方法的流程的流程图。如图8所示，首先，通话语音处理装置10的第一声音记录单元102记录作为第一输入声音的通话语音。然后，第二声音记录单元110记录作为第二输入声音的成像期间的声音(S102)。

接下来，第一声音记录单元102判断第一声音是否已被输入并且第二声音记录单元110也判断第二声音是否已被输入(S104)。如果在步骤S104中既不存在第一输入声音也不存在第二输入声音，则处理终止。

如果第一声音记录单元102在步骤S104确定存在第一输入声音，则输入校正单元104将第一输入声音的特性校正为第二输入声音的特性(S106)。接下来，声音确定单元108判断通话语音是否出现在第一输入声音中(S108)。

如果声音确定单元108在步骤S108确定通话语音出现在第一输入声音中，则声音分离单元112将第二输入声音分离为多个声音(S110)。在步骤S110，声音分离单元112可以以预定长度的块为单位来分离输入声音。如果声音确定单元108在步骤S108确定通话语音未出现在第一输入声音中，则步骤S112中的处理被执行，而不分离第二输入声音。

然后，相同性确定单元118判断在步骤S110中以预定长度的块为单位被分离的第二输入声音在多个块间是否相同(S112)。相同性确定单元118可以利用在步骤S110中分离的以块为单位的声音的离散时间处的幅度信息的分布、音量、方向信息等，来确定相同性。

接下来，声音类型估计单元122计算每块的音量信息(S114)以估计每块的声音类型(S116)。在步骤S116，声音类型估计单元122将声音分为由操作者发出的语音、对象产生的声音、从操作者的操作产生的噪声、脉冲声音、稳定环境声音等。

接下来，混合比计算单元120根据在步骤S116中估计出的声音类型计算每个声音的混合比(S118)。混合比计算单元120基于在步骤S114中计算出的音量信息以及在步骤S116中计算出的声音类型信息来计算减小主要声音的音量的混合比。

然后，利用在步骤S118中计算出的每个声音的混合比来混合在步骤 S110中分离的多个声音(S120)。在前面，已描述了由通话语音处理装置10执行的声音分离方法。利用在步骤S120中混合的经混合声音从在步骤S106中校正过的第一输入声音中提取通话语音(S122)。

根据上面的实施例，如上所述，从通话麦克风输入的第一输入声音的特性被校正为从成像麦克风输入的第二输入声音的特性。第二输入声音被分离为由多个声源产生的声音，并且多个经分离的声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比，并且以混合比重新混合每个经分离的声音。然后，利用重新混合后的经混合声音，从校正了其特性的第一输入声音中提取通话语音。

因此，通过利用与通话语音处理装置10设置在一起的成像麦克风从输入到通话麦克风的第一输入声音中提取通话语音，可以舒适地进行通话。例如，在所希望的通话语音被音量高于通话语音音量的噪声掩盖而使得难以听见所希望通话语音后，可以防止适当的通话语音中断。而且，可以利用成像麦克风来提取用户所希望的通话语音，而不用将收集或移除环境声音的麦克风添加到通话语音处理装置10。

[3]根据本发明第二实施例的通话语音处理装置的描述

在第一实施例中，如上所述，第二输入声音被分离为多个声音，并且随后经分离的第二输入声音被重新混合。然而，在第二实施例中，将第一输入声音和第二输入声音用来分离输入声音。因此，提取单元106利用包括第一输入声音的经混合声音来提取通话语音。将详细地具体描述第二实施例与第一实施例不同的部分，并且将省略对与第一实施例中的组件类似的组件的详细描述。

[3-1]根据本实施例的通话语音处理装置的功能配置

将参考图9描述根据本实施例的通话语音处理装置11的功能配置。如上所述，根据本实施例的通话语音处理装置11利用从通话麦克风输入的第一输入声音和从成像麦克风输入的第二输入声音二者来分离输入声音。

如图9所示，通话语音处理装置11包括第一声音记录单元102、输入校正单元104、提取单元106、声音确定单元108、第二声音记录单元110、声音分离单元112、记录单元114、存储单元116、相同性确定单元118、声音类型估计单元122、混合比计算单元120以及声音混合单元124。

输入校正单元104将经校正的第一输入声音提供给声音分离单元112。然后，声音分离单元112不仅利用由第二声音记录单元110提供的第二输入声音而且利用由输入校正单元104提供的第一输入声音来分离输入声音。

提取单元106通过强调重新混合后的输入声音中的通话语音分量来提取通话语音。

同样，在本实施例中，可以采用省略声音确定单元108的功能的配置。即，包括所有的第一输入声音和第二输入声音的输入声音可以被提供给声音分离单元112，而不确定第一输入声音。

根据上面的实施例，如上所述，从通话语音处理装置11的通话麦克风输入的第一输入声音的特性被校正为从成像麦克风输入的第二输入声音的特性。第二输入声音和经校正的第一输入声音被分离为由多个声源产生的声音，并且多个经分离的声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比，并且以混合比重新混合每个经分离的声音。然后，从被重新混合后的经混合声音中提取通话语音。

因此，通过利用与通话语音处理装置11设置在一起的成像麦克风，从输入到通话麦克风的第一输入声音中提取通话语音，可以舒适地进行通话。例如，在所希望的通话语音被音量高于通话语音音量的噪声掩盖而使得难以听见所希望通话语音后，可以防止适当的通话语音中断。而且，可以利用成像麦克风来提取用户所希望的通话语音，而不用将收集或移除环境声音的麦克风添加到通话语音处理装置11。

本领域的技术人员应当明白，可以根据设计要求和其它因素进行各种修改、组合、子组合和变更，只要它们在所附权利要求或其等同物的范围之内。

在上面的实施例中，例如，描述了具有成像功能的通信装置中的通话语音质量的提高，但是本发明不限于此示例。例如，通信装置可以具有记录功能，尽管成像功能未被提供。上面的发明可以应用于除了具有通话麦克风外还具有可用的其它麦克风的通信装置。

本申请包含与2008年11月04日向日本专利局提交的日本优先权专利申请JP 2008-283068中公开的主题有关的主题。

Claims

1.一种通话语音处理装置，包括：

输入校正单元，所述输入校正单元将从通信装置的第一输入装置输入的第一输入声音的特性校正为与所述第一输入声音的特性不同的、从所述通信装置的第二输入装置输入的第二输入声音的特性，其中，所述第一输入装置是通话麦克风；

声音分离单元，所述声音分离单元在多个声音被包含在所述第二输入声音中时，将所述第二输入声音分离为多个声音；

声音类型估计单元，所述声音类型估计单元估计经所述声音分离单元分离的多个声音的声音类型；

混合比计算单元，所述混合比计算单元根据由所述声音类型估计单元估计出的声音类型来计算每个声音的混合比；

声音混合单元，所述声音混合单元以所述混合比计算单元计算出的混合比来混合经所述声音分离单元分离的多个声音；以及

提取单元，所述提取单元利用由所述声音混合单元混合出的经混合声音，从经所述输入校正单元校正后的第一输入声音中提取特定声音。

2.根据权利要求1所述的通话语音处理装置，其中，所述第二输入装置是成像麦克风，并且

由所述提取单元提取的特定声音是通话者的语音。

3.根据权利要求1所述的通话语音处理装置，其中，所述声音分离单元

将所述第一输入声音和所述第二输入声音分离为多个声音。

4.根据权利要求1所述的通话语音处理装置，其中，还包括：

声音确定单元，所述声音确定单元确定所述第一输入声音是否包含通话者的语音。

5.根据权利要求4所述的通话语音处理装置，其中，所述声音确定单元

通过利用输入声音的音量、频谱、多个输入声音的相位差以及离散时间处的幅度信息分布中的至少一个来确定声源的方向、距离和音调，从而判断通话者声源是否被包含。

6.根据权利要求1所述的通话语音处理装置，其中，所述输入校正单元校正所述第一输入声音和/或所述第二输入声音的频率特性。

7.根据权利要求1所述的通话语音处理装置，其中，所述输入校正单元对所述第一输入声音和/或所述第二输入声音执行采样速率转换。

8.根据权利要求1所述的通话语音处理装置，其中，所述输入校正单元校正因所述第一输入声音和/或所述第二输入声音的模数转换而引起的延迟差。

9.根据权利要求1所述的通话语音处理装置，其中

所述声音分离单元将输入声音分离为以块为单位的多个声音，并且

所述通话语音处理装置还包括：

相同性确定单元，所述相同性确定单元判断经所述声音分离单元分离的声音在多个块间是否相同；以及

记录单元，所述记录单元以块为单位记录经所述声音分离单元分离的声音。

10.根据权利要求1所述的通话语音处理装置，其中，所述声音分离单元利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。

11.根据权利要求1所述的通话语音处理装置，其中，所述声音分离单元利用声源的时间频率分量之间的少量重叠，来将输入声音分离为源自特定声源的声音以及其它声音。

12.根据权利要求1所述的通话语音处理装置，其中，所述声音类型估计单元利用输入声音的离散时间处的幅度信息分布、方向、音量、零交叉数来估计输入声音是稳定声音还是不稳定声音。

13.根据权利要求12所述的通话语音处理装置，其中，所述声音类型估计单元对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行估计。

14.根据权利要求12所述的通话语音处理装置，其中，所述混合比计算单元计算不会明显改变由所述声音类型估计单元估计为稳定声音的声音的音量的混合比。

15.根据权利要求13所述的通话语音处理装置，其中，所述混合比计算单元计算使被所述声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。

16.一种通话语音处理方法，包括以下步骤：

将从通信装置的第一输入装置输入的第一输入声音的特性校正为与所述第一输入声音的特性不同的、从所述通信装置的第二输入装置输入的第二输入声音的特性，其中所述第一输入装置是通话麦克风；

当多个声音被包含在所述第二输入声音中时，将所述第二输入声音分离为多个声音；

估计多个经分离的声音的声音类型；

根据估计出的声音类型来计算每个声音的混合比；

以计算出的混合比混合多个经分离的声音；以及

利用通过混合获得的经混合声音，从经校正后第一输入声音中提取特定声音。