CN103270740B

CN103270740B - 声音控制装置、声音控制方法以及移动终端装置

Info

Publication number: CN103270740B
Application number: CN201080070956.9A
Authority: CN
Inventors: 外川太郎; 石川千里; 大谷猛; 铃木政直
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2016-09-14
Anticipated expiration: 2030-12-27
Also published as: EP2661053A1; JP5598552B2; JPWO2012090282A1; US20130290002A1; EP2661053A4; US9330678B2; CN103270740A; WO2012090282A1

Abstract

具备：计算部，其计算出响应时间，其中，上述响应时间表示受话信号的声音与送话信号的声音之间的时间差；听力推断部，其基于计算出的响应时间来推断用户的听力；和声音控制部，其利用与推断出的听力对应的修正量来控制受话信号。

Description

声音控制装置、声音控制方法以及移动终端装置

技术领域

本发明涉及对受话音进行控制的声音控制装置、声音控制方法、声音控制程序以及移动终端装置。

背景技术

以往，存在一种进行用于使受话声音容易听到的控制的移动终端装置。例如，有一种针对用户再生多个单音频率信号，基于用户的听取结果来计算最低听取等级，来对声音进行加工的技术（专利文献1）。

另外，有一种当从引导声音的输出起在规定时间内输出了表示引导声音的回应的操作信号时，对表示引导声音的输出方式的设定值进行调整来再次输出引导声音的技术（专利文献2）。

专利文献1:日本特开平7－66767号公报

专利文献2:日本特开2006－38705号公报

然而，在专利文献1中，由于需要用户实施听力检查，所以会对用户强加繁琐的处理，存在使用的便利性不佳这一问题。另外，在专利文献2中，由于如果不进行回应操作则不调整引导声音，所以存在需要由用户进行回应操作这一问题。

发明内容

鉴于此，公开的技术鉴于上述问题点而提出，其目的在于，提供一种不对用户强加负担，能够根据用户的听力来进行声音控制的声音控制装置、声音控制方法以及声音控制程序。

公开的一个方式的声音控制装置具备：计算部，其计算响应时间，上述响应时间表示受话信号的声音与送话信号的声音之间的时间差；听力推断部，其基于计算出的上述响应时间来推断用户的听力；和声音控制部，其利用与推断出的上述听力对应的修正量来控制上述受话信号。

根据公开的技术，能够不对用户强加负担地根据用户的听力来进行声音控制。

附图说明

图1是表示因年龄引起的听力等级的变化的图。

图2是表示实施例1中的声音控制装置的构成的一个例子的框图。

图3是表示实施例1中的响应时间计算部的构成的一个例子的框图。

图4是用于对响应时间进行说明的图。

图5是用于对响应时间的例外进行说明的图。

图6是表示实施例1中的、根据响应时间的平均值来推断听力的情况的听力推断部的构成的一个例子的框图。

图7是表示平均响应时间与听力特性之间的关系的图。

图8是表示实施例1中的声音控制部的构成的一个例子的框图。

图9是用于对修正量的计算进行说明的图。

图10是表示频谱控制的一个例子的图。

图11是表示实施例1中的声音控制的一个例子的流程图。

图12是表示实施例2中的声音控制装置的构成的一个例子的框图。

图13是用于对时间长度计算进行说明的图。

图14是表示实施例2中的响应时间计算部的构成的一个例子的框图。

图15是表示实施例2中的、根据响应时间的平均值来推断听力的情况的听力推断部的构成的一个例子的框图。

图16是表示受话声音的时间长度与平滑化系数之间的关系的图。

图17是表示实施例2中的声音控制处理的一个例子的流程图。

图18是表示实施例3中的响应时间计算部的构成的一个例子的框图。

图19是表示实施例3中的声音控制处理的一个例子的流程图。

图20是表示实施例4中的声音控制装置的构成的一个例子的框图。

图21是表示实施例4中的评价部的构成的一个例子的框图。

图22是表示实施例4中的声音控制部的构成的一个例子的框图。

图23是表示实施例4中的声音控制处理的一个例子的流程图。

图24是表示控制信号生成处理的一个例子的流程图。

图25是用于对变形例中的移动终端装置进行说明的图。

图26是表示变形例中的移动终端装置的硬件的一个例子的框图。

附图标记说明：101、103－时间频率变换部；105、205－响应时间计算部；107、207－听力推断部；109、403－声音控制部；111－频率时间变换部；151－第一声音判定部；153－第二声音判定部；155、251、303－时间差计算部；171、273－时间平均部；173－缓存器；175－听力特性推断部；191、433－频谱控制部；193－修正量计算部；201、203－时间长度计算部；271－系数变更部；301－清晰度计算部；401－评价部；411－缓存器控制部；413－缓存器；415－比较部；417－信号生成部；431－增益调整部。

具体实施方式

首先，针对年龄与听力的关系进行说明。听力例如是最小可听区域。图1是表示因年龄引起的听力等级的变化的图。根据图1所示的实验可知，在40多岁和60多岁的情况下平均听力等级不同。60多岁的平均听力等级在高域（2kHz～4kHz）显著降低。另外，关于因年龄引起的听力降低，http://tri-osaka.jp/group/infoele/life/sense/data/katagiri/070622.pdf中也报告了调查结果。

如图1所示，已知听力等级因年龄增加而降低。尤其在高频区域中，随着年龄增加听力等级不断降低。

在此，可认为伴随着年龄增加，听力会降低、大脑的信息处理能力会降低、会话中的响应时间也会变慢。例如，请参照http://www.caa.go.jp/seikatsu/keizaijikken/nousan2-1.pdf的第二章。

鉴于此，以下对着眼于通话中的响应时间，根据响应时间来推断用户的听力，并根据推断出的听力来控制受话音，以使受话音容易听到的实施例进行说明。以下，基于附图来说明各实施例。

［实施例1］

＜构成＞

对实施例1中的声音控制装置1的构成进行说明。图2是表示实施例1中的声音控制装置1的构成的一个例子的框图。如图2所示那样，声音控制装置1包括时间频率变换部101、103、响应时间计算部105、听力推断部107、声音控制部109以及频率时间变换部111。

时间频率变换部101利用下式（1）对受话音x进行时间频率变换，并变换成受话音频谱F（j）。时间频率变换例如为高速傅立叶变换（FFT）。

[数1]

F (j) = Σ_{k = 0}^{n - 1} x_{k} e^{\frac{2 πi}{n} jk}

…式(1)

x：输入信号

n：FFT分析长（例如为256）

j：频率bin

k：奈奎斯特频率（Nyquist frequency）

时间频率变换部101将求出的受话音频谱输出给响应时间计算部105和声音控制部109。

时间频率变换部103针对由麦克风（microphone）113输入的送话声音y与上述的式（1）同样地进行时间频率变换，并变换成送话音频谱。时间频率变换例如为高速傅立叶变换（FFT）。

时间频率变换部103将求出的送话音频谱输出给响应时间计算部105。

响应时间计算部105计算出对受话信号与送话信号之间的时间差进行表示的响应时间。图3是表示实施例1中的响应时间计算部105的构成的一个例子的框图。在图3所示的例子中，响应时间计算部105包括第一声音判定部151、第二声音判定部153以及时间差计算部155。

第一声音判定部151针对混杂有声音与杂音的帧单位的受话信号判定是声音还是非声音。第一声音判定部151只要使用公知的技术来进行声音还是非声音的判定即可。

例如，在日本专利第3849116号公报中，按输入信号的每一帧，基于使用功率、零交叉率、功率谱的峰值频率、间距周期等而计算出的第一声音特征量；和仅根据功率谱的峰值频率的高次分量的不同而计算出的第二声音特征量来进行是声音还是非声音的判定。

第一声音判定部151将针对受话信号是声音还是非声音的判定结果输出给时间差计算部155。

第二声音判定部153针对混杂有声音和杂音的帧单位的送话信号判定是声音还是非声音。关于是声音还是非声音的判定，第二声音判定部153只要与第一声音判定部151同样地使用公知的技术即可。第二声音判定部153将针对送话信号是声音还是非声音的判定结果输出给时间差计算部155。

时间差计算部155计算出受话信号的声音区间的结束时刻与送话信号的声音区间的开始时刻之间的时间差作为响应时间。时间差计算部 155将计算出的响应时间输出给听力推断部107。

图4是用于对响应时间进行说明的图。在图4所示的例子中，时间差计算部155利用受话信号的声音区间的结束时刻T1和送话信号的声音区间的开始时刻T2，根据下式（2）来求出响应时间RT。

RT＝T2－T1···式（2）

图5是用于对响应时间的例外进行说明的图。在图5所示的例子中，当送话信号的声音区间的开始时刻T2比受话信号的声音区间的结束时刻T1靠前（T2＜T1）时，时间差计算部155不计算响应时间。由此，能够除去受话声音和送话声音因随声附和等而重合的情况。

响应时间求取方法并不限定于上述的例子，响应时间计算部105也可以简易地使用送话音量或受话音量，将音量比规定的阈值大的情况视为声音来计算响应时间。响应时间计算部105只要使用受话信号的参数和送话信号的参数来计算响应时间即可。

返回到图2，听力推断部107从响应时间计算部105取得响应时间，根据响应时间来推断用户的听力。听力推断部107预先保持有使响应时间与听力特性（例如最小可听值）建立了对应关系的信息，对与所取得的响应时间对应的最小可听值进行确定。

另外，听力推断部107也可以根据响应时间的平均值来取得最小可听值。图6是表示实施例1中的、根据响应时间的平均值来推断听力的情况的听力推断部107的构成的一个例子的框图。

在图6所示的例子中，听力推断部107包括时间平均部171、缓存器173以及听力特性推断部175。时间平均部171计算出将响应时间沿时间方向平均化后的平均响应时间。缓存器173预先存储过去的平均响应时间。

时间平均部171例如通过下式来计算平均响应时间。

[数2]

AVE_RT＝RT*COEF+AVE_RT_PREV*(1-COEF)···式(3)

AVE_RT_PREV＝AVE_RT···式(4)

AVE_RT：平均响应时间

AVE_RT_PREV：过去的平均响应时间

COEF：平滑化系数（例如0.9）

时间平均部171将利用式（3）求出的平均响应时间输出给听力特性推断部175，并利用式（4）对过去的平均响应时间进行更新而存储到缓存器173。由此，能够减轻响应时间的局部偏差的影响。

听力特性推断部175根据取得的平均响应时间来推断听力特性（例如最小可听值）。图7是表示平均响应时间与听力特性之间的关系的图。图7所示的A1的听力特性的平均响应时间对应于4秒，A2的听力特性的平均响应时间对应于2秒，A3的听力特性的平均响应时间对应于1秒。

平均响应时间的4秒表示60多岁的平均值，平均响应时间的2秒表示40多岁的平均值，平均响应时间的1秒表示20多岁的平均值。其中，对于该4、2、1这一数值而言，通过实验求出各年龄段的平均响应时间，只要设定适当的值即可。

听力特性推断部175使用图7所示那样的信息，来确定与从时间平均部171取得的平均响应时间对应的听力特性。听力特性推断部175将确定出的听力特性输出给声音控制部109。

其中，在响应时间或者平均响应时间为规定的阈值以上的情况下，听力推断部107不推断听力。由此，能够除去在会话中断或话题改变时产生的长中顿（long pause）的影响。规定的阈值例如只要比实验得到的最年长的年龄段的平均响应时间长即可。

返回到图2，声音控制部109利用与从听力推断部107取得的听力特性对应的修正量，来控制从时间频率变换部101取得的受话信号（受话音频谱）。例如，声音控制部109控制受话信号，以使其成为推断出的用户的听力特性（例如最小可听值）以上。

图8是表示实施例1中的声音控制部109的构成的一个例子的框图。在图8所示的例子中，声音控制部109包括频谱控制部191和修正量计算部193。

修正量计算部193从听力推断部107取得听力特性，计算出与所取得的听力特性对应的修正量。修正量计算部193将计算出的修正量输出给频谱控制部191。图9是用于对修正量的计算进行说明的图。

图9所示的B1表示听力降低量。听力降低量是指从用户的被推断出的最小可听值减去20多岁的最小可听值而得到的量。图9所示的B2表示修正量。修正量例如为听力降低量的一半。该修正量例如是强调增益。

修正量可应用在助听器等中使用的各种增益计算法。作为增益计算的一个例子，有基于上述的半增益法（half gain method）的增益计算法。关于增益计算法，请参照http://www.okayama.med.or.jp/ishi/bukai/h18kenshukai/05.pdf（半增益法、POGO法、NAL法）、http://www.tokyo-hotyouki.co.jp/siryou.htm（半增益法、夏皮罗法、克林拜尔法（Klingbeil method）、伯格（Berger method）法、POGO法）。

返回到图8，频谱控制部191使用从修正量计算部193取得的修正量来控制受话信号。例如，频谱控制部191针对受话音频谱的各频率的功率，利用以下的式（5）对修正量（例如强调增益量）进行放大。

[数3]

F′(j)＝gain(j)*F(j)···式(5)

j：频率bin（j＝1～256）

F（j）：受话音频谱

gain（j）：修正量

图10是表示频谱控制的一个例子的图。图10所示的C2表示控制前的受话音频谱，C1表示控制后的受话音频谱。频谱控制部191基于从修正量计算部193取得的修正量来对C2的受话音频谱进行放大，并控制成C1的受话音频谱。频谱控制部193将控制后的受话音频谱输出给频率时间变换部111。

返回到图2，频率时间变换部111从声音控制部109取得被控制后的受话音频谱，来进行频率时间变换，将受话信号变换成时间区域。频率时间变换部111例如通过下式（6）将受话信号变换成时间区域。

[数4]

x_{k} = \frac{1}{n} Σ_{k = 0}^{n - 1} F^{'} (j) e^{\frac{2 πi}{n} jk}

···式（6）

F'（j）：控制后的受话音频谱

n：FFT的分析长（例如256）

j：频率bin

k：奈奎斯特频率

扬声器115输出被变换成时间区域的受话信号。由此，用户不会意识到终端操作，仅通过终端进行会话就能够听到与用户的听力对应的处理音（受话音）。

＜动作＞

接下来，对实施例1中的声音控制装置1的动作进行说明。图11 是表示实施例1中的声音控制的一个例子的流程图。

在图11所示的步骤S101中，声音控制装置1输入受话信号和送话信号。

在步骤S102中，时间频率变换部101、103例如基于式（1）来对输入信号进行时间－频率变换（FFT）。

在步骤S103中，响应时间计算部105计算出送话信号相对于受话信号的响应时间。例如，响应时间计算部105判定受话信号与送话信号之间的声音区间，计算出从受话信号的声音区间的结束时刻到送话信号的声音区间的开始时刻为止的时间差。

在步骤S104中，听力推断部107根据响应时间来推断用户的听力。例如，听力推断部107预先保持与响应时间或者平均响应时间对应的听力特性（例如参照图7），取得与计算出的响应时间或者平均响应时间对应的听力特性。听力特性例如为最小可听值。

在步骤S105中，声音控制部109以与推断出的听力特性对应的修正量来控制受话信号（例如参照图9、10），将控制后的信号向频率时间变换部111输出。

在步骤S106中，频率时间变换部111对从声音控制部109输出的受话信号进行频率－时间变换（IFFT），将其变换成时间区域的受话信号。

如上所述，根据实施例1，能够基于用户的响应时间来推断用户的听力，并根据推断出的用户的听力来进行声音控制。另外，根据实施例1，通过计算出平均响应时间，并根据平均响应时间来推断用户的听力，能够除去响应时间的局部的偏差。

另外，根据实施例1，通过在受话信号与送话信号在时间上重叠的情况下不计算响应时间，能够防止不适当的响应时间的计算。另外，根据实施例1，通过在响应时间过长的情况下不进行听力推断，能够基于适当的响应时间来进行听力推断。

［实施例2］

接下来，针对实施例2中的声音控制装置2进行说明。在实施例2中，计算出受话信号的声音区间的时间长度或送话信号的声音区间的时间长度，将计算出的时间长考虑到响应时间的计算中。

＜构成＞

图12是表示实施例2中的声音控制装置2的构成的一个例子的框图。图12所示的声音控制装置2包括时间频率变换部101、103、时间长度计算部201、203、响应时间计算部205、听力推断部207、声音控制部109以及频率时间变换部111。

在图12所示的构成中，对与图2所示的构成同样的构成赋予相同的附图标记而省略其说明。图12所示的时间长度计算部201计算出受话信号的声音区间的时间长度。时间长度计算部201与上述的第一声音判定部151同样地判定受话信号的声音区间，算出该声音区间的时间长度。

图13是用于对时间长度计算进行说明的图。如图13所示，时间长度计算部201计算出从受话信号的声音区间的开始时刻T0到结束时刻T1为止的时间长度L1。时间长度计算部201将计算出的受话声音的时间长度L1输出给响应时间计算部205、听力推断部207。

时间长度计算部203计算出送话信号的声音区间的时间长度。时间长度计算部203与上述的第二声音判定部153同样地判定送话信号的声音区间，计算出该声音区间的时间长度L2。时间长度计算部203将计算出的送话声音的时间长度L2输出给响应时间计算部205。

响应时间计算部205基于受话声音的时间长度和／或送话信号的时间长度来判定是否计算响应时间。图14是表示实施例2中的响应时间计算部205的构成的一个例子的框图。

图14所示的响应时间计算部205包括第一声音判定部151、第二声音判定部153以及时间差计算部251。在图14所示的构成中，对与图3所示的构成同样的构成赋予相同的附图标记而省略其说明。

时间差计算部251从时间长度计算部201取得受话声音的时间长度 L1，从时间长度计算部203取得送话声音的时间长度L2。时间差计算部251从第一声音判定部151取得受话声音的结束时刻T1，从第二声音判定部153取得送话声音的开始时刻T2。

在受话声音的时间长度L1比规定的阈值短的情况下，时间差计算部251不将受话声音视为会话，不计算响应时间。规定的阈值只要通过实验对会话中的受话声音的长度进行计测而设定适当的值即可。由此，能够除去基于受话声音中的回应的一句话等来计算响应时间的情况。

在送话声音的时间长度L2比规定的阈值短的情况下，时间差计算部251不将送话声音视为会话，不计算响应时间。规定的阈值只要通过实验对会话中的送话声音的长度进行计测而设定为适当的值即可。由此，能够除去基于送话声音中的回应的一句话等来计算响应时间的情况。关于响应时间的计算，与实施例1同样。

此外，时间长度计算部201、203的功能也可以被安装于时间差计算部251。这是因为，时间差计算部251能够知晓受话信号的声音区间和送话信号的声音区间。另外，时间差计算部251也可以仅使用受话声音的时间长度、送话信号的时间长度中的任意一个，来判定是否计算响应时间。

返回到图12，听力推断部207基于由响应时间计算部205计算出的响应时间来推断用户的听力。其中，由于在听力推断部207求取平均响应时间的情况下，其处理与实施例1不同，所以以下进行说明。

图15是表示实施例2中的、根据响应时间的平均值来推断听力的情况的听力推断部207的构成的一个例子的框图。图15所示的听力推断部207包括系数变更部271、时间平均部273、缓存器173以及听力特性推断部175。在图15所示的构成中，对与图6所示的构成同样的构成赋予相同的附图标记而省略其说明。

系数变更部271基于受话声音的时间长度对响应时间的时间平均中使用的平滑化系数进行更新（变更）。例如在受话声音的时间长度较长的情况下，系数变更部271增大平滑化系数，在受话声音的时间长度较短的情况下，系数变更部271减小平滑化系数。

这是为了增大响应时间对长的受话声音的贡献度。由于如果上了年纪则越长的声音越难以记清楚，所以可认为响应时间对长声音的平均值容易表示各年龄段的响应时间的变化。

图16是表示受话声音的时间长度与平滑化系数之间的关系的图。系数变更部271例如预先保持图16所示那样的信息，取得与受话声音的时间长度L1对应的平滑化系数COEF。如图16所示那样，如果时间长度L1增大则平滑化系数COEF也变大。系数变更部271将取得的平滑化系数输出给时间平均部273。

返回到图15，时间平均部273使用从系数变更部271取得的平滑化系数来计算响应时间的平均值（平均响应时间）。平均响应时间通过上述的式（3）来求出。时间平均部273将求出的平均响应时间输出给听力特性推断部175，将求出的平均响应时间作为过去的平均响应时间存储到缓存器173中。此外，受话信号的时间长度L1也可以只用于求出平滑化系数。以后的处理与实施例1同样。

＜动作＞

接下来，对实施例2中的声音控制装置2的动作进行说明。图17是表示实施例2中的声音控制处理的一个例子的流程图。图17所示的流程是使用与受话声音的时间长度对应的平滑化系数来计算平均响应时间的处理的流程。

由于图17所示的步骤S201、S202、S206、S207与图11所示的步骤S101、S102、S105、S106分别相同，所以省略其说明。

在步骤S203中，时间长度计算部201计算出受话信号中的声音区间的时间长度。

在步骤S204中，响应时间计算部205计算出送话信号相对于受话信号的响应时间。此时，如果受话声音的时间长度和／或送话信号的时间长度比阈值短，则也可以不计算响应时间。

在步骤S205中，听力推断部207使用与受话声音的时间长度对应的平滑化系数，来计算平均响应时间。听力推断部207基于计算出的平均响应时间来推断用户的听力特性。以后的处理与实施例1同样。

综上所述，根据实施例2，通过计算出受话信号中的声音区间的时间长度和／或送话信号中的声音区间的时间长度，来判定是否计算响应时间，能够计算出适当的会话中的响应时间。另外，根据实施例2，通过增大受话信号中的声音区间的时间长度长时的响应时间的权重来计算平均响应时间，能够使各年龄段的响应时间之差更显著。

［实施例3］

接下来，对实施例3中的声音控制装置进行说明。实施例3中的声音控制装置计算出受话信号的清晰度，在受话信号明了的情况下计算出响应时间。

＜构成＞

实施例3中的声音控制装置的构成与图2同样。在实施例3中，由于响应时间计算部105的构成与实施例1不同，所以以下进行说明。图18是表示实施例3中的响应时间计算部105的构成的一个例子的框图。

图18所示的响应时间计算部105包括第一声音判定部151、第二声音判定部153、清晰度计算部301以及时间差计算部303。在图18所示的构成中，对与图3所示的构成同样的构成赋予相同的附图标记而省略其说明。

清晰度计算部301计算受话信号的清晰度。清晰度计算部301例如能够根据受话信号的功率谱的斜率来判定声音的清晰度。在功率谱的斜率小的情况下，清晰度低，在功率谱的斜率大的情况下，清晰度大。

清晰度计算部301计算低域（0－2kHz）的平均功率PW_l和高域（2－4kHz）的平均功率PW_h。清晰度计算部301例如通过以下的式（7）来计算清晰度。

CL＝PW_h－PW_l···式（7）

CL：清晰度

清晰度计算部301将计算出的清晰度CL输出给时间差计算部303。

时间差计算部303在取得的清晰度CL的绝对值比阈值大的情况下认为受话信号明了而计算响应时间。阈值例如为3dB（分贝）。时间差计算部303在所取得的清晰度CL为阈值以下的情况下不计算响应时间。这是因为由于在受话声音的清晰度低的情况下与听力无关难以听到，所以除去该影响。时间差计算部303将计算出的响应时间输出给听力推断部107。以后的处理与实施例1同样。

＜动作＞

接下来，对实施例3中的声音控制装置的动作进行说明。图19是表示实施例3中的声音控制处理的一个例子的流程图。由于图19所示的步骤S301、S302、S305～S307与图11所示的步骤S101、S102、S104～S106分别相同，所以省略其说明。

在步骤S303中，清晰度计算部301计算出受话信号的清晰度。清晰度计算部301例如根据受话信号的功率谱的斜率来判定声音的清晰度。

在步骤S304中，时间差计算部303在计算出的清晰度超过规定的阈值的情况下计算响应时间。以后的处理与实施例1同样。

综上所述，根据实施例3，由于计算出受话信号的清晰度，并在受话信号明了的情况下计算出响应时间来推断听力，所以能够高精度地推断听力。

［实施例4］

接下来，对实施例4中的声音控制装置4进行说明。在实施例4中，根据因响应时间引起的时间变化来评价声音控制的效果，对声音控制进行反馈。

＜构成＞

图20是表示实施例4中的声音控制装置4的构成的一个例子的框图。图20所示的声音控制装置4包括时间频率变换部101、103、响应时间计算部105、听力推断部107、频率时间变换部111、评价部401以及声音控制部403。在图20所示的构成中，对与图2所示的构成同样的构成赋予相同的附图标记而省略其说明。

评价部401根据从响应时间计算部105取得的响应时间和从声音控制部403取得的修正量，来生成用于对受话信号的修正量进行调整的控制信号。

图21是表示实施例4中的评价部401的构成的一个例子的框图。图21所示的评价部401包括缓存器控制部411、缓存器413、比较部415以及信号生成部417。

缓存器控制部411从响应时间计算部105取得响应时间，从声音控制部403取得受话信号的修正量。缓存器控制部411将声音控制前的响应时间RT_a存储到缓存器413，将声音控制后的响应时间RT_b输出给比较部415。

缓存器413存储由声音控制部403进行声音控制前的响应时间RT_a。

比较部415将从缓存器413读出的控制前的响应时间RT_a与从缓存器控制部411取得的控制后的响应时间RT_b进行比较，将比较结果输出给信号生成部417。

信号生成部417基于从比较部415取得的比较结果，来生成用于对受话信号进行控制的控制信号。信号生成部417将生成的控制信号输出给声音控制部403。

信号生成部417例如生成下述的控制信号S0～S2。

S0：用于返回到变更前的增益的控制信号

S1：用于加强增益的控制信号

S2：用于减弱增益的控制信号

信号生成部417在响应时间减少的情况下，按照进一步进行增益强调的方式来生成控制信号S1。这是因为在响应时间降低的情况下，认为有增益变更的效果。信号生成部417生成用于进行增益强调的控制信号，直到响应时间不降低为止。

信号生成部417在响应时间不降低的情况下，返回到变更前的增益，按照减弱增益的方式来生成控制信号S0、S2。这是因为在响应时间不降低的情况下，认为没有增益变更的效果。信号生成部417在将增益返回到变更前之后将增益减弱，直到响应时间不降低为止。这是因为对用户而言，有时存在原本的增益被过分强调而变得难以听到的情况。

返回到图20，声音控制部403基于从评价部401取得的控制信号来调整修正量，使用调整后的修正量来进行受话信号的控制。修正量例如为增益。

图22是表示实施例4中的声音控制部403的构成的一个例子的框图。图22所示的声音控制部403包括修正量计算部193、增益调整部431以及频谱控制部433。在图22所示的构成中，对与图8所示的构成同样的构成赋予相同的附图标记而省略其说明。

增益调整部431基于控制信号对根据听力特性（例如最小可听值）计算出的修正量调整修正量。增益调整部431利用以下的式（8）来调整修正量（增益）。

gain'（j）＝gain（j）＋D···式（8）

gain（j）：修正量（强调增益）

j：频率bin（j＝1～256）

D：增益调整量

gain'（j）：调整后的修正量

增益调整部431基于控制信号来变更调整量D。在取得了控制信号S0的情况下，增益调整部431进行设定，以便将调整量D减去前次修正的量。由此，能够将增益返回到控制前。

在取得了控制信号S1的情况下，增益调整部431对调整量D设定规定的值，进一步强调增益。

在取得了控制信号S20的情况下，增益调整部431对调整量D设定规定的负值，以减弱增益。

增益调整部431将调整后的修正量gain'（j）向频谱控制部433输出。

频谱控制部433使用从增益调整部431取得的修正量来控制受话音频谱。控制的方式与实施例1同样。

＜动作＞

接下来，对实施例4中的声音控制装置4的动作进行说明。图23是表示实施例4中的声音控制处理的一个例子的流程图。由于图23所示的步骤S401～S404、S409与图11所示的步骤S101～S104、S106分别相同，所以省略其说明。

在步骤S405中，修正量计算部193根据推断出的听力特性来计算修正量。听力特性例如是最小可听值，修正量例如为增益。

在步骤S406中，信号生成部417基于响应时间的时间变化，来生成用于调整修正量的控制信号。

在步骤S407中，增益调整部431如上述那样根据控制信号来调整修正量。

在步骤S408中，频谱控制部433根据调整后的修正量来控制受话信号（受话音频谱），并将控制后的受话信号向频率时间变换部111输出。以后的处理与实施例1同样。

接下来，对实施例4中的控制信号生成处理进行说明。图24是表示控制信号生成处理的一个例子的流程图。在图24所示的步骤S501中，比较部415判定控制前的响应时间RT_a是否比控制后的响应时间RT_b大。如果RT_a＞RT_b（步骤S501－是）则进入步骤S502，如果不是RT_a＞RT_b（步骤S501－否）则进入步骤S505。

在步骤S502中，信号生成部417将控制信号S1输出给声音控制部403。

在步骤S503中，比较部415判定更新后的RT_a是否比更新后的RT_b大。更新后的RT_a是步骤S502的处理前的RT_b，更新后的RT_b 是在步骤S502的处理后计算出的响应时间。

如果RT_a＞RT_b（步骤S503－是），则返回到步骤S502而进行增益的强调，如果不是RT_a＞RT_b（步骤S503－否）则进入步骤S504。

在步骤S504中，信号生成部417将控制信号S0输出给声音控制部403。由此，修正量被设定为最佳的值。

在步骤S505中，信号生成部417将控制信号S0输出给声音控制部403。步骤S505是由于没有增益强调的效果，所以返回到控制前的增益的处理。

在步骤S506中，信号生成部417将控制信号S1输出给声音控制部403。由此，能够减弱修正量。

在步骤S507中，比较部415判定更新后的RT_a是否比更新后的RT_b大。更新后的RT_a是步骤S506的处理前的RT_b，更新后的RT_b是在步骤S506的处理后计算出的响应时间。

如果RT_a＞RT_b（步骤S507－是）则返回到步骤S506来进行增益的降低，如果不是RT_a＞RT_b（步骤S507－否）则进入步骤S508。

在步骤S508中，信号生成部417将控制信号S0输出给声音控制部403。由此，修正量被设定为最佳的值。

综上所述，根据实施例4，能够根据因响应时间引起的时间变化来评价声音控制的效果，对声音控制进行反馈。

［变形例］

接下来，对变形例中的移动终端装置进行说明。在变形例中，针对将各实施例的声音控制装置安装到移动终端装置的例子进行说明。

图25是用于对变形例中的移动终端装置进行说明的图。图25所示的移动终端装置609对基站607发送编码后的送话信号，从基站607接收编码后的受话信号。

移动终端装置601是对象侧的装置，被移动终端装置601编码后的声音信号经由基站603、网络605、基站607作为受话信号由移动终端装置609接收。

图25所示的移动终端装置609包括接收部611、解码部613、FFT部615、响应时间计算部617、听力推断部619、声音控制部621、IFFT部623以及声音输出部625。

另外，移动终端装置609包括声音输入部627、FFT部629、编码部631以及发送部633。

声音输入部627由麦克风113、A／D变换器实现，对由麦克风113输出的送话音进行模拟数字变换。变换后的信号（送话信号）被输出给FFT部629。

FFT部629对送话信号进行时间频率变换，生成送话音频谱，并输出给响应时间计算部617和编码部631。

编码部631利用移动终端装置的普通声音编码技术来生成编码信号。发送部633将由编码部631编码后的编码信号向基站607发送。

接收部611从基站607接收编码信号。解码部613对编码信号进行解码，变换成声音信号（受话信号）。

FFT部615针对受话信号进行时间频率变换，生成受话音频谱并输出给响应时间计算部617和声音控制部621。

响应时间计算部617、听力推断部619、声音控制部621只要具有在各实施例中说明的功能的任意一个即可。

IFFT部623对从声音控制部621取得的受话信号进行频率时间变换，变换成时间区域的受话信号。

声音输出部625由D／A变换器、扬声器115实现，对从IFFT部623取得的受话信号进行数字模拟变换。被变换成模拟信号的受话信号作为受话音被扬声器115输出。

在变形例中，对将声音控制装置安装到移动终端装置的例子进行了说明，但安装的设备并不仅限于移动终端装置。例如，上述的各声音控制装置或者上述各声音控制处理也能够应用于视频电话会议装置、具有电话功能的信息处理装置。

图26是表示变形例中的移动终端装置609的硬件的一个例子的框图。移动终端装置609具有天线701、无线电部703、基带处理部705、控制部707、终端接口部709、麦克风711、扬声器713、主存储部715以及辅助存储部717。

天线701对被发送放大器放大后的无线信号进行发送，另外从基站接收无线信号。无线电部703对被基带处理部705扩散后的发送信号进行D／A变换，基于正交调制变换成高频信号，利用功率放大器对该信号进行放大。无线电部703将接收到的无线电信号放大，对该信号进行A／D变换并向基带处理部705传输。

基带部705进行发送数据的错误修正符的追加、数据调制、扩散调制、接收信号的逆扩散、接收环境的判断、各信道信号的阈值判断、错误修正解码等基带处理等。

控制部707进行控制信号的收发等无线控制。另外，控制部707执行辅助存储部717等中存储的声音控制程序，进行各实施例中的声音控制处理。

主存储部715是ROM（Read Only Memory）或RAM（Random Access Memory）等，是对控制部707执行的基本软件即OS或应用程序软件等程序、数据进行存储或者暂时保存的存储装置。

辅助存储部717是HDD（Hard Disk Drive）等，是存储与应用程序软件等相关的数据的存储装置。例如，图7、16所示那样的信息被存储到辅助存储部717中。

终端接口部709进行数据用适配器处理、电话听筒与外部数据终端的接口处理。

由此，在移动终端装置609中，能够在通话中自动提供与用户的听力对应的声音。另外，也能够将各实施例中的声音控制装置作为一个或者多个半导体集成化电路而安装于移动终端装置609。另外，公开的技术并不局限于移动终端装置609，也能够安装于固定电话等。

另外，能够通过将用于实现上述各实施例中说明的声音控制处理的程序记录到记录介质中，而使计算机实施各实施例中的声音控制处理。

另外，也能够将该程序记录到记录介质，使计算机或移动终端装置读取记录有该程序的记录介质，来实现上述的声音控制处理。其中，记录介质可使用如CD－ROM、软盘、光磁盘等那样通过光学、电或磁方式记录信息的记录介质、ROM、闪存等那样通过电方式记录信息的半导体存储器等各种类型的记录介质。

以上，对实施例进行了详述，但并不限定于特定的实施例，能够在权利要求所记载的范围内进行各种变形以及变更。另外，也能够对上述各实施例的构成要素全部或者多个进行组合。

Claims

1.一种声音控制装置，其特征在于，具备：

计算部，其计算出响应时间，该响应时间表示受话信号的声音与送话信号的声音之间的时间差；

听力推断部，其基于计算出的上述响应时间来推断用户的听力；

声音控制部，其利用与推断出的上述听力对应的修正量来控制上述受话信号；以及

受话音时间计算部，该受话音时间计算部计算上述受话信号的声音的时间长度，

在计算出的受话音的声音的时间长度为第一阈值以上的情况下，上述计算部计算出上述响应时间。

2.根据权利要求1所述的声音控制装置，其特征在于，

还具备送话音时间计算部，该送话音时间计算部计算出上述送话信号的声音的时间长度，

在计算出的送话信号的声音的时间长度大于第二阈值的情况下，上述计算部计算出上述响应时间。

3.根据权利要求1或者2所述的声音控制装置，其特征在于，

还具备清晰度计算部，该清晰度计算部计算出上述受话信号的声音的清晰度，

在计算出的上述清晰度大于第三阈值的情况下，上述计算部计算出上述响应时间。

4.根据权利要求1或者2所述的声音控制装置，其特征在于，

上述声音控制部根据上述响应时间的时间变化来调整上述修正量，使用调整后的修正量对上述受话信号进行控制。

5.根据权利要求4所述的声音控制装置，其特征在于，

在控制后的响应时间比控制前的响应时间短的情况下，上述声音控制部进行强调上述受话信号的控制，在控制后的响应时间比控制前的响应时间长的情况下，上述声音控制部进行衰减上述受话信号的控制。

6.根据权利要求1或者2所述的声音控制装置，其特征在于，

在上述送话信号的声音的开始时刻比上述受话信号的声音的结束时刻靠前的情况下，上述计算部不计算上述响应时间。

7.根据权利要求1或者2所述的声音控制装置，其特征在于，

在上述响应时间小于第四阈值的情况下，上述听力推断部推断上述听力。

8.根据权利要求1或者2所述的声音控制装置，其特征在于，

上述计算部计算平均响应时间，该平均响应时间是将计算出的多个响应时间进行平均后的时间，

上述听力推断部基于上述平均响应时间来推断上述听力。

9.一种声音控制方法，是声音控制装置中的声音控制方法，其特征在于，

计算受话信号的声音的时间长度，

计算出的受话音的声音的时间长度为第一阈值以上的情况下，计算出响应时间，该响应时间表示受话信号的声音与送话信号的声音之间的时间差，

基于计算出的上述响应时间来推断用户的听力，

利用与推断出的上述听力对应的修正量来控制上述受话信号。

10.一种移动终端装置，其特征在于，具备：

第一时间频率变换部，其将受话信号变换成第一频谱；

第二时间频率变换部，其将送话信号变换成第二频谱；

计算部，其计算出响应时间，该响应时间表示上述第一频谱与上述第二频谱之间的时间差；

声音控制部，其利用与推断出的上述听力对应的修正量来控制上述第一频谱；

频率时间变换部，其将被控制后的第一频谱变换成受话信号；和

受话音时间计算部，其计算上述受话信号的声音的时间长度，