CN105825869A

CN105825869A - 语音处理装置和语音处理方法

Info

Publication number: CN105825869A
Application number: CN201510920109.1A
Authority: CN
Inventors: 外川太郎; 盐田千里; 香村纱友梨; 大谷猛
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-01-22
Filing date: 2015-12-11
Publication date: 2016-08-03
Anticipated expiration: 2035-12-11
Also published as: US20160217791A1; JP2016133774A; US10403289B2; CN105825869B; JP6524674B2

Abstract

本公开涉及语音处理装置和语音处理方法。该语音处理装置包括：检测单元，其被配置成检测第一语音中包括的第一发声部分和第二语音中包括的第二发声部分；指定单元，其被配置成指定重叠部分，在该重叠部分之内，第一发声部分和第二发声部分彼此重叠；计算单元，其被配置成计算从重叠部分的起点至第一发声部分的终点的第一发声持续部分；以及评价单元，其被配置成至少基于与第一发声持续部分的长度有关的信息来评价关于第一语音的印象。

Description

语音处理装置和语音处理方法

技术领域

本文公开的实施方式例如涉及语音处理装置、语音处理方法以及存储语音处理程序的介质。

背景技术

近年来，随着信息处理装备的发展，通过例如在便携式终端或个人计算机中安装的电话呼叫应用程序来执行对话的情况在不断增加。当人们与对方对话时，如果在他们理解其伙伴的想法的同时他们继续对话，那么可以实现顺畅的交流。在这种情况下，为了使他们中的每个人都充分地理解其伙伴的想法，期望他们中的每个人在不打断伙伴的发声的情况下发声。因此，需要用于评价印象的技术，以便知晓是否成功地实现顺畅的交流，其中，该印象与打断来自输入语音的伙伴的发声有关。例如，公司的电话会议等，通过评价与每个员工的发声有关的印象，可以在组织中的交流问题的提取中使用该技术。要注意的是，例如日本公开专利出版物第2010-175984号作为相关现有技术文件是可用的。

为了评价关于第一用户的发声给第二用户的印象，使用以下技术：充当评价员的第三用户主观地评价第二用户和第一用户之间的对话。然而，如果评价需要处理时间，则应当考虑评价的客观性的保证等，该技术未必是优选的方法。然而，现状是尚未实现能够评价关于第一用户的发声给第二用户的印象的语音处理装置。本实施方式的目的是提供一种语音处理装置，其能够评价关于第一用户的发声给第二用户的印象。

发明内容

根据实施方式的方面，一种语音处理装置包括：检测单元，其被配置成检测第一用户的第一语音中包括的第一发声部分和第二用户的第二语音中包括的第二发声部分；指定单元，其被配置成指定重叠部分，在该重叠部分之内，第一发声部分和第二发声部分彼此重叠；计算单元，其被配置成计算从重叠部分的起点至第一发声部分的终点的第一发声持续部分；以及评价单元，其被配置成至少基于与第一发声持续部分的长度有关的信息来评价关于第一语音的印象。

使用本文公开的语音处理装置，可以评价关于第一用户的发声给第二用户的印象。

附图说明

根据结合附图的本实施方式的以下描述，这些和/或其它的方面和优点将会变得明显并且更加容易理解，在附图中：

图1是根据第一实施方式的语音处理装置的功能框图；

图2是通过语音处理装置的语音处理方法的流程图；

图3是根据一个实施方式的检测单元的功能框图；

图4是图示了通过检测单元的第一发声部分和第一无声部分之内的检测结果的视图；

图5A是第一发声持续部分的第一示意图，而图5B是第一发声持续部分的第二示意图；

图6是第一发声持续部分和关于发声的印象之间的关联表；

图7是根据一个实施方式起到便携式终端设备作用的硬件框图；以及

图8是根据一个实施方式起到语音处理装置作用的计算机的硬件框图。

具体实施方式

在下文中，描述了根据一个实施方式的语音处理装置、语音处理方法以及其中存储有语音处理程序的介质的工作示例。要注意，工作示例并不对本文所公开的技术进行限制。

(工作示例1)

图1是根据第一实施方式的语音处理装置的功能框图。语音处理装置1包括：获取单元2、检测单元3、指定单元4、计算单元5和评价单元6。图2是语音处理装置的语音处理的流程图。图2所示的语音处理装置可以是图1所示的语音处理装置1。在工作示例1的描述中，结合图1中描绘的语音处理装置1的功能框图的功能描述来描述图2中描绘的通过语音处理装置1的语音处理的流程。

获取单元2例如是经由布线逻辑的硬件电路。获取单元2可以是采用其它方式的通过语音处理装置1执行的由计算机程序实现的功能模块。获取单元2获取第一用户的第一语音和第二用户的第二语音，其中，第一语音和第二语音例如是通过外部装置的输入语音的示例。要注意的是，刚才描述的过程对应于图2中描绘的流程图的步骤S201。在这里，第一语音是传输语音，其例如指示了通过使用语音处理装置1的第一用户(其可以被称为自己)向作为第一用户的对话伙伴的第二用户(其可以被称为对方)发出的语音。同时，第二语音是第一用户的接收语音，其指示了例如由第二用户向第一用户发出语音。要注意的是，传输语音可以是第二用户的第二语音，而接收语音可以是第一用户的第一语音。获取单元2例如被耦接到语音处理装置1或者在语音处理装置1中被处理。获取单元2可以从未被描绘的麦克风中获取传输语音(其对应于在上文描述的外部装置)。进一步，尽管第一语音和第二语音例如是日本语的语音，但是它们也可以是诸如英语之类的不同语言的采用其它方式的语音。换言之，在工作示例1中的语音处理不具有语言依赖性。获取单元2将获取的第一语音和第二语音输出至检测单元3。

检测单元3例如是经由布线逻辑的硬件电路。检测单元3可以是采用其它方式的通过语音处理装置1执行由计算机程序实施的功能模块。检测单元3从获取单元2中接收第一语音和第二语音。检测单元3检测第一有效期部分，其指示第一语音中包括的第一发声部分(其可以被称为第一语音的部分)。进一步，检测单元3检测第二有效期部分，其指示第二语音中包括的第二发声部分(其可以被称为第二语音的部分)。要注意的是，刚才描述的过程对应于图2中描绘的流程图的步骤S202。第一有效期部分或第二有效期部分例如是以下部分：自第一用户或第二用户在其发声期间在执行吸气之后开始发声起，直到第一用户或第二用户执行吸气为止的部分(换言之，第一呼吸和第二呼吸之间的部分或在其之内发声持续的部分)。检测单元3检测平均信噪比(SNR)，其例如是来自第一语音或第二语音中包括的多个帧的信号质量(其可以被称为第一信噪比或第二信噪比)的示例。因此，检测单元3可以检测在其之内平均SNR满足第一发声部分或第二发声部分的给定条件的部分。进一步，检测单元3检测吸气部分，其被包括在第一语音或第二语音中，并且指示了持续至第一发声部分或第二发声部分的结尾的无声部分。检测单元3例如可以检测以下部分：在该部分之内，上文描述的平均SNR不满足作为第一无声部分或第二无声部分(或换言之，第一吸气部分或第二吸气部分)的给定条件。

在这里，详细描述了通过检测单元3的第一发声部分或第二发声部分或第一无声部分或第二无声部分的检测过程。要注意的是，可以使用第一发声部分的检查方法来执行第二发声部分的检测方法，并且可以使用第一无声部分的检测方法执行第二无声部分的检测方法。因此，在工作示例1的描述中，描述了通过检测单元3的第一无声部分和第一发声部分的检测过程的细节。图3是根据一个实施方式的检测单元的功能框图。图3所示的检测单元可以是图1所示的检测单元3。检测单元3包括音量计算单元9、噪声估计单元10、平均SNR计算单元11和部分确定单元12。要注意的是，检测单元3未必包括音量计算单元9、噪声估计单元10、平均SNR计算单元11和部分确定单元12，而是可以通过经由布线逻辑的多个硬件电路来实现单元的功能。替代地，可以通过由语音处理装置1执行的由计算机程序实现的功能模块代替经由布线逻辑的硬件电路来实现检测单元3中包括的单元的功能。

参考图3，第一语音被输入至音量计算单元9。要注意的是，音量计算单元9可以包括未描绘的长度M的高速缓存器或缓冲器。音量计算单元9计算第一语音中包括的帧的音量，并且将音量输出至噪声估计单元10和平均SNR计算单元11。要注意的是，第一语音中包括的每个帧的长度例如是20毫秒。可以根据下列公式来计算每个帧的音量S(n)：

(表达式1)

S (n) = Σ_{t = n * M}^{(n + 1) * M - 1} c {(t)}^{2}

其中，n是自开始输入第一语音中包括的声帧起连续地施加至每个帧的帧数(n是等于或大于0的整数)，M是一个帧的时间长度，t是时间，而c(t)是第一语音的振幅(电功率)。

噪声估计单元10从音量计算单元9中接收帧的音量S(n)。噪声估计单元10估计每个帧中的噪声，并且将噪声估计结果输出至平均SNR计算单元11。在这里，例如可以使用下文描述的(噪声估计方法1)或(噪声估计方法2)来执行通过噪声估计单元10的针对每个帧的噪声估计。

(噪声估计方法1)

噪声估计单元10可以基于帧n中的音量S(n)、先前帧(n-1)中的噪声音量S(n-1)和量级N(n-1)而根据下列表达式来估计帧n中的噪声的量级(电功率)N(n)：

(表达式2)

其中，α和β是常数，其可以用实验的方式来确定。例如，α和β可以分别是α＝0.9而β＝2.0。也可以用实验的方式来确定噪声功率的初始值N(-1)。在上面的表达式2中，如果帧n的音量S(n)相对于先前帧n-1的音量S(n-1)未显示出其量等于或大于固定值β的变化，那么更新帧n的量级N(n)。另一方面，如果帧n的音量S(n)相对于先前帧n-1的音量S(n-1)显示出其量等于或大于固定值β的变化，那么先前帧n-1的噪声功率N(n-1)被设为帧n的量级N(n)。要注意的是，量级N(n)可以被称为上文描述的噪声估计结果。

(噪声估计方法2)

噪声估计单元10可以使用下面的(表达式3)而基于帧n的音量S(n)和先前帧n-1的噪声功率N(n-1)之间的比率来执行噪声量级的更新：

(表达式3)

其中，γ是常数，其可以用实验的方式来确定。例如，γ可以被设为γ＝2.0。也可以用实验的方式来确定噪声功率的初始值N(n-1)。在上面的(表达式3)中，如果帧n的音量S(n)相对于先前帧n-1的噪声功率N(n-1)不显示出其量小于固定值γ的变化，那么更新帧n的量级N(n)。另一方面，如果帧n的音量S(n)相对于先前帧n-1的噪声功率N(n-1)显示出其量等于或大于固定值γ的变化，那么先前帧n-1的噪声功率N(n-1)被设为帧n的量级N(n)。

参考图3，平均SNR计算单元11从音量计算单元9中接收每个帧的音量S(n)，并且从噪声估计单元10中接收噪声估计结果的每个帧的量级N(n)。要注意的是，平均SNR计算单元11包括未描绘的存储器或高速缓冲器，并且保留以往用于L帧的声音值S(n)和量级N(n)。平均SNR计算单元11根据下面给出的下列表达式来计算在分析目标时间段(帧)的平均SNR，并且将平均SNR输出至部分确定单元12。

(表达式4)

S N R (n) = \frac{1}{L} Σ_{i = 0}^{L - 1} \frac{S (n - i)}{N (n - i)}

其中，L可以被设置为大于同化声音的总长度的值，并且例如可以被设置为对应于0.5毫秒的帧数。

部分确定单元12从平均SNR计算单元11中接收平均SNR。部分确定单元12根据下面给出的下列表达式来确定在一个帧的单元中该帧是发声部分还是无声部分(不发声部分)，并且输出确定结果v₁(t)。

(表达式5)

v₁(t)＝1(发声部分)

v₁(t)＝0(无声部分)

其中，t表示上述(表达式5)中的帧数。要注意的是，一个帧具有例如20毫秒的长度。进一步，上述(表达式5)表示的是：如果决定第一帧中的第一语音表示发声部分，则v₁(t)＝1被代入，但是如果决定第一帧中的第一语音表示无声部分，则v₁(t)＝0被代入。部分确定单元12输出持续满足v₁(t)＝1的帧部分作为第一发声部分。要注意的是，部分确定单元12使用类似用于v₁(t)的技术来计算关于第二语音的决定结果v₂(t)，并且输出第二发声部分。

图4是描绘了通过检测单元的第一发声部分和第一无声部分的检测结果的视图。参考图4描述的检测单元可以是图1所示的检测单元3。在图4中，横坐标的轴表示时间，而纵坐标的轴表示第一语音的音量(振幅)。如图4中描绘的那样，持续至每个第一发声部分的后部的部分被检测为第一无声部分。进一步，如图4中描绘的那样，在工作示例1中公开的通过检测单元3的第一发声部分的检测中，根据环境噪声得知噪声，并且基于SNR决定发声部分。因此，可以使通过环境噪声的第一发声部分的错误检测最小化。进一步，因为根据多个帧来计算平均SNR，所以即使第一发声部分包括在其之内没有检测到声音的瞬时时间段，第一发声部分也可以被提取为持续发声部分。要注意的是，检测单元3可以使用在国际出版小册子第WO2009/145192号中公开的方法。要注意的是，如上文所述，类似于第一发声部分的检测方法的技术可以用于第二发声部分的检测方法，并且类似于第一无声部分的检测方法的技术可以用于第二无声部分的检测方法。因此，检测单元3将由此检测的第一发声部分和第二发声部分输出至指定单元4和计算单元5。

回顾参考图1，指定单元4例如是经由布线逻辑的硬件电路。替代地，指定单元4可以是通过语音处理装置1执行的由计算机程序实现的功能模块。指定单元4接受来自检测单元3的由检测单元3检测的第一发声部分和第二发声部分。指定单元4指定重叠部分，在该重叠部分之内，第一发声部分和第二发声部分彼此重叠。要注意的是，刚才描述的过程对应于图2中描绘的流程图的步骤S203。重叠部分可以被定义为以下部分：在该部分之内，第一用户和第二用户在任意时间点向彼此发声。要注意的是，指定单元4可以根据下列表达式来指定重叠部分L(t)：

(表达式6)

if{v₁(t)＝0}v{v₂(t)＝0}L(t)＝0

elseL(t)＝L(t-1)+1

上述(表达式6)表示的是:通过指定关于第一用户的第一语音和第二用户的第二语音中的一个作为无声部分(不发声部分)中的帧来计算重叠持续的帧数(重叠部分数)，重叠时间段是0(不出现重叠部分)，但是关于第一用户的第一语音和第二用户的第二语音两者都作为发声部分的帧，将一个帧添加至重叠时间段，直到紧接着先前帧。指定单元4将指定的重叠部分输出至计算单元5。

参考图1，计算单元5例如是经由布线逻辑的硬件电路。计算单元5可以是采用其它方式的由语音处理装置1执行的通过计算机程序实现的功能模块。计算单元5接收来自指定单元4的由指定单元4指定的重叠部分。进一步，计算单元5接收来自检测单元3的第一发声部分和第二发声部分。计算单元5计算第一发声持续部分，其作为从重叠部分的起点至第一发声部分的终点的部分。要注意的是，该过程对应于图2中描绘的流程图的步骤S204。更具体地，计算单元5执行下面的计算过程。

计算单元5基于重叠部分L(t)和任意第一阈值TH_L之间比较的结果而输出重叠部分(其可以参照重叠出现部分T_s)的起点时间T_s。例如，根据下面给出的下列表达式，计算单元5决定当重叠部分(的长度)等于或长于第一阈值时，重叠部分已出现，并且输出重叠部分的起点时间T_s。根据下面给出的下列表达式，如果重叠部分短于第一阈值，那么计算单元5决定重叠部分未出现，并且重置重叠出现部分时间T_s。在这里，第一阈值可以是对应于支持性回答的总长度的值。因为支持性回答表示赞成对方的发声等的回答，所以可以不必被视为对话的中断。要注意的是，第一阈值TH_L例如可以被设置为一秒(其对应于50帧)。

(表达式7)

if{L(t)≥TH_L}T_s＝t-TH_L

elseT_s＝-1

上述(表达式7)表示的是：在满足L(t)≥TH_L的条件的情况下，重叠部分已出现，并且计算单元5计算重叠部分的起点时间T_s，但是在不满足L(t)≥TH_L的条件的情况下，重叠部分未出现。

如果满足上述(表达式7)中L(t)≥TH_L的条件，那么计算单元5基于使用上文给出的(表达式5)计算的v₁(t)，根据下列表达式来计算作为第一发声部分的终点的时间T_e。

(表达式8)

if{v₁(t-1)＝1}∧{V₁(t)＝0}T_e＝t-1

elseT_e＝-1

上述(表达式8)表示的是：当决定紧接的先前帧(t-1)被决定为发声部分，并且此外决定当前帧(t)是无声部分(不发声部分)时，终止发声，并且紧接的先前帧(t-1)被计算为作为第一发声部分的终点的时间T_e。在任何其它情况下，因为发声部分持续或者紧接的先前帧(t-1)和当前帧(t)在不发声部分中，所以重置发声终止时间T_e。

当计算单元5计算第一发声部分的终点的时间T_e时，根据重叠部分的起点时间T_s和第一发声部分的终点时间T_e的下列表达式来计算第一发声持续部分CL。

(表达式9)

CL＝T_e-T_s

图5A是第一发声持续部分的第一概念图。图5B是第一发声持续部分的第二概念图。在图5A和5B中，第一用户早于第二用户开始其发声。进一步，由实线围绕的区域是在其之内第一用户或第二用户实际上由此“发出”所意指的内容的区域，而由虚线围绕的区域是在其之内由于重叠部分的出现而导致第一用户和第二用户实际上由此“不发出”所意指的内容的区域。在图5A中，第一用户的第一语音(实际上发声的语音)例如是“这个周末让我们去爬山吧。秋天的树叶很漂亮”。另一方面，第二用户的第二语音(实际上发声的语音)是“然而，天气”。在这个时候，第二用户不发出“不好。所以让我们换个日子去爬山吧”，并且尽管第二用户在第一用户的发声期间开始其发声，但是第一用户不停止发声而是被置于第一用户持续其发声至终止的状态。在这种情况下，关于第一用户的语音给第二用户的印象是不利的。

参考图5B，第一用户的第一语音(实际上发声的语音)例如是“这个周末让我们去爬山吧”。同时，第二用户的第二语音(实际上发声的语音)是“然而，天气不好。所以让我们换个日子去爬山吧”。在这个时候，因为第二用户在第一用户的发声期间开始其发声，所以第一用户中途停止发声而不持续发声至结束。在这种情况下，尽管在下文描述细节，关于第一用户的语音给第二用户的印象也不是糟糕的。在工作示例1中，如果在第一用户的发声期间第一用户将发声移交给第二用户，那么可以通过利用以下性质来评价关于第一用户的发声的印象：从在其之内发声部分彼此重叠的重叠部分的起点至第一用户打断其发声处的时间点的时间是短暂的。计算单元5将计算的第一发声持续部分输出至评价单元6。

回顾参考图1，评估单元6例如是经由布线逻辑的硬件电路。可替代地，评估单元6可以是由语音处理装置1执行的通过计算机程序实现的功能模块。评价单元6接收来自计算单元5的通过计算单元5计算的第一发声持续部分。评价单元6至少基于与第一发声持续部分的长度有关的信息来评价关于第一语音给第二用户的印象。要注意的是，该过程对应于图2描绘的流程图的步骤S205。

图6是第一发声持续部分和关于发声的印象之间的关联表。要注意的是，最新已经发现图6的关联表60是本实施方式的发明者的深入研究的结果。进一步，图6的关联表60基于多个评估员的主观评估。要注意的是，作为评估方法，在以下情况下基于第一发声持续部分(其可以被称为第一发声持续时间段)用实验的方式来确定关于第一用户的发声给第二用户的印象：在第一用户持续其发声的同时，第二用户开始发声，以使得出现重叠部分。要注意的是，主观的评估被分类成以下三个阶段：“印象不糟糕(发声基本上不被打断)”、“印象有点糟糕(发声基本上被打断一小部分)”以及“印象糟糕(发声基本上被打断)”。正如可以从图6的关联表60中所认识的，如果第一发声持续部分(换言之，在第一语音和第二语音之间重叠的开始之后至评价人员的发声的结束的时间段)少于三秒，那么不会变成打断第二用户(对方)的对话，并且变得明显的是，关于第一用户(自己)的发声的印象不糟糕。换言之，当对方(对应于第二用户)和自己(对应于第一用户)对话时，对于自己来说以下是重要因素中的一个：用自己的发声建立对话而无需打断对方的发声，以便知道是否成功地实现顺畅的对话。当自己和对方对话时，如果由自己的发声打断了对方的发声，那么关于自己给对方的印象变得糟糕，并且使得难以顺畅地进行交流。

评价单元6基于第一发声持续部分和图6的关联表60而将评价结果输出至任意外部装置。要注意的是，评价单元6可以用任意得分来替代评价结果，并且用得分来评价发声。进一步，外部装置例如可以是扬声器或显示单元，其中，该扬声器可以在评价结果被转换为语音之后重现评价结果，该显示单元将评价语音显示为特征信息。进一步，在评价结果被输出至扬声器的情况下，评价单元6可以使用已知的任意语音读取方法。此外，在评价结果是“有点糟糕”或“非常糟糕”的情况下，评价单元6可以将给定的控制信号传输至外部装置。要注意的是，在执行这个过程的情况下，可以连同在图2中描绘的流程图的步骤S205处的过程一起执行。控制信号例如可以是报警音。此外，第一发声持续部分的长度等于或长于任意第六阈值(例如，第六阈值＝三秒)的情况下，评价单元6可以将关于第一用户的发声的印象评价为低评价。

在这里，描述了对应于工作示例1的比较示例。在比较示例中，在无需使用第一发声持续部分的情况下，基于重叠部分的长度简单地评价关于第一用户给第二用户的印象。在图5A和5B中，可以认识到的是，重叠部分具有相等的长度。在图5A中，在重叠部分出现之后，第一用户持续其发声，而第二用户停止其发声。在图5B中，在重叠部分出现之后，第一用户停止其发声，而第二用户持续其发声。如果例如代替具有重叠部分的长度的图6的关联表60的第一发声持续部分的项目来评价关于第一用户的发声的印象，那么在图5A描绘的发声模式中，关于第一用户的发声的印象被评价为糟糕。因此，没有具体的问题产生。然而，如果考虑到工作示例1中的评价结果，那么图5B中描绘的发声模式引起检测的错误结果：尽管关于第一用户的发声的印象不糟糕，但是关于第一用户的发声的印象被评价为糟糕。因此，如在比较示例的描述中所描述的，在基于第一用户和第二用户的发声部分之间的重叠时间段来简单地评价关于发声的印象的情况下，难以准确地评价关于发声的印象。相比之下，因为在工作示例1中例如基于第一发声持续部分来评价关于发声的印象，所以可以认识到的是，可以准确地评价关于发声的印象。使用工作示例1中的语音处理装置1，可以评价关于第一用户的发声给第二用户的印象。

(工作示例2)

当第一发声部分和第二发声部分彼此重叠时，根据元音数等于或大于给定的第二阈值(例如，第二阈值＝5)，图1描绘的指定单元4可以用其它方式来计算被包括在第一发声部分或第二发声部分中的元音数并且指定重叠部分。换言之，由于通常对应于例如诸如“是”、“否”、“是啊”、“真的吗？”或“正确”之类的支持性回答的大部分单词的元音数例如为4，指定单元4可以决定的是：如果第一发声部分或第二发声部分中包括的元音数少于第二阈值，那么第一发声部分或第二发声部分对应于纯粹的支持性回答。因为该实例中的发声不扰乱对话，所以指定单元4可以不将单词的部分作为第一发声部分和第二发声部分的重叠部分来处理。要注意的是，例如在日本特开专利出版物第2009-258366号中公开的方法，计算单元5可以用作基于共振峰分布的元音数的检测方法。

进一步，指定单元4可以将第一发声部分或第二发声部分识别为字符串。作为用于将第一发声部分或第二发声部分识别为字符串的方法，指定单元4可以应用日本特开专利出版物第04-255900号中公开的方法。进一步，给出的单词是对应于支持性回答的单词，并且存储在单词列表(表格)中，所述单词列表(表格)存储在计算单元5中设置的未描绘的存储器或高速缓存器中。给出的单词可以是通常对应于例如诸如“是”、“否”、“是啊”、“真的吗？”或“正确”之类的支持性回答的单词。如果第一发声部分或第二发声部分与给出的单词中的一个一致，那么因为第一发声部分或第二发声部分对应于纯粹的支持性回答并且不给该对话制造障碍，所以指定单元4可以不将单词的部分作为第一发声部分和第二发声部分之间的重叠部分来处理。要注意的是，语音处理装置1可以执行工作示例1和工作示例2的过程的组合的语音处理。使用根据工作示例2的语音处理装置1，可以用高准确度来评价关于第一用户的发声给第二用户的印象。

(工作示例3)

在第一发声部分和第二发声部分中的较早一个的开始时间之后，图1描绘的指定单元4可以用其它方式在任意第五阈值(例如，第五阈值＝30秒)的时间推移之后指定重叠部分。即使重叠时间部分很长，但是在大多数情况下紧接在对话的开始之后的发声是打招呼，其不具有对发声的印象的影响。因此，可以通过以下操作来改进确定准确性：从用于决定关于发声的印象的目标部分中排除紧接在开始对话之后的发声。进一步，在第一发声部分和第二发声部分中的较晚一个的结束时间之后，指定单元4可以在第五阈值的推移之后指定重叠部分。即使重叠部分很长，但是在大多数情况下紧接在对话结束之前的发声是打招呼，其不具有对发声的印象的影响。因此，可以通过以下操作来改进确定准确性：从用于决定关于发声的印象的目标部分中排除紧接在结束对话之前的发声。要注意的是，语音处理装置1可以执行在工作示例1至3中的过程的任意组合的语音处理。使用根据工作示例3的语音处理装置1，可以用更高的准确度来评价关于第一用户的发声给第二用户的印象。

(工作示例4)

图1中描绘的检测单元3可以用其它方式检测在第一语音和第二语音中包括的多个帧的第一信号质量和第二信号质量，并且指定单元4可以指定以下部分：在该部分之内，第一信号质量和第二信号质量等于或高于第三阈值(例如，第三阈值＝-60dBov)，并且除此以外，第一发声部分和第二发声部分彼此重叠作为重叠部分。要注意的是，第一信号质量或第二信号质量可以是第一语音或第二语音的功率或信噪比。例如，当第一用户和第二用户两者均用等于或高于给定功率(音量)的功率来发声时，指定单元4可以指定重叠部分。这是因为：得到支持的是，第一用户和第二用户中的一个使用相对低的功率来发声，其对关于发声的印象没有显著的影响。除了上文给出的(表达式1)之外，根据下面给出的表达式，检测单元3可以计算第一发声部分和第二发声部分以内的平均功率P1和P2。要注意的是，平均功率P1和P2可以分别被称为第一信号质量和第二信号质量。

(表达式10)

P 1 (t) = \frac{1}{T H 1} Σ_{t = T s - T H 1}^{T s} {s_{1}}^{2} (t)

P 2 (t) = \frac{1}{T H 1} Σ_{t = T s - T H 1}^{T s} {s_{2}}^{2} (t)

在以上(表达式10)中，s₁(t)和s₂(t)分别表示第一语音和第二语音的振幅。指定单元4基于在第一发声部分和第二发声部分的平均功率和任意阈值TH_P(其可以被称为第三阈值)之间比较的结果来决定重叠部分的出现，并且指定重叠部分的起点时间T_s。具体地，如果第一发声部分以内的平均功率和第二发声部分以内的平均功率等于或高于任意阈值TH_P，那么情况是第一用户和第二用户两者均用高于给定功率(大声音)的功率来发声。因此，指定单元4决定找到了发声部分之间的重叠，并且决定重叠部分的起点时间T_s。任意其它情况对应于其中第一用户和第二用户中的一个以低声音来发声的情况。因此，在这种情况下，指定单元4决定未找到重叠部分，并且重置重叠部分的起点时间T_s。要注意的是，任意阈值TH_P例如可以是-60[dBov]。要注意的是，指定单元4可以根据下列表达式来计算重叠部分：

(表达式11)

if{L(t)≥TH_L}∧{P1(t)≥TH_P}∧{P2(t)≥TH_P}

T_s＝t-TH_L

else

T_s＝-1

在上述(表达式11)中，T_s＝t-TH_L表示重叠部分出现，而T_s＝-1表示重叠部分不出现。

指定单元4也可以基于第一发声部分和第二发声部分之间的功率差来指定重叠部分。例如，基于第一发声部分的平均值和第二发声部分的平均值之间的差和给出的阈值之间的比较结果，指定单元4决定重叠部分的出现，并且输出重叠部分的起点时间T_s。如果重叠部分长于任意阈值，并且第一用户的第一发声部分的平均功率和第二用户的第二发声部分的平均功率之间的差小于任意阈值TH_P_DIFF(其可以被称为第四阈值)，那么这表示其中第一用户和第二用户用彼此类似的音量来发声的情况。因此，指定单元4决定发声的重叠部分已经出现。然后指定单元4输出重叠部分的起点时间T_s。在任何其它情况下，因为这表明第一用户和第二用户中的一个用低声音来发声，所以指定单元4决定重叠部分尚未出现，并且重置重叠部分的出现时间T_s。要注意的是，任意阈值TH_P_DIFF例如可以被设置为3dB。要注意的是，指定单元4可以根据下列表达式来计算重叠部分：

(表达式12)

if{L(t)≥TH_L}∧{|P1(t)-P2(t)|＜TH_P_DIFF}

T_s＝t-TH_L

else

T_s＝-1

在以上(表达式12)中，T_s＝t-TH_L表示存在重叠部分的出现，而T_s＝-1表示不存在重叠部分的出现。要注意的是，语音处理装置1可以执行工作示例1至4的过程的任意组合的语音处理。使用根据工作示例4的语音处理装置1，可以用较高的准确度来评价关于第一用户的发声给第二用户的印象。

(工作示例5)

检测单元3可以检测第一语音和第二语音中包括的多个帧的第一信号质量和第二信号质量，并且指定单元4可以指定以下部分：在该部分之内，第一信号质量和第二信号质量等于或高于第三阈值(第三阈值＝10dB)，并且除此以外，第一发声部分和第二发声部分彼此重叠作为重叠部分。要注意的是，第一信号质量或第二信号质量可以是第一语音或第二语音的功率或信噪比。例如，检测单元3响应于关于第一发声部分的决定结果v₁(t)而根据下面给出的表达式来更新噪声功率N1(t)。例如，如果第t帧被决定为非发声部分，那么检测单元3通过添加由遗忘因子COEF1与帧功率相乘而获得的值来更新噪声功率。要注意的是，遗忘因子COEF1例如可以被指定为0.05。

(表达式13)

N1(t)＝N(t-1)*COEF1+P1(t)*(1-COEF1)

N1(t)＝N1(t-1)

在以上(表达式13)中，上阶段表示在v₁(t)＝0的情况下的噪声功率N1(t)，而下阶段表示在任何其它情况下的噪声功率N1(t)。进一步，检测单元3响应于关于第二发声部分的决定结果v₂(t)而与噪声功率N1(t)类似地更新噪声功率N2(t)。然后，在以下情况下检测单元4检测到重叠部分的出现：重叠部分的长度等于或大于上面描述的第一阈值TH_L，并且作为第一发声部分中的第一信号质量的示例的SNR1(t)以及作为第二发声部分中的第二信号质量的示例的SNR2(t)等于或大于第三阈值TH_SNR(例如10dB)。然后，指定单元4根据下列表达式来指定重叠部分的出现时间T_s：

(表达式14)

if{L(t)≥TH_L}∧{SNR1(t)≥TH_SNR}∧{SNR2(t)≥TH_SNR}

T_s＝t-TH_L

elseT_s＝-1

要注意的是，在上述(表达式14)中，T_s＝t-TH_L表示存在重叠部分的出现，而T_s＝-1表示不存在重叠部分的出现。

另外，指定单元4可以指定以下部分：在该部分之内，第一信号质量和第二信号质量之间的差低于第四阈值(例如，第四阈值＝3dB)，并且除此以外，第一发声部分和第二发声部分彼此重叠作为重叠部分。基于下面给出的下列表达式，基于作为第一发声部分以内第一信号质量的示例的SNR1(t)和作为第二发声部分以内第二信号质量的示例的SNR2(t)之间的差和第四阈值之间比较的结果，指定单元4决定重叠部分的出现，并且指定重叠部分的出现时间T_s。当重叠部分的长度等于或大于第一阈值TH_L，并且第一发声部分以内的SNR1(t)和第二发声部分以内的SNR2(t)之间的差小于第四阈值TH_P_DIFF(例如3dB)时，这表示第一用户和第二用户两者均用彼此类似的语音的量级来发声的情况。因此，指定单元4决定发声部分的重叠已经出现。因此，指定单元4可以指定重叠部分的出现时间T_s。在任何其它情况下，因为这是第一用户和第二用户中的一个用低声音来发声的该情况，所以指定单元4决定重叠部分尚未出现，并且重置重叠部分的出现时间T_s。

(表达式15)

if{L(t)≥TH_L}∧{|SNR1(t)-SNR2(t)|＜TH_SNR_DIFF}

T_s＝t-TH_L

elseT_s＝-1

在以上(表达式15)中，T_s＝t-TH_L表示存在重叠部分的出现，而T_s＝-1表示不存在重叠部分的出现。要注意的是，语音处理装置1可以执行工作示例1至5的过程的任意组合的语音处理。使用根据工作示例5的语音处理装置1，可以用较高的准确度来评价关于第一用户的发声给第二用户的印象。

(工作示例6)

图7是根据一个实施方式起到便携式终端装置作用的硬件的框图。参考图7，便携式终端装置30包括天线31、无线单元32、基频处理器33、终端接口单元34、麦克风35、扬声器36、控制器37、主存储单元38和辅助存储单元39。

天线31传输通过传输放大器放大的无线信号，并且接收来自基站的无线信号。无线单元32对通过基频处理器33传播的传输信号进行数字至模拟的转换，通过正交调制将产生的模拟传输信号转换至高频信号，并且通过功率放大器来放大高频信号。无线单元32放大接收的无线信号、对放大的无线信号进行模拟至数字的转换，并且将产生的数字无线信号传输至基频处理器33。

基频处理器33执行传输数据的基频处理，例如纠错编码和数据调制、接收信号和接收环境的决定、通道信号和纠错解码的阈值确定。

控制器37例如是中央处理器(CPU)、微处理单元(MPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或可编程逻辑装置(PLD)。控制器37执行诸如控制信号的传输接收之类的无线控制。进一步，控制器37执行在辅助存储单元39等中存储的语音处理程序，并且执行例如工作示例1或2中的语音处理。换言之，控制器37可以执行例如图1中描绘的获取单元2、检测单元3、指定单元4、计算单元5和评价单元6的功能框的过程。

主存储单元38是只读存储器(ROM)、随机存取存储器(RAM)等，并且是用于存储或暂时保留作为要通过控制器37或其中的应用软件或数据来执行的基础软件的操作系统(OS)的程序。

辅助存储单元39是硬盘驱动器(HDD)、固态驱动器(SDD)等，并且是用于存储与应用软件等有关的数据的存储装置。

终端接口单元34使用手持通话器和外部数据终端来执行数据适配器过程以及接口过程。

麦克风35接收发声者(例如第一用户)的语音作为其输入，并且将作为麦克风信号的语音输出至控制器37。扬声器36输出以下信号：作为输出语音输出的信号或者来自从控制器37的控制信号。

(工作示例7)

图8是根据一个实施方式的起到语音处理装置作用的计算机的硬件的框图。图8中所示的语音处理装置可以是图1所示的语音处理装置1。如图8所描绘的，语音处理装置1包括计算机100以及耦接至计算机100的输入装置和输出装置(外围装置)。

通常由处理器101来控制计算机100。RAM102和多个外围装置通过总线109被耦接至处理器101。要注意的是，处理器101可以是多处理器。另外，处理器101例如是CPU、MPU、DSP、ASIC或PLD。此外，处理器101可以是CPU、MPU、DSP、ASIC和PLD中的两个或更多个的任意组合。要注意的是，处理器101可以执行图1描绘的诸如获取单元2、检测单元3、指定单元4、计算单元5和评价单元6之类的功能框的过程。

RAM102被用作计算机100的主存储装置。通过处理器101执行的应用程序或OS的程序至少其部分被暂时地存储到RAM102中。进一步，可以将通过处理器101进行的过程所必须的各种数据存储到RAM102中。作为外围装置，HDD103、图形处理器104、输入接口105、光学驱动装置106、设备耦合接口107以及网络接口108被耦接至总线109。

HDD103用磁的方式从其中内置的磁盘上读取数据并将该数据写入该磁盘。HDD103例如被用作计算机100的辅助存储装置。在HDD103中存储有各种数据、应用程序和OS的程序。要注意的是，还可以使用半导体存储装置如闪存作为辅助存储装置。

监视器110被耦接至图形处理器104。图形处理器104根据来自处理器101的命令使得各种图像被显示在监视器110的屏幕上。作为监视器110，使用阴极射线管(CRT)、液晶显示装置等的显示装置是可用的。

键盘111和鼠标112被耦接至输入接口105。输入接口105将从键盘111或鼠标112向其发送的信号传输至处理器101。要注意的是，鼠标112是点击装置的示例，并且可以使用任何其它点击装置。作为其它点击装置，触摸板、平板电脑、触控面板、跟踪球等是可用的。

光学驱动装置106使用激光束等来执行记录在光学磁盘113上的数据的读取。光学磁盘113是其上记录有数据以便通过光的反射来可读取这些数据的便携式记录介质。对于光学磁盘113，可以使用数字多用光盘(DVD)、DVD-RAM、光盘只读存储器(CD-ROM)、可记录/可重写光盘(CD-R/RW)等。存储在作为便携式记录介质的光学磁盘113上的程序通过光学驱动装置106被安装到语音处理装置1中。可以由语音处理装置1执行所给出的安装程序。

设备耦合接口107是用于将外围装置耦接至计算机100的通信接口。例如，存储装置114和存储读写器115可以被耦接至设备耦合接口107。存储装置114是将通信功能和设备耦合接口107合并的记录介质。存储读写器115是用于执行以下操作的装置：将数据写入内存卡116或者从内存卡116中读取数据。内存卡116是卡式的记录介质。进一步，麦克风35或扬声器36可以被耦接至设备耦合接口107。

网络接口108被耦接至网络117。网络接口108通过网络117执行以下操作：将数据传输至不同的计算机或不同的通信设备，并且接收来自不同的计算机或不同的通信设备的数据。

计算机100例如执行记录在计算机可读记录介质上的程序，以实现上文描述的语音处理功能。描述要由计算机100执行的处理内容的程序可以被记录到各种记录介质中。可以根据单个或多个功能模块来配置所描述的程序。例如，可以根据实现图1描绘的获取单元2、检测单元3、指定单元4、计算单元5、评价单元6等的功能模块来配置程序。要注意的是，要由计算机100执行的程序可以被存储在HDD103中。处理器101将HDD103中的至少一部分程序加载到RAM102中，并且执行程序。进一步，可以将要由计算机100执行的程序记录到诸如光学磁盘113、存储装置114或内存卡116之类的便携式记录介质中。例如，在处理器101的控制之下，在便携式记录介质中存储的程序能够在其被安装到HDD103中之后用于执行。处理器101也可以直接从便携式记录介质中读出程序，并且执行程序。

在上文描述的装置的部件可以或可能不通过物理的方式如附图中所描绘的那样进行配置。具体地，装置的分解或整合的具体形式不被限制为附图中所描绘的那些，并且响应于各种负载、使用情况等，在任意单元中物理地在功能上分解或整合它们中的全部或一些。进一步，可以通过执行预先制备在诸如个人计算机或工作站之类的计算机上的程序来实现工作示例的前述描述中所描述的各种处理。

Claims

1.一种语音处理装置，包括：

检测单元，其被配置成检测第一语音中包括的第一发声部分和第二语音中包括的第二发声部分；

指定单元，其被配置成指定重叠部分，在所述重叠部分之内，所述第一发声部分和所述第二发声部分彼此重叠；

计算单元，其被配置成计算从所述重叠部分的起点至所述第一发声部分的终点的第一发声持续部分；以及

评价单元，其被配置成至少基于与所述第一发声持续部分的长度有关的信息来评价关于所述第一语音的印象。

2.根据权利要求1所述的语音处理装置，

其中，所述指定单元指定所述重叠部分，在所述重叠部分中，所述第一发声部分和所述第二发声部分在等于或大于第一阈值的长度之内彼此重叠。

3.根据权利要求1所述的语音处理装置，

其中，所述指定单元：

计算所述第一发声部分或所述第二发声部分中包括的元音数；以及

指定所述重叠部分，在所述重叠部分中，所述第一发声部分和所述第二发声部分在所述元音数等于或大于第二阈值的情况下彼此重叠。

4.根据权利要求1所述的语音处理装置，

其中，所述检测单元检测所述第一语音和所述第二语音中包括的多个帧的第一信号质量和第二信号质量；以及

其中，所述指定单元指定以下部分作为所述重叠部分：在所述部分之内，所述第一信号质量和所述第二信号质量等于或高于第三阈值，并且此外，所述第一发声部分和所述第二发声部分彼此重叠。

5.根据权利要求1所述的语音处理装置，

其中，所述指定单元指定以下部分作为所述重叠部分：在所述部分之内，所述第一信号质量和所述第二信号质量之间的差小于第四阈值，并且此外，所述第一发声部分和所述第二发声部分彼此重叠。

6.根据权利要求4所述的语音处理装置，

其中，所述第一信号质量或所述第二信号质量是所述第一语音或所述第二语音的功率或信噪比。

7.根据权利要求1所述的语音处理装置，

其中，所述指定单元在从所述第一发声部分和所述第二发声部分中的较早一个的开始时间起过去第五阈值的时间段之后指定所述重叠部分。

8.根据权利要求7所述的语音处理装置，

其中，所述指定单元在从所述第一发声部分和所述第二发声部分中的较晚一个的结束时间起过去所述第五阈值的时间段之前指定所述重叠部分。

9.根据权利要求1所述的语音处理装置，

其中，所述第一语音或所述第二语音是传输语音或接收语音。

10.根据权利要求1所述的语音处理装置，

其中，在所述第一发声持续部分的长度等于或大于第六阈值的情况下，所述评价单元评价所述印象是糟糕的。

11.一种语音处理方法，包括：

检测第一语音中包括的第一发声部分和第二语音中包括的第二发声部分；

指定重叠部分，在所述重叠部分之内，所述第一发声部分和所述第二发声部分彼此重叠；

计算从所述重叠部分的起点至所述第一发声部分的终点的第一发声持续部分；以及

至少基于与所述第一发声持续部分的长度有关的信息来评价关于所述第一语音的印象。

12.根据权利要求11所述的语音处理方法，

其中，所述指定对所述重叠部分进行指定，在所述重叠部分中，所述第一发声部分和所述第二发声部分在等于或大于第一阈值的长度之内彼此重叠。

13.根据权利要求11所述的语音处理方法，

其中，所述指定包括：

14.根据权利要求11所述的语音处理方法，

其中，所述检测对所述第一语音和所述第二语音中包括的多个帧的第一信号质量和第二信号质量进行检测，以及

其中，所述指定将以下部分指定为所述重叠部分：在所述部分之内，所述第一信号质量和所述第二信号质量等于或大于第三阈值，并且此外，所述第一发声部分和所述第二发声部分彼此重叠。

15.根据权利要求11所述的语音处理方法，

其中，所述指定将以下部分指定为所述重叠部分：在所述部分之内，所述第一信号质量和所述第二信号质量之间的差小于第四阈值，并且此外，所述第一发声部分和所述第二发声部分彼此重叠。

16.根据权利要求14所述的语音处理方法，

其中，所述第一信号质量或所述第二信号质量是所述第一语音或第二语音的功率或信噪比。

17.根据权利要求11所述的语音处理方法，

其中，所述指定在从所述第一发声部分和所述第二发声部分中的较早一个的开始时间起过去第五阈值的时间段之后指定所述重叠部分。

18.根据权利要求17所述的语音处理方法，

其中，所述指定在从所述第一发声部分和所述第二发声部分中的较晚一个的结束时间起过去所述第五阈值的时间段之前指定所述重叠部分。

19.根据权利要求11所述的语音处理方法，

20.根据权利要求11所述的语音处理方法，

其中，所述评价在所述第一发声持续部分的长度等于或大于第六阈值的情况下，评价所述印象是糟糕的。

21.一种非暂时性计算机可读介质，其存储用于使计算机执行过程的语音处理程序，所述过程包括：