CN110634505B

CN110634505B - 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人

Info

Publication number: CN110634505B
Application number: CN201910539973.5A
Authority: CN
Inventors: 中込浩一; 岛田敬辅
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-06-21
Filing date: 2019-06-20
Publication date: 2023-05-12
Anticipated expiration: 2039-06-20
Also published as: US10997979B2; US20190392840A1; CN110634505A

Abstract

本发明提供一种声音期间检测装置，能合适地检测对象者的声音期间。声音期间检测部(301)基于由摄像单元摄像的对象者的嘴唇的摄像图像来检测对象者正发声的期间即声音期间。呼吸期间判定部(304)基于对象者的嘴唇的摄像图像来判定对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间。声音期间检测部(301)使对象者的声音期间中不含由呼吸期间判定部(304)判定的即将发声前呼吸期间地检测对象者的声音期间。

Description

声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人

关联申请的参考

关于本申请，主张以在2018年6月21日申请的日本专利申请2018-118159以及2019年6月6日申请的日本专利申请2019-105860为基础的优先权，将该基础申请的内容全都引入到本申请。

技术领域

本发明涉及声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人。

背景技术

过去，为了一边抑制噪声的影响一边认识说话的对象者(以下称作「对象者」)的声音，作为基于对象者的嘴唇的活动信息来检测对象者正发声的期间即声音期间(声音区间)的声音期间检测装置，例如已知特开平6-301393号公报记载的装置。在该现有的声音期间检测装置中，嘴唇的活动信息被小波变换，从由此得到的小波变换信息检测声音期间。或者从嘴唇的活动信息使用神经网络检测声音期间。

另一方面，对象者的嘴唇的开闭动作(张开或闭上嘴唇的动作)的定时和对象者的发声的定时不一定一致。上述的现有的声音认识装置由于未对这点有任何考虑，因此有可能会将对象者未发声的期间包含在检测到的声音期间中，不能合适地进行声音期间的检测。

发明内容

本发明用于解决以上那样的课题，目的在于，合适地检测对象者的声音期间。

为了达成所述目的，本发明所涉及的声音期间检测装置的一个方案具备：声音期间检测单元，其基于由摄像单元摄像的对象者的嘴唇的摄像图像来检测对象者正发声的期间即声音期间；和呼吸期间判定单元，其基于对象者的嘴唇的摄像图像来判定对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间，声音期间检测单元不使由呼吸期间判定单元检测到的即将发声前呼吸期间包含在对象者的声音期间中地检测对象者的声音期间。

发明的效果

根据本发明，能合适地检测对象者的声音期间。

附图说明

图1是本发明的实施方式所涉及的机器人的外观图。

图2是表示机器人的结构的框图。

图3是表示机器人的对话功能的结构的框图。

图4是表示用于执行机器人的对话功能中的声音期间检测处理和声音认识处理的处理的一例的流程图。

图5是表示嘴开闭判定处理的一例的流程图。

图6是表示带标号的脸部件检测结果的格式例的图。

图7是适宜表征头部的转动的自由度的图。

图8是表示第1给定时间的设定处理的示例的流程图。

具体实施方式

以下参考附图来详细说明用于实施本发明的形态。图1是示意表示从正面来看具备实施方式所涉及的声音期间检测装置以及声音认识装置的机器人100的情况下的外观的图。机器人100是具备头部101和躯干102的人型的交流机器人。机器人100例如设置在住宅内，若被给定的对象即住户等(以下记载为「对象者」)招呼，则与招呼的对象者进行会话。

如图1所示那样，在机器人100的头部101设置摄像机104、作为声音取得单元发挥功能的麦克风阵列103、扬声器105、传感器群106、颈关节驱动部107和脚下驱动部108。

摄像机104设于头部101的前面的下侧、人的脸所在处的鼻的位置。摄像机104在后述的控制部201的控制下以给定的帧频(例如30fps(帧/秒))连续进行摄像。另外，该帧频通过实验等预先设定在能合适地执行后述的嘴开闭判定部308的嘴唇的开闭判定(图5的步骤S504)的值。

麦克风阵列103例如由13个麦克风构成。13个麦克风当中8个麦克风在以人的脸来说是前额的高度的位置围绕头部101等间隔配置。在比这8个麦克风更上侧，4个麦克风围绕头部101等间隔配置。进而，1个麦克风配置于头部101的头顶部。麦克风阵列103检测在机器人100的周围产生的声音。

扬声器105设于比摄像机104更下侧、在以人的脸来说是嘴的位置。扬声器105在控制部201的控制下将来自控制部201的控制信号变换成声音，输出各种声音。

传感器群106设于以人的脸来说是眼的位置和耳的位置。传感器群106包含加速度传感器、障碍物探测传感器等，为了机器人100的姿态控制、安全性的确保而使用。

颈关节驱动部107是将头部101和躯干102连结的构件。头部101通过以虚线表示的颈关节驱动部107连结在躯干102。颈关节驱动部107包含多个电动机。若控制部201驱动这多个电动机，则机器人100的头部101转动。颈关节驱动部107具有使机器人100的头部101转动并取得其转动量的作用。

脚下驱动部108具有使机器人100移动的作用。虽未特别图示，但脚下驱动部108包含设于躯干102的下侧的4个车轮(轮)。4个车轮当中2个配置于躯干102的前侧，剩下2个配置于后侧。作为车轮而例如使用全向轮、麦克纳姆轮。控制部201通过使脚下驱动部108的车轮转动来使机器人100移动。

图2是表示具有图1的外观图的机器人100的控制系统即机器人控制系统200的框图。在图2中，标注与图1相同参考编号的部分与图1相同。在图2中，设置于躯干102内的控制部201包含CPU(Central Processing Unit：中央运算处理装置)、RAM(Random AccessMemory：随机存取存储器)等。控制部201分别与头部101内的麦克风阵列103、摄像机104、扬声器105、传感器群10、躯干102内的颈关节驱动部107以及脚下驱动部108电连接，将RAM作为作业区域，读出并执行后述的存储于存储部202的控制程序205，来控制所述各部。

存储部202包含固态硬盘驱动器、硬盘驱动器、闪速存储器等，设于躯干102的内部。存储部202存储包含由控制部201执行的控制程序205、麦克风阵列103集音的声音数据、摄像机104摄像的图像数据等的各种数据。在存储部202存储的控制程序205中，包含后述的音源分离信息检测程序、移动程序以及对话程序等。

操作按钮203设于躯干102的脊背(图1中未图示)。操作按钮203是用于操作机器人100的各种按钮，包含电源按钮、扬声器105的音量调节按钮等。

电源部204是内置于躯干102的充电电池，对机器人控制系统200的各部提供电力。

图3是表示实现作为图2的控制部201执行存储部202内的控制程序205的功能的一部分的对话功能的结构的框图。作为该对话功能的结构，具备声音期间检测部301、声音输入部302、声音认识部303、呼吸期间判定部304、图像输入部305、脸检测部306、嘴部件(parts)检测部307、嘴开闭判定部308以及发声部309。另外，图3所示的各功能部可以由控制部201内的FPGA(Field Programmable Array，现场可编程门阵列)等硬件实现。

在图3中，作为声音取得单元发挥功能的声音输入部302，从构成图1的麦克风阵列103的各麦克风被输入声音，为了声音认识部303进行的后述的声音认识，而将输入的声音适宜存储于所述RAM。

上述的图像输入部305、脸检测部306以及嘴部件检测部307在声音输入部302取得声音的定时取得对象者的嘴唇图像。具体地，图像输入部305从图1的摄像机104被输入以所述给定的帧频连续摄像的图像。接下来，脸检测部306执行从输入的图像检测对象者的脸区域的脸检测处理。然后嘴部件检测部307执行从检测到的对象者的脸区域检测嘴部件的嘴部件检测处理，作为对象者的嘴唇的摄像图像(以下称作「嘴唇图像」)。

嘴开闭判定部308执行嘴开闭判定处理，基于嘴部件检测部307输出的对象者的嘴唇图像来判定对象者的正进行嘴唇的开闭动作(张开或闭上嘴唇的动作)的状态和未进行嘴唇的开闭动作的状态。

作为呼吸期间判定单元发挥功能的呼吸期间判定部304，执行呼吸期间判定处理，根据基于嘴部件检测部307输出的对象者的嘴唇图像的嘴开闭判定部308的判定结果，来判定对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间。

作为声音期间检测单元发挥功能的声音期间检测部301，执行声音期间检测处理，根据基于嘴部件检测部307输出的对象者的嘴唇图像的嘴开闭判定部308的判定结果，来检测对象者正发声的期间即对象者的声音期间。这时，声音期间检测部301检测不含由呼吸期间判定部304判定的即将发声前呼吸期间的对象者的声音期间。这出于如下的理由。即，根据对象者的不同，存在即将进行发声前为了呼吸而将嘴唇活动的情况，另外因为，在与该即将发声前的呼吸相伴的即将发声前呼吸期间，由于对象者只是在呼吸而实际未发声(未产生对象者的声音)，因此若将这样的即将发声前呼吸期间包含在声音期间中，就会有在即将发声前呼吸期间中产生的噪声包含在由声音认识部303认识的声音中的可能性。

另外，声音期间检测部301基于嘴开闭判定部308的判定结果而将对象者的嘴唇的开闭动作结束的定时起给定时间(将其设为「ERT」)前的定时检测为声音期间的结束定时。这出于如下的理由。即，这是因为，对象者的发声实际结束的定时由于处于与对象者的嘴唇的开闭动作结束的定时相比略早的定时的倾向，因此若将嘴唇的开闭动作结束的定时检测为声音期间的结束定时，就有在发声实际结束起到嘴唇的开闭动作结束位置的期间产生的噪声包含在由声音认识部303认识的声音中的可能性。

作为声音认识单元发挥功能的声音认识部303执行声音认识处理，基于在由声音期间检测部301检测到的声音期间内由声音输入部302取得、存储的对象者的声音，使用已知的声音认识技术来认识对象者的声音。

发声部309对应于声音认识部303中的声音认识结果，按照对话算法，使用已知的声音合成技术执行基于声音合成的发声处理。通过发声处理合成的声音经由图1以及图2的扬声器105对对象者发声，进行对象者与图1的机器人100的对话。

声音认识部303例如执行音源到来方向估计处理、音源分离处理、音量算出处理、S/N比算出处理等。

在音源到来方向估计处理中，声音期间检测部301检测到声音期间时，声音认识部303可以将声音输入部302输入的声音作为信号声音，基于嘴部件检测部307输出的嘴唇图像以及该信号声音的信号声音功率(power)来估计信号声音的到来方向。

另一方面，在音源到来方向估计处理中声音期间检测部301未检测到声音期间时，声音认识部303可以将声音输入部302输入的声音作为噪声，基于该噪声的噪声功率来估计噪声的到来方向。这时，在音源到来方向估计处理中，可以通过执行基于音源定位手法的一种手法即MUSIC(MUltiple SIgnal Classification，多重信号分类)法的处理来估计来自对象者以外的音源的噪声的音源定位(噪声源的位置)。

声音认识部303可以通过在音源分离处理中执行例如基于下述文献1所示的波束形成技术的运算处理，来将通过音源到来方向估计处理当前得到的信号声音的到来方向或噪声的到来方向作为输入，执行强调对象者发声的信号声音或压制信号声音以外的噪声的音源分离的处理。

<文献1>

浅野太、“音源分离”、[online]、2011年11月领受、电子信息通信学会『知识之森』、

[2017年6月15日检索]、因特网

<URL：http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>

具体地，在音源分离处理中嘴开闭判定部308判定对象者的正进行嘴唇的开闭动作的状态时，声音认识部303通过上述波束形成的运算处理来对信号声音执行向通过音源到来方向估计处理当前得到的信号声音的到来方向进行波束转向(强调)的波束转向运算处理，由此得到经过强调的信号声音。

另一方面，在音源分离处理中嘴开闭判定部308判定未进行嘴唇的开闭动作的状态时，声音认识部303通过上述波束形成的运算处理对噪声执行向通过音源到来方向估计处理当前得到的噪声的到来方向调零(压制)的调零运算处理，由此得到被压制的噪声。

声音认识部303在音量算出处理中算出以音源分离处理得到的经过波束转向(强调)的信号声音或经过调零(压制)的噪声各自的音量。

声音认识部303在S/N比算出处理中基于在音量算出处理中算出的信号声音的音量和噪声的音量来算出信号对噪声比(以下记载为「S/N比」)，判定该S/N比是否大于阈值。

在S/N比算出处理中的判定的结果是S/N比为阈值以下的情况下，声音认识部303判定为得不到用于声音认识的足够的S/N比。在该情况下，图2的控制部201例如通过控制图1或图2的脚下驱动部108在例如相对于对象者维持一定的关系(例如一定的距离或一定的角度等)的同时使机器人100移动。

在机器人100的移动后，声音认识部303再度执行与上述同样的S/N比的判定动作。其结果，若S/N比大于阈值，则声音认识部303判定为得到用于声音认识的足够的S/N比，相对于对象者的机器人100的位置关系成为能将信号声音从噪声最佳地分离的最佳化的位置即音源分离位置(或者，判定为相对于对象者的机器人100的方向关系成为能将信号声音从噪声最佳地分离的最佳化的方向即音源分离方向)。在该情况下，声音认识部303通过对在音源分离处理得到的经过波束转向(强调)的信号声音执行声音认识处理，来理解对象者的发声内容。

图4是表示用于执行图3的框图所示的对话功能中的声音期间检测处理和声音认识处理的处理的一例的流程图。该流程图的处理例，实现为：实现图3的框图的结构的控制部201的硬件所执行的处理，或图2的控制部201执行的控制程序205的处理。

首先，控制部201将在未特别图示的内部的RAM作为变量而持有的「开标记」的值初始化成0(步骤S401)。另外，在图4中，将开标记的值是0标注成「开＝0」。

接下来图3的脸检测部306执行脸检测处理(步骤S402)。在该脸检测处理中，根据从摄像机104经由图像输入部305输入的图像检测脸区域。作为脸检测处理，能使用已知的脸检测技术。例如可以运用下述文献2记载的任意的脸检测技术。

<文献2>

堀田一弘、“小特集脸认识技术1.脸认识的研究动向”、[online]、2012年3月28日

公开、影像信息媒介学会志、Vol.64，No.4(2010)，p.459-462、[2017年6月15日检索]、因特网

<URL：https://www.jstage.jst.go.jp/article/itej/64/4/644_455/_pdf>

接下来，图3的嘴部件检测部307使用脸检测处理中检测到的脸区域的图像来执行嘴部件检测处理(步骤S403)。作为嘴部件检测处理而能使用已知的脸部件检测技术。例如可以采用下述文献3记载的任意的脸部件检测技术。

<文献3>

littlewing、“能在WEB摄像机利用的脸认识技术汇总-其2”、[online]、2015年4月7日公开、[2017年6月15日检索]、因特网

<URL：http://littlewing.hatenablog.com/entry/2015/04/07/221856>

通过步骤S403的嘴部件检测处理，首先例如得到带标号的坐标值即脸部件检测结果。作为带标号的脸部件检测结果的格式例，例如能如作为为图6的601所示那样，采用记载为下述文献4的图2的示例。

<文献4>

C.sagonas，”Facialpoint annotations”、[online]、[2017年6月15日检索]、因特网

<URL：https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>

在步骤S403的嘴部件检测处理中，作为图6的601例示的脸部件检测结果当中例如标号49到68被检测为嘴部件，另外标号28到36被检测为鼻部件。

接下来，控制部201通过参考未特别图示的计时器来取得当前时刻t(步骤S404)。

之后，图3的嘴开闭判定部308执行嘴开闭判定处理，使用在步骤S403算出的嘴部件和鼻部件的带标号的坐标值(例如图6的601的标号49～68、标号28～36)来判定对象者的正进行嘴唇的开闭动作的状态和未进行嘴唇的开闭动作的状态(步骤S405)。

图5是表示图4的步骤S405的嘴开闭判定处理的详细例的流程图。

首先，图3的嘴开闭判定部308算出嘴唇的纵坐标(脸的上下方向)中的嘴唇的上唇与下唇的相对的移动的变化量(以下称作「上下唇纵移动变化量」)Δy(图5的步骤S501)。现在，在某时刻的帧F(t)中通过下述(1)式的运算来算出y坐标量差分总计y(t)。

y(t)＝yy1+yy2…(1)

在(1)式中，yy1是上唇的下侧线条与下唇的上侧线条的y坐标量差分总计，根据图6的601中的关系，通过下述(2)式到(7)式的累计运算算出。在这些式中，运算「+＝」表示在左边的值累计右边的值的运算。另外，函数「fabs()」是以浮点算出对括弧内的数值的绝对值的函数。另外例如「data.y[61](t)」表示时刻t的帧图像F(t)内的图6的标号61号的y坐标数据值。其他也同样。

yy1+＝fabs(data.y[61](t)-data.y[67](t))…(2)

yyl+＝fabs(data.y[61](t)-data.y[58](t))…(3)

yy1+＝fabs(data.y[62](t)-data.y[66](t))…(4)

yyl+＝fabs(data.y[62](t)-data.y[57](t))…(5)

yyl+＝fabs(data.y[63](t)-data.y[65](t))…(6)

yyl+＝fabs(data.y[63](t)-data.y[56](t))…(7)

在(1)式中，yy2是鼻下与下嘴唇(上侧)的y坐标量差分总计，根据图6的601的关系，通过下述(8)式到(12)式的运算算出。

yy2+＝fabs(data.y[31](t)-data.y[60](t))…(8)

yy2+＝fabs(data.y[32](t)-data.y[61](t))…(9)

yy2+＝fabs(data.y[33](t)-data.y[62](t))…(10)

yy2+＝fabs(data.y[34](t)-data.y[63](t))…(11)

yy2+＝fabs(data.y[34](t)-data.y[64](t))…(12)

嘴开闭判定部308接下来通过下述(13)式求取对时刻t的帧图像F(t)以(l)式的运算算出的y坐标量差分总计y(t)与对1帧前的时刻(t-1)的帧图像F(t-1)以与(1)式同样的运算算出的y坐标量差分总计y(t-1)的差分绝对值，作为所述上下唇纵移动变化量Δy。在此，函数「abs()」是以整数算出对括弧内的数值的绝对值的函数。

Δy＝abs(y(t)-y(t-1))…(13)

以(13)式算出的Δy，表示脸的上下方向上的上唇与下唇的相对的移动的变化量，在上唇和下唇远离的方向或接近的方向上移动时变大。

接下来，嘴开闭判定部308对嘴唇的横坐标(脸的左右方向)中的移动的变化量(以下称作「嘴唇横移动变化量」)Δx也以与所述上下唇纵移动变化量Δy的情况同样的运算进行算出(图5的步骤S502)。

即，现在，在某时刻的帧F(t)，通过下述(14)式的运算算出x坐标量差分总计x(t)。在(14)式中，例如「data.x[61](t)」表示时刻t的帧图像F(t)内的图6的标号61号的x坐标数据值。其他也同样。

x(t)＝data.x[61](t)+data.x[62](t)+data.x[63](t)+data.x[67](t)+data.x[66](t)+data.x[65](t)…(14)

接下来，通过下述(15)式算出对时刻t的帧图像F(t)以(14)式的运算算出的x坐标量差分总计x(t)与对1帧前的时刻(t-1)的帧图像F(t-1)以与(14)式同样的运算算出的x坐标量差分总计x(t-1)的差分绝对值，作为所述嘴唇横移动变化量Δx。

Δx＝abs(x(t)-x(t-1))…(15)

在(15)式算出的嘴唇横移动变化量Δx，表示脸的左右方向上的嘴唇(上唇以及下唇的整体)的移动的变化量，在嘴唇向左右任一方移动时变大。

接下来，嘴开闭判定部308进行图1的头部101的转动判定(图5的步骤S503)。嘴开闭判定部308基于从图1或图2的颈关节驱动部107输入到嘴开闭判定部308的信号，通过下述(16)式、(17)式以及(18)式分别算出帧时刻t的帧图像F(t)和帧时刻t的帧的1帧前的帧时刻(t-1)的帧图像F(t-1)中的分别表征头部101的姿态的变化量的翻滚角度差分值Δroll、偏转角度差分值Δyaw以及俯仰角度差分值Δpitch。

Δroll＝abs(F(t)roll-F(t-1)roll)…(16)

Δyaw＝abs(F(t)yaw-F(t-1)yaw)…(17)

Δpitch＝abs(F(t)pitch-F(t-1)pitch)…(18)

在此，例如F(t)roll是对应于时刻t的帧图像F(t)从颈关节驱动部107输入到嘴开闭判定部308的翻滚角度值，F(t-1)roll是对应于时刻(t-1)的帧图像F(t-1)从颈关节驱动部107输入到嘴开闭判定部308的翻滚角度值。关于偏转角度值F(t)yaw以及F(t-1)yaw、俯仰角度值F(t)pitch以及F(t-1)pitch也分别同样。图7是示意表征图1的机器人100的头部101的转动的自由度的图。通过图1或图2的颈关节驱动部107，机器人100的头部101能分别相对于躯干102绕着俯仰轴Xm的轴、绕着翻滚轴Zm的轴、绕着偏转轴Ym的轴转动。颈关节驱动部107将绕着俯仰轴Xm的轴的俯仰角度值、绕着翻滚轴Zm的轴的翻滚角度值以及绕着偏转轴Ym的轴的偏转角度值分别如上述那样输出到控制部201。

嘴开闭判定部308分别算出上述(16)式、(17)式以及(18)式的运算的结果的翻滚角度差分值Δroll、偏转角度差分值Δyaw以及俯仰角度差分值Δpitch，作为翻滚轴Zm、偏转轴Ym以及俯仰轴Xm上的头部101的转动角度的变化量。

另外，作为头部101的转动角度的估计方式而已知种种手法，也可以采用上述以外的技术。

然后，嘴开闭判定部308基于在步骤S501算出的上下唇纵移动变化量Δy、在步骤S502算出的嘴唇横移动变化量Δx、和作为在步骤S503算出的机器人100的头部101的转动角度的变化量的翻滚角度差分值Δroll、偏转角度差分值Δyaw以及俯仰角度差分值Δpitch，根据以下的规则来进行嘴唇的开闭判定(图5的步骤S504)。即，控制部201在下述(19)式的逻辑式所示的条件得到满足时，判定正进行嘴唇的开闭动作的状态，在该条件未得到满足时，判定未进行嘴唇的开闭动作的状态(正停止的状态)。另外，在(19)式中，第1阈值的y_th、第2阈值的x_th、和第3阈值群的roll_th、yaw_th以及pitch_th分别是Δy、Δx、Δroll、Δyaw以及Δpitch的判定阈值。

Δy＞y_th&&Δx＜x_th&&Δroll＜roll_th&&Δyaw＜yaw_th&&Δpitch＜pitch_th…(19)

即，嘴开闭判定部308在向上嘴唇和下嘴唇远离的方向或接近的方向移动、脸的横方向上的嘴唇的移动的变化量少且机器人100的头部101不怎么转动的情况下，判定正进行嘴唇的开闭动作。通过不仅使用Δy，还将Δx、Δroll、Δyaw以及Δpitch用在嘴唇的开闭判定中，即使是不情愿(左右要头)、由于思考而歪着头这样的动作，也能难以引起误判定。

回到图4的说明，控制部201若通过步骤S405中的嘴开闭判定处理而判定正进行嘴唇的开闭动作的状态，就执行以下的步骤S406到步骤S408的一系列处理。

首先，控制部201判定前述的「开标记」的值是否是0，即，到目前位置是否未进行嘴唇的开闭动作(步骤S406)。

若步骤S406的判定成为“是”，则控制部201对在未特别图示的RAM作为变量存储的开始时刻TS设置在步骤S404取得的当前时刻t。另外，控制部201将「开标记」的值设置成1。另外，在图4中，将开标记的值是1标注成「开＝1」(以上，步骤S407)。

然后控制部201移转到下一摄像帧的处理(步骤S408)，从步骤S402的处理起重复。

另一方面，若步骤S406的判定成为“否”，则控制部201直接移转到下一摄像帧的处理(步骤S408)，从步骤S402的处理起重复。

另一方面，若通过步骤S405中的嘴开闭判定处理而判定未进行嘴唇的开闭动作的状态，则控制部201的嘴开闭判定部308执行以下的步骤S409到步骤S412的一系列处理。

首先，控制部201判定「开标记」的值是否是1，即，是否到目前位置进行了嘴唇的开闭动作(步骤S409)。

若步骤S409的判定为“否”，则由于嘴唇的开闭动作未从以前进行，因此控制部201什么都不做，直接移转到下一摄像帧的处理(步骤S408)，从步骤S402的处理起重复。

在步骤S409的判定为“是”、即，从到目前为止进行了嘴唇的开闭动作的状态变化为未进行的状态时，控制部201的呼吸期间判定部304执行呼吸期间判定处理(步骤S410)。即，控制部201判别在步骤S407更新的开始时刻TS起的到在步骤S404取得的当前时刻t为止的经过时间是否是给定时间ERT以上，即是否是「(t-TS)≥ERT」。在此，给定时间ERT例如预先设定为500毫秒，存储于存储部202。

在该步骤S410中的呼吸期间判定处理中，在从对象者的嘴唇的开闭动作开始到经过给定时间ERT为止都未重复执行对象者的嘴唇动作时，将从开始对象者的嘴唇的开闭动作起到不再进行该对象者的嘴唇的开闭动作时(对象者的嘴唇的开闭动作结束时)为止的期间，判定为所述即将发声前呼吸期间。

呼吸期间判定部304在步骤S410的判定为“否”，即在对象者的嘴唇的开闭动作开始起到不再进行对象者的嘴唇的开闭动作为止的经过时间(t-TS)短于给定时间ERT、对象者的嘴唇的开闭动作开始起到经过给定时间ERT为止都未重复执行对象者的嘴唇动作时，视作对象者进行了即将发声前的一次呼吸，将对象者的嘴唇的开闭动作开始起到不再进行该对象者的嘴唇的开闭动作为止的期间判定为即将发声前呼吸期间。然后，为了不在由声音期间检测部301检测到的对象者的声音期间中包含即将发声前呼吸期间，回到步骤S401的处理，将「开标记」的值初始化成0。

另一方面，呼吸期间判定部304在步骤S410的判定为“是”，即在对象者的嘴唇的开闭动作开始起到不再进行该对象者的嘴唇的开闭动作时(结束时)为止的经过时间(t-TS)为给定时间ERT以上、对象者的嘴唇的开闭动作开始起到经过给定时间ERT为止重复执行了对象者的嘴唇的开闭动作时，判定为对象者进行了用于发声的嘴唇的开闭动作。另外，在对象者进行了用于发声的嘴唇的开闭动作的情况下，重复进行该嘴唇的开闭动作的声音期间，比即将发声前呼吸期间(比给定时间ERT短的时间)更长。

接下来，控制部201的声音期间检测部301接受上述步骤S410的判定结果，将在所述步骤S407更新的开始时刻TS(嘴唇的开闭动作开始的时刻)设定为声音期间的开始定时ST(步骤S411)。

如以上那样，在本实施方式中，在对象者仅一瞬(仅比给定时间ERT短的时间)使嘴唇进行开闭动作的情况下(步骤S410：“否”)，视作对象者进行了即将发声前的呼吸，将「开标记」的值初始化成0(步骤S401)，通过之后的步骤S405～S407的执行来更新开始时刻TS，通过不将该呼吸的期间即即将发声前呼吸期间包含在声音期间，能合适地检测声音期间。

在紧接上述的步骤S411的步骤412，接下来声音期间检测部301通过从当前时刻t减去给定时间ERT来计算对象者的声音期间的结束定时ET「 ET＝t-ERT」。

如此地，声音期间检测部301通过将从不再进行嘴唇的开闭动作的定时起给定时间ERT前(例如-500毫秒)的定时设为声音期间的结束定时ET，来补正相对于实际的发声结束定时的不再进行嘴唇的开闭动作的定时的偏离，能使声音期间的结束定时ET的精度提升。另外，给定时间ERT通过实验等预先设定，使得上述那样算出的结束定时ET成为对象者的声音期间的实际的结束定时。顺带一提，根据给定时间ERT的设定的不同，考虑发声的末端多少会中断，但由于词尾必定以元音结束，因此即使发声的末端多少中断也能正确进行声音认识，因此没有问题。

在紧接上述步骤S412的步骤S413，控制部201的声音认识部303执行声音认识处理，基于在以所述步骤411以及412中分别设定的声音期间的开始定时ST以及结束定时ET规定的声音期间内由声音输入部302取得、存储的对象者的声音来认识对象者的声音。之后控制部201结束图4的流程图所示的声音期间检测处理。如以上那样，在本处理中，声音期间的检测通过检测其开始定时ST以及结束定时ET来进行。

另外，在图4的流程图中，在确定发声期间的结束后进行声音认识处理，但在处于正进行嘴唇的开闭动作的状态的情况下(步骤S405)，也可以在从开始时刻TS经过给定时间ERT的时间点开始声音认识处理。在该情况下，若在确定声音期间的结束定时ET的时间点结束声音认识，则由于声音认识的结束定时成为不再进行嘴唇的开闭动作的定时的给定时间ERT前的定时，因此声音期间成为与图4的流程图的情况相同的期间。

如以上那样，根据本实施方式，能合适地检测声音期间。

具体地，在本实施方式中，能合适地检测不含即将发声前呼吸期间的对象者的声音期间。由此，在由对象者由于在即将进行发声前进行呼吸而使嘴唇活动的情况下等，能将在即将发声前呼吸期间中产生的噪声从声音认识的对象除去。

另外，在本实施方式中，在对象者的嘴唇的开闭动作开始起到经过给定时间ERT(权利要求书的记载的第1给定时间)为止都未重复执行对象者的嘴唇的开闭动作时，将对象者的嘴唇的开闭动作开始起到不再进行该对象者的嘴唇的开闭动作时为止的期间判定为即将发声前呼吸期间，由此能确实地检测由于在即将进行发声前进行呼吸而使嘴唇活动的期间。

另一方面，在本实施方式中，通过将从对象者的嘴唇的开闭动作结束的定时起给定时间ERT(权利要求书的记载的第2给定时间)前的定时作为声音期间的结束定时来检测声音期间，在发声实际结束的定时成为比嘴唇的开闭动作结束的定时稍早的定时的情况下，也能与之相应合适地检测声音期间。由此，能将在发声实际结束起到嘴唇的开闭动作结束为止的期间产生的噪声从声音认识的对象除去。在该情况下，根据上述期间的设定的不同，认为发声的末端多少会中断，但由于词尾必定以元音结束，因此即使发声的末端多少会终端也会正确进行声音认识，因此没有问题。

在本实施方式中，通过将上述那样的声音认识系统装入机器人，能实现具备高度的对话功能的机器人。

另外，在上述实施方式中，将本发明中的第1以及第2给定时间设定为彼此相同的给定时间ERT，但也可以设定为彼此不同的给定时间。或者，呼吸期间判定部304例如在图4的步骤S410判定的即将发声前呼吸期间由于有因个人差异而不同的情况，因此也可以将作为用于判定该即将发声前呼吸期间的本发明的第1给定时间的给定时间ERT与第2给定时间分开地设定为按每个对象者求得的值。

图8是表示作为上述的第1给定时间的给定时间ERT的设定处理的示例的流程图。该流程图的处理例与图4的情况同样，都是实现作为图2的控制部201的硬件执行的处理，或作为图2的控制部201执行的控制程序205的处理。

首先，控制部201执行脸ID的决定处理(步骤S801)。控制部201对在脸检测部306检测到的脸图像执行个人识别的处理，若是未登记的脸，就分配新的ID(识别符)，将该脸新登记。基于脸图像的个人识别有各种方法，可以用任何手法，例如可以运用记载于下述文献5的技术。这时控制部201作为识别单元而动作。

<文献5>

“脸认识软件FaceU”、[online]、PUX株式会社主页[2018年6月12日检索]、因特网

<URL：https://www.pux.co.jp/％E8％A3％BD％E5％93％81％E6％83％85％E5％A0％B1/％E7％94％BB％E5％83％8F％E8％AA％8D％E8％AD％98/％E9％A1％94％E8％AA％8D％E8％AD％98/>

接下来控制部201执行环境噪声的测定处理(步骤S802)。控制部201用图3的嘴开闭判定部308判定对象者的未进行嘴唇的开闭动作的状态，由图1或图2的麦克风阵列103测定其间的音量，将该测定结果作为对象者的周围的环境的噪声音量。音量测定可以在麦克风阵列103的全部进行，也可以在麦克风阵列103当中一个麦克风进行。执行该步骤S802的控制部201作为测定单元而动作。

接下来，控制部201确认环境的噪声音量是否小于给定的阈值(TH)，例如是否成为30dB(分贝)程度这样的足够安静的环境(步骤S803)。该处理对后述的声音的声音区间检测例的正确度做出担保。若该步骤S803的判定成为“否”，则控制部201什么都不做回到步骤S801并重复处理。

另一方面，在步骤S803的判定为“是”、判定为环境的噪声音量小于给定的阈值时，控制部201用控制部201的嘴开闭判定部308(图3)执行与图4的步骤S405的情况同样的嘴开闭判定处理(步骤S804)。该动作直到判定为有嘴开闭为止都重复执行(步骤S804的判定「无开闭动作」的重复)。另外，在步骤S804中，也可以不是执行嘴开闭判定处理，而是执行后述的声音区间检测处理。

接下来控制部201执行ID区别统计处理(步骤S805)。在该ID区别统计处理中，首先控制部201对不同ID，遵循例如下述文献6记载的声音区间检测技术例，基于输入到声音输入部302的声音来检测对象者的发声开始的定时即发声开始定时。这时控制部201作为发声开始定时检测单元动作。接下来，控制部201对不同ID，基于控制部201的嘴开闭判定部308的嘴唇的开闭动作的判定结果来检测对象者的嘴唇的开闭动作开始的定时即嘴唇的开闭动作开始定时。这时控制部201作为开闭动作开始定时检测单元动作。接下来，控制部201算出检测到的发声开始定时与嘴唇的开闭动作开始定时的差分值(发声开始定时的时刻-嘴唇的开闭动作开始定时的时刻，以下称作「开始定时差分值」)，对不同ID算出该开始定时差分值的频度值。

<文献6>

LEE Akinobu“第5章声音区间检测、输入抛弃”、[online]、The Julius book[2018年6月12日检索]、因特网

<URL：https://julius.osdn.jp/juliusbook/ja/desc_vad.html>

进而，控制部201执行统计量判定处理(步骤S806)。在该处理中，控制部201判定在步骤S805算出的开始定时差分值的频度值的参量(parameter)是否足够(与给定值比较)大。

控制部201在判定为开始定时差分值的频度值的参量并不足够大的情况下(步骤S806的判定为“否”的情况)，回到步骤S801并重复处理。

控制部201在判定为频度的参量最够大的情况下(步骤S806的判定为“是”的情况)，执行时间设定处理，将例如开始定时差分值的频度值的平均、中值、N百分位数(N任意)等值设为作为前述的第1给定时间的给定时间ERT，对图3的呼吸期间判定部304设定(步骤S807)。另外，在步骤S806，也可以取代参量，使用开始定时差分值的频度值的样本数，将该样本数大于给定数作为条件来进行判别。执行以上的步骤S805、S806以及S807的控制部201作为第1给定时间设定单元而动作。

通过如上述那样，对应于发声开始定时以及嘴唇的开闭动作开始定时来设定用于判定即将发声前呼吸期间的给定时间ERT(第1给定时间)，能在合适地补偿因对象者的个人差异而不同的即将发声前呼吸期间的影响的同时合适地检测声音期间。在该情况下，不是直接使用开始定时差分值，而是将开始定时差分值的频度值的平均、中值、N百分位数(N任意)等值设定为给定时间ERT，因此能在统计上合适地进行该设定。

另外，即将发声前呼吸期间由于依赖于对象者的癖好，因此不会频繁变化。为此，关于图8所示的处理，在一度进行了给定时间ERT的设定后，只要进行比较长的时间例如给定时间ERT的设定起对象者的发声次数没有成为比较大的给定的次数，就不再度执行，不进行给定时间ERT的更新。此外，也可以将频度每隔一定期间记录成图表，判断该频度图表的形状变化(统计量、包络等)来变更给定时间ERT。

另外，在图8所示的处理中，基于发声开始定时与嘴唇的开闭动作开始定时的差分值来设定给定时间ERT，但也可以对应于表征发声开始定时与嘴唇的开闭动作开始定时的关系的其他适当的参数(例如比)来设定，或者对应于发声开始定时以及嘴唇的开闭动作开始定时，通过检索给定的映射(未图示)来设定，或者使用适当的给定的算出式来设定。

进而在实施方式中，在图4的步骤S410的判定为“否”时，视作对象者进行了即将发声前的一次呼吸，将对象者的嘴唇的开闭动作开始起到不再进行该对象者的嘴唇的开闭动作时为止的期间判定为即将发声前呼吸期间。也可以取而代之，在步骤S410的判定为“否”时，判定为直到步骤S409的判定成为“是”为止进行的对象者的嘴唇的开闭动作是与对象者的即将发声前的呼吸相伴的开闭动作，在步骤S410的判定为“是”时，判定为该对象者的嘴唇的开闭动作不是与对象者的即将发声前的呼吸相伴的开闭动作。在该情况下，在该步骤S410，呼吸期间判定部304作为权利要求书记载的判定单元发挥功能。另外，在该情况下，在判定为对象者的嘴唇的开闭动作是与对象者的即将发声前的呼吸相伴的开闭动作的情况下(S410：“否”)，不将开始时刻TS(即对象者的嘴唇的开闭动作开始的定时)设定为声音期间的开始定时ST(S401～S409)，在判定为对象者的嘴唇的开闭动作不是与即将发声前的呼吸相伴的开闭动作的情况下(S410：“是”)，将开始时刻TS设定为声音期间的开始定时ST(S411)。利用开始定时ST的声音期间的检测手法如前述那样。

进而在实施方式中，将声音期间的开始定时ST设定成在声音期间中不含即将发声前呼吸期间，但也可以将对象者的嘴唇的开闭动作开始的定时始终设定为声音期间的开始定时ST。另外，在实施方式中，将声音期间的结束定时ET设定为从不再进行对象者的嘴唇的开闭动作的定时起给定时间ERT前的定时，但也可以设定为不再进行对象者的嘴唇的开闭动作的定时。

在以上说明的实施方式中，在通过图2的控制部201执行存储于存储部202并在图4、图5或图8的流程图的处理例中示出的控制程序205来实现图3所示的功能的情况下，控制程序205例如可以记录于外部存储装置或可移动记录介质并分发，或者可以能经由未特别图示的无线或有线的通信接口从网络取得。

Claims

1.一种声音期间检测装置，其特征在于，具备：

呼吸期间判定单元，其基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间；和

声音期间检测单元，其基于所述摄像的所述对象者的嘴唇的摄像图像来检测不含所述判定的所述即将发声前呼吸期间的所述对象者正发声的期间即声音期间，

所述呼吸期间判定单元，基于所述对象者的嘴唇的摄像图像，在所述对象者的嘴唇的开闭动作开始起到经过第1给定时间为止都未重复执行所述对象者的嘴唇的开闭动作时，将所述对象者的嘴唇的开闭动作开始起到不再进行所述对象者的嘴唇的所述开闭动作时为止的期间判定为所述即将发声前呼吸期间，

所述第1给定时间，对应于所述对象者的发声开始定时以及嘴唇的开闭动作开始定时设定。

2.一种声音期间检测装置，其特征在于，具备：

判定单元，其基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇的开闭动作是否是与所述对象者的即将发声前的呼吸相伴的开闭动作；和

声音期间检测单元，其基于由所述摄像单元摄像的对象者的嘴唇的摄像图像来检测所述对象者正发声的期间即声音期间，在由所述判定单元判定为所述对象者的嘴唇的开闭动作是与即将发声前的呼吸相伴的开闭动作的情况下，不将所述对象者的嘴唇的开闭动作开始的定时即开闭动作开始定时设定为所述声音期间的开始定时，在由所述判定单元判定为所述对象者的嘴唇的开闭动作不是与即将发声前的呼吸相伴的开闭动作的情况下，将所述开闭动作开始定时设定为所述声音期间的开始定时，

所述判定单元，基于所述对象者的嘴唇的摄像图像，来判定所述对象者的嘴唇的开闭动作开始起到经过第1给定时间为止是否重复执行所述对象者的嘴唇的开闭动作，在判定为所述对象者的嘴唇的开闭动作开始起到经过所述第1给定时间为止未重复执行所述对象者的嘴唇的开闭动作时，判定为所述对象者的嘴唇的开闭动作是与所述对象者的即将发声前的呼吸相伴的开闭动作，

3.根据权利要求1或2所述的声音期间检测装置，其特征在于，

所述声音期间检测装置还具备：

开闭动作开始定时检测单元，其基于所述对象者的嘴唇的摄像图像来检测所述对象者的嘴唇的开闭动作开始的定时即嘴唇的开闭动作开始定时；

发声开始定时检测单元，其基于与进行所述对象者的嘴唇的所述开闭动作相伴而从所述对象者输入的声音，来检测所述对象者的发声开始的定时即发声开始定时；和

第1给定时间设定单元，其对应于检测到的所述发声开始定时以及嘴唇的开闭动作开始定时来设定所述第1给定时间。

4.根据权利要求3所述的声音期间检测装置，其特征在于，

所述声音期间检测装置还具备：

识别单元，其基于所述摄像的所述对象者的摄像图像来识别所述摄像的所述对象者，

所述开闭动作开始定时检测单元，基于所述识别的所述对象者的嘴唇的摄像图像来检测所述嘴唇的开闭动作开始定时，

所述发声开始定时检测单元，基于与进行所述识别的所述对象者的嘴唇的所述开闭动作相伴而从所述识别的所述对象者输入的声音，来检测所述发声开始定时，

所述第1给定时间设定单元，对应于所述检测到的所述发声开始定时以及所述嘴唇的开闭动作开始定时来对所述识别的每个所述对象者设定所述第1给定时间。

5.根据权利要求3所述的声音期间检测装置，其特征在于，

所述声音期间检测装置还具备：

测定单元，其测定所述对象者的周围的环境噪声，

所述开闭动作开始定时检测单元以及所述发声开始定时检测单元分别将所述测定的环境噪声小于给定的阈值作为条件来进行所述嘴唇的开闭动作开始定时以及所述发声开始定时的检测。

6.根据权利要求1或2所述的声音期间检测装置，其特征在于，

所述声音期间检测单元基于所述对象者的嘴唇的摄像图像，将从所述对象者的嘴唇的开闭动作结束的定时起第2给定时间前的定时作为所述声音期间的结束定时来检测所述声音期间，

所述第2给定时间，对应于所述对象者的发声开始定时以及嘴唇的开闭动作开始定时设定。

7.一种声音期间检测方法，其特征在于，

基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间，

基于摄像的所述对象者的嘴唇的摄像图像来检测不含所述判定的所述即将发声前呼吸期间的、所述对象者正发声的期间即声音期间，

基于所述对象者的嘴唇的摄像图像，在所述对象者的嘴唇的开闭动作开始起到经过第1给定时间为止都未重复执行所述对象者的嘴唇的开闭动作时，将所述对象者的嘴唇的开闭动作开始起到不再进行所述对象者的嘴唇的所述开闭动作时为止的期间判定为所述即将发声前呼吸期间，

8.一种声音期间检测方法，其特征在于，

基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇的开闭动作是否是与所述对象者的即将发声前的呼吸相伴的开闭动作，

基于由所述摄像单元摄像的对象者的嘴唇的摄像图像来检测所述对象者正发声的期间即声音期间，在由所述判定单元判定为所述对象者的嘴唇的开闭动作是与即将发声前的呼吸相伴的开闭动作的情况下，不将所述对象者的嘴唇的开闭动作开始的定时即开闭动作开始定时设定为所述声音期间的开始定时，在由所述判定单元判定为所述对象者的嘴唇的开闭动作不是与即将发声前的呼吸相伴的开闭动作的情况下，将所述开闭动作开始定时设定为所述声音期间的开始定时，

基于所述对象者的嘴唇的摄像图像，来判定所述对象者的嘴唇的开闭动作开始起到经过第1给定时间为止是否重复执行所述对象者的嘴唇的开闭动作，在判定为所述对象者的嘴唇的开闭动作开始起到经过所述第1给定时间为止未重复执行所述对象者的嘴唇的开闭动作时，判定为所述对象者的嘴唇的开闭动作是与所述对象者的即将发声前的呼吸相伴的开闭动作，

9.一种计算机可读的存储介质，其特征在于，是非临时的存储介质，存储用于使计算机执行权利要求7或8所述的声音期间检测方法的程序。

10.一种声音认识装置，其特征在于，具备：

声音取得单元，其取得对象者的声音；

呼吸期间判定单元，其基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇伴随即将发声前的呼吸而活动的期间即即将发声前呼吸期间；

声音期间检测单元，其基于所述摄像的所述对象者的嘴唇的摄像图像来检测不含所述判定的所述即将发声前呼吸期间的所述对象者正发声的期间即声音期间；和

声音认识单元，其基于在所述检测到的所述对象者的声音期间内由所述声音取得单元取得的所述对象者的声音来认识所述对象者的声音，

11.一种声音认识装置，其特征在于，具备：

判定单元，其基于由摄像单元摄像的对象者的嘴唇的摄像图像来判定所述对象者的嘴唇的开闭动作是否是与所述对象者的即将发声前的呼吸相伴的开闭动作；

声音期间检测单元，其基于由所述摄像单元摄像的对象者的嘴唇的摄像图像来检测所述对象者正发声的期间即声音期间，在由所述判定单元判定为所述对象者的嘴唇的开闭动作是与即将发声前的呼吸相伴的开闭动作的情况下，不将所述对象者的嘴唇的开闭动作开始的定时即开闭动作开始定时设定为所述声音期间的开始定时，在由所述判定单元判定为所述对象者的嘴唇的开闭动作不是与即将发声前的呼吸相伴的开闭动作的情况下，将所述开闭动作开始定时设定为所述声音期间的开始定时；

声音取得单元，其取得所述对象者的声音；和

声音认识单元，其基于在由所述声音期间检测单元检测到的所述对象者的声音期间内由所述声音取得单元取得的所述对象者的声音来认识所述对象者的声音，

12.一种机器人，其特征在于，具备权利要求10或11所述的声音认识装置。