CN110033790B

CN110033790B - 声音认识装置、机器人、声音认识方法以及记录介质

Info

Publication number: CN110033790B
Application number: CN201811551686.8A
Authority: CN
Inventors: 岛田敬辅
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-12-25
Filing date: 2018-12-18
Publication date: 2023-05-23
Anticipated expiration: 2038-12-18
Also published as: JP6729635B2; CN110033790A; JP2019113820A

Abstract

本发明提供声音认识装置、机器人、声音认识方法以及记录介质，用于减低周围的声音带给声音认识的精度的影响。声音认识装置(100)认识用户(发声者)的嘴的活动。另外，声音认识装置(100)检测自装置的周围的声音当中的噪声音。然后，声音认识装置(100)基于用户的嘴的活动和自装置的周围的声音当中的噪声音来控制声音认识定时。

Description

声音认识装置、机器人、声音认识方法以及记录介质

关联申请的参考

关于本申请，主张以在2017年11月25日申请的日本专利申请特愿2017-247211、以及在2018年6月21日申请的日本专利申请特愿2018-117630为基础的优先权，将该基础申请的内容全都引入到本申请中。

技术领域

本发明涉及声音认识装置、机器人、声音认识方法以及记录介质。

背景技术

过去，如特开2014-153663号公报那样，已知认识人的声音等的声音认识装置，通过使声音认识装置认识人的声音等，能将说的语言变换成字符串，从声音的特征识别出声者。在该声音认识装置中公开了如下技术：作为声音认识的前阶段，例如预测在发声者的嘴张开的定时与实际的发声开始的定时之间会出现定时的偏离，从而在事前一式地设定定时的偏离的调整量。

但由于在发声者的嘴张开的定时与实际的发声开始的定时间产生的偏离中有个人差异，因此若在上述专利文献1公开技术中一式地设定偏离的调整量，就会有从发声开头前就开始声音认识的情况，在该情况下，由于发声者的声音和周围的声音会结合，因此有可能会降低声音认识的精度。

发明内容

本发明鉴于这样的问题而提出，目的在于，降低周围的声音带给声音认识的精度的影响。

本发明的一个方面提供声音认识装置，其特征在于，具备：认识发声者的嘴的活动的认识单元；检测自装置的周围的声音当中的噪声音的检测单元；和基于由所述认识单元认识的所述发声者的嘴的活动和由所述检测单元检测到的自装置的周围的声音当中的噪声音来控制声音认识定时的控制单元。

本发明的其他方面提供声音认识装置，其特征在于，具备：认识发声者的嘴的活动的认识单元；检测自装置的周围的声音当中的发声者的声音的检测单元；和控制声音认识定时的控制单元，所述控制单元基于由所述认识单元认识的所述发声者的嘴的活动和由所述检测单元检测到的该发声者的声音来控制声音认识定时。

本发明的其他方面提供声音认识方法，由声音认识装置执行，所述声音认识方法的特征在于，包括：认识发声者的嘴的活动的认识步骤；检测自装置的周围的声音当中的噪声音的检测步骤；和基于通过所述认识步骤认识的所述发声者的嘴的活动和通过所述检测步骤检测到的自装置的周围的声音当中的噪声音来控制声音认识定时的控制步骤。

本发明的其他方面提供非易失性的记录介质，记录有计算机可读取的程序，其特征在于，所述程序使计算机实现如下功能：认识发声者的嘴的活动的认识功能；检测自装置的周围的声音当中的噪声音的检测功能；和基于通过所述认识功能认识的所述发声者的嘴的活动和通过所述检测功能检测到的自装置的周围的声音当中的噪声音来控制声音认识定时的控制功能。

本发明的其他方面提供声音认识方法，其特征在于，具备：认识发声者的嘴的活动的认识步骤；检测自装置的周围的声音当中的发声者的声音的检测步骤；和基于通过所述认识步骤认识的所述发声者的嘴的活动和通过所述检测步骤检测到的自装置的周围的声音当中的发声者的声音来控制声音认识定时的控制步骤，所述控制步骤基于通过所述认识步骤认识的所述发声者的嘴的活动和通过所述检测步骤检测到的该发声者的声音来控制声音认识定时。

本发明的其他方面提供非易失性的记录介质，记录有计算机可读取的程序，其特征在于，所述程序使计算机实现如下功能：认识发声者的嘴的活动的认识功能；检测自装置的周围的声音当中的发声者的声音的检测功能；和基于通过所述认识功能认识的所述发声者的嘴的活动和通过所述检测功能检测到的自装置的周围的声音当中的发声者的声音来控制声音认识定时的控制功能，所述控制功能基于通过所述认识功能认识的所述发声者的嘴的活动和通过所述检测功能检测到的该发声者的声音来控制声音认识定时。

附图说明

图1是表示运用本发明的声音认识装置的概略结构的框图。

图2是表示实施方式1的声音认识处理的一例的流程图。

图3是表示周边声音大时和小时的各声音认识的开始定时的时序图。

图4是表示实施方式2的声音认识处理的一例的流程图。

图5是表示实施方式2的第1声音认识处理的一例的流程图。

图6是表示实施方式2的偏离调整量算出处理的一例的流程图。

图7是表示实施方式2的变形例的第1声音认识处理的一例的流程图。

图8是表示实施方式2的变形例的识别器生成处理的一例的流程图。

具体实施方式

以下基于附图来说明本发明的声音认识装置、声音认识方法以及程序所涉及的实施方式。另外，本发明的声音认识装置还作为能一边拍摄用户(发声者)一边进行声音认识的机器人，以下进行说明。

〔实施方式1〕

[声音认识装置100的结构]

图1是表示本实施方式的声音认识装置100的功能结构的框图。

如图1所示那样，声音认识装置100具备处理器1、RAM2、存储部3、操作部4、拍摄部5、声音输入输出部6和通信部7。另外，声音认识装置100的各部经由总线8而连接。

处理器(认识单元、检测单元、控制单元、调整单元)1读出存储于存储部3的程序存储部3a的系统程序和应用程序并在RAM2的工作区展开，遵循该程序来控制声音认识装置100的各部的动作。

RAM2例如是非易失性的存储器，具有暂时存放由处理器1读出的各种程序和数据的工作区。

存储部3例如由HDD(Hard Disk Drive，硬盘驱动器)、SSD(Solid State Drive，固态硬盘驱动器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪速存储器等构成。

在存储部3设有程序存储部3a。在程序存储部3a存储在处理器1执行的系统程序、用于执行各种处理的处理程序、这些程序的执行所需的数据等。

操作部4用于对声音认识装置100主体输入各种指示。具体地，操作部4例如具备声音认识装置100主体的电源的ON/OFF所涉及的电源按钮、模式或功能等的选择指示所涉及的光标按钮或决定按钮(均图示略)。

然后，若由用户操作了各种按钮，则操作部4将与操作的按钮相应的操作指示输出到处理器1。处理器1遵循从操作部4输出而被输入的操作指示来使各部执行给定的动作。

拍摄部5拍摄成为声音认识的对象的用户并生成拍摄图像。拍摄部5虽省略图示省略，但具备具有光学系统以及摄像元件的摄像机和控制摄像机的拍摄控制部。摄像元件例如是CCD(Charge Coupled Device，电荷耦合器件)或CMOS(Complementary Metal OxideSemiconductor，互补金属氧化物半导体)等图像传感器。并且摄像元件将通过光学系统的光学像变换成二维的图像信号。摄像机的光学系统朝向能从正面拍摄与机器人即声音认识装置100面对面的用户的方向。

声音输入输出部6由麦克风、AD转换器等声音输入部、和DA转换器、放大器、扬声器等声音输出部构成。声音输入输出部6在声音输入时从麦克风接受用户的声音或周围的声音的输入，将声音输入信号变换成数字的声音输入信息并输出到处理器1，在声音输出时将声音输出信号变换成模拟的声音输出信号，并从扬声器声音输出。

通信部7例如由网卡、调制解调器、TA、路由器等构成。另外，通信部7可以是具备天线、调制解调电路、信号处理电路等并能进行无线通信的结构。通信部7与通信网络上的服务器等外部设备通信连接并进行数据收发。

另外，在作为机器人的声音认识装置100中，驱动部等其他结构部省略图示以及说明。

[声音认识装置100的动作]

接下来说明本实施方式中的声音认识装置100的动作。

<声音认识处理>

图2是表示声音认识处理的流程图。该声音认识处理以经由操作部4被输入声音认识处理的执行指示为触发来执行。另外，伴随声音认识处理的执行开始，逐次进行拍摄部5的拍摄图像的生成和声音输入输出部6的声音的输入。

如图2所示那样，处理器1首先将发声状态初始化(步骤S0)。具体地，处理器1将表示是否是发声中的发声中标记设置成「0」的状态。

接下来，处理器1使用由拍摄部5生成的拍摄图像(最初的帧图像)来进行成为声音认识的对象的用户(发声者)的脸检测处理(步骤S1)。另外，脸检测处理由于能使用公知的技术实现，因此省略详细的说明。

接下来，处理器1从拍摄图像上从步骤S1中检测到的脸检测该脸的组成部分(例如上唇和下唇)(步骤S2)。另外，脸的组成部分检测处理由于能通过使用公知的技术实现，因此省略详细的说明。

接下来，处理器1取得当前的时刻t(步骤S3)，根据步骤S2中检测到的拍摄图像(嘴唇图像)上的组成部分(例如上唇和下唇)的坐标位置来判定嘴的开闭状态(步骤S4)。

在步骤S4判定为嘴张开的情况下(步骤S4“是”)，处理器1判定表示是否是发声中的发声中标记是否是「0」的状态(发声中标记是否是OFF的状态)(步骤S5)。

在步骤S5中判定为发声中标记是「0」的状态、即不是发声中的情况下(步骤S5“是”)，处理器1认识为是发声开始的定时，进行发声开始时刻ST(＝t-(SRT_MIN+rtCoeff×(SRT_MAX-SRT_MIN)))的调整(步骤S6)。在此，所谓[t]，是步骤S3中取得的当前的时刻。所谓[SRT_MAX]，是表示最大空白时间的常数，是带余裕来设定成在声音认识时发声的开头部分不会被切掉的值。所谓[SRT_MIN]，是表示最小空白时间的常数，是设定成步骤S6中调整的发声开始时刻ST成为即将到达实际的发声开始时刻前的值。所谓[rtCoeff]，是对应于声音认识装置100的周围的声音(噪声)的大小而设定的调整系数(参考步骤S11～S15)。

接下来，处理器1将发声中标记更新为「1」的状态(ON的状态)(步骤S7)。然后处理器1取得下一时刻的拍摄图像(帧图像)(步骤S8)，使处理回到步骤S1。

另外，在步骤S5中判定为发声中标记不是「0」的状态、即判定为是发声中的情况下(步骤S5“否”)，处理器1跳过步骤S6以及步骤S7而移转到步骤S。

另外，在步骤S4中判定为嘴未张开的情况下(步骤S4“否”)，处理器1判定发声中标记是否是「1」的状态(发声中标记是否是ON的状态)(步骤S9)。

在步骤S9中判定为发声中标记不是「1」的状态、即判定为不是发声中的情况下(步骤S9“否”)，处理器1从由声音输入输出部6的麦克风输入的声音输入信号算出声音认识装置100的周围的噪声音量(N音量(Npow))(步骤S10)。噪声音量的算出方法可以通过在过去一定时间输入的声音输入信号的移动平均算出，在希望最近的噪声音量的影响变大的情况下，也可以通过加权移动平均算出。在此，被算出噪声音量的噪声仅将用户(声音认识对象者)发出的声音的频率范围(例如100～1000Hz(人的声音的频率))内所含的声音(例如用户(发声者)以外的人的声音、人的声音以外的声音)作为对象(后述的实施方式2以及实施方式2的变形例也同样)。如此，仅将用户(发声者)发出的声音的频率范围内所含的声音视作噪声，将用户发出的声音的频率范围外的声音作为噪声的对象外的理由在于，该用户发出的声音的频率范围外的声音明显与人发出的声音不同，难以成为使声音认识的精度降低的原因。

接下来处理器1判定步骤S10中算出的噪声音量(Npow)是否小于第1阈值(TH_N_MIN)(步骤S11)。

在步骤S11中判定为噪声音量(Npow)小于第1阈值(TH_N_MIN)的情况下(步骤S11“是”)，处理器1将调整系数(rtCoeff)更新为「1」(步骤S12)。即，在声音认识装置100的周围的声音(噪声)小的情况下，由于发声者的声音与周围的声音难以结合，因此如图3所示那样，通过加大偏离调整量，从与实际的发声开始时刻相比提前很多起开始声音认识。然后处理器1使处理移转到步骤S8。

另一方面，在步骤S11中判定为噪声音量(Npow)为第1阈值(TH_N_MIN)以上的情况下(步骤S11“否”)，处理器1判定噪声音量(Npow)是否大于第2阈值(TH_N_MAX)(步骤S13)。

在步骤S13中判定为噪声音量(Npow)大于第2阈值(TH_N_MAX)的情况下(步骤S13“是”)，处理器1将调整系数(rtCoeff)更新为「0」(步骤S14)。即，在声音认识装置100的周围的声音(噪声音)大的情况下，由于发声者的声音与周围的声音易于结合，因此如图3所示那样，通过减小偏离调整量，从即将到达实际的发声开始时刻前起开始声音认识。然后处理器1使处理移转到步骤S8。

另一方面，在步骤S13中判定为噪声音量(Npow)不大于第2阈值(TH_N_MAX)的情况下(步骤S13“否”)，处理器1将调整系数(rtCoeff)基于rtCoeff＝(TH_N_MAX-Npow)/(TH_N_MAX-TH_N_MIN)的式进行更新(步骤S15)，移转到步骤S8。

另外，在步骤S9中判定为发声中标记是「1」的状态、即判定为是发声中的情况下(步骤S9“是”)，处理器1认识为是发声结束的定时，进行发声结束时刻ET(＝t-(ERT_MIN+rtCoeff×(ERT_MAX-ERT_MIN)))的调整(步骤S16)。在此，所谓[t]，是步骤S3中取得的当前的时刻。所谓[ERT_MAX]，是表示最大空白时间的常数，是带有余裕而设定成使在声音认识时发声的末端部分不会被切掉的值。所谓[ERT_MIN]，是表示最小空白时间的常数，是设定成步骤S16中调整的发声结束时刻ET成为紧跟实际的发声结束时刻后的值。所谓[rtCoeff]，是对应于声音认识装置100的周围的声音(噪声音)的大小而设定的调整系数(参考步骤S11～S15)。

接下来，处理器1对由声音输入输出部6输入的声音当中从步骤S6中调整的发声开始时刻ST到步骤S16中调整的发声结束时刻ET为止的区间(声音认识区间)的声音进行声音认识(步骤S17)，并结束声音认识处理。

如以上那样，本实施方式的声音认识装置100认识用户(发声者)的嘴的活动，检测自装置的周围的声音，基于用户的嘴的活动和自装置的周围的声音来控制声音认识定时，因此能减低自装置的周围的声音带给声音认识的精度的影响。另外，所谓声音认识定时所表示的定时，并不限于一瞬间(一个时间点)，还包含给定的期间(从发声开始的定时到发声结束的定时为止的区间)。

另外，本实施方式的声音认识装置100由于从用户的嘴唇图像认识该用户的发声开始的定时和发声结束的定时来作为嘴的活动，因此能减低与实际的发声定时的偏离，能更加减低自装置的周围的声音带给声音认识的精度的影响。

另外，本实施方式的声音认识装置100基于自装置的周围的声音来调整发声开始的定时和发声结束的定时，将调整的发声开始的定时设为声音认识的开始定时，并将调整的发声结束的定时设为声音认识的结束定时，因此能抑制自装置的周围的声音的结合、丢失发声开头部分的声音这样的不良状况，能提升声音认识的精度。

另外，本实施方式的声音认识装置100检测自装置的周围的声音的大小，基于自装置的周围的声音的大小来控制声音认识定时，因此能更加减低自装置的周围的声音带给声音认识的精度的影响。

另外，本实施方式的声音认识装置100中，在自装置的周围的声音的大小为给定的阈值以上的情况下，与该声音的大小小于给定的阈值的情况相比，使发声开始的定时以及发声结束的定时的调整量更小。

由此，在自装置的周围的声音大的情况下，由于能减小发声开始的定时以及发声结束的定时的调整量，因此能减低自装置的周围的声音与发声声音结合的可能性，能减低自装置的周围的声音带给声音认识的精度的影响。

〔实施方式2〕

以下说明本发明的实施方式2。

实施方式2中的结构在声音认识装置100的存储部3的程序存储部3a存储用于执行本实施方式的声音认识处理的程序，并在存储部3存储脸数据库和个人偏离调整量数据库，其他由于都与实施方式1的说明同样，因此省略说明，以下说明实施方式2的动作。

<声音认识处理>

图4是表示实施方式2的声音认识处理的流程图。

如图4所示那样，处理器1首先从由声音输入输出部6的麦克风输入的声音输入信号算出声音认识装置100的周围的噪声音量(N音量(Npow))(步骤S20)。

接下来处理器1判定步骤S20中算出的噪声音量(Npow)是否大于给定的阈值(步骤S21)。

在步骤S21中判定为噪声音量(Npow)大于给定的阈值的情况下(步骤S21“是”)，处理器1执行后述的第1声音认识处理(步骤S22)，并结束声音认识处理。

另一方面，在步骤S21中判定为噪声音量(Npow)不大于给定的阈值的情况下(步骤S21“否”)，处理器1执行第2声音认识处理，结束声音认识处理。另外，第2声音认识处理由于与实施方式1中说明的声音认识处理同样，因此省略说明。

<第1声音认识处理>

图5是表示第1声音认识处理的流程图。

如图5所示那样，处理器1首先将发声状态初始化(步骤S30)。具体地，处理器1将表示是否是发声中的发声中标记设置成「0」的状态。

接下来，处理器1使用由拍摄部5生成的拍摄图像(最初的帧图像)来进行成为声音认识的对象的用户(发声者)的脸检测处理(步骤S31)。

接下来，处理器1使用存储于存储部3的脸数据库来对步骤S31中检测到的脸进行个人识别处理(步骤S32)。另外，个人识别处理由于能通过使用公知的技术实现，因此省略详细的说明。

接下来，处理器1判定与由个人识别处理(步骤S32)识别的个人ID对应的偏离调整量是否被登记在个人偏离调整量数据库(步骤S33)。

在步骤S33中判定为与个人ID对应的偏离调整量未登记在个人偏离调整量数据库的情况下(步骤S33“否”)，处理器1设置默认的偏离调整量(步骤S34)。具体地，处理器1设置调整发声开始时刻ST的偏离时的偏离调整量(SRT_PERSONAL＝默认值)、以及调整发声结束时刻ET的偏离时的偏离调整量(ERT_PERSONAL＝默认值)。

另一方面，在步骤S33中判定为与个人ID对应的偏离调整量被登记在个人偏离调整量数据库的情况下(步骤S33“是”)，处理器1设置个人用的偏离调整量(步骤S35)。具体地，处理器1设置调整发声开始时刻ST的偏离时的偏离调整量(SRT_PERSONAL＝个人用的值)、以及调整发声结束时刻ET的偏离时的偏离调整量(ERT_PERSONAL＝个人用的值)。

接下来，处理器1在拍摄图像上从由步骤S31检测到的脸检测出该脸的组成部分(例如上唇和下唇)(步骤S36)。

接下来处理器1取得当前的时刻t(步骤S37)，根据步骤S36中检测到的拍摄图像(嘴唇图像)上的组成部分(例如上唇和下唇)的坐标位置判定嘴的开闭状态(步骤S38)。

在步骤S38判定为嘴张开的情况下(步骤S38“是”)，处理器1判定表示是否是发声中的发声中标记是否是「0」的状态(发声中标记是否是OFF的状态)(步骤S39)。

在步骤S39判定为发声中标记是「0」的状态、即判定为不是发声中的情况下(步骤S39“是”)，处理器1认识为是发声开始的定时，进行发声开始时刻ST(＝t-SRT_PERSONAL)的调整(步骤S40)。在此，所谓[t]，是步骤S37中取得的当前的时刻。所谓[SRT_PERSONAL]，是步骤S34或步骤S35中设置的值。

接下来，处理器1将发声中标记更新为「1」的状态(ON的状态)(步骤S41)。然后处理器1取得下一时刻的拍摄图像(帧图像)(步骤S42)，使处理回到步骤S31。

另外，在步骤S39中判定为发声中标记不是「0」的状态、即判定为是发声中的情况下(步骤S39“否”)，处理器1跳过步骤S40以及步骤S41，移转到步骤S42。

另外，在步骤S38中判定为嘴未张开的情况下(步骤S38“否”)，处理器1判定发声中标记是否是「1」的状态(发声中标记是否是ON的状态)(步骤S43)。

在步骤S43中判定为发声中标记不是「1」的状态、即判定为不是发声中的情况下(步骤S43“否”)，移转到步骤S42。

另外，在步骤S43中判定为发声中标记是「1」的状态、即判定为是发声中的情况下(步骤S43“是”)，处理器1认识为是发声结束的定时，进行发声结束时刻ET(＝t-ERT_PERSONAL)的调整(步骤S44)。在此，所谓[t]，是步骤S37中取得的当前的时刻。所谓[ERT_PERSONAL]，是步骤S34或步骤S35中设置的值。

接下来，处理器1对由声音输入输出部6输入的声音当中从步骤S40中调整的发声开始时刻ST到步骤S44中调整的发声结束时刻ET为止的区间(声音认识区间)的声音进行声音认识(步骤S45)，结束第1声音认识处理。

<偏离调整量算出处理>

图6是表示偏离调整量算出处理的流程图。该偏离调整量算出处理是在上述的第1声音认识处理前进行的处理，以经由操作部4被输入偏离调整量算出处理的执行指示为触发来执行。

如图6所示那样，处理器1首先判定是否是安静的环境(步骤S50)。具体地，处理器1从由声音输入输出部6的麦克风输入的声音输入信号算出声音认识装置100的周围的噪声音量(N音量(Npow))。然后在该噪声音量成为给定的阈值以下的状态持续了一定时间的情况下，判定为是安静的环境。另外，是否是安静的环境的判定方法并不限定于上述的方法。

在步骤S50中判定为不是安静的环境的情况下(步骤S50“否”)，处理器1直到判定为是安静的环境为止，都重复进行步骤S50的处理。

另一方面，在步骤S50中判定为是安静的环境的情况下(步骤S50“是”)，处理器1对循环次数(i)设定初始值(1)(步骤S51)。

接下来，处理器1使用声音功率来估计发声开始时刻(ST_Vi)和发声结束时刻(ET_Vi)(步骤S52)。具体地，处理器1从由声音输入输出部6的麦克风输入的声音输入信号算出发声者的声音功率，例如将该声音功率成为给定的阈值以上的定时估计为发声开始时刻(ST_Vi)，之后将该声音功率成为给定的阈值以下的定时估计为发声结束时刻(ET_Vi)。在此，由声音输入输出部6的麦克风输入的声音输入信号是在后述的步骤S53的处理中所用的嘴唇图像的拍摄时由声音输入输出部6的麦克风输入的声音输入信号，与该嘴唇图像取同步。另外，发声开始时刻(ST_Vi)和发声结束时刻(ET_Vi)的估计方法并不限于上述的方法。

接下来，处理器1使用嘴唇图像来估计发声开始时刻(STi)和发声结束时刻(ETi)(步骤S53)。具体地，处理器1与上述的第1声音认识处理的步骤S38同样地从嘴唇图像上的组成部分(例如上唇和下唇)的坐标位置判定嘴的开闭状态，将判定为嘴张开的定时估计为发声开始时刻(STi)，之后将判定为嘴闭上的定时估计为发声结束时刻(ETi)。

接下来处理器1使循环次数(i)递增1(步骤S54)，判定循环次数(i)是否到达给定的循环次数(例如10次)(步骤S55)。

在步骤S55中判定为循环次数(i)未到达给定的循环次数的情况下(步骤S55“否”)，处理器1使处理回到步骤S52，重复进行这以后的处理。

另一方面，在步骤S55中判定为循环次数(i)到达给定的循环次数的情况下(步骤S55“是”)，处理器1基于下述的算出式来算出偏离调整量(步骤S56)。在此处理器1作为算出单元发挥功能。

ST_PERSONAL＝∑(STi-ST_Vi)/i

ET_PERSONAL＝∑(ETi-ET_Vi)/i

然后处理器1将步骤S56中算出的偏离调整量与发声者的个人ID建立对应登记到存储部3的个人偏离调整量数据库，结束偏离调整量算出处理。

如以上那样，本实施方式的声音认识装置100认识用户(发声者)的嘴的活动，检测该用户的声音，基于用户的嘴的活动和该用户的声音来控制声音认识定时，因此能减低自装置的周围的声音带给声音认识的精度的影响。

另外，本实施方式的声音认识装置100由于从用户的嘴唇图像认识该用户的发声开始的定时和发声结束的定时作为嘴的活动，因此能减低与实际的发声定时的偏离，能更加减低自装置的周围的声音带给声音认识的精度的影响的。

另外，本实施方式的声音认识装置100基于检测到的用户的声音来算出调整关于该用户的发声开始的定时的偏离、以及关于该用户的发声结束的定时的偏离的个人用的偏离调整量(SRT_PERSONAL、ERT_PERSONAL)，将加进该个人用的偏离调整量的发声开始的定时设为声音认识的开始定时，并将加进该个人用的偏离调整量的发声结束的定时设为声音认识的结束定时，因此能更加减低与实际的发声定时的偏离，能更进一步减低自装置的周围的声音带给声音认识的精度的影响。

另外，本实施方式的声音认识装置100进一步检测自装置的周围的声音，在自装置的周围的声音的大小为给定的阈值以上的情况下，将加进上述的个人用的偏离调整量的声开始的定时设为声音认识的开始定时，并将加进该个人用的偏离调整量的发声结束的定时设为声音认识的结束定时，因此能有效果地减低自装置的周围的声音带给声音认识的精度的影响。

〔实施方式2的变形例〕

以下说明本发明的实施方式2的变形例。

在该变形例中，上述实施方式2中说明的声音认识处理当中与第1声音认识处理(步骤S22)的处理内容不同，取代上述实施方式2中说明的偏离调整量算出处理而进行识别器生成处理，另外，取代上述实施方式2中说明的个人偏离调整量数据库而让识别器数据库和机器学习用数据集存储在存储部3，由于除了这些点以外都与实施方式2中的说明同样，因此省略说明，以下说明变形例的动作。

<第1声音认识处理>

图7是表示本变形例的第1声音认识处理的流程图。

如图7所示那样，处理器1首先将发声状态初始化(步骤S60)。具体地，处理器1将表示是否是发声中的发声中标记设置成「0」的状态。

接下来，处理器1使用由拍摄部5生成的拍摄图像(最初的帧图像)来进行成为声音认识的对象的用户(发声者)的脸检测处理(步骤S61)。

接下来，处理器1使用存储于存储部3的脸数据库来对步骤S61中检测到的脸进行个人识别处理(步骤S62)。

接下来处理器1判定与通过个人识别处理(步骤S62)识别的个人ID对应的发声判定识别器是否被登记在识别器数据库(步骤S63)。

在步骤S63判定为与个人ID对应的发声判定识别器未登记在识别器数据库的情况下(步骤S63“否”)，处理器1设置默认的发声判定识别器(步骤S64)。

另一方面，在步骤S63中判定为与个人ID对应的发声判定识别器被登记在识别器数据库的情况下(步骤S63“是”)，处理器1设置个人用的发声判定识别器(步骤S65)。

接下来，处理器1取得当前的时刻t(步骤S66)，使用步骤S64或步骤S65中设置的发声判定识别器来判定在步骤S61的脸检测处理时取得的嘴唇图像(帧图像)是发声中的图像还是非发声中的图像(步骤S67)。在此处理器1作为判别单元发挥功能。

在步骤S67判定为是发声中的图像的情况下(步骤S67“是”)，处理器1判定表示是否是发声中的发声中标记是否是「0」的状态(发声中标记是否是OFF的状态)(步骤S68)。

在步骤S68中判定为发声中标记是「0」的状态、即判定为不是发声中的情况下(步骤S68“是”)，处理器1认识为是发声开始的定时，进行发声开始时刻ST(＝t)的调整(步骤S69)。在此，所谓[t]，是步骤S66中取得的当前的时刻。

接下来处理器1将发声中标记更新为「1」的状态(ON的状态)(步骤S70)。然后处理器1取得下一时刻的拍摄图像(帧图像)(步骤S71)，使处理回到步骤S61。

另外，在步骤S68中判定为发声中标记不是「0」的状态、即判定为是发声中的情况下(步骤S68“否”)，处理器1跳过步骤S69以及步骤S70，移转到步骤S71。

另外，在步骤S67中判定为是非发声中的图像的情况下(步骤S67“否”)，处理器1判定发声中标记是否是「1」的状态(发声中标记是否是ON的状态)(步骤S72)。

在步骤S72中判定为发声中标记不是「1」的状态、即判定为不是发声中的情况下(步骤S72“否”)，移转到步骤S71。

另外，在步骤S72中判定为发声中标记是「1」的状态、即判定为是发声中的情况下(步骤S72“是”)，处理器1认识为是发声结束的定时，进行发声结束时刻ET(＝t)的调整(步骤S73)。在此，所谓[t]，是步骤S66中取得的当前的时刻。

接下来，处理器1对由声音输入输出部6输入的声音当中从步骤S69中调整的发声开始时刻ST起到步骤S73中调整的发声结束时刻ET为止的区间(声音认识区间)的声音进行声音认识(步骤S74)，结束第1声音认识处理。

<识别器生成处理>

图8是表示识别器生成处理的流程图。该识别器生成处理是在上述的第1声音认识处理前进行的处理，以经由操作部4被输入识别器生成处理的执行指示为触发来执行。

如图8所示那样，处理器1首先与上述的实施方式2同样地判定是否是安静的环境(步骤S80)。

在步骤S80中判定为不是安静的环境的情况下(步骤S80“否”)，处理器1直到判定为是安静的环境为止都重复进行步骤S80的处理。

另一方面，在步骤S80中判定为是安静的环境的情况下(步骤S80“是”)，处理器1对循环次数(i)设定初始值(1)(步骤S81)。

接下来，处理器1与上述的实施方式2同样，使用声音功率来估计发声开始时刻(ST_Vi)和发声结束时刻(ET_Vi)(步骤S82)。

接下来，处理器1使用步骤S82中估计的发声开始时刻(ST_Vi)和发声结束时刻(ET_Vi)来对各帧图像(嘴唇图像)进行是发声中还是非发声中的标注(步骤S83)。在此，进行过标注的各帧图像，被登记到存储部3的机器学习用数据集。

接下来，处理器1使循环次数(i)递增1(步骤S84)，判定循环次数(i)是否到达给定的循环次数(例如10次)(步骤S85)。

在步骤S85中判定为循环次数(i)未到达给定的循环次数的情况下(步骤S85“否”)，处理器1使处理回到步骤S82，重复进行这以后的处理。

另一方面，在步骤S85中判定为循环次数(i)到达给定的循环次数的情况下(步骤S85“是”)，处理器1使用登记在机器学习用数据集的各帧图像来进行机器学习，生成发声判定识别器(步骤S86)。在此处理器1作为生成单元发挥功能。

然后处理器1将步骤S86中生成的发声判定识别器与发声者的个人ID建立对应地登记到存储部3的识别器数据库，结束识别器生成处理。

如以上那样，本变形例的声音认识装置100通过对与检测到的用户的声音取同步的该用户的嘴唇图像进行发声中或非发声中的标注来预先生成个人用的发声判定识别器，使用该个人用的发声判定识别器来判别该用户的嘴唇图像是发声中的图像还是非发声中的图像，基于判别的结果来从用户的嘴唇图像认识该用户的发声开始的定时和发声结束的定时来作为嘴的活动，因此能减低与实际的发声定时的偏离，能更加减低自装置的周围的声音带给声音认识的精度的影响。

另外，本变形例的声音认识装置100由于通过对进行了发声中或非发声中的标注的多个嘴唇图像进行机器学习来生成个人用的发声判定识别器，因此能提升认识用户的发声开始的定时和发声结束的定时时的认识精度。

另外，本变形例的声音认识装置100进一步检测自装置的周围的声音，在自装置的周围的声音的大小为给定的阈值以上的情况下，使用上述的发声判定识别器来判别用户的嘴唇图像是发声中的图像还是非发声中的图像，基于判别的结果来从该用户的嘴唇图像认识该用户的发声开始的定时和发声结束的定时作为嘴的活动，因此能减低与实际的发声定时的偏离，能有效果地减低自装置的周围的声音带给声音认识的精度的影响。

以上说明了本发明的实施方式，但本发明并不限定于相关的实施方式，能在不脱离其要旨的范围内进行种种变形，这点不言自明。

例如在声音认识处理的步骤S10算出噪声音量(Npow)，但例如也可以算出声音认识装置100的周围的SN比。在该情况下，对应于算出的SN比来更新调整系数(rtCoeff)。另外，作为噪声音量的算出方法，例如能根据用音源定位的一个手法的MUSIC(MUltipleSignal Classification，多重信号分类)法导出的MUSIC功率来算出噪声音量。

另外，进行发声开始时刻ST、发声结束时刻ET的调整时的偏离调整量基于给定的计算式(参考图2的步骤S6以及步骤S16)算出，但例如也可以预先准备与声音认识装置100的周边声音的大小(可以是多阶段)、SN比的大小(可以是多阶段)对应的偏离调整量的表格，从该表格取得与实际测量的周边声音、SN比的大小相应的偏离调整量。

另外，在上述声音认识处理中，从发声者的嘴唇图像认识发声开始的定时和发声结束的定时两方的定时，但例如也可以从发声者的嘴唇图像仅认识这些定时当中任意一方的定时，在该情况下，关于另一方的定时，能用公知的技术认识。

另外，在上述声音认识处理中，基于与周边声音的大小对应的给定的计算式来调整发声开始时刻ST和发声结束时刻ET两方的时刻，但例如也可以基于与周边声音的大小对应的给定的计算式来仅调整这些时刻当中任意一方的时刻，在该情况下，关于另一方的时刻，用公知的技术进行调整。

另外，在声音认识处理的步骤S17，在确定了发声结束时刻ET后进行声音认识，但也可以在确定发声开始时刻ST的时间点进行声音认识。在该情况下，在开始声音认识后，在确定发声结束时刻ET时结束声音认识。

另外，从声音认识处理的步骤S2中检测到的组成部分(例如上唇和下唇)的坐标位置判定嘴的开闭状态，认识发声开始的定时和发声结束的定时，但例如也可以将用户(发声者)按压操作操作部4的给定的按钮的定时认识为发声开始的定时，将解除该按压操作的定时认识为发声结束的定时。另外，并不限于上唇和下唇，也可以基于脸整体的形状、手势、呼气、肌电位等的变化来认识发声开始的定时和发声结束的定时。另外，可以将从声音认识装置100侧通过例如使灯点亮等而发出信号的给定的期间认识为声音队识区间(从发声开始的定时到发声结束的定时为止的区间)。另外，对超过给定的阈值的声音信号的振幅计数零交叉数，在计测数成为1秒内指定的数以上时，将该定时认识为发声开始的定时，零交叉数成为指定常数以下时，将该定时认识为发声结束的定时。

另外，在上述实施方式1中，在声音认识处理(参考图2)的步骤S4判定是否检测到口的开闭，但例如可以在自装置的周围的声音(噪声)的大小大于给定的阈值的情况下，执行步骤S4的判定处理，另一方面在自装置的周围的声音(噪声)的大小为给定的阈值以下的情况下不执行步骤S4的判定处理，即不认识发声开始的定时以及发声结束的定时就执行声音认识处理。

另外，在上述实施方式1中，虽然在声音认识处理(参考图2)的步骤S10中，算出噪声音量，但例如可以具备判别噪声是人的声音还是人的声音以外的声音的噪声判别单元，在判别为噪声是人的声音的情况下算出该人的声音的噪声音量，另一方面在判别为噪声是人的声音以外的声音的情况下不算出噪声音量，跳过步骤S11～步骤S15的处理。另外，噪声判别单元的上述的判别基于噪声的频率来判别。

另外，在上述实施方式2以及该实施方式2的变形例中，对应于自装置的周围的声音(噪声)的大小来分开进行第1声音认识处理、或是第2声音认识处理，但也可以不管自装置的周围的声音的大小如何始终进行第1声音认识处理。

以上说明了本发明的实施方式，但本发明的范围并不限定于上述的实施方式，还包含记载于权利要求书的发明的范围和其等同的范围。

Claims

1.一种声音认识装置，其特征在于，具备：

认识单元，从发声者的嘴唇图像认识该发声者的发声开始的定时和发声结束的定时；

检测单元，检测自装置的周围的声音当中的噪声音的大小；

调整单元，基于由所述检测单元检测到的自装置的周围的声音当中的噪声音的大小来调整由所述认识单元认识的所述发声开始的定时和所述发声结束的定时当中至少任意一方；和

控制单元，将由所述调整单元调整过的所述发声开始的定时设为声音认识的开始定时，将由所述调整单元调整过的所述发声结束的定时设为声音认识的结束定时，来控制声音认识定时，

所述调整单元，进一步在由所述检测单元检测到的自装置的周围的声音当中的噪声音的大小为给定的阈值以上的情况下，与该噪声音的大小小于给定的阈值的情况相比，使所述发声开始的定时以及所述发声结束的定时的调整量更小。

2.根据权利要求1所述的声音认识装置，其特征在于，

所述声音认识装置具备：

算出单元，基于由所述检测单元检测到的所述自装置的周围的声音当中的噪声音的大小来算出对关于该发声者的所述发声开始的定时的偏离、以及/或者关于该发声者的所述发声结束的定时的偏离进行调整的偏离调整量，

所述控制单元将加进由所述算出单元算出的所述偏离调整量的所述发声开始的定时设为声音认识的开始定时，将加进该偏离调整量的所述发声结束的定时设为声音认识的结束定时。

3.根据权利要求2所述的声音认识装置，其特征在于，

所述控制单元在由所述检测单元检测到的自装置的周围的声音当中的噪声音的大小为给定的阈值以上的情况下，将加进由所述算出单元算出的所述偏离调整量的所述发声开始的定时设为声音认识的开始定时，将加进该偏离调整量的所述发声结束的定时设为声音认识的结束定时。

4.根据权利要求1所述的声音认识装置，其特征在于，

所述控制单元将声音认识区间作为所述声音认识定时进行控制。

5.根据权利要求1所述的声音认识装置，其特征在于，

所述检测单元将所述发声者的声音的频率范围中所含的声音以外作为对象，来检测自装置的周围的声音。

6.一种机器人，其特征在于，搭载权利要求1所述的声音认识装置。

7.一种声音认识方法，由声音认识装置执行，所述声音认识方法的特征在于，包括：

从发声者的嘴唇图像认识该发声者的发声开始的定时和发声结束的定时的认识步骤；

检测自装置的周围的声音当中的噪声音的大小的检测步骤；

基于由所述检测步骤检测到的自装置的周围的声音当中的噪声音的大小来调整由所述认识步骤认识的所述发声开始的定时和所述发声结束的定时当中至少任意一方的调整步骤；和

控制步骤，将由所述调整步骤调整过的所述发声开始的定时设为声音认识的开始定时，将由所述调整步骤调整过的所述发声结束的定时设为声音认识的结束定时，来控制声音认识定时，

所述调整步骤，进一步在由所述检测步骤检测到的自装置的周围的声音当中的噪声音的大小为给定的阈值以上的情况下，与该噪声音的大小小于给定的阈值的情况相比，使所述发声开始的定时以及所述发声结束的定时的调整量更小。

8.一种非易失性的记录介质，记录有计算机可读取的程序，其特征在于，所述程序使计算机实现如下功能：

从发声者的嘴唇图像认识该发声者的发声开始的定时和发声结束的定时的认识功能；

检测自装置的周围的声音当中的噪声音的大小的检测功能；

基于由所述检测功能检测到的自装置的周围的声音当中的噪声音的大小来调整由所述认识功能认识的所述发声开始的定时和所述发声结束的定时当中至少任意一方的调整功能；和

控制功能，将由所述调整功能调整过的所述发声开始的定时设为声音认识的开始定时，将由所述调整功能调整过的所述发声结束的定时设为声音认识的结束定时，来控制声音认识定时，

所述调整功能，进一步在由所述检测功能检测到的自装置的周围的声音当中的噪声音的大小为给定的阈值以上的情况下，与该噪声音的大小小于给定的阈值的情况相比，使所述发声开始的定时以及所述发声结束的定时的调整量更小。