CN111199749A

CN111199749A - 行为识别方法、装置，机器学习方法、装置以及记录介质

Info

Publication number: CN111199749A
Application number: CN201911140038.8A
Authority: CN
Inventors: 板仓光佑; 水野耕
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-11-20
Filing date: 2019-11-20
Publication date: 2020-05-26
Also published as: US11501209B2; JP2020086023A; US20200160218A1; JP7266390B2

Abstract

本发明提供一种行为识别方法、行为识别装置，机器学习方法、机器学习装置以及记录介质。本发明的行为识别方法，获取周围的声音；从获取的所述声音中提取利用被存储在存储部、根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定的特征量；利用特征量识别规定的行为；输出表示识别出的规定的行为的信息。根据本发明的上述构成，即使在所获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为。

Description

行为识别方法、装置，机器学习方法、装置以及记录介质

技术领域

本发明涉及一种根据人发出的声音识别所述人的行为的行为识别方法、行为识别装置以及存储了行为识别程序的非暂时性的计算机可读取的记录介质。而且，本发明还涉及一种机器学习用于识别人的行为的行为识别模型的机器学习方法、机器学习装置以及存储了机器学习程序的非暂时性的计算机可读取的记录介质。

背景技术

以往，提出了根据声音识别人的行为的识别装置。识别装置，通过利用作为识别对象的行为的声音预先学习行为识别器，仅根据声音就能推测出在对象空间内的人的行为。

例如，M.Valenti、D.Tonelli、F.Vesperini、E.Principi、S.Squartini、“A NeuralNetwork Approach for Sound Event Detection in Real Life Audio”、2017 25thEuropean Signal Processing Conference(EUSIPCO)、2017年8月发行、p.2754-2758(以下，称为非专利文献1)公开了利用深层学习根据声音推测生活行为的方法。

然而，现有的识别装置存在即使可以对识别对象的行为进行识别，但在进行了识别对象的行为以外的行为时有可能会引起误动作的问题。

即使利用上述非专利文献1的技术，在现有的识别装置也难以防止对识别对象的行为以外的行为的误动作并对识别对象的行为进行识别。即，在非专利文献1中，虽然提及了对于由识别对象的行为而产生的声音进行高精度地识别的方法，然而并没有提及对于由识别对象的行为以外的行为而产生的声音如何防止误动作。

发明内容

本发明是为了解决上述问题而做出的发明，其目的在于提供一种即使在获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能够根据周围的声音高精度地识别出识别对象的行为的行为识别方法、行为识别装置、存储了行为识别程序的非暂时性的计算机可读取的记录介质，机器学习方法、机器学习装置以及存储了机器学习程序的非暂时性的计算机可读取的记录介质。

本发明的一方面涉及的行为识别方法，是根据人发出的声音识别所述人的行为的行为识别装置的行为识别方法，包括以下步骤:获取周围的声音；从获取的所述声音中提取特征量，所述特征量利用被存储在存储部、根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定；利用所述特征量识别所述规定的行为；输出表示识别出的所述规定的行为的信息。

附图说明

图1是表示本发明的实施方式的行为识别装置的构成的方框图。

图2是表示本实施方式的行为识别装置识别在对象空间内的行为的状况的一个例子的示意图。

图3是表示在本实施方式行为识别装置识别在对象空间内的行为的状况的另一个例子的示意图。

图4是用于说明本实施方式的频率模式(frequency pattern)的模式图。

图5是表示本实施方式的行为识别装置的学习动作的一个例子的流程图。

图6是表示本实施方式的行为识别装置的识别行为的一个例子的流程图。

具体实施方式

(本发明的基础知识)

当人进行识别对象的行为时，识别装置可以识别出该行为是识别对象中的哪个行为。然而，当人进行不是识别对象的行为时，识别装置难以推测出该行为不是识别对象的行为中的任意一个。

例如，在识别对象进行“行走”或者“坐下”等行为的情况下，可以做出进行这两个行为时的识别，然而，在进行“奔跑”等的行为时，识别装置不能判断该行为即不是“行走”也不是“坐下”。为了防止这种情况，虽然也有将设想的对象外的行为的声音作为学习数据而准备，进行学习从而根据学习数据的声音来识别对象外的行为的方法，然而，将能设想到的所有的行为的声音作为学习数据来准备存在困难。

因此，现有的识别装置，在获取的声音中仅包含识别对象的行为的声音的情况下，即使能够对识别对象的行为进行识别，然而在获取的声音中包含识别对象的行为以外的声音的情况下，存在识别行为的精度有可能变低的问题。

为了解决上述的问题，本发明的一方面涉及的行为识别方法，是根据人发出的声音识别所述人的行为的行为识别装置的行为识别方法，包括以下步骤:获取周围的声音；从获取的所述声音中提取特征量，所述特征量利用被存储在存储部、根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定；利用所述特征量识别所述规定的行为；输出表示识别出的所述规定的行为的信息。

根据该构成，因为从获取的周围的声音中提取利用根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定的特征量并利用特征量来识别规定的行为，所以，即使在所获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为。

而且，在所述的行为识别方法，也可以是，所述识别，将所述特征量作为输入值，将所述规定的行为作为输出值，通过将所述特征量输入到通过机器学习构建的行为识别模型来识别所述规定的行为。

根据该构成，因为将特征量作为输入值，将规定的行为作为输出值，通过将特征量输入到通过机器学习构建的行为识别模型来识别规定的行为，所以，可以根据提取出的特征量容易地识别出规定的行为。

而且，在所述的行为识别方法，也可以是，所述谱信息是频谱图；所述谱模式是在所述频谱图中反复出现的频率模式；所述特征量是所述频率模式在各时间的强度。

根据该构成，因为利用频谱图反复出现的频率模式而确定的特征量是频率模式在各时间的强度，该特征量不会受到杂音等识别对象的行为以外的声音的影响，所以，即使是在产生各种杂音的环境中也可以正确地对识别对象的行为进行识别。

而且，在所述的行为识别方法，也可以是，还进一步将进行所述规定的行为的所述人发出的声音作为学习音来获取；还进一步根据从获取的所述学习音生成的谱信息推测谱模式，将推测出的所述谱模式存储到所述存储部。

根据该构成，通过将基于进行规定的行为的人发出的声音的学习音推测出的谱模式预先存储到存储部中，可以利用谱模式提取特征量。

而且，在所述的行为识别方法，也可以是，还进一步获取用于确定发出所述学习音时的所述规定的行为的行为标签；还进一步从获取的所述学习音中提取利用存储在所述存储部的所述谱模式而确定的特征量；还进一步将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型；所述识别，通过将从获取的所述声音中提取的所述特征量输入到所述行为识别模型来识别所述规定的行为。

根据该构成，因为将从学习音中提取的特征量作为输入值，将获取的行为标签作为输出值，机器学习行为识别模型，所以，通过将从周围声音中提取的特征量输入到行为识别模型，可以容易地识别规定的行为。

而且，在所述的行为识别方法，也可以是，还进一步在识别了所述规定的行为之后，从所述存储部读出所述谱模式，推测与所读出的所述谱模式之间的差值为最小、并且、再现所获取的所述声音的谱模式，将存储在所述存储部的所述谱模式更新为推测出的所述谱模式。

根据该构成，即使因环境的变化识别对象的行为的声音发生了变化，通过利用识别结果再次推测谱模式，并将存储在存储部的谱模式更新为推测出的谱模式，也可以适应环境的变化。

而且，在所述的行为识别方法，也可以是，所述存储部将多个谱模式分别与多个行为相互对应地存储；所述更新，从所述存储部读出与识别出的所述规定的行为相互对应的所述谱模式，推测与所读出的所述谱模式之间的差值为最小、并且、再现所获取的所述声音的谱模式，将与所述规定的行为相互对应、存储在所述存储部的所述谱模式更新为推测出的所述谱模式。

根据该构成，因为多个谱模式分别与多个行为相互对应地存储在存储部，所以，可以从存储部读出与所识别的规定的行为相对应的谱模式，并将与规定的行为相对应的谱模式更新为推测出的谱模式。

本发明的另一方面涉及的行为识别装置，是根据人发出的声音识别所述人的行为的行为识别装置，包括：收音部，获取周围的声音；存储部，存储根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式；提取部，从获取的所述声音中提取利用存储在所述存储部的所述谱模式而确定的特征量；识别部，利用所述特征量识别所述规定的行为；以及，输出部，输出表示被识别出的所述规定的行为的信息。

本发明的另一方面涉及的记录介质，是存储了用于根据人发出的声音识别所述人的行为的行为识别程序的非暂时性的计算机可读取的记录介质，使计算机具备以下功能:获取周围的声音；从获取的所述声音中提取特征量，所述特征量利用被存储在存储部、根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定；利用所述特征量识别所述规定的行为；输出表示识别出的所述规定的行为的信息。

本发明的另一方面涉及的机器学习方法，是机器学习用于识别人的行为的行为识别模型的机器学习装置的机器学习方法，包括以下步骤:将进行规定的行为的人发出的声音作为学习音来获取；根据从获取的所述学习音生成的谱信息推测谱模式，将推测出的所述谱模式存储到存储部；获取用于确定所述规定的行为的行为标签；从获取的所述学习音中提取利用存储在所述存储部中的所述谱模式而确定的特征量；将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型。

根据该构成，基于进行规定的行为的人发出的声音的学习音推测出的谱模式被存储在存储部，从获取的学习音中提取利用存储在存储部中的谱模式而确定的特征量，将从学习音中提取的特征量作为输入值，将获取的行为标签作为输出值，机器学习行为识别模型。而且，在识别时，因为从获取的周围的声音中提取利用谱模式而确定的特征量，通过将特征量输入到行为识别模型来识别规定的行为，所以，即使在获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也可以根据周围的声音高精度地识别出识别对象的行为。

本发明的另一方面涉及的机器学习装置，机器学习用于识别人的行为的行为识别模型，包括：学习音获取部，将进行规定的行为的人发出的声音作为学习音来获取；谱模式推测部，根据从获取的所述学习音生成的谱信息，推测谱模式；存储部，存储推测出的所述谱模式；行为标签获取部，获取用于确定所述规定的行为的行为标签；特征量提取部，从获取的所述学习音中提取利用存储在所述存储部的所述谱模式而确定的特征量；以及，学习部，将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型。

本发明的另一方面涉及的记录介质，是存储了为了机器学习用于识别人的行为的行为识别模型的机器学习程序的非暂时性的计算机可读取的记录介质，使计算机具备以下功能:将进行规定的行为的人发出的声音作为学习音来获取；根据从获取的所述学习音生成的谱信息推测谱模式，将推测出的所述谱模式存储到存储部；获取用于确定所述规定的行为的行为标签；从获取的所述学习音中提取利用存储在所述存储部中的所述谱模式而确定的特征量；将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型。

根据该构成，基于进行规定的行为的人发出的声音的学习音推测出的谱模式存储在存储部，利用存储在存储部中的谱模式确定的特征量，从获取的学习音中提取的，从学习音中提取的特征量作为输入值，获取的行为标签作为输出值行为识别模型被机器学习。然后，在识别时，因为利用谱模式确定的特征量，从获取的周围的声音中提取的，通过特征量输入到行为识别模型中识别出规定的行为，所以，在获取的周围的声音中，即使是在包含杂音等的识别对象的行为以外的声音的情况下，也可以从周围的声音高精度地识别出识别对象的行为。

另外，这些概括的或者具体的实施方式，即可以通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现，也可以通过系统、方法、集成电路、计算机程序或者记录介质的任意的组合来实现。

以下，参照附图对实施方式具体地进行说明。

另外，以下说明的实施方式均表示概括的或者具体的例子。在以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接形式、步骤以及步骤的顺序等只是一个例子，并不用于限定本发明。而且，以下的实施方式的构成要素之中，对于没有记载在表示最上位概念的独立权利要求中的构成要素，作为任意的构成要素而进行说明。

另外，各附图都是模式图，并不是严谨的图示。而且，在各附图中，对于相同的构成部件赋予相同的符号。

(实施方式)

图1是表示本发明的实施方式的行为识别装置的构成的方框图。图2是表示本实施方式的行为识别装置识别对象空间内的行为的状况的一个例子的示意图。图3是表示本实施方式的行为识别装置识别对象空间内的行为的状况的另一个例子的示意图。

首先，对本实施方式的行为识别装置1的学习动作以及识别行为的流程进行说明。

在学习时，行为识别装置1接收表示用于学习的声音的学习数据和针对学习数据的行为标签(behavior label)。其次，行为识别装置1仅根据学习数据学习频率构造。其次，行为识别装置1利用所学习的频率构造从学习数据中提取特征量。最后，行为识别装置1利用从学习数据中提取的特征量和行为标签，学习根据特征量输出行为标签的行为识别模型。

在识别时，行为识别装置1从麦克风接收声音数据。其次，行为识别装置1利用事先学习的频率构造从声音数据中提取特征量。其次，行为识别装置1利用事先学习的行为识别模型根据特征量识别行为。

行为识别装置1，事先学习人在进行例如“坐下”或者“行走”等的识别对象行为时什么样的频率模式以哪种程度的大小发生，并将学习到的频率模式作为频率构造而保持。

如图2所示，行为识别装置1的收音部101获取人在对象空间内坐下时产生的声音。然后，行为识别装置1推测事先学习的频率模式在所产生的声音中以哪种程度的强度被包含，并基于频率模式的强度和行为识别模型，识别有人坐下这样的行为。由此，行为识别装置1的显示部109显示“坐下”这样的识别结果。

而且，如图3所示，行为识别装置1的收音部101获取人在对象空间内一边拖拉物体一边走路时产生的声音。此时，收音部101同时获取拖拉物体的声音和走路的声音。行为识别装置1推测事先学习的频率模式以哪种程度的强度被包含在这些声音中。然而，由于在拖拉物体的声音中不包含事先学习的频率模式，频率模式的强度仅受行走的声音的影响。因此，即使是人一边拖拉物体一边行走，行为识别装置1，基于人行走的声音的频率模式的强度和行为识别模型，识别人行走这样的行为。由此，行为识别装置1的显示部109显示“行走”这样的识别结果。

接着，对本实施方式的行为识别装置1的构成进行说明。

图1所示的行为识别装置1例如是计算机。行为识别装置1具备处理器10、存储器20、收音部101、学习数据输入部102、行为标签输入部103、显示部109。

处理器10具备频率构造学习部104、特征量提取部105、识别模型学习部106、行为识别部107、频率构造更新部108。存储器20，例如，由HDD(硬盘驱动器)、RAM(随机存取存储器)或者半导体存储器等辅助存储装置来实现。存储器20具备频率构造存储部201、识别模型存储部202。

收音部101例如是麦克风，获取周围的声音。收音部101将获取的声音转换为电信号，并将电信号作为音响信号输出。

学习数据输入部102，在识别前的学习时，获取作为学习用的声音数据的学习数据。学习数据输入部102将进行规定的行为的人发出的声音作为学习数据(学习音)获取。学习数据输入部102，例如，是输入接口，既可以从通信装置获取经由因特网等网络从外部设备接收到的学习数据，也可以从驱动装置获取被存储在光盘等记录介质中的学习数据，还可以从USB(Universal Serial Bus)存储器等辅助存储装置获取学习数据。

行为标签输入部103，在识别前的学习时，获取用于确定发出了学习数据中所包含的学习音时的规定的行为的行为标签。另外，行为标签输入部103也可以将用于确定学习数据之中人进行行为的期间的时间信息与行为标签一起获取。行为标签输入部103例如是输入接口，既可以从通信装置获取经由因特网等网络从外部设备接收到的行为标签，也可以获取用户通过键盘、鼠标或者触摸面板等的输入设备输入的行为标签。

频率构造学习部104，根据从通过学习数据输入部102获取的学习音生成的谱(spectrum)信息推测谱模式，并将推测出的谱模式存储到频率构造存储部201。在本实施方式，谱信息是频谱图，谱模式是在频谱图中反复出现的频率模式。

图4是用于说明本实施方式的频率模式的模式图。

学习音被转换为横轴表示时间、纵轴表示频率、亮度或者颜色表示强度的频谱图。频率构造学习部104，从通过学习数据输入部102获取的学习音生成频谱图，并根据频谱图推测出至少一个频率模式。至少一个频率模式具有至少一个频率成分，并以规定的强度和规定的时间间隔重复。

频谱图可分解为至少一个频率模式和在各时间的至少一个频率模式的强度。即，通过将至少一个频率模式与在各时间的至少一个频率模式的强度相乘，可以再现学习音的频谱图。

频率构造学习部104，通过分解由学习数据输入部102获取的学习音，推测在学习音中包含的频率模式。如图4所示，频率模式表示在构成声音的多个频率成分之中的同一时刻反复出现的频率成分。频率构造学习部104，通过组合多个频率模式，推测出最接近学习音的频率模式。图4所示的学习音的频率模式，例如，包含具有多个频率成分的第一频率模式和具有与第一频率模式不同的多个频率成分的第二频率模式。在图4的例子中，各时间的强度的变化表示出相同的倾向的一组频率作为一个频率模式而提取。另外，频率模式的数量既可以是固定的数量也可以自动地推测。而且，频率构造学习部104也可以将频率模式针对每个对象行为分别独立地存储到频率构造存储部201。而且，频率构造学习部104也可以将全部的对象行为的频率模式汇总并共通地存储到频率构造存储部201。

而且，在本实施方式，虽然学习音包含两个频率模式，然而，本发明并不特别限定于此，学习音，也可以根据人进行的对象行为包含一个频率模式或者三个以上的频率模式。

频率构造存储部201存储从人进行规定的行为发出的声音生成的谱信息中包含的谱模式。在本实施方式，频率构造存储部201存储由频率构造学习部104推测出的学习音的频率模式。另外，频率构造存储部201，也可以不仅存储对象的行为的声音的频率模式，还可以存储在实际上识别的环境中的杂音或者对象外的行为的声音的频率模式。而且，频率构造存储部201既可以将多个频率模式与多个行为分别相互对应地进行存储，也可以不将频率模式与行为相互对应，仅存储频率模式。

另外，在本实施方式，谱信息是频谱图，谱模式是频率模式，然而，本发明并不特别限定于此。例如，谱信息也可以是横轴为时间、纵轴为滤波器组指数(Filter Bank Indix)的梅尔频谱(Mel Frequency Spectrum)。在这种情况下，谱模式也可以是表示以规定的强度在规定的时刻重复出现的多个滤波器组指数的滤波器组指数模式。

而且，在本实施方式，例如，谱信息也可以是横轴为时间、纵轴为倒谱指数(Cepstrum Indix)的梅尔频率倒谱。在这种情况下，谱模式也可以是表示以规定的强度在规定的时刻重复出现的多个倒谱指数的倒谱指数模式。

而且，在本实施方式，例如，谱信息也可以是横轴为时间、纵轴为系数指数的梅尔频率倒谱系数(MFCC)。在这种情况下，谱模式也可以是表示以规定的强度在规定的时刻重复出现的多个系数指数的系数指数模式。

特征量提取部105从收音部101获取的声音中提取特征量，该特征量利用存储在频率构造存储部201中的、根据人进行规定的行为发出的声音生成的谱信息中包含的谱模式而确定。特征量提取部105从收音部101获取的音响信号中提取特征量。特征量表示在各时间的频率模式的强度。而且，特征量提取部105从学习数据输入部102获取的学习音中提取利用存储在频率构造存储部201中的谱模式而确定的特征量。

识别模型学习部106，根据特征量提取部105提取的特征量，学习用于推测出当前的行为的行为识别模型。识别模型学习部106将从学习音中提取的特征量作为输入值，将行为标签输入部103获取的行为标签作为输出值，机器学习行为识别模型。在行为识别模型的学习过程中，不仅是当前的特征量，也可以同时利用过去数帧的特征量。而且，在行为识别模型中，例如，既可以利用深层学习方法中的deep neural network或者conventionalneural network等，也可以利用统计方法中的支持向量机或者混合高斯分布等。在行为识别模型的学习过程中也可以利用与误差逆传播法或者最大似然推测等所用的模型相适应的学习方法。

识别模型存储部202存储通过识别模型学习部106学习到的行为识别模型。

行为识别部107利用通过特征量提取部105提取的特征量来识别规定的行为。行为识别部107，基于通过特征量提取部105提取的特征量，利用存储在识别模型存储部202中的行为识别模型，推测当前的行为。行为识别部107，将特征量作为输入值，将规定的行为作为输出值，通过将从获取的声音中提取的特征量输入到通过机器学习构建的行为识别模型，来识别规定的行为。

频率构造更新部108，基于通过行为识别部107得到的行为识别结果、通过收音部101得到的声音、存储在频率构造存储部201的频率模式，更新存储在频率构造存储部201中的频率模式。频率构造更新部108，在识别出规定的行为之后，从频率构造存储部201读出谱模式，推测与读出的谱模式的差值为最小、并且、再现所获取的声音的谱模式，将存储在频率构造存储部201中的谱模式更新为推测出的谱模式。

另外，在频率构造存储部201将多个谱模式与多个行为分别相互对应存储的情况下，频率构造更新部108也可以从频率构造存储部201读出与通过行为识别部107识别的规定的行为相互对应的谱模式。然后，频率构造更新部108也可以推测与读出的谱模式的差值为最小、并且、再现所获取的声音的谱模式，将与规定的行为相互对应且被存储在频率构造存储部201中的谱模式更新为推测出的谱模式。

显示部109，例如，是液晶显示装置，输出由行为识别部107识别出的表示规定的行为的信息。显示部109显示从行为识别部107输出的行为识别结果。

另外，在本实施方式，虽然是显示部109显示行为识别结果，然而，本发明并不特别限定于此，也可以是行为识别装置1具备扬声器，扬声器通过声音通知行为识别结果。

而且，在本实施方式，机器学习装置也可以具备学习数据输入部102、行为标签输入部103、频率构造学习部104、特征量提取部105、识别模型学习部106、频率构造存储部201以及识别模型存储部202。而且，行为识别装置1也可以不具备学习数据输入部102、行为标签输入部103、频率构造学习部104以及识别模型学习部106，仅具备收音部101、特征量提取部105、行为识别部107、频率构造更新部108、显示部109、频率构造存储部201以及识别模型存储部202。

其次，对本实施方式的行为识别装置1的处理动作进行说明。在行为识别装置1具有两个处理动作即学习动作和识别行为。行为识别装置1可以在学习动作和识别行为之间切换。

在学习动作，行为识别装置1根据学习数据学习用于识别行为所需的行为识别模型。频率构造学习部104自动地推测通过学习数据输入部102获取的学习音中包含的声音的频率模式。识别模型学习部106，利用通过特征量提取部105提取出的频率模式的发生强度，学习用于推测行为的行为识别模型。

首先，行为识别装置1的学习数据输入部102获取包含预先准备的学习音的学习数据(步骤S1)。

其次，行为标签输入部103获取用于确定发出学习数据中包含的学习音时的规定的行为的行为标签(步骤S2)。

其次，频率构造学习部104根据通过学习数据输入部102获取的学习音推测频率模式(步骤S3)。具体而言，频率构造学习部104，利用预先决定的数量或者自动地推测出的数量的频率模式，推测在试图再现通过学习数据输入部102获取的声音时再现的声音与获取的声音之间的误差变成最小的频率模式。频率模式是指以规定的强度在规定的时刻包含的多个频率成分。频率构造学习部104，通过决定频率模式在各时间的强度，再现所获取的声音。

其次，频率构造学习部104将推测出的频率模式存储到频率构造存储部201(步骤S4)。

其次，特征量提取部105，利用存储在频率构造存储部201中的频率模式，从通过学习数据输入部102获取的学习数据中提取特征量(步骤S5)。特征量是指利用存储在频率构造存储部201的频率模式再现最接近通过学习数据输入部102获取的学习音的声音时频率模式在各时间的强度。

例如，特征量提取部105根据通过学习数据输入部102获取的学习音生成频谱图。频率构造存储部201存储与识别对象的行为对应的多个频率模式。特征量提取部105，利用存储在频率构造存储部201的多个频率模式分别再现学习音的频谱图，确定再现的频谱图和生成的频谱图之间的误差成为阈值以下的频率模式，将在各时间确定的频率模式的强度作为特征量来提取。

其次，识别模型学习部106，利用通过特征量提取部105提取的特征量和通过行为标签输入部103获取的行为标签，学习行为识别模型(步骤S6)。行为识别模型，例如，是深层学习方法中的deep neural network等或者统计方法中的支持向量机等。行为识别模型的学习可与行为识别模型相配合利用误差逆传播法等进行。识别模型学习部106将学习到的行为识别模型存储到识别模型存储部202。

如上所述，根据本实施方式，基于进行规定的行为的人发出的声音的学习音而推测出的谱模式被存储到频率构造存储部201，从获取的学习音中提取利用存储在存储部中的谱模式而确定的特征量，将从学习音中提取的特征量作为输入值，将获取的行为标签作为输出值，行为识别模型被机器学习。而且，因为在识别时从获取的周围的声音中提取利用谱模式而确定的特征量，通过将特征量输入到行为识别模型来识别规定的行为，所以，即使在获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为。

接着，对行为识别装置1的识别动作进行说明。

在识别动作，行为识别装置1，利用存储在频率构造存储部201的频率模式，从通过收音部101获取的声音中提取特征量，利用存储在识别模型存储部202的行为识别模型识别行为。而且，行为识别装置1，利用通过行为识别部107识别出的行为识别结果、通过收音部101获取的声音、存储在频率构造存储部201中的频率模式，更新存储在频率构造存储部201的频率模式。

图6是表示本实施方式的行为识别装置的识别动作的一个例子的流程图。

首先，行为识别装置1的收音部101获取在周围产生的声音(步骤S11)。此时，在周围产生的声音包含人通过行为产生的声音。人通过行为产生的声音，例如，是人坐下时产生的声音或者人走路时产生的声音等。

其次，特征量提取部105，利用存储在频率构造存储部201中的频率模式，从收音部101获取的周围的声音中提取特征量(步骤S12)。在此，特征量是指频率模式在各时间的强度。

例如，特征量提取部105根据收音部101获取的声音生成频谱图。频率构造存储部201存储与识别对象的行为对应的多个频率模式。特征量提取部105，分别利用存储在频率构造存储部201中的多个频率模式再现声音的频谱图，确定再现的频谱图和生成的频谱图之间的误差变为阈值以下的频率模式，将在各时间确定的频率模式的强度作为特征量来提取。

其次，行为识别部107，利用通过特征量提取部105提取的特征量和存储在识别模型存储部202中的行为识别模型来识别行为(步骤S13)。具体而言，行为识别部107，对于存储在识别模型存储部202中的行为识别模型，将通过特征量提取部105提取的特征量作为输入值输入，将从行为识别模型输出的行为内容作为行为识别结果来获取。

其次，显示部109显示行为识别部107的行为识别结果(步骤S14)。此时，显示部109显示表示所识别的行为的信息。

其次，频率构造更新部108，从收音部101获取周围的声音，从行为识别部107获取行为识别结果，从频率构造存储部201获取与行为识别结果的行为对应的频率模式(步骤S15)。另外，频率构造存储部201存储与行为相互对应的频率模式。

其次，频率构造更新部108，推测出与从频率构造存储部201获取的频率模式之间的差值为最小、并且、能最准确地再现通过收音部101获取的声音的频率模式，将存储在频率构造存储部201的频率模式更新为推测出的频率模式(步骤S16)。具体而言，频率构造更新部108推测出使存储在频率构造存储部201中的频率模式与推测后的频率模式之间的差值为最小、并且、利用推测后的频率模式再现通过收音部101获取的声音时的再现的声音与获取的声音之间的误差变成最小的频率模式。然后，频率构造更新部108将存储在频率构造存储部201中的频率模式更新为推测出的频率模式。

另外，频率构造更新部108也可以计算出从频率构造存储部201获取的频率模式与推测后的频率模式之间的差值和利用推测后的频率模式再现通过收音部101获取的声音时的再现的声音与获取的声音之间的误差之和，以使计算出的和变成最小的方式推测出频率模式。

如上所述，根据本实施方式，因为利用根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定的特征量是从获取的周围的声音中提取并利用特征量来识别规定的行为，所以，即使在所获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为。

而且，本实施方式的行为识别装置1，着眼于声音的频率构造，通过推测并存储识别对象进行行为时产生的声音的频率模式，来推测所收音的声音中包含的频率模式的强度，根据推测出的频率模式的强度来识别行为。因此，不会象现有技术的识别装置那样，识别结果受伴随杂音等意外的声音的产生其收音性能的变化的影响，可以利用不受意外的声音的影响的特征量来识别行为。其结果，可以谋求提高在产生多种声音的环境下识别人的行为的识别性能。

而且，在本实施方式，不仅推测与识别对象的行为的声音相关的频率模式，还可以推测与杂音相关的频率模式。即，学习数据输入部102也可以将杂音作为学习数据来获取。而且，频率构造学习部104也可以，根据从学习数据输入部102获取的杂音的学习数据生成的频谱图推测杂音的频率模式，将推测出的杂音的频率模式存储到频率构造存储部201。而且，在识别时，特征量提取部105也可以从通过收音部101获取的声音中除去存储在频率构造存储部201中的杂音的频率模式，提取只与识别对象的行为的声音的频率模式对应的特征量。

由此，与只存储识别对象的行为的声音的频率模式的情况相比较，能更正确地除去杂音，仅利用识别对象的声音来识别行为。

而且，由于行为识别模型仅根据各频率模式的强度来识别行为，而因环境的变化识别对象的声音的频率构造有可能会发生变化，然而，在本实施方式，因为利用识别结果再次推测频率模式，所以，可以应对环境的变化。

另外，在上述各实施方式，各构成要素由专用的硬件构成，然而，也可以通过执行适于各构成要素的软件程序来实现。各构成要素可以通过让CPU或者处理器等程序执行部读取存储在硬盘或者半导体存储器等记录介质中的软件程序来实现。

本发明的实施方式涉及的装置的功能的一部分或者全部典型地可以由作为集成电路的LSI(Large Scale Integration)来实现。这些功能即可以单独地芯片化，也可以用包含一部分或者全部功能的方式芯片化。而且，集成电路不仅限于LSI，也可以用专用电路或者通用处理器来实现。也可以利用在LSI制造之后可编程的FPGA(Field ProgrammableGate Array)或者可重构LSI内部的电路单元的连接或设定的可重构处理器。

而且，本发明的实施方式涉及的装置的功能的一部分或者全部也可以通过让CPU等处理器执行程序来实现。

而且，在上述所用的数字全部都是用于具体地说明本发明的例子，本发明不受所例示的数字的限制。

而且，上述流程图所示的执行各步骤的顺序是为了具体地说明本发明而例示的顺序，在能获得同样的效果的范围内也可以是上述以外的顺序。而且，上述步骤的一部分也可以与其它步骤同时(并行)执行。

本发明涉及的行为识别方法、行为识别装置以及存储了行为识别程序的非暂时性的计算机可读取的记录介质，因为即使在获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为，所以，作为根据人发出的声音识别上述人的行为的行为识别方法、行为识别装置以及存储了行为识别程序的非暂时性的计算机可读取的记录介质有其实用价值。

而且，本发明涉及的机器学习方法、机器学习装置以及存储了机器学习程序的非暂时性的计算机可读取的记录介质，因为即使在获取的周围的声音中包含杂音等识别对象的行为以外的声音的情况下，也能根据周围的声音高精度地识别出识别对象的行为，所以，作为机器学习用于识别人的行为的行为识别模型的机器学习方法、机器学习装置以及存储了机器学习程序的非暂时性的计算机可读取的记录介质有其实用价值。

Claims

1.一种行为识别方法，是根据人发出的声音识别所述人的行为的行为识别装置的行为识别方法，其特征在于包括以下步骤:

获取周围的声音；

从获取的所述声音中提取特征量，所述特征量利用被存储在存储部、根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式而确定；

利用所述特征量识别所述规定的行为；

输出表示识别出的所述规定的行为的信息。

2.根据权利要求1所述的行为识别方法，其特征在于，

所述识别，将所述特征量作为输入值，将所述规定的行为作为输出值，通过将所述特征量输入到通过机器学习构建的行为识别模型来识别所述规定的行为。

3.根据权利要求1所述的行为识别方法，其特征在于，

所述谱信息是频谱图；

所述谱模式是在所述频谱图中反复出现的频率模式；

所述特征量是所述频率模式在各时间的强度。

4.根据权利要求1所述的行为识别方法，其特征在于，

还进一步将进行所述规定的行为的所述人发出的声音作为学习音来获取；

还进一步根据从获取的所述学习音生成的谱信息推测谱模式，将推测出的所述谱模式存储到所述存储部。

5.根据权利要求4所述的行为识别方法，其特征在于，

还进一步获取用于确定发出所述学习音时的所述规定的行为的行为标签；

还进一步从获取的所述学习音中提取利用存储在所述存储部的所述谱模式而确定的特征量；

还进一步将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型；

所述识别，通过将从获取的所述声音中提取的所述特征量输入到所述行为识别模型来识别所述规定的行为。

6.根据权利要求1所述的行为识别方法，其特征在于，

还进一步在识别了所述规定的行为之后，从所述存储部读出所述谱模式，推测与所读出的所述谱模式之间的差值为最小并且再现所获取的所述声音的谱模式，将存储在所述存储部的所述谱模式更新为推测出的所述谱模式。

7.根据权利要求6所述的行为识别方法，其特征在于，

所述存储部将多个谱模式分别与多个行为相互对应地存储；

所述更新，从所述存储部读出与识别出的所述规定的行为相互对应的所述谱模式，推测与所读出的所述谱模式之间的差值为最小并且再现所获取的所述声音的谱模式，将与所述规定的行为相互对应、存储在所述存储部的所述谱模式更新为推测出的所述谱模式。

8.一种行为识别装置，是根据人发出的声音识别所述人的行为的行为识别装置，其特征在于包括：

收音部，获取周围的声音；

存储部，存储根据进行规定的行为的人发出的声音生成的谱信息中包含的谱模式；

提取部，从获取的所述声音中提取利用存储在所述存储部的所述谱模式而确定的特征量；

识别部，利用所述特征量识别所述规定的行为；以及，

输出部，输出表示被识别出的所述规定的行为的信息。

9.一种记录介质，是存储了用于根据人发出的声音识别所述人的行为的行为识别程序的非暂时性的计算机可读取的记录介质，其特征在于，使计算机具备以下功能:

获取周围的声音；

利用所述特征量识别所述规定的行为；

输出表示识别出的所述规定的行为的信息。

10.一种机器学习方法，是机器学习用于识别人的行为的行为识别模型的机器学习装置的机器学习方法，其特征在于包括以下步骤:

将进行规定的行为的人发出的声音作为学习音来获取；

根据从获取的所述学习音生成的谱信息推测谱模式，将推测出的所述谱模式存储到存储部；

获取用于确定所述规定的行为的行为标签；

从获取的所述学习音中提取利用存储在所述存储部中的所述谱模式而确定的特征量；

将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型。

11.一种机器学习装置，机器学习用于识别人的行为的行为识别模型，其特征在于包括：

学习音获取部，将进行规定的行为的人发出的声音作为学习音来获取；

谱模式推测部，根据从获取的所述学习音生成的谱信息，推测谱模式；

存储部，存储推测出的所述谱模式；

行为标签获取部，获取用于确定所述规定的行为的行为标签；

特征量提取部，从获取的所述学习音中提取利用存储在所述存储部的所述谱模式而确定的特征量；以及，

学习部，将从所述学习音中提取的所述特征量作为输入值，将获取的所述行为标签作为输出值，机器学习行为识别模型。

12.一种记录介质，是存储了为了机器学习用于识别人的行为的行为识别模型的机器学习程序的非暂时性的计算机可读取的记录介质，其特征在于，使计算机具备以下功能:

将进行规定的行为的人发出的声音作为学习音来获取；

获取用于确定所述规定的行为的行为标签；