CN108388166A

CN108388166A - 信息处理装置、信息处理方法以及记录介质

Info

Publication number: CN108388166A
Application number: CN201711361479.1A
Authority: CN
Inventors: 关根理敏
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-02-02
Filing date: 2017-12-18
Publication date: 2018-08-10
Also published as: JP6888312B2; JP2018124852A; US20180218242A1

Abstract

本发明提供信息处理装置、信息处理方法以及记录介质，能够在维持判别精度的同时大幅降低传感器信息的通信成本。该信息处理装置具备：判别部，其使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及发送控制模型构筑部，其根据所述传感器信息的通信成本和所述判别部的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，所述判别部根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据由所述发送控制模型构筑部确定的所述是否需要发送而发送的。

Description

信息处理装置、信息处理方法以及记录介质

技术领域

本发明涉及信息处理装置、信息处理方法以及记录介质。

背景技术

近年来，伴随着技术的发展，已开发出检测对象状态的各种传感器装置。

此外，还大量提出有使用由上述传感器装置取得的传感器信息进行对象状态判别的方法以及根据该判别的结果进行各种装置的动作控制的方法。

例如，专利文献1公开有一种旋转机的诊断装置，该旋转机的诊断装置配置于中间单元，所述中间单元的多个低通滤波器和检测传感器用电源电路设置于功能扩展用卡的外部。

此外，专利文献2公开有一种判别系统，该判别系统通过使用强化学习对采样频率及频率区域中的规定的频带分割数等参数进行调节而提高判别精度。

此外，非专利文献1公开有一种在由IEEE802.15.4e规定的网络中使用强化学习优化MAC层上的通信参数的方法。

此外，非专利文献2公开有一种利用将卷积神经网络和强化学习组合而成的方法对计算机游戏中的下一命令的价值函数的输出进行近似的技术。

专利文献1：日本特开2005-337965号公报

专利文献2：日本特开2006-79279号公报

非专利文献1：H.Kapil,C.S.R.Murthy、“A Pragmatic Reply PlacementApproach in 3-D Space and Q-Learning-Based Transmission Scheme for ReliableFactory Automation Applications”、IEEE Systems Journal、2016年3月3日、Volume:PP、Issue99、pp.1-11

非专利文献2：V.Mnih，外18名、“Human-level control through deepreinforcement learning”、Nature、2015年2月25日、518.7540、pp.529-533

但是，专利文献1所述的技术没有考虑到基于传感器信息检测状态以及向数据收集装置的传送控制。此外，专利文献2所述的技术虽然进行了判别精度的优化，但是，没有考虑到通信成本与判别精度的此消彼长。

此外，非专利文献1所述的技术没有考虑到例如使用所传送的数据的识别等上位层中的参数优化。此外，非专利文献2所述的技术存在没有考虑到自律分散性传感器终端的发送控制、以及基于包含判别精度和通信成本等处于此消彼长关系的参数的报酬的强化学习这样的问题。

发明内容

因此，本发明正是鉴于上述问题而完成的，本发明的目的在于，提供一种新的改良后的信息处理装置、信息处理方法以及记录介质，能够在维持判别精度的同时大幅降低传感器信息的通信成本。

为了解决上述课题，根据本发明的一个观点，提供一种信息处理装置，该信息处理装置具备：判别部，其使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及发送控制模型构筑部，其根据所述传感器信息的通信成本和所述判别部的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，所述判别部根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据由所述发送控制模型构筑部确定的所述是否需要发送而发送的。

也可以是，所述发送控制模型构筑部通过强化学习按照每个所述传感器终端确定是否需要发送所述传感器信息。

也可以是，所述发送控制模型构筑部根据通过强化学习而得到的价值函数，按照每个所述传感器终端确定是否需要发送所述传感器信息。

也可以是，所述发送控制模型构筑部根据与通过强化学习而得到的是否需要发送的价值函数的值对应的概率，按照每个所述传感器终端确定是否需要发送所述传感器信息。

也可以是，所述发送控制模型构筑部使用神经网络对所述价值函数进行近似。

也可以是，所述发送控制模型构筑部将所述传感器信息和发送该传感器信息的传感器终端的信息输入到所述神经网络，对所述价值函数进行近似。

也可以是，所述判别部使用基于按照多个所述传感器终端中的每个所述传感器终端接收的多个种类的传感器信息的学习结果来判别所述观测对象的状态，所述发送控制模型构筑部按照每个所述传感器终端和传感器种类确定是否需要发送所述传感器信息。

也可以是，所述通信成本包含从所述传感器终端发送的所述传感器信息的数据量和与发送所述传感器信息有关的所述传感器终端的耗电中的至少任意一方。

此外，为了解决上述课题，根据本发明的另一个观点，提供一种信息处理方法，所述信息处理方法包含：使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及根据所述传感器信息的通信成本和与所述观测对象的状态有关的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，所述判别还包含根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据所确定的所述是否需要发送而发送的。

此外，为了解决上述课题，根据本发明的另一个观点，提供一种记录有使计算机作为信息处理装置发挥功能的程序的记录介质，其中，所述信息处理装置具备：判别部，其使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及发送控制模型构筑部，其根据所述传感器信息的通信成本和所述判别部的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，所述判别部根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据由所述发送控制模型构筑部确定的所述是否需要发送而发送的。

如以上说明的那样，根据本发明，能够在维持判别精度的同时大幅降低传感器信息的通信成本。

附图说明

图1是示出本发明的第1实施方式的系统结构的一例的图。

图2是示出该实施方式的多个传感器终端具备的多个传感器全部在全时间段发送传感器信息时的示例的图。

图3是示出该实施方式的传感器终端根据发送控制模型发送的传感器信息的一例的图。

图4是该实施方式的传感器终端的功能框图的一例。

图5是该实施方式的信息处理装置的功能框图的一例。

图6是示出该实施方式的学习数据收集阶段的信息处理装置30的动作流程的流程图。

图7是示出该实施方式的特征向量提取部提取的特征向量的一例的图。

图8是用于说明该实施方式的状态正确值的输入的图。

图9是示出该实施方式的发送控制模型构筑阶段的信息处理装置的动作流程的流程图。

图10是用于说明由该实施方式的传感器终端的组合引起的判别精度差异的图。

图11是示出该实施方式的强化学习的动作模型的图。

图12是以表形式示出该实施方式的时刻t的价值函数Q的一例。

图13是示出该实施方式的状态判别阶段的信息处理装置30的动作流程的流程图。

图14是示出在本发明的第2实施方式的通信控制模型的构筑中用于价值函数近似的神经网络的网络结构例的图。

图15是示出该实施方式的学习数据收集阶段的信息处理装置30的动作流程的流程图。

图16是本发明的信息处理装置的硬件结构例。

标号说明

10：观测对象；20：传感器终端；210：传感器；220：数据通信部；230通信控制部；30：信息处理装置；310：学习/判别处理部；3110：数据接收部；3120：数据前处理部；3130：特征向量处理部；3140：学习模型处理部；3150：状态正确值输入部；3160：学习数据存储部；3170：判别率计算部；3180：判别结果输出部；320：发送控制模型构筑部；3210：状态/报酬处理部；3220：强化学习处理部；3230：模型传送部。

具体实施方式

以下，参照附图对本发明的优选实施方式详细地进行说明。另外，在本说明书和附图中，对具有实质相同的功能结构的构成要素标记相同的标号而省略重复说明。

＜1.本发明的概要＞

首先，对本发明的概要进行说明。如上所述，近年来，已开发出各种对观测对象的状态进行观测的传感器终端。此外，还大量提出有根据由上述传感器终端取得的传感器信息来判别观测对象的状态的方法。

例如，在制造物品的工厂等中虽然能够使用各种设备、装置、产品等，但是，上述观测对象往往无法直接取得与设备的动作相关的控制信号等，因此，还广泛利用外置的传感器终端来检测状态。

该情况下，例如通过从配置在观测对象周围的多个传感器终端取得振动数据及音响数据等传感器信息，能够动态地判别观测对象的状态。

此外，通过对得到的传感器信息进行分析、评价，能够进行移动轨迹、运转状况的取得以及异常预兆检测等，能够实现生产及作业效率的改善、安全性的确保等。

另一方面，在利用低频带无线通信等收集振动数据及音响数据等较高的采样频率及数据传送量的情况下，传感器信息的通信成本与判别精度一般可能处于此消彼长的关系。但是，现有的判别方法没有考虑到上述的此消彼长，因而期望实现更高效的数据通信和判别的方法。

本发明正是着眼于上述方面而构思出的，能够在将观测对象的状态判别的精度维持得较高的同时，高效地降低通信成本。因此，本发明的特征之一在于，构筑按照每个传感器终端和传感器种类确定是否需要发送基于通信成本和判别精度的传感器信息的发送控制模型。此外，在本发明中，可以在上述发送控制模型的构筑中使用强化学习。在以下的实施方式的说明中，对本发明的信息处理装置的结构以及上述特征起到的效果详细地进行说明。

＜2.第1实施方式＞

＜＜2.1.第1实施方式的概要＞＞

首先，对本发明的第1实施方式进行说明。如上所述，本发明能够在基于由多个传感器终端取得的传感器信息的观测对象的状态判别中，同时实现判别精度的维持和通信成本的抑制。

图1是示出本实施方式的系统结构的一例的图。参照图1，本实施方式的信息处理系统可以包含观测对象10、多个传感器终端20以及信息处理装置30。此外，传感器终端20和信息处理装置30经由网络40连接。

(观测对象10)

本实施方式的观测对象10是由信息处理装置30进行状态判别的对象。本实施方式的观测对象10例如也可以是工厂里的各种装置、产品以及企业或家庭中设置的电子设备等。此外，观测对象10也可以包含房屋、桥梁、道路等建筑物。此外，本实施方式的观测对象10具备作为传感器终端20对传感器信息的取得对象的一个以上的内部装置110。在图1的一例中，示出观测对象10具备2个内部装置110a、110b的情况。

(传感器终端20)

本实施方式的传感器终端20是从观测对象10具备的内部装置110收集各种传感器信息的终端。由于传感器终端一般可观测的范围受到物理和空间上的限定，因此，如图1所示，可以对一个观测对象10配置多个本实施方式的传感器终端20。在图1的一例中，示出对观测对象10配置4个传感器终端20a～20d的情况。

此外，本实施方式的传感器终端20能够收集观测对象10的内部装置110的各种传感器信息。为此，本实施方式的传感器终端20可以如图1所示分别具备多个传感器210。本实施方式的传感器210例如可以是振动传感器、音响传感器、热传感器、照度传感器、摄像传感器等。本实施方式的传感器终端20通过具备多个上述传感器210，能够捕捉与观测对象10的运转状态对应的不同物理现象。

(信息处理装置30)

本实施方式的信息处理装置30是根据从多个传感器终端20发送的传感器信息来判别观测对象10的状态的装置。这时，本实施方式的信息处理装置30可以实时地进行上述的判别。即，当观测对象10的状态发生变化时，传感器终端20立刻向信息处理装置30发送与该状态的变化对应的传感器信息，信息处理装置30能够每次输出基于从传感器终端20发送的传感器信息的状态判别结果。

另一方面，由信息处理装置30进行的状态判别要求从传感器终端20发送判别所需的充分的传感器信息。此外，一般地，越能够提取与各状态对应的更显著的特征，则判别的精度越高。因此，为了实现更高精度的判别以及通信成本的降低，例如还可以假定由具有与振动的状况相关的专业知识的专家来指定适当的传感器终端20的配置。然而，还可以假定观测对象10的内部结构复杂而如果不试着实际取得数据就无法进行适当判断的情况，以及由不具有专业知识的人配置传感器终端20的状况。因此，本实施方式的传感器终端20的种类和配置不一定总是能够适当地进行。

例如还存在如下情况：为了检测图1所示的内部装置110有无动作，仅凭从传感器终端20a或20b具有的任意传感器210发送的传感器信息即可。此外，同样地，还存在如下情况：为了检测内部装置110b有无动作，仅凭从传感器终端20b或20d具有的任意传感器210发送的传感器信息即可。这样，根据观测对象10的状态，往往仅凭从多个传感器终端20具有的多个传感器210中的一部分传感器210得到的传感器信息就能够进行精度足够的判别。

因此，很难说仅重视判别精度而从全部传感器终端20具备的全部传感器210在全时间段发送传感器信息是高效的。图2是示出本实施方式的多个传感器终端20具备的多个传感器210全部在全时间段发送传感器信息时的示例的图。在图2所示的一例的情况下，多个传感器210a-1～210n-n分别将收集到的传感器信息ST-a1～ST-nn在全时间段发送给信息处理装置30。在进行上述处理的情况下，例如可以假定以下几个弊病。

首先，作为假定的问题，可以举出通信频带的浪费。还存在基于设置成本和便利性的观点而利用无线通信来连接传感器终端20和信息处理装置30的情况。这里，如图2所示，可以容易地假定当全部传感器210在全时间段发送传感器信息时，超出需要地浪费无线通信中的频带的情况。此外，例如在920MHz等低频带的无线通信中，还可以考虑到无法传送足够的数据，由于分组丢失等而发生数据的传送延迟及欠缺的可能性。其结果是，还要担心无法接收所需的数据，从而发生判别精度的降低以及判别的延迟。此外，在使用由多个传感器终端20共享线路的有线网络的情况下，也可能发生与上述同样的现象。

此外，还要担心电力的浪费。一般在无线通信中传送数据的传感器终端用电池驱动，因此，还可以考虑到由于冗长的无线数据的传送而导致耗电增大而提前发生电池切断的可能性。其结果是，即使是能够通过有线或无线供电来进行外部电力供给的系统，也可能发生消耗掉超出需要的电力等问题。

此外，还可以假定与数据处理及数据保持有关的成本增加。发送接收超出由信息处理装置30判别状态需要的数据会导致判别中数据处理量的增加，同时，还会由于传感器终端20及存储空间等而不必要地增加数据保持的成本。

为了消除上述问题，在本实施方式中，可以在确保状态的判别所需的传感器信息而维持判别精度的同时，由必要的传感器终端20在必要时发送由必要的传感器210收集到的传感器信息。更具体来说，可以是，本实施方式的信息处理装置30构筑按照每个传感器终端和传感器种类确定是否需要发送基于通信成本和判别精度的传感器信息的发送控制模型，传感器终端20根据上述发送控制模型进行传感器信息的发送。

图3是示出本实施方式的传感器终端20根据发送控制模型发送的传感器信息的一例的图。在图3所示的一例的情况下，传感器终端20a～20n在互不相同的时刻向信息处理装置30发送由传感器终端20a～20n各自具有的传感器210a-1～210n-n收集到的传感器信息。这时，传感器终端20a～20n可以如上所述根据由信息处理装置30构筑的发送控制模型进行传感器信息的发送。即，本实施方式的传感器终端20能够在必要的时刻仅发送由信息处理装置30判别状态所需的传感器信息。根据本实施方式的上述特征，能够仅发送判别所需的传感器信息，能够在维持判别精度的同时，在空间或时间上降低通信成本。

以上，对本实施方式的概要进行了说明。另外，使用图1说明的系统结构只是一例，本实施方式的系统结构不限于该示例。例如，在图1中，例示出观测对象10具备2个内部装置110a、110b并且配置有4个传感器终端20a～20d的情况，但是，本实施方式的内部装置110和传感器终端20的数量不限于本例。此外，也可以存在多个本实施方式的观测对象10和传感器终端20的组。可以根据观测对象的特性及网络40的规格等灵活地对本实施方式的系统结构进行变形。

＜＜2.2.传感器终端20的功能结构例＞＞

接下来，对本实施方式的传感器终端20的功能结构例进行说明。图4是本实施方式的传感器终端20的功能框图的一例。参照图4，本实施方式的传感器终端20具备传感器210、数据通信部220和通信控制部230。

(传感器210)

本实施方式的传感器210具有收集观测对象10的内部装置110的传感器信息的功能。如上所述，本实施方式的传感器终端20可以具备多个传感器210。此外，作为传感器210的一例，可以举出振动传感器、音响传感器、热传感器、照度传感器以及摄像传感器等。另外，上述内容只是一例，本实施方式的传感器终端20也可以具备与观测对象10的特性对应的各种传感器210。

(数据通信部220)

本实施方式的数据通信部220具有根据通信控制部230的控制而将传感器信息发送给信息处理装置30的功能。这时，在传感器210收集到的传感器信息是模拟信号的情况下，数据通信部220可以将该模拟信号转换成数字信号后发送给信息处理装置30。此外，数据通信部220向信息处理装置30发送传感器终端20的各种信息。上述信息例如也可以包含确定传感器终端20的标识符以及传感器终端20的电池余量信息等。

(通信控制部230)

本实施方式的通信控制部230具有根据信息处理装置30构筑的发送控制模型向数据通信部220发送传感器信息的功能。更具体来说，通信控制部230根据发送控制模型，按照传感器终端20具备的每个传感器210判断是否需要发送传感器信息，由此来控制数据通信。

以上，对本实施方式的传感器终端20的功能结构例进行了说明。另外，使用图4说明的上述功能结构只是一例，本实施方式的传感器终端20的功能结构不限于该示例。本实施方式的通信控制部230例如也可以设置在传感器终端20的外部。此外，传感器终端20也可以还具备图4所示的结构以外的结构。传感器终端20例如可以还具备受理用户的操作的输入部以及存储传感器信息的存储部等。可以灵活地对本实施方式的传感器终端20的功能结构进行变形。

＜＜2.3.信息处理装置30的功能结构例＞＞

接下来，对本实施方式的信息处理装置30的功能结构例进行说明。图5是本实施方式的信息处理装置30的功能框图的一例。参照图5，本实施方式的信息处理装置30具备学习/判别处理部310和发送控制模型构筑部320。

(学习/判别处理部310)

本实施方式的学习/判别处理部310具有根据从传感器终端20接收的传感器信息和由用户输入的状态正确值进行观测对象10的状态判别学习的功能。此外，本实施方式的学习/判别处理部310作为使用上述学习结果来判别观测对象10的状态的判别部发挥功能。这时，本实施方式的学习/判别处理部310可以根据传感器信息来判别观测对象10的状态，其中，所述传感器信息是根据由后述的发送控制模型构筑部320确定的是否需要发送而发送的。为此，如图3所示，本实施方式的学习/判别处理部310具备数据接收部3110、数据前处理部3120、特征向量处理部3130、学习模型处理部3140、状态正确值输入部3150、学习数据存储部3160、判别率计算部3170以及判别结果输出部3180。

((数据接收部3110))

数据接收部3110具有经由网络40从多个传感器终端20接收传感器信息的功能。此外，数据接收部3110也可以与上述传感器信息一起接收传感器终端20的各种信息。

((数据前处理部3120))

数据前处理部3120具有进行数据接收部3110接收到的传感器信息的前处理的功能。上述的前处理例如可以包含噪音去除滤波、利用傅里叶变换的功率谱、光谱图等的计测值变换等。另外，本实施方式的数据前处理部3120不限于上述的示例，还可以实施与接收到的传感器信息的特性对应的各种处理。

((特征向量处理部3130))

特征向量处理部3130具有从由数据前处理部3120处理后的传感器信息中提取该传感器信息的特征向量的功能。这时，本实施方式的特征向量处理部3130能够根据传感器信息的特性提取特征向量。例如在传感器信息是振动数据或音响数据的情况下，特征向量处理部3130也可以将频域中的主导频率、平均频率等组合起来提取特征向量。另外，也可以将由数据前处理部3120处理后的传感器信息直接作为特征向量。

((学习模型处理部3140))

学习模型处理部3140具有根据特征向量处理部3130提取出的特征向量和由用户输入的状态正确值构筑判别观测对象10的状态的学习模型的功能。这时，学习模型处理部3140可以使用在机械学习领域使用的各种方法和算法来构筑上述学习模型。此外，学习模型处理部3140还可以根据构筑出的学习模型和提取出的特征向量来进行观测对象10的状态判别。

((状态正确值输入部3150))

状态正确值输入部3150是用于输入当前正在观测的观测对象10的状态名称和标签的结构。可以根据用户的输入操作来进行上述输入。为此，本实施方式的状态正确值输入部3150构成为包含键盘、鼠标、按钮、开关、触摸面板等输入装置。

((学习数据存储部3160))

学习数据存储部3160具有将从由各个传感器终端20发送的传感器信息中提取出的特征向量和经由状态正确值输入部3150输入的状态正确值组合起来保存的功能。

((判别率计算部3170))

判别率计算部3170具有针对观测对象10的某一状态下的多个学习数据，根据输入到上述学习模型时的判别的正误来计算状态判别的判别率的功能。

((判别结果输出部3180))

判别结果输出部3180具有向用户提示学习模型处理部3140的判别结果的功能。为此，本实施方式的判别结果输出部3180例如可以构成为包含显示装置。作为显示装置的一例，例如可以举出CRT(Cathode Ray Tube：阴极射线管)显示器装置、液晶显示器(LCD：Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode：有机发光二极管)装置等。

(发送控制模型构筑部320)

本实施方式的发送控制模型构筑部320具有根据传感器信息的通信成本和学习/判别处理部310的判别精度，按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息的功能。这时，本实施方式的发送控制模型构筑部320可以通过强化学习，按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息。即，本实施方式的发送控制模型构筑部320能够按照每个传感器终端20构筑固有的发送控制模型。此外，如图5所示，发送控制模型构筑部320构成为包含状态/报酬处理部3210、强化学习处理部3220和模型传送部3230。

((状态/报酬处理部3210))

状态/报酬处理部3210具有计算每个传感器终端20的报酬的功能。具体而言，状态/报酬处理部3210可以计算从由作为对象的传感器终端20发送的传感器信息中提取出的特征向量以及基于该特征向量的判别结果、对象以外的传感器终端20的传感器信息的发送/不发送状态、基于判别结果和包含通信成本的指标的报酬。

((强化学习处理部3220))

强化学习处理部3220具有求出与观测对象10的状态和报酬对应的行动的价值函数，构筑基于该价值函数的是否需要发送的控制模型的功能。本实施方式的强化学习处理部3220具有的功能的详细情况容后再述。

((模型传送部3230))

模型传送部3230具有将由强化学习处理部3220构筑的发送控制模型发送给对应的传感器终端20的功能。

以上，对本实施方式的信息处理装置30的功能结构例进行了说明。另外，使用图5说明的上述功能结构只是一例，本实施方式的信息处理装置30的功能结构不限于该示例。例如，信息处理装置30具有的功能也可以由多个装置分散地实现。此外，根据判别中使用的传感器信息的特性和算法等，并不一定需要数据前处理部3120和特征向量处理部3130。

此外，在上述记载中，以模型传送部3230将构筑出的发送控制模型发送给传感器终端20的情况为例进行了叙述，但是，本实施方式的信息处理装置30也可以根据上述发送控制模型进行传感器终端20的发送控制。可以灵活地对本实施方式的信息处理装置30的功能结构进行变形。

＜＜2.4.信息处理装置30的动作＞＞

接下来，对本实施方式的信息处理装置30的动作进行说明。本实施方式的信息处理装置30的动作可以分成收集观测对象10的各状态下的传感器信息的学习数据收集阶段、构筑基于上述价值函数的发送控制模型的发送控制模型构筑阶段、以及利用根据发送控制模型发送的传感器信息来判别观测对象10的状态的状态判别阶段这三个阶段。

(学习数据收集阶段)

首先，对本实施方式的学习数据收集阶段进行说明。图6是示出本实施方式的学习数据收集阶段的信息处理装置30的动作流程的流程图。

参照图6，在学习数据收集阶段中，首先，在观测对象10的全部状态下，数据接收部3110从多个传感器终端20接收传感器信息(S1101)。

接下来，数据前处理部3120执行针对在步骤S1101中接收到的传感器信息的频率滤波等前处理(S1102)。

接下来，特征向量处理部3130从在步骤S1102中进行前处理后的传感器信息中提取特征向量(S1103)。图7是示出本实施方式的特征向量处理部3130提取的特征向量的一例的图。例如，如图7所示，观测对象10的状态存在状态S1～SM的M种，此外，当在N个传感器终端20中对于1个状态取得d个传感器信息时，特征向量处理部3130可以提取共计d×N×M个特征向量。

接下来，状态正确值输入部3150取得与由用户输入的观测对象10的状态S1～SM对应的状态正确值(S1104)。图8是用于说明本实施方式的状态正确值的输入的图。图8示出观测对象10、所配置的多个传感器终端20a、20b、信息处理装置30以及用户U1。这里，如图8所示，用户U1可以通过目视等来确认观测对象10实际处于什么样的状态，并将该状态的状态正确值输入到状态正确值输入部3150中。这时，用户U1例如也可以在与观测对象10的状态有关的传感器信息取得过程中或取得之后立即按键输入状态正确值，或者通过按下与状态对应起来的按钮等输入状态正确值。根据上述记载，能够正确地将传感器信息和从该传感器信息中提取出的特征向量与观测对象10的真实状态对应起来。

接下来，学习数据存储部3160将传感器信息和在步骤S1103中提取出的特征向量与在步骤S1104中取得的状态正确值对应起来保存(S1105)。

接下来，学习模型处理部3140在后述的发送控制模型构筑阶段构筑输出被用作强化学习状态的判别结果的判别模型(S1106)。这时，学习模型处理部3140可以根据仅使用一个从传感器终端20的传感器210收集到的传感器信息时的、观测对象的各状态下的特征向量来构筑判别模型。例如，当数据接收部3110从N个传感器终端20接收传感器信息时，学习模型处理部3140能够构筑共计N个判别模型。

(发送控制模型构筑阶段)

接下来，对本实施方式的发送控制模型构筑阶段进行说明。如上所述，在本实施方式的发送控制模型构筑阶段，构筑用于有效地控制由传感器终端20发送传感器信息的发送控制模型。

这时，本实施方式的发送控制模型构筑部320能够根据通过强化学习而得到的价值函数，构筑按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息的发送控制模型。更具体来说，发送控制模型构筑部320可以根据与通过强化学习而得到的是否需要发送的价值函数的值对应的概率，按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息。

这里，对本实施方式中使用的强化学习进行说明。强化学习是指不向代理商给出针对任务的正确行动，而是使其根据可从环境得到的报酬来学习与状况对应的适当行动的方法。例如，在作为强化学习的一种的Q学习中，通过估计针对状态s与行动a的组合的价值函数Q(s，a)来进行行动的学习。

例如，当代理商在时刻t的状态s_t下采取了行动a_t的结果是转变成新的状态s_t+1并接收了报酬r_t+1的情况下，可以用以下的算式(1)来定义价值函数Q。

这里，上述算式(1)中的a和γ分别表示学习率和折扣率，均取大于0且小于1的范围。此外，根据算式(1)中的r_t+1+γmax_at+1Q(S_t+1，a_t+1)-Q(S_t，a_t)，能够取得在下一状态下可选择的行动中最大的价值函数Q。这样，在强化学习中，代理商能够通过一系列的行动学习使得可从环境得到的报酬最大的策略。

即，在本实施方式中，能够自动学习各个传感器终端20应该在什么样的时刻收集什么样的传感器信息以及进行什么样的动作这样的动作模型。以下，详细地说明本实施方式的发送控制模型构筑阶段的动作流程。图9是示出本实施方式的发送控制模型构筑阶段的信息处理装置30的动作流程的流程图。

参照图9，首先，状态/报酬处理部3210计算用于供强化学习处理部3220利用的状态。具体而言，状态/报酬处理部3210按照每个学习数据，确定学习数据收集阶段的判别结果和有无从传感器终端20发送传感器信息作为状态(S1201)。

接着，状态/报酬处理部3210计算供强化学习处理部3220利用的报酬(S1202)。例如，在学习模型处理部3140中得到M种状态、N个传感器终端20、d个特征向量的情况下，用从某多个传感器终端20的总计N个传感器终端20的组合得到的d×M个特征向量来构筑判别模型，计算基于各状态下的各个特征向量的判别正解率。另外，如上所述，也可以不明确地定义特征向量，例如也可以使用能够自动提取特征的算法。

此外，即使在观测对象10的同一状态的判别中，也存在根据判别中使用的传感器终端20与传感器210的组合而判别精度不同的情况。因此，在本实施方式中，当存在多个传感器终端20时，可以对从该多个传感器终端20接收到的传感器信息进行组合来构筑观测对象10的状态和特征向量的判别模型。

图10是用于说明由本实施方式的传感器终端20的组合引起的判别精度差异的图。图10分别示出由传感器终端20a、20b的组合以及传感器终端20c～20e的组合得到的状态S1～SM的判别率R11～R1M以及R21～R2M。另外，在图10中示出施加有阴影线的判别率具有比另一个组合高的判别率的情况。

这里，在图10的一例中，关于状态S1的判别，示出与由传感器终端20c～20e的组合得到的判别率R21相比，由传感器终端20a、20b的组合得到的判别率R11具有更高值的情况。另一方面，在状态S2的判别中，示出与由传感器终端20a、20b的组合得到的判别率R12相比，由传感器终端20c～20e的组合得到的判别率R22具有更高值的情况。这样，可以假定使判别率最大化的传感器终端20的组合根据各状态而不同。

因此，在本实施方式中，可以试行多个传感器终端20和传感器210的组合，存储各组合的判别率以及判别率最高的传感器终端20和传感器210的组合。

这时，本实施方式的状态/报酬处理部3210可以根据下述算式(2)来确定报酬r。

另外，上述算式(2)中的R表示根据来自某传感器终端20和传感器210的功率谱与来自其它传感器终端20和传感器210的功率谱的组合得到的判别率。此外，上述算式(2)中的C表示与发送传感器信息有关的传感器终端20的通信成本的总计。即，根据上述算式(2)可知，判别率R越高，通信成本C越低，则报酬r越高。因此，如果是同一判别率R，则易于选择通信成本C较低的行动。

另外，本实施方式的通信成本可以包含所发送的传感器信息的数据量和与发送传感器信息有关的传感器终端20的耗电中的至少任意一方。例如可以根据传感器信息的类别、传感器210的个数、发送时间、带宽、电波强度等计算上述的数据量和耗电。

再次参照图9，继续对发送控制模型构筑阶段的信息处理装置30的动作流程进行说明。当在步骤S1202中确定了报酬时，强化学习处理部3220在观测对象10的各状态下，通过反复进行基于状态和报酬的行动而求出价值函数Q，构筑发送控制模型(S1203)。

此外，图11是示出步骤S1203中的强化学习的动作模型的图。这里，图11所示的状态包含来自各传感器终端20和传感器210的判别结果以及有无由其它传感器终端20发送传感器信息等。此外，图11所示的行动表示有无发送每个传感器终端20和每个传感器210的传感器信息，即是否发送传感器信息。此外，图11中的报酬可以如上所述是基于判别率和通信成本的报酬。这时，强化学习处理部3220反复进行行动直到价值函数Q的变化率等充分收敛为止。

另外，也可以在发送控制模型构筑阶段中的初始阶段，将随机地组合传感器终端20和传感器210而得到的传感器信息的组合作为状态。这时，强化学习处理部3220例如可以使用ε-greedy等方法。即，在强化学习处理部3220的强化学习中，可以用概率ε随机地选择行动，用概率1-ε选择价值函数Q最大的行动。这样，能够通过保留随机地行动的可能性，防止待估计的价值函数Q陷入局部解。

这里，对本实施方式的价值函数Q详细地进行说明。图12是以表形式示出时刻t的价值函数Q的一例。如图12所示，在本实施方式中，求出与来自各传感器终端20的判别率和传感器信息的发送状态有关的状态s、以及针对发送/不发送的行动(分别为a1、a2)的价值函数Q。这时，利用来自各传感器终端20的M种判别结果与各传感器终端20的行动(发送或不发送)的组合2的N次幂，使得状态s的数成为最大2^NM的状态数。

此外，可以如下所述确定基于构筑出的价值函数Q的各传感器终端20的行动(发送或不发送)。例如可以是，在某个状态Sn下，当与发送有关的价值函数Q(s_n，a₁)大于与不发送有关的价值函数(s_n，a₂)时，代理商选择发送传感器信息，当与不发送有关的价值函数(s_n，a₂)大于与发送有关的价值函数Q(s_n，a₁)时，代理商选择不发送传感器信息。

此外，例如也可以是，产生0～1的均匀的随机数，如果该随机数小于(与发送有关的价值函数)÷(与发送/不发送有关的价值函数之和)的值，则代理商发送传感器信息，如果该随机数大于等于上述值则不发送。

根据以上说明的方法，能够在观测对象10的各状态下，构筑由判别率较高且通信成本较低的传感器终端20和传感器210的组合发送传感器信息的可能性较高的模型。

此外，当在图9的步骤S1203中构筑了发送控制模型时，模型传送部3230将上述发送控制模型发送给传感器终端20(S1204)。

(状态判别阶段)

接下来，对本实施方式的状态判别阶段进行说明。图13是示出本实施方式的状态判别阶段的信息处理装置30的动作流程的流程图。

参照图13，首先，数据接收部3110接收从多个传感器终端20根据发送控制模型发送的传感器信息(S1301)。这时，传感器终端20每次根据从自身的数据中提取的特征向量求出判别结果，由通信控制部230确认其它传感器终端20有无发送传感器信息。此外，通信控制部230通过将上述信息输入到发送控制模型中而选择与状态对应的行动(发送或不发送)，由此控制传感器信息的发送。

另外，这时，关于其它传感器终端20对传感器信息的发送状况，可以由传感器终端20自身直接接收其它传感器终端20有无发送传感器信息，也可以经由信息处理装置30来接收。

接下来，信息处理装置30的学习模型处理部3140对于从在步骤S1301中接收到的各传感器终端20的传感器信息得到的特征向量，使用与传感器终端20的组合对应的判别模型进行状态判别(S1302)。

接下来，判别结果输出部3180输出在步骤S1302中取得的判别结果(S1303)，信息处理装置30恢复到等待接收传感器信息的状态。

＜＜2.5.第1实施方式的效果＞＞

以上，对本实施方式的第1实施方式进行了说明。如上所述，本实施方式的发送控制模型构筑部320具有根据传感器信息的通信成本和判别精度，按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息的功能。此外，本实施方式的学习/判别处理部310具有根据传感器信息来判别观测对象的状态的功能，其中，所述传感器信息是根据由发送控制模型构筑部确定的是否需要发送而发送的。

根据本实施方式的信息处理装置30具有的上述特征，即使是不知道最佳的传感器终端20配置的用户，也能够从所配置的传感器终端20中自动选择并利用最佳的传感器终端20与传感器210的组合。

此外，根据本实施方式的信息处理装置30，即使是通信频带及电池容量等资源存在限制的环境，也能够在抑制与发送传感器信息有关的通信成本的同时，进行高精度的状态检测。

此外，根据本实施方式的信息处理装置30，通过抑制传感器终端20的通信成本，能够延长电池寿命，使系统长期运转。

此外，根据本实施方式的信息处理装置30，通过抑制不必要的传感器信息的发送，即使是低频带的无线通信，也能够传送采样频率较高的传感器信息。

＜3.第2实施方式＞

＜＜3.1.第2实施方式的概要＞＞

接下来，对本发明的第2实施方式进行说明。本发明的第2实施方式与第1实施方式同样，目的在于，在基于传感器信息的观测对象10的状态判别中实现判别精度和通信成本的优化。另一方面，本发明的第2实施方式与第1实施方式不同之处在于，着眼于构筑无法明确地定义强化学习的状态时的价值函数。

例如还可以假定在传感器终端20和传感器210的数量庞大的情况下很难构筑包罗全部组合的学习模型的情况。此外，还可以假定根据传感器信息的性质而很少取得完全相同的值的情况。因此，本实施方式的信息处理装置30通过在强化学习中使用神经网络，能够对未知组合的价值函数进行近似。更具体来说，本实施方式的发送控制模型构筑部可以通过将传感器信息和发送传感器信息的传感器终端20的信息输入到所述神经网络中，对价值函数进行近似。

图14是示出在本实施方式的通信控制模型的构筑中用于价值函数的近似的神经网络的网络结构例的图。本实施方式的神经网络进行基于输入的状态的运算，输出与强化学习的行动对应的价值函数Q。这里，例如可以将非专利文献2所述的Deep Q-Network(DQN)用作本实施方式的神经网络。DQN是将卷积神经网络(Convolutional Neural Netowork:CNN)和强化学习组合而成的深层强化学习的一种。本实施方式的神经网络例如可以如图14所示由输入层、卷积神经网络层、全连接层以及输出层构成。

这里，输入层可以输入从传感器信息中提取的特征向量以及与各传感器终端20有无发送传感器信息有关的信息。此外，卷积神经网络层可以由卷积层和池化(pooling)层等构成。在池化层中例如进行最大池化等压缩处理。此外，在本实施方式的神经网络中，由卷积神经网络层抽象化后的信息被输入到全连接层中，最终从输出层输出价值函数Q。

以下，对使用上述说明的神经网络的强化学习的流程详细地进行说明。另外，在以下的说明中，以与第1实施方式之间的差异为中心进行叙述，对于与第1实施方式共同的结构、功能以及效果等省略说明。

＜＜3.2.信息处理装置30的动作＞＞

首先，对本实施方式与第1实施方式之间的差异进行说明。在本发明的第1实施方式中，对于发送控制模型构筑阶段的强化学习的状态使用了来自各传感器终端20的判别结果。即，可以说第1实施方式中的状态的种类等于观测对象10的状态数。

另一方面，在本发明的第2实施方式中，可以使用从由各传感器终端20发送的传感器信息中提取的特征向量作为强化学习的状态。虽然在学习数据收集阶段得到的特征向量以及该特征向量的组合是有限的，但是，在进行实际的发送控制的状态判别阶段，却是利用未知特征向量的组合作为状态。因此，在第2实施方式中，通过使用神经网络的强化学习构筑传感器终端20数量的发送控制模型，从而应对上述情况。

图15是示出本实施方式的学习数据收集阶段的信息处理装置30的动作流程的流程图。

如上所述，在本发明的第2实施方式中，不是利用来自各传感器终端20的判别结果作为强化学习的状态，而是直接利用从由传感器终端20发送的传感器信息中提取的特征向量作为强化学习的状态。因此，在第2实施方式的学习数据收集阶段，无需在第1实施方式的学习数据收集阶段进行的判别模型的构筑。

这里，比较图15和图6可知，在第2实施方式中，不进行图6所述的步骤S1106的处理。另外，在步骤S1106以外的处理中，在第2实施方式中也可以进行与第1实施方式同样的处理。即，第2实施方式的步骤S2101～S2105分别与第1实施方式的步骤S1101～S1105对应。

另外，第2实施方式的发送控制模型构筑阶段以及状态判别阶段的信息处理装置30的动作流程基本上可以与第1实施方式相同。另一方面，在本实施方式的使用神经网络的强化学习中，例如可以输入从由某一传感器终端20发送的传感器信息中提取出的光谱图等特征向量以及其它传感器终端20的传感器信息的发送状况。

例如，在传感器终端20的总数为N个的情况下，本实施方式的神经网络被输入除了作为学习对象的传感器终端以外的N-1个传感器终端的发送状况。这时，也可以是，作为其它传感器终端20的N-1个传感器终端的发送状况，在发送传感器信息时被输入1，在不发送传感器信息时被输入0。

此外，在运转初期，可以从各传感器终端20随机地发送传感器信息。根据本实施方式的神经网络，能够构筑进行基于上述信息的行动而得到报酬从而输出价值函数Q的发送控制模型。另外，构筑发送控制模型后的信息处理装置30和传感器终端20的动作可以与第1实施方式相同。

如以上说明的那样，根据本实施方式的信息处理装置30，即使强化学习中的状态是没有由数值数据等明确地定义的未知状况，也能够利用神经网络对价值函数进行近似。此外，根据本实施方式的信息处理装置30，能够通过使用深层强化学习，估计精度更高的价值函数。

＜4.硬件结构例＞

接下来，对本发明的信息处理装置30的硬件结构例进行说明。图16是示出本发明的信息处理装置30的硬件结构例的框图。参照图16，信息处理装置30例如具有CPU871、ROM872、RAM873、主机总线874、桥875、外部总线876、接口877、输入部878、输出部879、存储部880、驱动器881、连接端口882和通信部883。另外，这里示出的硬件结构只是一例，也可以省略构成要素的一部分。此外，还可以包含这里示出的构成要素以外的构成要素。

(CPU871)

CPU871例如作为运算处理装置或控制装置发挥功能，根据记录在ROM872、RAM873、存储部880或可移动记录介质901中的各种程序来控制各构成要素的动作整体或动作整体的一部分。

(ROM872、RAM873)

ROM872是存储读入到CPU871的程序及运算中使用的数据等的单元。RAM873中临时或永久地存储例如被读入到CPU871的程序以及在执行该程序时适当变化的各种参数等。

(主机总线874、桥875、外部总线876、接口877)

CPU871、ROM872、RAM873例如经由可进行高速数据传输的主机总线874相互连接。另一方面，主机总线874例如经由桥875而与数据传输速度较低的外部总线876连接。此外，外部总线876经由接口877而与各种构成要素连接。

(输入部878)

例如可将鼠标、键盘、触摸面板、按钮、开关、麦克风和杆等用作输入部878。此外，有时还将能够利用红外线及其它电波发送控制信号的遥控器(以下，遥控)用作输入部878。

(输出部879)

输出部879是例如CRT(Cathode Ray Tube：阴极射线管)、LCD或有机EL等显示器装置(显示装置)、扬声器、耳机等音频输出装置、打印机、便携电话或传真机等能够从视觉上或听觉上对使用者通知已取得的信息的装置。

(存储部880)

存储部880是用于存储各种数据的装置。例如可以将硬盘驱动器(HDD)等磁存储器件、半导体存储器件、光存储器件或光磁存储器件等用作存储部880。

(驱动器881)

驱动器881是读出记录在例如磁盘、光盘、光磁盘或半导体存储器等可移动记录介质901中的信息或将信息写入可移动记录介质901的装置。

(可移动记录介质901)

可移动记录介质901例如是DVD介质、Blu-ray(注册商标)介质、HD DVD介质以及各种半导体存储介质等。可移动记录介质901当然也可以是例如搭载有非接触型IC芯片的IC卡或电子设备等。

(连接端口882)

连接端口882是例如USB(Universal Serial Bus：通用串行总线)端口、IEEE1394端口、SCSI(Small Computer System Interface：小型计算机系统接口)、RS-232C端口或光学音频端子等用于连接外部连接设备902的端口。

(外部连接设备902)

外部连接设备902例如是打印机、便携音乐播放器、数字照相机、数字摄像机或IC记录器等。

(通信部883)

通信部883是用于与网络903连接的通信器件，例如是有线或无线LAN、Bluetooth(注册商标)或WUSB(Wireless USB)用通信卡、光通信用路由器、ADSL(Asymmetric DigitalSubscriber Line)用路由器或各种通信用调制解调器等。此外，还可以与内线电话网和便携电话运营商网等电话网连接。

＜4.总结＞

如以上说明的那样，本发明的信息处理装置30能够根据从传感器终端20发送的传感器信息的通信成本以及基于该传感器信息的判别精度，构筑按照每个传感器终端20和每个传感器210确定是否需要发送传感器信息的发送控制模型。此外，本发明的信息处理装置30能够使用传感器终端20根据上述发送控制模型发送的传感器信息，判别观测对象10的状态。根据该结构，能够在维持判别精度的同时大幅降低传感器信息的通信成本。

以上，参照附图对本发明的优选实施方式详细地进行了说明，但本发明并不限于上述示例。显然，只要是具有本发明所属的技术领域内的普通知识的人员，就能够在权利要求书所述的技术思想的范畴内想到各种变更例或修正例，这些变更例或修正例当然属于本发明的技术范围。

例如，在上述实施方式中，主要以观测对象10是装置等的情况为例进行了说明，但是，本发明的观测对象10也可以是环境。信息处理装置30例如还可以使用在办公室、房间等环境中得到的传感器信息，判别在该环境中正在进行什么样的活动。关于上述活动，例如可以假定人的步行以及会议的实施、向键盘进行的输入操作等。

此外，在上述实施方式中，主要对发送控制模型的构筑详细地进行了叙述，但是，在本发明中，还可以对提高数据通信及判别结果的目视确认性、认知性进行各种应用。例如，还可以通过在传感器终端20、信息处理装置30中搭载LED等装置，更直观地向用户提示传感器信息的发送接收及判别结果等信息。

此外，本发明的信息处理装置30的处理的各步骤并不一定需要沿着作为流程图而记述的顺序按时间序列进行处理。例如，信息处理装置30的处理的各步骤也可以按照与作为流程图而记述的顺序不同的顺序进行处理，还可以并列地进行处理。

Claims

1.一种信息处理装置，其中，所述信息处理装置具备：

判别部，其使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及

发送控制模型构筑部，其根据所述传感器信息的通信成本和所述判别部的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，

所述判别部根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据由所述发送控制模型构筑部确定的所述是否需要发送而发送的。

2.根据权利要求1所述的信息处理装置，其中，

所述发送控制模型构筑部通过强化学习按照每个所述传感器终端确定是否需要发送所述传感器信息。

3.根据权利要求1或2所述的信息处理装置，其中，

所述发送控制模型构筑部根据通过强化学习而得到的价值函数，按照每个所述传感器终端确定是否需要发送所述传感器信息。

4.根据权利要求1～3中的任意一项所述的信息处理装置，其中，

所述发送控制模型构筑部根据与通过强化学习而得到的是否需要发送的价值函数的值对应的概率，按照每个所述传感器终端确定是否需要发送所述传感器信息。

5.根据权利要求3或4所述的信息处理装置，其中，

所述发送控制模型构筑部使用神经网络对所述价值函数进行近似。

6.根据权利要求5所述的信息处理装置，其中，

所述发送控制模型构筑部将所述传感器信息和发送该传感器信息的传感器终端的信息输入到所述神经网络，对所述价值函数进行近似。

7.根据权利要求1～6中的任意一项所述的信息处理装置，其中，

所述判别部使用基于按照多个所述传感器终端中的每个所述传感器终端而接收的多个种类的传感器信息的学习结果来判别所述观测对象的状态，

所述发送控制模型构筑部按照每个所述传感器终端和传感器种类确定是否需要发送所述传感器信息。

8.根据权利要求1～7中的任意一项所述的信息处理装置，其中，

所述通信成本包含从所述传感器终端发送的所述传感器信息的数据量和与发送所述传感器信息有关的所述传感器终端的耗电中的至少任意一方。

9.一种信息处理方法，其中，所述信息处理方法包含：

使用基于从多个传感器终端接收的传感器信息的学习结果来判别观测对象的状态；以及

根据所述传感器信息的通信成本和与所述观测对象的状态有关的判别精度，按照每个所述传感器终端确定是否需要发送所述传感器信息，

所述判别还包含根据如下的所述传感器信息来判别所述观测对象的状态，其中，所述传感器信息是根据所确定的所述是否需要发送而发送的。

10.一种记录有用于使计算机作为信息处理装置发挥功能的程序的记录介质，其中，

所述信息处理装置具备：