CN109520511A

CN109520511A - 基于增强学习的室内声源找寻方法、介质、设备和装置

Info

Publication number: CN109520511A
Application number: CN201811613315.8A
Authority: CN
Inventors: 王学文; 姜增如; 金洪龙; 单小熙
Original assignee: Beijing Punuo Xing Technology Co Ltd
Current assignee: Beijing Punuo Xing Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-03-26

Abstract

本发明涉及一种基于增强学习的室内声源找寻方法、介质、设备和装置，其方法包括：采集环境信息和目标声音信号；根据环境信息和目标声音信号，使用经增强学习算法训练后的目标找寻模型生成寻址动作；根据寻址动作驱动移动物体运动至目标声音信号对应的目标声源位置；其介质上存储有计算机程序，该程序用于执行上述的方法步骤；其找寻设备包括上述的存储介质和处理器；其找寻装置包括声音采集模块、环境感知模块、寻址动作生成模块和控制模块。本发明能够自主学习相关参数，完成找寻过程，不仅减少了人为干预，而且具有较好的容错能力和鲁棒性，极大提高了移动物体一次性移动至目标声源的成功率，同时提高了目标声源找寻的效率。

Description

基于增强学习的室内声源找寻方法、介质、设备和装置

技术领域

本发明涉及机器学习与人工智能领域，特别涉及一种基于增强学习的室内声源找寻方法、介质、设备和装置。

背景技术

传统声源定位方法主要利用麦克风阵列对声波的传播方向进行测量，并由此估计声源位置，然后通过机器人导航控制机器人移动到声源定位所提供的声源位置。在室内环境下，由于墙壁和各种物品对声波传播的影响，这些方法很难估计各种情况下的声源位置，而且存在噪声干扰从而影响声源定位的准确性。还有其他声源定位方法通过给定室内的建筑布局来解决复杂环境下的声源定位问题，这些方法准确度不高，且不具有通用性。

发明内容

本发明提供了一种基于增强学习的室内声源找寻方法、介质、设备和装置，解决了以上所述的技术问题。

本发明解决上述技术问题的技术方案如下：一种基于增强学习的室内声源找寻方法，包括以下步骤：

S01，采集环境信息和目标声音信号；

S02，根据所述环境信息和所述目标声音信号，使用经增强学习算法训练后的目标找寻模型生成寻址动作；

S03，根据所述寻址动作驱动移动物体运动至所述目标声音信号对应的目标声源位置。

本发明的有益效果是：本发明采用增强学习算法获取用于找寻室内目标声源的寻址动作，该算法能够自主学习相关参数，完成找寻过程，不仅大大减少以往找寻方法的参数调试工作，减少了人为干预，而且该方法有较好的容错能力和鲁棒性，极大提高了移动物体一次性移动至目标声源的成功率，同时提高了目标声源找寻的效率，可以在智能机器人等领域广泛应用。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，还包括S04，所述S04具体为：获取移动物体是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则返回S01更新环境信息和目标声音信号，并重新生成寻址动作。

进一步，S02中采用增强学习算法训练生成目标找寻模型具体为：

S201，建立初始找寻模型；

S202，采集环境信息和训练声音信号，并采用初始找寻模型生成寻址动作，根据所述寻址动作驱动移动物体运动至所述训练声音信号对应的训练声源位置；

S203，获取采用预设评价算法对所述移动物体的运动过程进行评价的评价结果，并根据所述评价结果对所述初始找寻模型进行更新；

S204，重复S202-203，直至达到预设训练结束条件，并生成目标找寻模型。

进一步，S203中，所述预设评价算法具体为：获取所述移动物体运动过程中的运动数据，查询预设的对应关系表，根据所述运动数据所处的区间获取对应的奖惩值；所述运动数据包括当前时刻所述移动物体与训练声源的距离、所述移动物体与障碍物的碰撞次数、所述移动物体的运动时间和所述移动物体的运动步数中的至少一个。

进一步，所述S204具体为：采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，重复上述过程直至达到预设训练结束条件，并生成目标找寻模型。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现以上所述的基于增强学习的室内声源找寻方法。

本发明还提供了一种基于增强学习的室内声源找寻设备，包括以上所述的计算机可读存储介质和处理器，所述处理器执行所述计算机可读存储介质上的计算机程序时实现上述基于增强学习的室内声源找寻方法的步骤。

本发明还提供了一种基于增强学习的室内声源找寻装置，包括声音采集模块、环境感知模块、寻址动作生成模块和控制模块，

所述声音采集模块用于采集目标声音信号；

所述环境感知模块用于采集环境信息；

所述寻址动作生成模块用于根据所述环境信息和所述目标声音信号，使用经增强学习算法训练后的目标找寻模型生成寻址动作；

所述控制模块用于根据所述寻址动作驱动移动物体运动至所述目标声音信号对应的目标声源位置。

进一步，所述基于增强学习的室内声源找寻装置还包括判断模块，所述判断模块用于获取移动物体是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则返回S01更新环境信息和目标声音信号，并重新生成寻址动作。

进一步，所述寻址动作生成模块包括训练单元和存储单元，所述训练单元具体包括：

模型建立单元，用于建立初始找寻模型；

移动控制单元，用于采集环境信息和训练声音信号，并采用初始找寻模型生成寻址动作，根据寻址动作驱动移动物体运动至所述训练声音信号对应的训练声源位置；

模型优化单元，用于获取采用预设评价算法对所述移动物体的运动过程进行评价的评价结果，根据所述评价结果对所述初始找寻模型进行更新，并采用更新后的找寻模型重复运动过程和评价过程直到达到预设训练结束条件，生成目标找寻模型；

所述存储单元用于存储所述目标找寻模型。

进一步，所述预设评价算法具体为：获取所述移动物体运动过程中的运动数据，查询预设的对应关系表，根据所述运动数据所处的区间获取对应的奖惩值；所述运动数据包括当前时刻所述移动物体与训练声源的距离、所述移动物体与障碍物的碰撞次数、所述移动物体的运动时间和所述移动物体的运动步数中的至少一个。

进一步，所述模型优化单元具体用于采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，重复上述运动过程和评价过程直至达到预设训练结束条件，并生成目标找寻模型。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明一实施例的室内声源找寻方法的流程示意图；

图2为本发明另一实施例的室内声源找寻方法的流程示意图；

图3为本发明一实施例中采用增强学习算法训练生成目标找寻模型的流程示意图；

图4为本发明又一实施例的室内声源找寻方法的流程示意图；

图5为本发明一实施例中训练生成目标DQN模型的流程示意图；

图6为本发明一实施例的室内声源找寻装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明的一实施例提供了一种基于增强学习的室内声源找寻方法，包括以下步骤：

S01，采集环境信息和目标声音信号；

本实施例采用增强学习算法获取用于找寻室内目标声源的寻址动作，该算法能够自主学习相关参数，完成找寻过程，不仅大大减少以往找寻方法的参数调试工作，减少了人为干预，而且该方法有较好的容错能力和鲁棒性，极大提高了移动物体一次性移动至目标声源的成功率，同时提高了目标声源找寻的效率，可以在智能机器人等领域广泛应用。

具体来说，本实施例基于增强学习的室内声源找寻方法，可以应用在家庭机器人通过主人的呼叫找到主人以提供服务的场景，也可以用于公共场所的服务机器人通过顾客的呼叫找到顾客的场景。在上述场景下，先获取环境信息和目标声音信号，比如可以采用红外传感器、超声波传感器等传感器或者摄像头采集障碍物位置信息、障碍物距离信息、墙壁信息等环境信息，采用麦克风阵列等声音采集装置采集目标对象，比如主人或者顾客的语音信号，然后使用经增强学习算法训练后的目标找寻模型生成寻址动作，此时所述寻址动作为所述智能机器人的控制指令，比如角速度控制指令、线速度控制指令等等，以驱动智能机器人快速、准确移动至目标对象处。此外，本实施例的基于增强学习的室内声源找寻方法还可以应用在智能机器人找寻目标位置的场景，比如扫地机器人找寻充电位置，此时，同样先采集环境信息和目标声音信号，比如充电位置的充电桩发出的目标声音信号，然后使用经增强学习算法训练后的目标找寻模型生成扫地机器人的控制指令，以驱动扫地机器人快速、准确移动至充电位置处。除此以外，本实施例基于增强学习的室内声源找寻方法还可以帮助残障人士找寻目标装置，比如遥控器等，此时遥控器发出目标声音信号，残障人士的手持终端(比如手机、平板等)根据目标声音信号、环境信息以及目标找寻模型生成并显示寻址动作，比如用于指示移动方向和移动距离的文字指令或者语音指令等等，残障人士根据该文字指令或者语音指令即可移动至目标装置处。

如图2所示，为本发明又一实施例提供的一种基于增强学习的室内声源找寻方法的流程示意图，包括：

S01，采集环境信息和目标声音信号；

S03，根据所述寻址动作驱动移动物体运动至所述目标声音信号对应的目标声源位置；

S04，获取移动物体是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则返回S01更新环境信息和目标声音信号，并重新生成寻址动作。

上述实施例中，移动物体可以在移动过程中通过采集到的环境信息主动判断是否到达所述目标声源位置，比如在移动物体上设置传感器或者摄像头等元件采集环境信息进行自动判断，并在没有到达所述目标声源位置时返回S01更新环境信息和目标声音信号，并重新生成寻址动作，从而进一步提高目标声源找寻的效率和成功率。其他实施例中，也可以在声源处设置摄像头或者rfid射频识别装置，在预设时间长度后主动根据摄像头拍摄的照片或者根据rfid射频识别技术等判断移动物体是否达到目标声源位置，并把判断结果发送给移动物体，以驱动移动物体更新环境信息和目标声音信号，并重新生成寻址动作，上述方案均在本发明的保护范围以内。

如图3所示，为本发明一实施例的S02中采用增强学习算法训练生成目标找寻模型的流程示意图，具体包括以下步骤：

S201，建立初始找寻模型；

上述S203中，所述预设评价算法可以预先存储在移动物体上，从而直接采用所述预设评价算法对本次运动过程进行评价，生成评价结果；也可以将所述预设评价算法存储在其他终端上，比如设置在训练声源上，由训练声源接收所述移动物体发送的运动过程，并采用预设评价算法生成评价结果后将评价结果发送至移动物体。

更加优选实施例的S203中，所述预设评价算法具体为：获取所述移动物体运动过程中的运动数据，查询预设的对应关系表，根据所述运动数据所处的区间获取对应的奖惩值；所述运动数据包括当前时刻所述移动物体与训练声源的距离、所述移动物体与障碍物的碰撞次数、所述移动物体的运动时间和所述移动物体的运动步数中的至少一个。比如具体实施例中，根据所述移动物体与所述训练声源的距离得到奖惩，当所述移动物体运动至训练声源位置，则得到正值奖励，比如+10，当所述移动物体运动在运动过程中碰到障碍物，则赋予负值，比如-10，当所述移动物体既没有运动至训练声源位置，又没有在运动过程中碰到障碍物，则赋予零值。

上述优选实施例中，所述S204具体为：采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，直至达到预设训练结束条件，并生成目标找寻模型。该实施例中同样可以采用增强学习算法对训练声源的位置进行优化，使训练声源位置不容易被移动物体找寻到，具体方法为：将环境信息作为状态s_t，根据移动物体找到训练声源位置的时间、步数、与障碍物的碰撞次数等数据作为奖惩，例如时间越长奖励越大，时间越短奖励越小；步数越多奖励越大，步数越少奖励越小；碰到障碍物得负奖励等等。位置改变后的训练声源再次发出训练声音信号，然后本实施例的室内声源找寻算法根据新的训练声音信号再次对找寻模型进行优化直至达到预设训练结束条件，并生成目标找寻模型，从而进一步提高了目标声源找寻的效率和成功率。

上述实施例中，所述预设训练结束条件包括移动物体运动至所述训练声音信号对应的训练声源位置，比如移动物体和训练声源的距离小于给定阈值；或者寻址动作中没有一种能使当前状态产生变化；或者执行动作的次数达到设定值等等。不同实施例可以根据不同的增强学习算法建立不同的初始找寻模型，比如根据Q-learning算法建立Q表，并对Q表进行更新，直至Q表最终收敛到一个稳定的表。具体来说，在Q-learning算法中，通过建立一个Q表来存储状态-动作的Q值，通过公式(1)更新状态的Q值，

Q(s，a)＝Q(s，a)+α[r+γmax_a'Q(s'，a')-Q(s，a)] (1)

其中，s为当前状态，Q(s,a)为当前状态s下每一个动作a的Q值，Q(s′,a′)为执行动作a之后下一状态s′下每一个动作a′的Q值，γ为学习效率，α折扣因子，r是执行动作a之后得到的价值。通过不断学习，Q表最终收敛到一个稳定的表。针对状态比较多的情况，Q表(Q-table)会无限大，此时可以根据DQN算法来训练得到DQN模型，具体的方法通过以下实施例进行详细论述。

该实施例的室内声源找寻方法的找寻模型为DQN模型，训练声源为训练机器人，移动物体为工作机器人，此时声音信号为训练机器人模拟人声发出的语音信号，寻址动作为用于驱动工作机器人移动的控制指令。DQN是建立在Q-learning的基础上，用神经网络取代Q表计算Q值。在DQN中有两个结构相同但是参数不同的神经网络—估计神经网络及现实神经网络，现实神经网络用于计算当前状态的s下每一个动作a的Q值Q(s,a)，估计神经网络用于计算下一个状态s′下每一个动作a′的Q值Q(s′,a′)，其中，在训练阶段用到现实神经网络及估计神经网络，在训练结束之后，只用现实神经网络选择动作。

具体如图4所示，本实施例所述基于增强学习的室内声源找寻方法包括以下步骤：

S1，训练机器人模拟人声发出目标语音信号；

S2，工作机器人采集所述目标语音信号和环境信息，并使用训练好的目标DQN模型中的现实神经网络计算所述目标语音信号和所述环境信息下每一个动作的Q值，并根据ε-greedy策略生成目标a_t，即生成控制指令；

S3，工作机器人根据所述控制指令运动至所述训练机器人所处的目标声源位置；

S4，经预设时间后，获取工作机器人是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则更新环境信息和目标声音信号，并重新生成寻址动作。

如图5所示，为上述实施例中训练生成目标DQN模型的流程示意图，包括以下步骤：

S11，建立初始DQN模型，所述初始DQN模型包括两个结构相同但是参数不同的神经网络，即估计神经网络和现实神经网络，现实神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a)，一个动作a表示工作机器人为寻找到训练机器人的控制指令；估计神经网络用于计算下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a)；所述估计神经网络和现实神经网络的输入为环境信息和声音信号，所述环境信息包括障碍物位置信息、障碍物距离信息、墙壁信息中的至少一个；

S12，对所述初始DQN模型进行训练，具体包括以下步骤：

S121，初始化所述估计神经网络的权重W₁和所述现实神经网络的权重W₂。

S122，工作机器人通过红外传感器采集当前环境信息，并通过麦克风阵列接收训练机器人模拟人声发出的训练语音信号，将所述当前环境信息和所述训练语音信号作为当前状态S_t输入到现实神经网络，计算当前状态S_t下每一个动作a，即每一个控制指令的Q值Q(s_t,a)。具体来说，训练机器人使用经增强学习算法训练后的目标移动模型生成控制指令，并根据所述控制指令运动至难以被移动物体找寻到的训练声源位置，并模拟人声发出训练语音信号。

S123，工作机器人根据ε-greedy策略选择一个动作a_t，即选择一个控制指令，并执行所述动作a_t，得到下一个状态S_t+1和采用预设评价算法生成的奖惩值，比如找到训练机器人则奖惩值为10分，碰到障碍物则奖惩值为-10分，其他情况下奖惩值为0分；所述预设评价算法可以设置在工作机器人上，即直接得到所述奖惩值，也可以将所述预设评价算法设置在训练机器人上，训练机器人计算得到奖惩值后发送给工作机器人。

S124，工作机器人根据预设损失函数，并采用梯度下降法更新所述现实神经网络的权重W₂；所述预设损失函数为：

L＝E[(r+γ·max_a′Q(s_t+1，a_t+1)-Q(s_t，a_t))²]，

其中Q(s_t+1，a_t+1)由估计神经网络产生，Q(s_t，a_t)由现实神经网络产生，γ为取值小于1为折损率。

S125，每隔N步将现实神经网络参数的权重W₂赋值给估计神经网络的权重W₁。

优选的实施例中，S124具体为：将所述当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的奖惩值以及下一个状态构成的元组存入记忆池，并在记忆池的存储容量达到预设值时随机抽取指定数量的存储数据，根据预设损失函数并采用梯度下降法更新所述现实神经网络的权重W₂。更加优选的实施例中，当工作机器人找寻到训练机器人时，采用经增强学习方法训练后的目标移动模型改变训练机器人的训练声源位置，并形成新的训练语音信号，采用新的训练语音信号对所述记忆池的存储数据进行更新，从而再次更新所述现实神经网络的权重W₂。

上述实施例中，所述ε-greedy策略是指设置一个Epsilon值ε，其中ε是一个介于0-1之间的数，在选择动作的过程中，产生一个随机数random，若random<ε，则选择最大Q值对应的动作a_t，否则随机选择一个动作。

优选地，本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现以上所述的基于增强学习的室内声源找寻方法。

优选地，本发明还提供了一种基于增强学习的室内声源找寻设备，包括所述的存储介质和处理器，所述处理器执行所述存储介质上的计算机程序时实现以上所述的基于增强学习的室内声源找寻方法的步骤。

如图6所示，本发明还提供了一种基于增强学习的室内声源找寻装置，包括声音采集模块、环境感知模块、寻址动作生成模块和控制模块，

所述声音采集模块用于采集目标声音信号；

所述环境感知模块用于采集环境信息；

本发明提供的实施例中，所述基于增强学习的室内声源找寻装置还包括判断模块，所述判断模块用于获取移动物体是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则返回S01更新环境信息和目标声音信号，并重新生成寻址动作。

优选实施例中，所述寻址动作生成模块包括训练单元和存储单元，所述训练单元具体包括：

模型建立单元，用于建立初始找寻模型；

所述存储单元用于存储所述目标找寻模型。

优选地，本发明提供的实施例中，所述预设评价算法具体为：获取所述移动物体运动过程中的运动数据，查询预设的对应关系表，根据所述运动数据所处的区间获取对应的正值奖励、负值奖励或者零值奖励；所述运动数据包括当前时刻所述移动物体与训练声源的距离、所述移动物体与障碍物的碰撞次数、所述移动物体的运动时间和所述移动物体的运动步数中的至少一个。

另一优选实施例中，所述模型优化单元具体用于采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，重复上述运动过程和评价过程直至达到预设训练结束条件，并生成目标找寻模型。

本发明又一实施例还提供了一种基于增强学习的室内声源找寻装置，包括训练机器人和工作机器人，所述训练机器人包括声音生成模块，所述工作机器人包括声音采集模块、环境感知模块、寻址动作生成模块、控制模块和判断模块，

所述声音生成模块用于模拟人声发出目标语音信号；

所述声音采集模块用于采集所述目标语音信号；

所述环境感知模块用于采集环境信息；

所述寻址动作生成模块用于使用训练好的目标DQN模型中的现实神经网络计算所述目标语音信号和所述环境信息下每一个动作的Q值，并根据ε-greedy策略生成目标a_t，即生成控制指令；

所述控制模块用于驱动所述工作机器人根据所述控制指令运动至所述训练机器人所处的目标声源位置；

所述判断模块用于获取工作机器人是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则更新环境信息和目标声音信号，并重新生成寻址动作。

上述实施例中，所述寻址动作生成模块还包括训练单元，所述训练单元包括：

模型建立单元，具体用于建立初始DQN模型，所述初始DQN模型包括两个结构相同但是参数不同的神经网络，即估计神经网络和现实神经网络，现实神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a)，一个动作a表示工作机器人为寻找到训练机器人的控制指令；估计神经网络用于计算下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a)；所述估计神经网络和现实神经网络的输入为环境信息和声音信号，所述环境信息包括障碍物位置信息、障碍物距离信息、墙壁信息中的至少一个；

初始化单元，用于初始化所述估计神经网络的权重W₁和所述现实神经网络的权重W₂；

移动控制单元，用于通过红外传感器采集当前环境信息，并通过麦克风阵列接收训练机器人模拟人声发出的训练语音信号，将所述当前环境信息和所述训练语音信号作为当前状态S_t输入到现实神经网络，计算当前状态S_t下每一个动作a，即每一个控制指令的Q值Q(s_t,a)，根据ε-greedy策略选择一个动作a_t，即选择一个控制指令，并执行所述动作a_t，得到下一个状态S_t+1；

模型优化单元，具体用于获取采用预设评价算法生成的奖惩值，根据预设损失函数，并采用梯度下降法更新所述现实神经网络的权重W₂，每隔N步将现实神经网络参数的权重W₂赋值给估计神经网络的权重W₁，并生成目标找寻模型；所述预设损失函数为：

L＝E[(r+γ·max_a′Q(s_t+1，a_t+1)-Q(s_t，a_t))²]，

上述实施例中，所述预设评价算法可以设置在工作机器人上，即直接得到所述奖惩值，也可以将所述预设评价算法设置在训练机器人上，训练机器人计算得到奖惩值后发送给工作机器人。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于增强学习的室内声源找寻方法，其特征在于，包括以下步骤：

S01，采集环境信息和目标声音信号；

2.根据权利要求1所述的基于增强学习的室内声源找寻方法，其特征在于，还包括S04，所述S04具体为：获取移动物体是否到达目标声源位置的判断结果，若已到达，则找寻过程结束，若没有到达，则返回S01更新环境信息和目标声音信号，并重新生成寻址动作。

3.根据权利要求1或2所述的基于增强学习的室内声源找寻方法，其特征在于，S02中采用增强学习算法训练生成目标找寻模型具体为：

S201，建立初始找寻模型；

4.根据权利要求3所述的基于增强学习的室内声源找寻方法，其特征在于，S203中，所述预设评价算法具体为：获取所述移动物体运动过程中的运动数据，查询预设的对应关系表，根据所述运动数据所处的区间获取对应的奖惩值；所述运动数据包括当前时刻所述移动物体与训练声源的距离、所述移动物体与障碍物的碰撞次数、所述移动物体的运动时间和所述移动物体的运动步数中的至少一个。

5.根据权利要求4所述的基于增强学习的室内声源找寻方法，其特征在于，所述S204具体为：采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，重复上述过程直至达到预设训练结束条件，并生成目标找寻模型。

6.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-5任一项所述的方法。

7.一种基于增强学习的室内声源找寻设备，其特征在于，包括权利要求6所述的计算机可读存储介质和处理器，所述处理器执行所述计算机可读存储介质上的计算机程序时实现如权利要求1-5任一项所述方法的步骤。

8.一种基于增强学习的室内声源找寻装置，其特征在于，包括声音采集模块、环境感知模块、寻址动作生成模块和控制模块，

所述声音采集模块用于采集目标声音信号；

所述环境感知模块用于采集环境信息；

9.根据权利要求8所述的基于增强学习的室内声源找寻装置，其特征在于，所述寻址动作生成模块包括训练单元和存储单元，所述训练单元具体包括：

模型建立单元，用于建立初始找寻模型；

所述存储单元用于存储所述目标找寻模型。

10.根据权利要求9所述的基于增强学习的室内声源找寻装置，其特征在于，所述模型优化单元具体用于采集移动后的训练声源发出的训练声音信号以及环境信息，并采用更新后的找寻模型生成寻址动作，然后根据寻址动作驱动移动物体运动至移动后的训练声源位置，并获取采用预设评价方法对本次运动过程进行评价的评价结果，根据所述评价结果再次对所述找寻模型进行更新，重复上述运动过程和评价过程直至达到预设训练结束条件，并生成目标找寻模型。