CN112104964B

CN112104964B - 一种跟随式扩声机器人的控制方法及控制系统

Info

Publication number: CN112104964B
Application number: CN202011289404.9A
Authority: CN
Inventors: 陈孝良; 常乐; 阮明江
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2022-03-11
Anticipated expiration: 2040-11-18
Also published as: CN112104964A

Abstract

本发明适用于扩声技术领域，提供一种跟随式扩声机器人的控制方法及控制系统，该方法包括：对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词；若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置；当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作。

Description

一种跟随式扩声机器人的控制方法及控制系统

技术领域

本发明属于扩声技术领域，尤其涉及一种跟随式扩声机器人的控制方法及控制系统。

背景技术

在展厅的展示过程中，通常需要解说员对展厅的各个部分向来访用户进行介绍，当展厅面积较大或者人数众多时，解说员需要持续提高讲解的声音才能够确保来访用户可以听到其解说。然而，长时间大声讲解会使得解说员变得疲乏。

目前常见的方式是解说员随身携带扩音设备，例如小蜜蜂或者喇叭等，其虽然可以起到扩声的作用，但扩声效果有限，并且小蜜蜂或喇叭均具有一定的重量，持续佩戴在身上会增加解说员的负担，导致解说员容易疲乏，经小蜜蜂和喇叭对解说员疲乏的声音进行扩声后，更会影响到整体解说效果。

发明内容

有鉴于此，本发明实施例提供了一种跟随式扩声机器人的控制方法及控制系统，以解决现有技术中展厅展示过程中整体解说效果不佳的技术问题。

本发明实施例的第一方面，提供了一种跟随式扩声机器人的控制方法，包括：

对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词；

若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置；

当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作。

本发明实施例的第二方面，提供了一种跟随式扩声机器人的控制系统，至少包括：跟随式扩声机器人和语音采集装置，所述跟随式扩声机器人设有控制装置和扩声装置，所述语音采集装置与所述控制装置通过无线方式连接；

所述控制装置包括：

语音识别模块，用于对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词；

位置确定模块，用于若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置；

操作执行模块，用于当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本实施例通过语音采集装置实时获取解说员的语音信息，然后对语音信息进行语音识别，确定语音中是否存在目标关键词，若语音中存在目标关键词，确定目标关键才在语音中的位置，并利用扩声装置对该语音进行播放，当语音进行扩声播放的进度到达目标关键词所在的位置时，控制机器人执行与目标关键词对应的操作，不仅可以实现利用跟随式扩声机器人进行扩声播放，在扩声播放到目标关键词时，还可以执行目标关键词对应的操作，使得解说员的解说生动有趣，改善整体解说效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的跟随式扩声机器人的控制系统的结构示意图一；

图2是本发明实施例提供的跟随式扩声机器人的控制系统的结构示意图二；

图3是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图一；

图4是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图二；

图5是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图三；

图6是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图四；

图7是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图五；

图8是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图六；

图9是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图七；

图10是本发明实施例提供的跟随式扩声机器人的控制方法的实现流程示意图八；

图11是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置的示意图一；

图12是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置中操作执行模块的示意图一；

图13是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置中操作执行模块的示意图二；

图14是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置中操作执行模块的示意图三；

图15是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置中操作执行模块的示意图四；

图16是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置的示意图二；

图17是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置的示意图三；

图18是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置的位置确定模块的示意图；

图19是本发明实施例提供的跟随式扩声机器人的控制系统中控制装置的示意图四；

图20是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

在展厅的展示过程中，通常需要解说员对展厅的各个部分向来访用户进行介绍，当展厅面积较大或者人数众多时，解说员需要持续提高讲解的声音才能够确保来访用户可以听到其解说。为了减轻解说员的负担，解说员在讲解的过程中通常都会佩戴扩音设备，但小蜜蜂或喇叭的扩声效果有限，并且小蜜蜂或喇叭均具有一定的重量，持续佩戴在身上会增加解说员的负担，导致解说员容易疲乏，经小蜜蜂和喇叭对解说员疲乏的声音进行扩声后，更会影响到整体解说效果。

随着社会的发展和科学的进步，服务机器人已经广泛应用于各个行业，例如导览解说机器人作为职能公共服务机器人，在博物馆、科技馆、产品展馆等展厅的展示中发挥着越来越重要的作用。然而，现有的导览解说机器人通常只能根据设定的程序自行进行导览解说，无法与解说员进行交互，从而无法配合解说员进行更加高效的解说。

本实施例则充分考虑了解说员在解说过程中的解说负担以及跟随式扩声机器人在展厅解说过程中的可能作用，创造性地将其应用于解说员的解说过程中，从而可以在解说员的解说过程中实时配合解说员将其解说声音进行扩声播放，并且通过对解说员的语音信息进行识别，使得跟随式扩声机器人在扩声播放目标关键词时，控制机器人做出与目标关键词对应的操作，利用该跟随式扩声机器人不仅可以保证解说员的解说状态，还可以使得解说员的解说更加的生动有趣，进而改善整体解说效果。

请参阅图1，本实施例的第一方面，提供了一种跟随式扩声机器人的控制系统10，包括跟随式扩声机器人11和语音采集装置12。跟随式扩声机器人11设置有控制装置110、扩声装置111、移动装置112以及图像采集装置113，扩声装置111、移动装置112和图像采集装置113均与控制装置110连接，其中扩声装置111包括扬声器，可以在控制装置110的控制下进行扩声播放，其数量可以为一个，也可以为多个。当扩声装置111的数量为多个时，其可以设置于跟随式扩声机器人11的不同位置，且可以朝向不同方位，以便朝向不同方位扩声。扩声装置111可相对跟随式扩声机器人11固定设置，也可以相对跟随式扩声机器人11进行转动，从而调整其朝向。

移动装置112可以在控制装置110的控制下带动机器人进行移动，其可以根据需要进行具体设置，例如可以是安装于机器人底部的万向轮，可以朝着任意方向运动。

图像采集装置113可以在控制装置110的控制下实时采集解说员的图像，当然也可以根据需要采集其他图像，例如来访用户的图像。

语音采集装置12可以是不同类型，只要其能够采集解说员的声音，并将语音信息发送至跟随式扩声机器人11的控制装置110即可。例如，语音采集装置12可以是手持式麦克风或佩戴在解说员身上的麦克风，以方便解说员通过握持的方式来进行使用，麦克风设有无线通信模块，其可以与控制装置110进行无线通信，从而将采集的语音信息发送至控制装置110。再如，语音采集装置12可以是耳麦，其与手机等电子设备连接，通过电子设备将采集的语音信息发送至控制装置110。语音采集装置12还可以是麦克风阵列，可以有效提高声音采集的质量。

请参阅图2，在一个实施例中，控制系统10还包括设于解说员预设位置的定位标签13，控制装置110可以通过定位标签13对跟随式扩声机器人11的位置进行定位，并根据定位结果对跟随式扩声机器人11相对于解说员的位置进行调整。根据定位方式的不同，定位标签13也可以是不同类型，其可以设置于解说员的任意位置。例如，定位标签13可以设置于语音采集装置12上，具体地，当语音采集装置12是手持式麦克风时，定位标签13可以设置于该手持式麦克风上；当语音采集装置12是耳麦时，定位标签13可以设置于耳麦上或者电子设备上。再如，定位标签13可以设置于解说员身上的预设位置，例如可以设置在解说员的工牌上，工牌佩戴在解说员的身上。当然，定位标签也可以设置在解说员身上的其他位置，此处不做限制。

请参阅图3，本实施例的第二方面，提供了一种跟随式扩声机器人的控制方法，该扩声方法可以通过上述的控制系统实现，也可以通过其他方式实现。以下以上述控制系统为例来对跟随式扩声机器人的控制方法进行说明。跟随式扩声机器人的控制方法可以包括如下步骤：

步骤S21：对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词。

当解说员需要进行解说时，其可以开启语音采集装置12，此时语音采集装置12与跟随式扩声机器人11的控制装置110建立连接，语音采集装置12将实时采集的语音信息发送至控制装置110，控制装置110收到该语音信息后对其进行识别，确定语音中是否存在目标关键词，其中目标关键词是预先设定的词语。具体的，可以利用训练好的语音识别模块对实时获取的解说员的语音进行语音识别，确定语音中是否存在目标关键词。

步骤S22：若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置。

在一种可能的实现方式中，对实时获取的解说员的语音进行处理，确定该语音所对应的时间序列，在确定了该语音中存在目标关键词后，确定目标关键词在该时间序列中位置，将目标关键词在时间序列中的位置确定为目标关键词在语音中的位置。

在另一种可能的实现方式中，对解说员的语音进行语音识别，确定出语音对应的文本信息，对文本信息中的内容进行筛查，确定文本信息中是否存在目标关键词，若存在目标关键词，则确定目标关键词在文本信息中的位置，将目标关键词在文本信息中的位置确定为目标关键词在语音中的位置。

需要说明的是，若语音中不存在目标关键词，则控制机器人的扩声系统对解说员的语音进行扩声播放。

步骤S23：当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作。

利用机器人的扩声系统对语音进行扩声播放时，确定语音的播放进度，当语音的播放进度到达目标关键词时，控制机器人执行与目标关键词对应的操作。其中目标关键词对应的操作可以通过预先确定，即确定出目标关键词与执行动作的对应关系，在确定出目标关键词后，则可以确定出与目标关键词对应的执行动作。

在一种可能的实现方式中，利用控制指令对机器人执行与目标关键词对应的操作进行控制，即在确定了目标关键词后，生成控制指令，当对该语音进行扩声播放的进度到达目标关键词所在位置时，执行该控制指令，使得机器人执行与目标关键词对应的操作。

本实施例提供的跟随式扩声机器人的控制方法的有益效果至少在于：

本实施例通过语音采集装置实时获取解说员的语音信息，然后对语音信息进行语音识别，确定语音中是否存在目标关键词，若语音中存在目标关键词，确定目标关键词在语音中的位置，并利用扩声装置对该语音进行播放，当语音进行扩声播放的进度到达目标关键词所在的位置时，控制机器人执行与目标关键词对应的操作，不仅可以实现利用跟随式扩声机器人进行扩声播放，在扩声播放到目标关键词时，还可以执行目标关键词对应的操作，使得解说员的解说生动有趣，改善整体解说效果。

进一步地，目标关键词可以包括动作关键词或者音效关键词。当所述目标关键词为动作关键词时，控制所述机器人执行与所述动作关键词对应的操作。例如动作关键词可以为转圈、拍手、前进等，当动作关键词为转圈时，控制机器人做出转圈动作；当动作关键词为拍手时，机器人做出拍手动作；当动作关键词为前进时，机器人做出前进动作。当目标关键词为音效关键词时，控制所述机器人的扩声系统播放与所述音效关键词对应的声音效果。例如音效关键词可以包括各种动物、风、雨、河等，当音效关键词为动物时，控制机器人发出相应动物的叫声，如音效关键词为狗，则机器人的扩声系统发出狗叫的声音；当音效关键词为雨时，机器人的扩声系统发出雨滴的声音；当音效关键词为河时，机器人的扩声系统发出流水的声音。

在一种可能的实现方式中，利用不同的控制指令控制机器人执行与目标关键词对应的操作，其中控制指令可以包括动作指令和音效指令。举例来说，当语音采集装置实时获取的解说员的语音为“在我们正前方展出的是出自著名画家之手的雄鸡图”，该语音中鸡为音效关键词，确定鸡鸣音效指令，在扩声播放到鸡的时候发出鸡鸣的声音效果。或者获取到的语音中含有动作关键词“转圈”时，则生成转圈动作指令，使得扩声播放到转圈时，机器人并做出转圈的动作。

请参阅图4，当目标关键词为音效关键词时，控制机器人的扩声系统播放与音效关键词对应的声音效果包括：

步骤231，确定所述音效关键词对应的目标声音效果。

不同的音效关键词会对应不同的声音效果，如音效关键词鸡对应的声音效果是鸡鸣，音效关键词狗对应的声音效果是狗叫，则在确定了音效关键词后，需要确定与该音效关键词对应的目标声音效果。具体地，可以预先确定不同音效关键词与不同声音效果的对应关系，在确定了音效关键词后，即可以确定出目标声音效果。

在确定了目标声音效果后，存在两种可能方式控制机器人的扩声系统播放与音效关键词对应的声音效果。

请参阅图4，一种可能的实现方式为：步骤232a，控制所述机器人的扩声系统播放所述音效关键词的同时播放所述目标声音效果，即音效关键词和目标声音效果会一同被播放出来。

请参阅图5，另一种可能的实现方式为：步骤232b，控制所述机器人的扩声系统在播放所述音效关键词时，播放所述目标声音效果代替播放所述音效关键词，即仅有目标声音效果会被播放出来，而音效关键词不会被播放出来。

请参阅图6，进一步地，该方法还包括步骤233，确定所述音效关键词对应的目标播放时长。

确定了音效关键词对应的目标声音效果后，还需要确定音效关键词对应的目标播放时长，即目标声音效果的播放时间。例如，确定了音效关键词为河，确定了目标声音效果为流水声，进一步确定流水声的播放时长为1秒，则在机器人的扩声系统播放河时会播放1秒的流水声。具体地，在确定目标播放时长时，存在以下三种可能的实现方式：

实现方式一，确定音效关键词对应的目标字数；确定解说员的当前语速；基于所述目标字数和所述当前语速，确定所述音效关键词对应的目标播放时长。其中，解说员的当前语速可以是根据当前时刻前预设时间（如10秒）内解说员说出的总字数得到的，例如，确定解说员当前时刻前10秒内是否处于持续说话状态（即10秒内没有超过两秒的未说话状态），若是，则直接统计10秒内解说员说出的总字数，利用得到的总字数除以10秒确定出解说员的当前语速；若在当前时刻前10秒内存在超过两秒的未说话状态，则确定未说话状态的时间，并统计10秒内解说员说出的总字数，利用得到的总字数除以10秒与停顿时间的差值确定解说员的当前语速。当然也可以根据解说员的日常说话速度，确定解说员的语速，并在机器人系统中存储该语速，在需要确定解说员的当前语速时，可以直接调用该存储的语速；存在存储了多个不同解说员的语速的情况，在机器人调用存储的语速前，对解说员进行身份识别，确定解说员的身份信息，调用与该身份信息对应的语速作为当前语速，并根据当前语速与目标字数的乘积确定目标播放时长。

实现方式二，确定所述音效关键词对应的目标字数；确定扩声系统对应的目标语速；基于所述目标字数和所述目标语速，确定所述音效关键词对应的目标播放时长。机器人的扩声系统设置了目标语速，即无论解说员以何种语速进行解说，扩声系统会根据设置的目标语速进行扩声播放，从而避免解说员语速过快或过慢影响用户的整体解说体验，因此在确定了目标字数后，根据目标语速和目标字数的乘积，确定出音效关键词对应的目标播放时长。

实现方式三，提取所述音效关键词对应的时域信息；基于所述时域信息，确定所述音效关键词对应的目标播放时长。因为语音是具有时间顺序的信息，因此在对语音进行处理可以获取到语音对应的时域信息，在时域信息中确定音效关键词对应的起始点和终止点，将音效关键词起始点和终止点间的时间长度确定为目标播放时长。

在确定了目标播放时长后，存在如下两种可能的实现方式控制机器人的扩声系统播放与音效关键词对应的声音效果。

请参阅图6，一种可能的实现方式为：步骤232c，控制所述机器人的扩声系统播放所述音效关键词的同时播放目标播放时长的所述目标声音效果，即音效关键词和目标声音效果会一同被播放出来，且会播放目标播放时长的目标声音效果。

请参阅图7，另一种可能的实现方式为：步骤232d，控制所述机器人的扩声系统在播放所述音效关键词时，播放目标播放时长的所述目标声音效果代替播放所述音效关键词，即仅有目标播放时长的目标声音效果会被播放出来，而音效关键词不会被播放出来。

请参阅图8，进一步地，解说员不仅可以通过语音信息控制跟随式扩声机器人11，还可以通过姿态对跟随式扩声机器人11进行控制，则所述方法还包括：

步骤S24，对图像采集装置实时获取的解说员的图像进行图像识别，确定所述解说员的姿态是否符合目标姿态。

步骤S25，若所述解说员的姿态符合所述目标姿态，控制机器人执行所述目标姿态对应的操作。

利用图像采集装置113实时的获取解说员的图像，并对图像进行识别，以确定出图像中的解说员对应的姿态，其中所述姿态可以为动作或手势。其中目标姿态是指预先存储的解说员的姿态。具体地，对图像进行识别，确定出解说员的当前姿态，计算当前姿态与目标姿态间的匹配度，若当前姿态与目标姿态的匹配度大于预设值（如90%），则确定解说员的姿态符合目标姿态；若不大于预设值，则解说员的姿态不符合目标姿态。预先为目标姿态确定对应的控制指令，在解说员的姿态符合目标姿态时，控制机器人执行该目标姿态对应的控制指令，以控制机器人执行目标姿态对应的操作。

具体地，解说员的姿态不仅可以对应于正常的动作指令，如解说员转动手指时，对应着转圈的动作指令，为了增加跟随式扩声机器人11在扩音播放过程中的趣味性，可以设定各种内容的控制指令，例如解说员的姿态为摆手时，控制指令对应变声播放；解说员的伸出食指时，控制指令对应旋转播放等。

在上述实施例中，不仅可以通过解说员的语音，还可以通过解说员的姿态控制跟随式扩声机器人11在解说员解说的过程中为配合解说做出相应动作或发出相应的声音效果，从而使得通过该跟随式扩声机器人11扩音播放的解说更为生动有趣，有利于改善整体的解说效果。

解说员往往不是在完全安静的环境下进行解说的，通常在解说员周边聚集有大量的来访用户，因此即使语音采集装置12佩戴在解说员身上，也会采集到周边的声音，即语音采集装置12采集到的语音信息可能不仅有解说员的语音信息，还可能包括其他来访用户的语言，则将语音采集装置12实时采集到的语音信息直接进行扩声播放，可能会影响到整体解说效果，因此请参阅图9，在步骤S21对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词步骤前，还包括：

步骤S26，对语音采集装置实时采集的声音进行语音检测，确定出输入语音。

步骤S27，对所述输入语音进行分离，确定出至少一人的语音。

步骤S28，对所述至少一人的语音进行声纹识别，获取解说员的语音。

对语音采集装置实时采集的声音进行语音检测，确定出输入语音，此时输入语音中可能不仅包含解说员的语音，还可能包括来访用户的语音，因此需要对输入语音进行分离，以确定出至少一个人的语音，然后对至少一个人的语音进行声纹识别，获取到解说员的语言。具体地，预先存储解说员的声纹信息，在获取到至少一个人的语音后，跟存储的解说员的声纹信息进行比对，确定匹配度，当匹配度大于设定值时，确定该语音为解说员的语音。

在上述实施例中，需要对语音采集装置13实时采集的声音进行语音检测，确定出的输入语音信息，并经分离、声纹识别确定出解说员的语音，从而保证经机器人扩声系统扩声播放的均为解说员的语音，避免对来访用户的语音进行播放，提升来访用户的整体解说体验。

请参阅图10，进一步地，解说员在展示厅内进行解说时，需要根据解说的内容进行移动，来访人员通常也是跟着解说员的移动而移动的，为了保证利用跟随式扩声机器人11的进行扩声播放的整体效果，需要保证跟随式扩声机器人11与解说员的相对位置关系，因此所述方法还包括：

步骤S29，获取所述跟随式扩声机器人与所述解说员间的实时距离。

在一种可能的实现方式中，利用图像采集装置113确定跟随式扩声机器人11与解说员间的实时距离。例如跟随式扩声机器人11设有左相机和右相机，利用三角测距原理，可以获取跟随式扩声机器人11与解说员的实时距离。具体的，在通过双目相机进行测距时，首先进行相机标定，获取双目相机中每个相机的内部参数以及测量两个相机之间的相对位置（即右相机相对于左相机的旋转矩阵R和平移向量t）。然后进行双目校正，即根据相机标定后获得的单目内参数据（焦距、成像原点、畸变系数）和双目相对位置关系（旋转矩阵和平移向量），分别对左右视图进行消除畸变和行对准，使得左右视图的成像原点坐标一致、两摄像头光轴平行、左右成像平面共面、对极线行对齐，以使得一个相机获得的一幅图像上任意一点与其在另一个相机获得的另一幅图像上的对应点具有相同的行号，只需在该行进行一维搜索即可匹配到对应点。然后通过控制跟随式扩声机器人11的双目相机按照预设频率获取解说员的图像，其中左相机和右相机同时获取解说员图像，并进行双目匹配，得到左右相机的视差数据，从而可以根据视差数据计算出深度信息，即双目相机与解说员之间的距离，进而可以确定跟随式扩声机器人11与解说员的实时距离。

在另一种可能的实现方式中，利用定位标签确定跟随式扩声机器人11与解说员间的实时距离。例如，在解说员的预设位置处设置定位标签，然后按照预设频率获取跟随式扩声机器人11与定位标签的实时距离。

在又一种可能的实现方式中，利用声源定位确定跟随式扩声机器人11与解说员间的实时距离。例如，在移动机器人的左右两边各设置一个麦克风，利用麦克风矩阵实现声源定位，确定出跟随式扩声机器人11与解说员间的实时距离。

步骤S30，根据所述实时距离与预设距离，控制所述跟随式扩声机器人与所述解说员间的相对位置。

在获取了跟随式扩声机器人11相对于解说员的实时位置后，需要确认解说员相对于机器人的位置是否发生变化，此时需要将实时距离与预设距离进行比较，判断实时距离与预设距离的差值是否大于阈值，如果实时距离与预设距离的差值大于阈值，则意味着解说员相对跟随式扩声机器人11的位置发生了比较大的变动，此时需要控制跟随式扩声机器人11朝向解说员运行该差值的距离，并在达到了目标位置后，对语音进行扩声播放；如果实时距离与预设距离的差值不大于阈值，则意味着解说员相对跟随式扩声机器人11的位置并未发生较大变动，此时跟随式扩声机器人11的位置无需改变。应当理解的是，实时距离与预设距离的差值可以是正值，也可以是负值。当实时距离与预设距离的差值是正值时，意味着跟随式扩声机器人11相对于解说员的距离增大了，此时需要朝向靠近解说员的方向移动；当实时距离与预设距离的差值是负值时，意味着跟随式扩声机器人11相对于解说员的距离减小了，此时需要朝向远离解说员的方向移动。

在上述实施例中，通过确定解说员与跟随式扩声机器人11间的实时距离和预设距离，保证跟随式扩声机器人11与解说员间的实时距离在预设阈值内，如此既可以保证语音采集装置13和控制装置110之间的数字信息传输路径间的稳定，又可以保证跟随式扩声机器人11与来访用户间的适宜距离，保证扩声效果，进而改善整体解说效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图11，基于相同的发明构思，本发明实施例提供的跟随式扩声机器人的控制系统10中，控制装置110包括语音识别模块1101，用于对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词；位置确定模块1102，用于若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置；操作执行模块1103，用于当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作。

进一步地，所述操作执行模块1103用于当所述目标关键词为动作关键词时，控制所述机器人执行与所述动作关键词对应的操作；还用于当所述目标关键词为音效关键词时，控制所述机器人的扩声系统播放与所述音效关键词对应的声音效果。

请参阅图12，进一步地，当所述目标关键词为音效关键词时，所述操作执行模块1103包括：

声音效果确定单元11031，用于确定所述音效关键词对应的目标声音效果；

第一控制单元11032，用于控制所述机器人的扩声系统播放所述音效关键词的同时播放所述目标声音效果。

请参阅图13，进一步地，当所述目标关键词为音效关键词时，所述操作执行模块1103包括：

播放时长确定单元11033，确定所述音效关键词对应的目标播放时长；

第二控制单元11034，控制所述机器人的扩声系统播放所述音效关键词的同时播放目标播放时长的所述目标声音效果。

请参阅图14，进一步地，当所述目标关键词为音效关键词时，所述操作执行模块1103包括：

声音效果确定单元11031，确定所述音效关键词对应的目标声音效果；

第三控制单元11035，控制所述机器人的扩声系统在播放所述音效关键词时，播放所述目标声音效果代替播放所述音效关键词。

请参阅图15，进一步地，当所述目标关键词为音效关键词时，所述操作执行模块1103包括：

第四控制单元11036，控制所述机器人的扩声系统在播放所述音效关键词时，播放目标播放时长的所述目标声音效果代替播放所述音效关键词。

进一步地，播放时长确定单元11033，用于确定所述音效关键词对应的目标字数；确定所述解说员的当前语速；基于所述目标字数和所述当前语速，确定所述音效关键词对应的目标播放时长。

进一步地，播放时长确定单元11033，用于确定所述音效关键词对应的目标字数；确定扩声系统对应的目标语速；基于所述目标字数和所述目标语速，确定所述音效关键词对应的目标播放时长。

进一步地，播放时长确定单元11033，用于提取所述音效关键词对应的时域信息；基于所述时域信息，确定所述音效关键词对应的目标播放时长。

请参阅图16，进一步地，所述控制装置110还包括，图像识别处理模块1104，用于对图像采集装置实时获取的解说员的图像进行图像识别，确定所述解说员的姿态是否符合目标姿态；姿态控制模块1105，用于若所述解说员的姿态符合所述目标姿态，控制机器人执行所述目标姿态对应的操作。

请参阅图17，进一步地，述控制装置110还包括，语音获取模块1106，所述语音获取模块包括：语音检测单元11061，语音分离单元11062和语音获取单元11063，

所述语音检测单元11061，用于对语音采集装置实时采集的声音进行语音检测，确定出输入语音；

所述语音分离单元11062，用于对所述输入语音进行分离，确定出至少一人的语音；

所述语音获取单元11063，用于对所述至少一人的语音进行声纹识别，获取解说员的语音。

请参阅图18，进一步地，所述位置确定模块1102包括：

序列确定单元11021，用于确定所述语音对应的时间序列；

位置确定单元11022，用于若所述语音中存在目标关键词，确定所述目标关键词在所述时间序列中的位置。

请参阅图19，进一步地，所述控制装置110还包括，实时距离获取模块1107，用于获取所述跟随式扩声机器人与所述解说员间的实时距离；相对位置调整模块1108，用于根据所述实时距离与预设距离，控制所述跟随式扩声机器人与所述解说员间的相对位置。

当然，在其他实施例中，控制装置110的各个模块还可以进一步包括一个或多个单元，用于实现对应的功能，此处不做赘述。

图20是本发明一实施例提供的终端设备的示意图。如图20所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如跟随式扩声机器人的控制程序。所述处理器60执行所述计算机程序62时实现上述各个跟随式扩声机器人的控制方法实施例中的步骤，例如图3所示的步骤S21至S23。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图11所示模块1101至1103的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图20仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种跟随式扩声机器人的控制方法，其特征在于，包括：

当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作；

其中，所述目标关键词包括音效关键词；所述控制所述机器人执行与所述目标关键词对应的操作步骤，包括：

当所述目标关键词为音效关键词时，确定所述音效关键词对应的目标声音效果；

控制所述机器人的扩声系统播放所述音效关键词的同时播放所述目标声音效果；

或，控制所述机器人的扩声系统在播放所述音效关键词时，播放所述目标声音效果代替播放所述音效关键词；

所述音效关键词包括各种动物、风、雨、河；

其中，所述若所述语音中存在目标关键词，确定所述目标关键词在所述语音中的位置步骤，包括：

确定所述语音对应的时间序列；若所述语音中存在所述目标关键词，确定所述目标关键词在所述时间序列中的位置。

2.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述目标关键词包括动作关键词；所述控制所述机器人执行与所述目标关键词对应的操作步骤，包括：

当所述目标关键词为动作关键词时，控制所述机器人执行与所述动作关键词对应的操作。

3.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述方法还包括：确定所述音效关键词对应的目标播放时长；

所述控制所述机器人的扩声系统播放所述音效关键词的同时播放所述目标声音效果，包括：

控制所述机器人的扩声系统播放所述音效关键词的同时播放目标播放时长的所述目标声音效果。

4.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述方法还包括：确定所述音效关键词对应的目标播放时长；

所述控制所述机器人的扩声系统在播放所述音效关键词时，播放所述目标声音效果代替播放所述音效关键词，包括：

控制所述机器人的扩声系统在播放所述音效关键词时，播放目标播放时长的所述目标声音效果代替播放所述音效关键词。

5.如权利要求3或4所述的跟随式扩声机器人的控制方法，其特征在于，所述确定所述音效关键词对应的目标播放时长步骤，包括：

确定所述音效关键词对应的目标字数；

确定所述解说员的当前语速；

基于所述目标字数和所述当前语速，确定所述音效关键词对应的目标播放时长；

或，

确定所述音效关键词对应的目标字数；

确定扩声系统对应的目标语速；

基于所述目标字数和所述目标语速，确定所述音效关键词对应的目标播放时长；

或，

提取所述音效关键词对应的时域信息；

基于所述时域信息，确定所述音效关键词对应的目标播放时长。

6.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述方法还包括：

对图像采集装置实时获取的解说员的图像进行图像识别，确定所述解说员的姿态是否符合目标姿态；

若所述解说员的姿态符合所述目标姿态，控制机器人执行所述目标姿态对应的操作。

7.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述对语音采集装置实时获取的解说员的语音进行语音识别，确定所述语音中是否存在目标关键词步骤前，还包括：

对语音采集装置实时采集的声音进行语音检测，确定出输入语音；

对所述输入语音进行分离，确定出至少一人的语音；

对所述至少一人的语音进行声纹识别，获取解说员的语音。

8.如权利要求1所述的跟随式扩声机器人的控制方法，其特征在于，所述方法还包括：

获取所述跟随式扩声机器人与所述解说员间的实时距离；

根据所述实时距离与预设距离，控制所述跟随式扩声机器人与所述解说员间的相对位置。

9.一种跟随式扩声机器人的控制系统，其特征在于，至少包括：跟随式扩声机器人和语音采集装置，所述跟随式扩声机器人设有控制装置和扩声装置，所述语音采集装置与所述控制装置通过无线方式连接；

所述控制装置包括：

操作执行模块，用于当对所述语音进行扩声播放的进度到达所述目标关键词所在的位置时，控制所述机器人执行与所述目标关键词对应的操作；

其中，所述目标关键词包括音效关键词；所述操作执行模块，用于

所述音效关键词包括各种动物、风、雨、河；

其中，所述位置确定模块，用于确定所述语音对应的时间序列；若所述语音中存在所述目标关键词，确定所述目标关键词在所述时间序列中的位置。

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述方法的步骤。