CN112104962A - 一种基于图像识别的跟随式机器人扩声方法及扩声系统 - Google Patents
一种基于图像识别的跟随式机器人扩声方法及扩声系统 Download PDFInfo
- Publication number
- CN112104962A CN112104962A CN202011185925.XA CN202011185925A CN112104962A CN 112104962 A CN112104962 A CN 112104962A CN 202011185925 A CN202011185925 A CN 202011185925A CN 112104962 A CN112104962 A CN 112104962A
- Authority
- CN
- China
- Prior art keywords
- robot
- age
- voice
- user
- commentator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003321 amplification Effects 0.000 title claims abstract description 108
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000002787 reinforcement Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 230000001755 vocal effect Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 2
- 210000001260 vocal cord Anatomy 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 19
- 230000008569 process Effects 0.000 description 39
- 230000000875 corresponding effect Effects 0.000 description 33
- 230000001276 controlling effect Effects 0.000 description 21
- 230000009471 action Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Manipulator (AREA)
Abstract
本发明适用于扩声技术领域,提供一种基于图像识别的跟随式机器人扩声方法及扩声系统,该方法包括:在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对解说员的语音进行扩声播放;获取各用户的人脸图像,并对人脸图像进行图像识别,以获取各用户的年龄;将获取的各用户的年龄中的最大年龄确定为目标年龄,并判断目标年龄是否大于预设年龄;若目标年龄大于预设年龄,则调整机器人相对目标年龄对应的目标用户的位置。本发明通过跟随式可移动机器人对解说员的语音进行扩声播放,免去了解说员需要随身佩戴扩音设备的负担,且确保年龄较大用户也能够听清楚解说内容,改善了整体解说效果。
Description
技术领域
本发明属于扩声技术领域,尤其涉及一种基于图像识别的跟随式机器人扩声方法及扩声系统。
背景技术
在展厅的展示过程中,通常需要解说员对展厅的各个部分向用户进行介绍,当展厅面积较大或者人数众多时,解说员需要持续提高讲解的声音才能够确保用户可以听到其解说。然而,长时间大声讲解会使得解说员变得疲乏。
目前常见的方式是解说员随身携带扩音设备,例如小蜜蜂或者喇叭等,其虽然可以起到扩声的作用,但是对于用户较多的情况,小蜜蜂或者喇叭等扩音设备无法根据不同的用户调整扩音方式,导致扩声效果不佳。
发明内容
有鉴于此,本发明实施例提供了一种基于图像识别的跟随式机器人扩声方法及扩声系统,以解决现有技术中扩音设备无法根据不同的用户调整扩音方式,导致扩声效果不佳的技术问题。
本发明实施例的第一方面,提供了一种基于图像识别的跟随式机器人扩声方法,包括:
在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放;
获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄;
将获取的各人脸图像对应的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否大于预设年龄;
若所述目标年龄大于预设年龄,则调整获取所述机器人相对所述目标年龄对应的目标用户的位置。
本发明实施例的第二方面,提供了一种基于图像识别的跟随式机器人扩声系统,包括:机器人和声音采集装置,所述机器人设有控制装置、扩声装置和图像采集装置,所述第一声音采集装置与所述控制装置通信连接;
所述控制装置包括:
扩声控制模块,用于在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放;
年龄获取模块,用于获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄;
判断模块,用于将获取的各所述用户的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否满足预设年龄;
位置调整模块,用于若所述目标年龄满足预设年龄,则调整所述机器人相对所述目标年龄对应的目标用户的位置。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过第一声音采集装置实时采集解说员的语音,并通过机器人对该语音进行扩声后播放,免去了解说员需要随身佩戴扩音设备的负担;同时,在解说过程中实时获取用户的人脸图像及年龄,通过用户年龄来实时调整机器人相对于目标用户的位置,以使得机器人与目标用户的距离维持在预设范围,在确保第一声音采集装置与机器人之间的数字信息传输稳定的情况下,解说信息能够以最佳的方式进行扩声播放,年龄较大用户也能够听清楚解说内容,改善整体解说效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的基于图像识别的跟随式机器人扩声系统的结构示意图一;
图2是本发明实施例提供的基于图像识别的跟随式机器人扩声系统的结构示意图二;
图3是本发明实施例提供的基于图像识别的跟随式机器人扩声方法的实现流程示意图一;
图4是本发明实施例提供的基于图像识别的跟随式机器人扩声方法中步骤S21的实现流程示意图;
图5是本发明实施例提供的基于图像识别的跟随式机器人扩声方法中步骤S213的实现流程示意图;
图6是本发明实施例提供的基于图像识别的跟随式机器人扩声方法的实现流程示意图二;
图7是本发明实施例提供的基于图像识别的跟随式机器人扩声方法中步骤S22的实现流程示意图;
图8是本发明实施例提供的基于图像识别的跟随式机器人扩声方法中步骤S24的实现流程示意图一;
图9是本发明实施例提供的基于图像识别的跟随式机器人扩声方法中步骤S24的实现流程示意图二;
图10是本发明实施例提供的基于图像识别的跟随式机器人扩声系统中控制装置的示意图一;
图11是本发明实施例提供的基于图像识别的跟随式机器人扩声系统中控制装置的示意图二;
图12是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
在展厅的展示过程中,通常需要解说员对展厅的各个部分向用户进行解说,当展厅面积较大或者人数众多时,解说员需要持续提高讲解的声音才能够确保用户可以听到其解说。为了减轻解说员的负担,解说员在讲解的过程中通常都会佩戴扩音设备,例如小蜜蜂或者喇叭等。然而,虽然随身佩戴的扩音设备可以起到扩声的作用,但是一方面由于小蜜蜂或者喇叭均具有一定的重量,持续佩戴在身上会增加解说员的负担,导致解说员容易疲乏;另一方面由于小蜜蜂或者喇叭等扩音设备无法根据不同年龄段的用户调整扩音方式,其扩音效果有限,导致其扩声效果不佳,影响整体解说效果。
随着社会的发展和科学的进步,服务机器人已经广泛应用于各个行业,例如导览解说机器人作为职能公共服务机器人,在博物馆、科技馆、产品展馆等展厅的展示中发挥着越来越重要的作用。然而,现有的导览解说机器人通常只能根据设定的程序自行进行导览解说,无法与解说员进行交互,从而无法配合解说员进行更加高效的解说。
本实施例则充分考虑了解说员在解说过程中的解说负担以及机器人在展厅解说过程中的可能作用,创造性地将其应用于解说员的解说过程中,从而可以在解说员的解说过程中实时配合解说员将其解说声音进行扩声播放,在保证机器人与解说员之间的信号稳定传输的情况下,能够对用户进行识别,根据用户年龄来调整其位置,确保解说员的语音能够以最佳的方式通过机器人进行扩声播放,使得即便是年龄较大的用户也能够清楚听到解说员的解说,改善整体解说效果。
请参阅图1,本实施例的第一方面,提供了一种基于图像识别的跟随式机器人扩声系统10,包括可移动机器人11和第一声音采集装置12。机器人11设置有控制装置110、扩声装置111、移动装置112以及图像采集装置113,扩声装置111、移动装置112和图像采集装置113均与控制装置110连接,其中扩声装置111包括扬声器,可以在控制装置110的控制下进行扩声播放,其数量可以为一个,也可以为多个。当扩声装置111的数量为多个时,其可以设置于机器人11的不同位置,且可以朝向不同方位,以便朝向不同方位扩声。扩声装置111可相对可移动机器人11固定设置,也可以相对可移动机器人11进行转动,从而调整其朝向。
移动装置112可以在控制装置110的控制下带动机器人进行移动,其可以根据需要进行具体设置,例如可以是安装于机器人底部的万向轮,可以朝着任意方向运动。
图像采集装置113可以在控制装置110的控制下实时采集用户的图像,当然也可以根据需要采集其他图像。
第一声音采集装置12可以是不同类型,只要其能够采集解说员的声音,并发送至机器人11的控制装置110即可。例如,第一声音采集装置12可以是手持式麦克风或佩戴在解说员身上的麦克风,以方便解说员通过握持的方式来进行使用,麦克风设有通信模块,优选无线通信模块,其可以与控制装置110进行无线通信,从而将采集的语音发送至控制装置110。当然,麦克风也可以与控制装置通过有线方式连接,此处不做限制。再如,第一声音采集装置12可以是耳麦,其与手机等电子设备连接,通过电子设备将采集的语音发送至控制装置110。第一声音采集装置12还可以是麦克风阵列,可以有效提高声音采集的质量。
请参阅图2,在一个实施例中,扩声系统10还包括设于解说员预设位置的定位标签13,控制装置110可以通过定位标签13对机器人11的位置进行定位,并根据定位结果对机器人11相对于解说员的位置进行调整。根据定位方式的不同,定位标签13也可以是不同类型,其可以设置于解说员的任意位置。例如,定位标签13可以设置于第一声音采集装置12上,具体地,当第一声音采集装置12是手持式麦克风时,定位标签13可以设置于该手持式麦克风上;当第一声音采集装置12是耳麦时,定位标签13可以设置于耳麦上或者电子设备上。再如,定位标签13可以设置于解说员身上的预设位置,例如可以设置在解说员的工牌上,工牌佩戴在解说员的身上。当然,定位标签13也可以设置在解说员身上的其他位置,此处不做限制。
请参阅图3,本实施例的第二方面,提供了一种基于图像识别的跟随式机器人扩声方法,该扩声方法可以通过上述的扩声系统实现,也可以通过其他方式实现。以下以上述扩声系统为例来对基于图像识别的跟随式机器人扩声方法进行说明。基于图像识别的跟随式机器人扩声方法可以包括如下步骤:
步骤S21:在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放。
当解说员需要进行解说时,其可以开启第一声音采集装置12,此时第一声音采集装置12与机器人的控制装置110建立连接,第一声音采集装置12将实时采集的语音发送至控制装置110,控制装置110收到该语音后对其进行语音处理,并控制扩声装置111工作,以实现对语音的扩声播放,提高解说员的音量,使得解说员即使在声音较小的情况下,也可以让用户能够清楚听到其解说内容。
步骤S22:获取用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄。
由于解说员通常是面向众多不同年龄的用户进行解说,而不同年龄的用户的听力不同,例如中青年用户的听力通常较好,声音不需要很大也可以听清楚,而老年用户的听力通常都有衰退,需要提高声音才能够听得清楚,而将声音提高得太大容易导致中青年用户不适。因此,在通过机器人11进行扩声播放的过程中,可以对用户进行识别,从而可以根据用户年龄有针对性地调整扩声过程。在识别过程中,控制装置110可以控制图像采集装置113按照预设频率采集用户的图像,以获取用户的人脸图像,并通过预设模型对人脸图像进行图像识别,从而可以获得每一位用户对应的年龄。
可以理解的是,获取的用户年龄可以是一个点,也可以是一个年龄范围;预设模型是通过样本集进行训练后得到的,样本集中每个样本均包括人脸图像样本和表示该人脸图像样本的年龄范围的年龄标签。获取人脸图像的频率可以根据需要进行设置,例如,对于解说员变换位置较频繁的场景,用户也会跟随其频繁变换场景,此时获取人脸图像的频率可以较高,对于解说环境相对固定的场景,获取人脸图像的频率可以较低。
步骤S23:将获取的各所述用户的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否大于预设年龄。
当用户为多个时,获取的用户年龄也可以有多个。考虑到只有年龄超过一定范围才会存在明显的听力差异问题,且超过后年龄越大的用户其听力越差的可能性越高,因此在对机器人11进行调整时,可以将所获取的最大年龄确定为目标年龄,并确认目标年龄是否满足预设年龄。可以理解的是,预设年龄可以根据需要进行设置,例如可以为50~70岁中的任意值。对于目标年龄小于该预设年龄的情况,例如,用户的最大年龄为40岁,则目标年龄可以为40岁,用户存在明显听力差异的可能性较低,此时无需根据用户年龄调整机器人11的位置。
若所述目标年龄大于预设年龄,意味着用户中年龄较大者听力越差的可能性越高,需要据此来调整机器人11的位置,此时可以执行下述步骤:
步骤S24:调整所述机器人相对所述目标年龄对应的目标用户的位置。
为了确保机器人11的扩声效果,控制装置110在进行扩声播放的过程中,按照预设频率获取机器人与目标用户之间的第一实时距离,从而可以实时确定机器人11相对于该目标用户的位置,并根据其相对位置来调整机器人的位置,以确保机器人11与目标用户的位置在预设范围内,使得目标用户能够听清楚扩声装置111播放的声音。
本实施例提供的基于图像识别的跟随式机器人扩声方法的有益效果至少在于:本实施例通过第一声音采集装置12实时采集解说员的语音,并通过机器人11对该语音进行扩声后播放,免去了解说员需要随身佩戴扩音设备的负担;同时,在解说过程中实时获取用户的人脸图像及年龄,通过用户年龄来实时调整机器人11相对于目标用户的位置,以使得机器人与目标用户的距离维持在预设范围,在确保第一声音采集装置12与机器人11之间的数字信息传输稳定的情况下,解说信息能够以最佳的方式进行扩声播放,年龄较大用户也能够听清楚解说内容,改善整体解说效果。
进一步地,图3所示的方案是在接收到解说员的语音时,直接对该语音进行扩声播放,但目前有些机器人具有语音交互功能,通过语音即可控制机器人执行某项动作或者操作,因此当解说员说出某个用于控制机器人的命令词时,如果机器人将解说员的命令词扩声播放,则会影响交互体验且影响解说效果。为了解决该问题,本申请对图3所示方案中步骤S21进行改进,改进如图4所示,步骤S21中,所述在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放的步骤,包括:
步骤S211:对所述解说员的语音进行语音识别,确定所述语音中是否包含命令词。
第一声音采集装置12在采集了解说员的语音后,将模拟信号转换为数字信号,并将该语音对应的数字信号发送至机器人11的控制装置110,控制装置110在获取数字信号后进行语音处理,获得对应的文本信息。可选的,语音处理包括语音识别,在具体地实施过程中,若考虑到机器人11本地算力不足或者考虑到不需要机器人11进行识别工作的情况,控制装置110可将所述数字信号发送至云端/服务器端,由云端/服务器端完成语音识别的工作,进而获得对应的文本信息。
为了让解说过程更加生动,解说员在解说的过程中,还可以通过命令词控制机器人11对应执行一些动作/操作。所述命令词可以包括动作命令词,例如可以让机器人“向前移动”、“向后移动”、“向左移动”、“向右移动”、“转圈”等。所述命令词还可以包括音频调节命令词,例如进行音量调节,包括“增大音量”、“减小音量”、“立体音”,或者进行音色切换,包括“标准音色”、“女性音色”、“男性音色”、某个公众人物的音色即“XXX的音色”等。
由于解说员在解说的过程中可能随时说出上述命令词,因此为了避免解说员说出的命令词被扩音播放,且为了让机器人准确执行这些动作/操作,需要对解说员的语音进行语音识别,在进行语音识别的过程中,可预设指令文本以及与指令文本对应的控制指令,当解说员说出这些命令词时,预设指令文本匹配识别出上述命令词,从而实现对机器人的控制。因此,在获得了文本信息后,需要将文本信息与预设的指令文本进行匹配,以判断文本信息中是否包含指令文本。
若所述文本信息中不包含指令文本,则意味着语音中不包含命令词,解说员不需要机器人执行动作/操作,只需要机器人进行扩声播放即可,此时执行下述步骤:
步骤S212:控制机器人的扩声装置对所述语音进行扩声播放。
若所述文本信息中包含指令文本,则意味着语音中包含命令词,解说员需要机器人执行相应的动作/操作,此时执行下述步骤:
步骤S213:根据所述命令词,控制所述机器人执行所述命令词对应的操作。
由于指令文本关联有对应的命令词,因此在确定了文本信息中的指令文本时,可根据该指令文本控制机器人执行相应动作/操作,例如控制移动装置112带动机器人“向前移动”、“向后移动”、“向左移动”、“向右移动”、“转圈”等。
本实施例在对解说员的语音进行扩声播放的过程中,通过对语音进行语音识别可以获取其中的命令词,使得机器人在进行扩声的过程中能够配合解说员执行相应的动作/操作,解说过程更加生动。
进一步地,在步骤S211中,由于解说员在解说过程中会随机地或者碰巧说出一些命令词,致使机器人11会错误地执行与所述随机命令词对应的动作/操作,导致一些误操作。为了解决这一问题,对步骤S21再进一步改进,即在确定了解说员的语音中包括命令词(步骤S211)时,还需要对语音进行文本分析,确定解说员的意图,即图5所示的步骤S213,该步骤包括:
步骤S2131:获取所述命令词前后的语音。
此处命令词前后的语音可以是所述命令词所在的语句,也可以是所述命令词所在的语句以及该语句前后预设数量的句数的句子。
步骤S2132:对所述命令词以及所述命令词前后的语音进行语义分析,确定所述解说员的意图。
此处根据语义分析确定出语音中的命令词究竟是解说员刻意发出的对机器人的控制指令,还是随机给出的、或者错误给出的指令,从而明确解说员的意图。明确解说员的意图包括两种可能,即确定解说员的意图是控制所述机器人执行所述命令词,确定解说员的意图不是控制所述机器人执行所述命令词。
步骤S2133:基于所述解说员的意图,控制所述机器人执行与所述意图对应的操作。
若所述解说员的意图是控制所述机器人执行所述命令词,则根据所述命令词,控制所述机器人执行所述命令词对应的操作。
若所述解说员的意图不是控制所述机器人执行所述命令词,则执行所述步骤S212,控制所述机器人的扩声装置对所述语音进行扩声播放。
本实施例在语音识别出命令词后进一步进行语义分析,从而可以确定解说员的意图,并基于该意图控制机器人执行与意图相对应的动作/操作,避免了误操作。
进一步地,在根据所述命令词控制所述机器人执行所述命令词对应的操作的过程中,若所述命令词包括动作命令词时,则根据所述动作命令词,控制所述机器人执行与所述动作命令词对应的预设动作,例如可以让机器人“向前移动”、“向后移动”、“向左移动”、“向右移动”、“转圈”等;若所述命令词包括音频调节命令词,则根据所述音频调节命令词,控制所述扩声装置执行与所述音频调节命令词对应的音频调节操作,例如进行音量调节或者进行音色切换等。
请参阅图6,进一步地,在对解说员的语音进行扩声播放前,需要对解说员的身份进行验证,以确认解说员是否具有控制机器人进行扩声播放的权限。此外,由于解说员所处的场景通常会存在大量的噪音,尤其是用户的交流语音,为了避免机器人的扩声装置将其他无关的语音进行扩声,本申请对图1所示的方案作了改进,如图6所示,在所述控制机器人的扩声装置对所述解说员的语音进行扩声播放的步骤之前,还包括对解说员的语音进行声纹识别的步骤,具体包括:
步骤S20:对所述语音进行声纹识别,确认发出所述语音的用户是否为解说员身份。
根据声纹信息的特定性和稳定性的特点,通过采集语音的声纹信息,并将声纹信息与预设声纹信息进行匹配,以确认提供该语音的用户的身份,只有匹配度满足预设要求的声纹信息才表明该用户为解说员身份,从而具有相应权限,此时控制机器人的扩声装置对所述解说员的语音进行扩声播放。如果语音的声纹信息与预设声纹信息的匹配度不满足预设要求,则表明该用户不是解说员,从而不具有相应权限,无法控制机器人的扩声装置进行扩声播放。
可以理解的是,在扩声播放的过程中,可以是每次收到语音后都进行声纹识别,以确认身份,确保扩声装置仅对解说员的语音进行扩声。另外,若每次接收到语音都要进行声纹识别,可能会导致语音处理的时间过长,造成扩声延迟的问题,因此,在一次解说的过程中,可以只在开始进行扩声播放的时候进行声纹识别,即所述步骤S20仅在所述控制机器人的扩声装置对所述解说员的语音进行扩声播放的步骤之前执行一次,通过声纹识别验证后在扩声播放的过程中无需重复进行声纹识别,避免扩声延迟的问题。
进一步地,解说员在解说的过程中,用户也可以随机进行提问,用户的提问也可以通过扩声系统进行扩声,以便其他用户或者解说员能够听到其提问。因此,请参阅图6,本实施例提供的基于图像识别的跟随式机器人扩声方法还包括:
步骤S251:通过第二声音采集装置获取用户语音,并对用户语音进行语音处理,确定所述用户语音是否为用户提问。
第二声音采集装置114可以设置在机器人11上(请参阅图6),也可以是可移动的麦克风,其供用户手持(请参阅图7)。当通过第二声音采集装置114获取到用户语音后,需要对用户进行语音识别以及语义分析等语音处理,以确认该用户语音是否为用户的提问。当确认用户语音为用户提问时,此时无需执行确认用户是否为解说员身份的步骤,直接对用户语音进行扩声播放,即:
步骤S252:控制所述机器人的扩声装置对所述用户语音进行扩声播放。
当用户语音不是用户提问时,此时无需对用户语音进行扩声播放。
进一步地,请参阅图7,本申请步骤S22中,所述获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄的步骤,包括
步骤S221:对采集的用户的图像进行图像处理,获取所述图像中各用户的人脸图像。
在通过图像采集装置113采集用户的图像时,一张图像中可能包括人脸图像以及除人脸图像之外的其他部分,此时需要对图像进行图像识别,以获取其中的人脸图像,且每张人脸图像中仅包括一个用户的人脸。可以理解的是,当采集的图像中有多个人脸时,可以获得多张人脸图像。
步骤S222:采用年龄识别模型对各所述人脸图像进行图像识别,确定各人脸图像对应的年龄,以获取每位用户对应的年龄。其中,所述年龄识别模型使用样本集通过机器学习训练得到。
通过训练获得的年龄识别模型主要包括特征提取层、全局平均池化层和输出层。其中,特征提取层包括卷积层、批归一化和激活函数,用于提取人脸图像的各个局部特征。全局平均池化层用于对特征提取层输出的各个局部特征进行全局平均池化操作,得到人脸图像的全局特征。输出层是一个全连接层,对于卷积层和池化层提取得到有用的图像特征,全连接层利用这些有用的图像特征进行分类,得到识别结果。在本实施例中,全连接层的输入为人脸图像的全局特征,输出的识别结果是1维的标量X,X代表人脸图像的年龄大小。当然,在其他实施例中,年龄识别模型也可以通过其他方式获得,也可以为其他结构,此处不做限制。
进一步地,请参阅图8,为了确保即便是听力可能最差的目标用户都能够清楚听到扩声装置播放的解说信息,步骤S24中,调整所述机器人相对所述目标年龄对应的目标用户的位置的步骤,包括:
步骤S241:根据所述目标年龄,获取与所述目标年龄对应的用户为目标用户;
步骤S242:确定所述目标用户相对于所述机器人的位置。
当目标年龄确定后,与目标年龄对应的用户也即确定,从而可以根据原图像中目标用户的位置确定目标用户与机器人的图像采集装置113的位置,此处位置信息包括角度,以便后续根据该角度调整图像采集装置113来进一步确定第一实时距离。
步骤S243:根据所述目标用户相对于所述机器人的位置,获取所述目标用户与所述机器人之间的第一实时距离。在获取机器人与目标用户的第一实时距离时,根据机器人的具体结构不同,可以具有不同的获取第一实时距离的方式。
在一个实施例中,图像采集装置包括双目相机,即机器人设有左相机和右相机,利用三角测距原理,可以获取机器人与目标用户的第一实时距离,具体可以包括:
根据所述目标用户相对于所述机器人的位置,控制所述机器人的双目相机按照预设频率获取所述目标用户的图像;
对所述双目相机获取的目标用户的图像进行匹配,并根据匹配结果获取所述目标用户与所述机器人之间的第一实时距离。
具体地,在通过双目相机进行测距时,首先进行相机标定,获取双目相机中每个相机的内部参数以及测量测量两个相机之间的相对位置(即右相机相对于左相机的旋转矩阵R和平移向量t)。然后进行双目校正,即根据相机标定后获得的单目内参数据(焦距、成像原点、畸变系数)和双目相对位置关系(旋转矩阵和平移向量),分别对左右视图进行消除畸变和行对准,使得左右视图的成像原点坐标一致、两摄像头光轴平行、左右成像平面共面、对极线行对齐,以使得一个相机获得的一幅图像上任意一点与其在另一个相机获得的另一幅图像上的对应点具有相同的行号,只需在该行进行一维搜索即可匹配到对应点。然后通过控制可移动机器人的双目相机按照预设频率获取目标用户的人脸图像,其中左相机和右相机同时获取目标用户人脸图像,并进行双目匹配,得到左右相机的视差数据,从而可以根据视差数据计算出深度信息,即双目相机与目标用户之间的距离,进而可以确定机器人与目标用户的第一实时距离。
在一个实施例中,图像采集装置包括结构光模组和相机,利用结构光模组向空间投射具有编码信息的结构光图案,通过相机采集该结构光图案后进行解析,从而可以获取机器人与目标用户的第一实时距离,具体可以包括:
根据所述目标用户相对于所述机器人的位置,控制所述机器人的结构光模组向所述目标用户投射结构光图案;
根据采集的经过所述目标用户反射的结构光图案,确定所述目标用户与所述机器人之间的第一实时距离。
本实施例中结构光图案可以是点结构光、线结构光或、简单的面结构光或者经过编码的光学图案,此处不做限制。
在一个实施例中,图像采集装置包括红外测距传感器和相机,利用三角测距原理,可以获取可移动机器人与目标用户的实时距离,具体可以包括:
根据所述目标用户相对于所述机器人的位置,控制所述机器人的红外测距传感器向所述目标用户投射红外线;
根据接收的经过所述目标用户反射的红外线,计算红外测距传感器与目标用户之间的距离,进而可确定所述目标用户与所述机器人之间的第一实时距离。
当然,在其他实施例中,可移动机器人与目标用户的第一实时距离还可以通过其他方式获得,并不仅限于上述的情形,此处不做限制。
步骤S244:基于所述第一实时距离以及第一预设距离,调整所述机器人相对所述目标用户的位置。
在获取了机器人相对于目标用户的实时位置后,需要确认目标用户相对于机器人的位置是否满足要求,此时需要将第一实时距离与第一预设距离进行比较,判断第一实时距离与第一预设距离的差值是否大于第一阈值,如果第一实时距离与第一预设距离的差值大于第一阈值,则意味着目标用户相对机器人的位置太远,可能导致目标用户听不清解说,此时需要控制可移动机器人朝向该目标用户运动该差值的距离;如果第一实时距离与第一预设距离的差值不大于第一阈值,则意味着目标用户相对机器人的位置满足要求或者并未发生较大变动,此时可移动机器人的位置无需改变。应当理解的是,第一实时距离与第一预设距离的差值可以是正值,也可以是负值。当第一实时距离与第一预设距离的差值是正值时,意味着可移动机器人相对于目标用户的距离太大,此时需要朝向靠近目标用户的方向移动;当第一实时距离与第一预设距离的差值是负值时,意味着可移动机器人相对于目标用户的距离太小,此时需要朝向远离目标用户的方向移动。
进一步地,为了确保第一声音采集装置12与机器人11之间的数字信息传输稳定,因此在调整机器人11相对于目标用户的位置过程中,需要确保机器人与第一声音采集装置12之间的距离满足要求。本申请对图3所示方案中步骤S24进行改进,改进如图9所示,步骤S24包括如下步骤:
步骤S245:根据所述目标年龄,确定与所述目标年龄对应的用户为目标用户;
步骤S246:确定所述目标用户相对于所述机器人的位置;
步骤S247:根据所述目标用户相对于所述可移动机器人的位置,确定所述目标用户与所述机器人之间的第一实时距离;
步骤S248:根据设于所述解说员预设位置的定位标签,确定所述机器人与所述定位标签的第二实时距离;
步骤S249:基于所述第一实时距离、第一预设距离、第二实时距离以及第二预设距离,在确保所述机器人相对所述解说员的距离不大于所述第二预设距离的情况下,调整所述机器人相对所述目标用户的位置。
在调整机器人的位置过程中,需要判断第一实时距离与第一预设距离的差值是否大于第一阈值,在大于第一阈值的情况下,控制可移动机器人朝向该目标用户运动,且确保机器人在运动的过程中,机器人与定位标签的第二实时距离满足预设条件(不大于第二预设距离),以确保第一声音采集装置12与机器人11之间的数字信息传输稳定,保证扩声播放效果。
进一步地,当机器人的扩声装置111数量为多个、且各扩声装置11可以相对机器人进行转动时,在进行扩声播放的过程中,还可以对扩声装置11的扩声状态进行调整,此处扩声状态包括扩声装置111的音量和朝向。请参阅图6,此时,步骤S24后还包括:
步骤S261:获取各用户的人脸图像,并获取所述人脸图像中各所述用户相对于所述机器人的位置;
步骤S262:根据各所述用户相对于所述机器人的位置,调整所述机器人的各个扩声装置的扩声状态。
经过步骤S24后,机器人相对目标用户的位置已经经过调整,此时机器人相对其他用户的位置也发生变化,因此需要通过图像采集装置113重新获取用户的人脸图像,进行图像处理,以获取机器人相对于各用户的位置,并根据位置调整每个扩声装置的朝向以及音量,以使得每个扩声装置都能朝向处于该方位的用户,同时每个方位的用户都能获得更好的扩声效果。可以理解的是,在调整过程中,可以仅调整扩声装置的朝向,或者调整扩声装置的音量,也可以同时调整扩声装置的朝向和音量。
进一步地,在步骤S23中,如果目标年龄不大于预设年龄,此时无需根据用户的年龄调整可移动机器人的位置,则可以根据解说员的位置来调整机器人的位置。此时,请参阅图6,步骤S23后可进行以下步骤:
步骤S271:根据设于所述解说员预设位置的定位标签,获取所述机器人与所述定位标签的第二实时距离。
由于解说员在解说的过程中会有位置变化的情况,或者有可能会根据解说内容不断改变其位置,因此解说员与机器人11之间的距离会不断发生变化,而用户也会跟随着解说员的移动而相应移动。此时如果可移动机器人11的位置一直保持不变的话,一方面由于解说员与其之间位置的变化使得第一声音采集装置12和控制装置110之间的数字信息传输路径变得不稳定,导致数据传输质量下降,影响扩声效果;另一方面由于机器人11与解说员以及用户之间的相对位置发生变化,会导致其扩声效果减弱,例如机器人11与用户之间距离的增大会使得用户听到的声音音量降低甚至听不清播放的内容,导致扩声效果减弱。为了确保机器人11的扩声效果,本实施例在解说员的预设位置设置定位标签13,在进行扩声播放的过程中控制装置110预设频率确定机器人11与该定位标签13之间的第二实时距离,从而可以实时确定机器人11相对于解说员的位置。
步骤S272:根据所述第二实时距离与第二预设距离,控制所述机器人调整其相对所述定位标签的位置。
在获取了机器人11相对于解说员的实时位置后,需要确认解说员相对于机器人的位置是否发生变化,此时需要将第二实时距离与第二预设距离进行比较,判断第二实时距离与第二预设距离的差值是否大于第二阈值,如果第二实时距离与第二预设距离的差值大于第二阈值,则意味着解说员相对机器人11的位置发生了比较大的变动,此时需要控制机器人朝向解说员运动该差值的距离;如果第二实时距离与第二预设距离的差值不大于第二阈值,则意味着解说员相对机器人的位置并未发生较大变动,此时机器人11的位置无需改变。应当理解的是,第二实时距离与第二预设距离的差值可以是正值,也可以是负值。当第二实时距离与第二预设距离的差值是正值时,意味着机器人相对于解说员的距离增大了,此时需要朝向靠近解说员的方向移动;当第二实时距离与第二预设距离的差值是负值时,意味着机器人相对于解说员的距离减小了,此时需要朝向远离解说员的方向移动。
本实施例通过在解说过程中实时调整机器人相对于解说员的位置,以使得机器人与解说员的距离始终维持在预设范围,确保第一声音采集装置与机器人之间的数字信息传输稳定,语音能够以最佳的方式传输至可移动机器人进行扩声播放,改善了整体扩声效果和解说员的解说效果。
进一步地,步骤S272中,在获取机器人与定位标签的第二实时距离时,根据机器人的具体结构不同,可以具有不同的获取实时距离的方式。
在一个实施例中,机器人11设有至少三个位置成三角形的UWB(Ultra Wide Band,超宽带)基站,所述定位标签为UWB定位标签,通过UWB定位技术,可以获取机器人与定位标签的实时距离。此时,步骤S72可以包括:
控制所述机器人的UWB基站向所述定位标签发送UWB信号;
根据所述定位标签接收各所述UWB信号的时间以及所述UWB基站之间的位置关系,确定所述机器人相对于所述定位标签的位置信息,所述位置信息至少包括所述机器人相对于所述定位标签的实时距离。
在本实施例中,三个UWB基站成等边三角形设置,UWB定位标签与UWB基站的时间同步,通过TOA(time of arrival,到达时间)算法可以获得UWB定位标签与各UWB基站之间的距离,然后通过几何算法可以获得UWB定位标签的坐标,从而可以确定机器人相对于UWB定位标签的距离。
在一个实施例中,图像采集装置包括双目相机,即机器人设有左相机和右相机,利用三角测距原理,可以获取机器人与定位标签的第二实时距离。
在一个实施例中,图像采集装置包括结构光模组和相机,利用结构光模组向空间投射具有编码信息的结构光图案,通过相机采集该结构光图案后进行解析,从而可以获取机器人与定位标签的第二实时距离。
在一个实施例中,图像采集装置包括红外测距传感器和相机,利用三角测距原理,可以获取机器人与定位标签的第二实时距离。
当然,在其他实施例中,机器人与定位标签的第二实时距离还可以通过其他方式获得,并不仅限于上述的情形,此处不做限制。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参阅图10,基于相同的发明构思,本发明实施例提供的基于图像识别的跟随式机器人扩声系统10中,控制装置110包括扩声控制模块1101、年龄获取模块1102、判断模块1103、位置调整模块1104。其中,扩声控制模块1101用于在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放。年龄获取模块1102用于获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄。判断模块1103用于将获取的各所述用户的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否满足预设要求。位置调整模块1104用于若所述目标年龄满足预设要求,则调整所述机器人相对所述目标年龄对应的目标用户的位置。
进一步地,请参阅图11,在对解说员的语音进行扩声播放前,需要对解说员的身份进行验证,控制装置110还包括声纹识别模块1100,声纹识别模块1100用于对所述语音进行声纹识别,确认发出所述语音的用户是否为解说员身份。
进一步地,所述控制装置110还包括用户提问确定模块1105,用户提问确定模块1105用于通过第二声音采集装置获取用户语音,并对用户语音进行语音处理,确定所述用户语音是否为用户提问。当确认用户语音为用户提问时,扩声控制模块1101控制扩声装置对所述用户语音进行扩声播放。
进一步地,所述控制装置110还包括位置获取模块1106和扩声状态调整模块1107。其中,位置获取模块1106用于获取各用户的人脸图像,并获取所述人脸图像中各所述用户相对于所述机器人的位置。扩声状态调整模块1107用于根据各所述用户相对于所述机器人的位置,调整所述机器人的各个扩声装置的扩声状态。
进一步地,所述控制装置110还包括第二距离确定模块1108和第二位置调整模块1109。其中,第二距离确定模块1108用于根据设于所述解说员预设位置的定位标签,获取所述机器人与所述定位标签的第二实时距离。第二位置调整模块1109用于根据所述第二实时距离与第二预设距离,控制所述机器人调整其相对所述定位标签的位置。
当然,在其他实施例中,控制装置110的各个模块还可以进一步包括一个或多个单元,用于实现对应的功能,此处不做赘述。
图12是本发明一实施例提供的终端设备的示意图。如图12所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如基于图像识别的跟随式机器人扩声程序。所述处理器40执行所述计算机程序42时实现上述各个基于图像识别的跟随式机器人扩声方法实施例中的步骤,例如图3所示的步骤S21至S24。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图10所示模块1101至1104的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图12仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (15)
1.一种基于图像识别的跟随式机器人扩声方法,其特征在于,包括:
在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放;
获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄;
将获取的各所述用户的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否大于预设年龄;
若所述目标年龄大于预设年龄,则调整所述机器人相对所述目标年龄对应的目标用户的位置。
2.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄,包括:
对采集的用户的图像进行图像处理,获取所述图像中各用户的人脸图像;
采用年龄识别模型对各所述人脸图像进行图像识别,确定各人脸图像对应的年龄,以获取各所述人脸图像对应的用户的年龄,其中,所述年龄识别模型使用样本集通过机器学习训练得到。
3.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述调整所述机器人相对所述目标年龄对应的目标用户的位置的步骤,包括:
根据所述目标年龄,确定与所述目标年龄对应的用户为目标用户;
确定所述目标用户相对于所述机器人的位置;
根据所述目标用户相对于所述机器人的位置,确定所述目标用户与所述机器人之间的第一实时距离;
基于所述第一实时距离以及第一预设距离,调整所述机器人相对所述目标用户的位置。
4.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述调整所述机器人相对所述目标年龄对应的目标用户的位置的步骤,包括:
根据所述目标年龄,确定与所述目标年龄对应的用户为目标用户;
确定所述目标用户相对于所述机器人的位置;
根据所述目标用户相对于所述机器人的位置,确定所述目标用户与所述机器人之间的第一实时距离;
根据设于所述解说员预设位置的定位标签,确定所述机器人与所述定位标签的第二实时距离;
基于所述第一实时距离、第一预设距离、第二实时距离以及第二预设距离,在确保所述机器人相对所述解说员的距离不大于所述第二预设距离的情况下,调整所述机器人相对所述目标用户的位置。
5.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述若所述目标年龄满足预设年龄,则调整所述机器人相对所述目标年龄对应的目标用户的位置的步骤后,所述方法还包括:
获取各用户的人脸图像,并获取所述人脸图像中各所述用户相对于所述机器人的位置;
根据各所述用户相对于所述机器人的位置,调整所述机器人的各个扩声装置的状态。
6.如权利要求5所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述扩声装置的状态包括各个所述扩声装置的朝向;
或者,所述扩声装置的状态包括各个所述扩声装置的音量;
或者,所述扩声装置的状态包括各个所述扩声装置的朝向和音量。
7.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述将获取的各人脸图像对应的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否满足预设年龄的步骤后,所述方法还包括:
若所述目标年龄不满足预设年龄,则:
根据设于所述解说员预设位置的定位标签,确定所述机器人与所述定位标签的第二实时距离;
根据所述第二实时距离与第二预设距离,调整所述机器人相对所述定位标签的位置。
8.如权利要求1所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放,包括:
对所述解说员的语音进行语音识别,确定所述语音中是否包含命令词;
若所述语音中不包含命令词,则控制机器人的扩声装置对所述语音进行扩声播放;
若所述语音中包含命令词,则根据所述命令词,控制所述机器人执行所述命令词对应的操作。
9.如权利要求8所述的基于图像识别的跟随式机器人扩声方法,其特征在于,所述根据所述命令词,控制所述机器人执行所述命令词对应的操作的步骤,包括:
获取所述命令词前后的语音;
对所述命令词以及所述命令词前后的语音进行语义分析,确定所述解说员的意图;
基于所述解说员的意图,控制所述机器人执行与所述意图对应的操作。
10.如权利要求9所述的跟随式机器人扩声方法,其特征在于,所述基于所述解说员的意图,控制所述机器人执行与所述意图对应的操作的步骤,包括:
若所述解说员的意图是控制所述机器人执行所述命令词,则根据所述命令词,控制所述机器人执行所述命令词对应的操作;
若所述解说员的意图不是控制所述机器人执行所述命令词,则控制所述机器人的扩声装置对所述语音进行扩声播放。
11.如权利要求1所述的跟随式机器人扩声方法,其特征在于,在所述控制机器人的扩声装置对所述解说员的语音进行扩声播放的步骤之前,所述方法还包括:
对所述语音进行声纹识别,确认发出所述语音的用户是否为解说员身份;
在确认发出所述语音的用户为解说员身份的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放。
12.一种基于图像识别的跟随式机器人扩声系统,其特征在于,包括:机器人和第一声音采集装置,所述机器人设有控制装置、扩声装置和图像采集装置,所述第一声音采集装置与所述控制装置通信连接;
所述控制装置包括:
扩声控制模块,用于在第一声音采集装置获取到解说员的语音的情况下,控制机器人的扩声装置对所述解说员的语音进行扩声播放;
年龄获取模块,用于获取各用户的人脸图像,并对所述人脸图像进行图像识别,以获取各所述用户的年龄;
判断模块,用于将获取的各所述用户的年龄中的最大年龄确定为目标年龄,并判断所述目标年龄是否满足预设年龄;
位置调整模块,用于若所述目标年龄满足预设年龄,则调整所述机器人相对所述目标年龄对应的目标用户的位置。
13.如权利要求12所述的基于图像识别的跟随式机器人扩声系统,其特征在于,所述控制装置还包括:
位置信息获取模块,用于获取各用户的人脸图像,并获取所述人脸图像中各所述用户相对于所述机器人的位置;
扩声状态调整模块,用于根据各所述用户相对于所述机器人的位置,调整所述机器人的各个扩声装置的扩声状态。
14.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011185925.XA CN112104962B (zh) | 2020-10-30 | 2020-10-30 | 一种基于图像识别的跟随式机器人扩声方法及扩声系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011185925.XA CN112104962B (zh) | 2020-10-30 | 2020-10-30 | 一种基于图像识别的跟随式机器人扩声方法及扩声系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112104962A true CN112104962A (zh) | 2020-12-18 |
CN112104962B CN112104962B (zh) | 2021-03-23 |
Family
ID=73784789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011185925.XA Active CN112104962B (zh) | 2020-10-30 | 2020-10-30 | 一种基于图像识别的跟随式机器人扩声方法及扩声系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112104962B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104965A (zh) * | 2020-11-09 | 2020-12-18 | 北京声智科技有限公司 | 一种扩声方法及扩声系统 |
CN114205725A (zh) * | 2021-12-01 | 2022-03-18 | 云知声智能科技股份有限公司 | 一种无线扩音设备、方法、装置、终端设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241833A (ja) * | 2002-02-18 | 2003-08-29 | Hitachi Ltd | 移動型ロボットによる情報配信サービス及び情報収集システム |
CN106057205A (zh) * | 2016-05-06 | 2016-10-26 | 北京云迹科技有限公司 | 一种智能机器人自动语音交互方法 |
CN106228982A (zh) * | 2016-07-27 | 2016-12-14 | 华南理工大学 | 一种基于教育服务机器人的交互式学习系统与交互方法 |
CN106650601A (zh) * | 2016-10-18 | 2017-05-10 | 武汉慧能机器人科技有限公司 | 人机交互方法及智能机器人 |
CN107450367A (zh) * | 2017-08-11 | 2017-12-08 | 上海思依暄机器人科技股份有限公司 | 一种语音透传方法、装置及机器人 |
CN108172244A (zh) * | 2018-01-24 | 2018-06-15 | 北京华毅东方展览有限公司 | 一种展览音响智能控制的方法 |
CN108242007A (zh) * | 2016-12-26 | 2018-07-03 | 纳恩博(北京)科技有限公司 | 服务提供方法及装置 |
CN109318237A (zh) * | 2017-08-01 | 2019-02-12 | 安康市汉滨区易智网络科技有限公司 | 景区导游机器人服务系统 |
CN109333542A (zh) * | 2018-08-16 | 2019-02-15 | 北京云迹科技有限公司 | 机器人语音交互方法及系统 |
CN109447232A (zh) * | 2018-10-30 | 2019-03-08 | 北京猎户星空科技有限公司 | 机器人主动问询方法、装置、电子设备及存储介质 |
-
2020
- 2020-10-30 CN CN202011185925.XA patent/CN112104962B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241833A (ja) * | 2002-02-18 | 2003-08-29 | Hitachi Ltd | 移動型ロボットによる情報配信サービス及び情報収集システム |
CN106057205A (zh) * | 2016-05-06 | 2016-10-26 | 北京云迹科技有限公司 | 一种智能机器人自动语音交互方法 |
CN106228982A (zh) * | 2016-07-27 | 2016-12-14 | 华南理工大学 | 一种基于教育服务机器人的交互式学习系统与交互方法 |
CN106650601A (zh) * | 2016-10-18 | 2017-05-10 | 武汉慧能机器人科技有限公司 | 人机交互方法及智能机器人 |
CN108242007A (zh) * | 2016-12-26 | 2018-07-03 | 纳恩博(北京)科技有限公司 | 服务提供方法及装置 |
CN109318237A (zh) * | 2017-08-01 | 2019-02-12 | 安康市汉滨区易智网络科技有限公司 | 景区导游机器人服务系统 |
CN107450367A (zh) * | 2017-08-11 | 2017-12-08 | 上海思依暄机器人科技股份有限公司 | 一种语音透传方法、装置及机器人 |
CN108172244A (zh) * | 2018-01-24 | 2018-06-15 | 北京华毅东方展览有限公司 | 一种展览音响智能控制的方法 |
CN109333542A (zh) * | 2018-08-16 | 2019-02-15 | 北京云迹科技有限公司 | 机器人语音交互方法及系统 |
CN109447232A (zh) * | 2018-10-30 | 2019-03-08 | 北京猎户星空科技有限公司 | 机器人主动问询方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104965A (zh) * | 2020-11-09 | 2020-12-18 | 北京声智科技有限公司 | 一种扩声方法及扩声系统 |
CN112104965B (zh) * | 2020-11-09 | 2021-03-23 | 北京声智科技有限公司 | 一种扩声方法及扩声系统 |
CN114205725A (zh) * | 2021-12-01 | 2022-03-18 | 云知声智能科技股份有限公司 | 一种无线扩音设备、方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112104962B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112104963B (zh) | 一种跟随式机器人扩声方法及系统 | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
US10585486B2 (en) | Gesture interactive wearable spatial audio system | |
US20190141445A1 (en) | Sound Processing Method and Interactive Device | |
CN112104962B (zh) | 一种基于图像识别的跟随式机器人扩声方法及扩声系统 | |
US9570071B1 (en) | Audio signal transmission techniques | |
CN110559127A (zh) | 基于听觉与触觉引导的智能助盲系统及方法 | |
CN109040641B (zh) | 一种视频数据合成方法及装置 | |
KR102115222B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
JP2004216513A (ja) | コミュニケーションロボット | |
US20200380959A1 (en) | Real time speech translating communication system | |
KR102512614B1 (ko) | 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법 | |
JP2020046478A (ja) | ロボットシステム | |
CN108737934B (zh) | 一种智能音箱及其控制方法 | |
CN112925235A (zh) | 交互时的声源定位方法、设备和计算机可读存储介质 | |
CN106302974B (zh) | 一种信息处理的方法及电子设备 | |
CN112104965B (zh) | 一种扩声方法及扩声系统 | |
CN111966321A (zh) | 音量调节方法、ar设备及存储介质 | |
CN113763925B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN113299309A (zh) | 语音翻译方法及装置、计算机可读介质和电子设备 | |
CN112104964B (zh) | 一种跟随式扩声机器人的控制方法及控制系统 | |
CN113763940A (zh) | 一种用于ar眼镜的语音信息处理方法及系统 | |
CN112073639A (zh) | 拍摄控制方法及装置、计算机可读介质和电子设备 | |
US10796711B2 (en) | System and method for dynamic optical microphone | |
KR20210059367A (ko) | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |