CN113657134B

CN113657134B - 语音播放方法和装置、存储介质及电子设备

Info

Publication number: CN113657134B
Application number: CN202010395783.3A
Authority: CN
Inventors: 孙浚凯
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2024-04-23
Anticipated expiration: 2040-05-12
Also published as: CN113657134A

Abstract

公开了一种语音播放方法和装置、存储介质及电子设备。语音播放方法包括：检测目标对象的行为以及确定所述目标对象的种类；基于所述目标对象的行为，检测驾驶员的行为；基于所述驾驶员的行为，控制发声器播放与所述目标对象的种类相一致的安抚语音。根据该语音播放方法，一方面，利用机器安抚取代了驾驶员安抚，确保驾驶员全神贯注于驾驶操作，提高安全系数；另一方面，利用与目标对象的种类相一致的安抚语音进行目标对象安抚，相比于驾驶员安抚，安抚效果更好。

Description

语音播放方法和装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音播放方法和装置、存储介质及电子设备。

背景技术

目前，养宠物的人群正在变得越来越庞大。但是宠物的出现，在给大家带来欢乐的同时，也对周遭人员的工作及生活产生了不利影响。例如，车辆行驶过程中，如果车内携带的宠物情绪不好，出现乱叫、乱窜的行为，会导致驾驶员在驾驶过程中分神，进而导致交通事故的发生。因此，如何对宠物进行情绪安抚，以降低宠物行为对驾驶员注意力产生的不利影响，将是相关领域技术人员亟待解决的问题之一。

发明内容

有鉴于此，本申请实施例致力于提供一种语音播放方法和装置、存储介质及电子设备，以解决现有技术中目标对象的行为分散驾驶员注意力，进而容易导致交通事故的问题。

本申请第一方面提供了一种语音播放方法，包括：检测目标对象的行为以及确定所述目标对象的种类；基于所述目标对象的行为，检测驾驶员的行为；基于所述驾驶员的行为，控制发声器播放与所述目标对象的种类相一致的安抚语音。

本申请第二方面提供了一种语音播放装置，包括：确定模块，用于确定目标对象的种类；第一检测模块，用于检测所述目标对象的行为；第二检测模块，用于基于所述目标对象的行为，检测驾驶员的行为；控制模块，用于基于所述驾驶员的行为，控制发声器播放与所述目标对象的种类相一致的安抚语音。

本申请第三方面提供了一种计算机可读存储介质，其中，存储介质存储有计算机程序，计算机程序用于执行上述语音播放方法。

本申请第四方面提供了一种电子设备，包括：处理器；以及用于存储处理器可执行指令的存储器；其中，处理器用于执行上述语音播放方法。

根据本申请实施例提供的语音播放方法和装置、存储介质和计算机设备，结合目标对象行为和驾驶员行为来衡量当前实际场景是否需要对目标对象进行安抚，当需要对目标对象进行安抚时，控制发声器发出与目标对象的种类相一致的安抚语音。一方面，利用机器安抚取代了驾驶员安抚，确保驾驶员全神贯注于驾驶操作，提高安全指数；另一方面，利用与目标对象的种类相一致的安抚语音进行目标对象安抚，相比于驾驶员安抚，安抚效果更好，从而可以更快地制止目标对象的不利行为，进一步提高安全指数。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请第一示例性实施例提供的语音播放方法的流程示意图。

图2是本申请一示例性实施例提供的目标对象行为检测方法的流程示意图。

图3是本申请第一示例性实施例提供的驾驶员行为检测方法的流程示意图。

图4是本申请第二示例性实施例提供的驾驶员行为检测方法的流程示意图。

图5为本申请一示例性实施例提供的目标对象种类确定方法的流程示意图。

图6是本申请第二示例性实施例提供的语音播放方法的流程示意图。

图7为本申请第一示例性实施例提供的语音播放装置的结构示意图。

图8为本申请第二示例性实施例提供的语音播放装置的结构示意图。

图9是根据本申请一个实施例的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请概述

正如背景技术所述，宠物的出现，在给大家带来欢乐的同时，也对周遭人员的工作及生活产生了不利影响。以宠物狗为例，公共场合狂吠不止；或者，偶遇其他宠物狗时穷追不舍，追逐打闹；又或者，陪伴主人驾驶出行过程中上蹿下跳等，这些宠物行为影响了主人及周围其他人员的生活体验，甚至带来安全隐患。有鉴于此，本申请提供了一种语音播放方法和装置、存储介质和电子设备，以期利用发声器发出的安抚语音对宠物进行安抚，从而降低对周遭人员生活及工作产生的不利影响。

示例性方法

图1是本申请第一示例性实施例提供的语音播放方法的流程示意图。如图1所示，语音播放方法100包括如下步骤：

步骤S110，检测目标对象的行为以及确定目标对象的种类。

这里提到的目标对象例如可以为宠物或婴幼儿。目标对象的行为是目标对象在复杂环境中的适应性反应，例如，宠物或者婴幼儿的声音、肢体动作和面部表情中的至少一项，检测目标对象的行为即对目标对象的声音、肢体动作和面部表情中的至少一项进行检测。

步骤S120，基于目标对象的行为，检测驾驶员的行为。

驾驶员的行为和目标对象的行为一样，也包括语言、面部表情、肢体动作中的至少一项，检测驾驶员的行为即对驾驶员的声音、肢体动作和面部表情中的至少一项进行检测。

基于目标对象的行为，检测驾驶员的行为，即将目标对象的行为作为检测驾驶员行为的前提。这种情况下，在一个实施例中，步骤S120具体执行为：当目标对象的行为符合第一预设规则时，检测驾驶员的行为；反之，当目标对象的行为不符合第一预设规则时，返回步骤S110，以继续执行检测目标对象的行为以及确定目标对象的种类的步骤。第一预设规则是根据具体情况人为设定的，例如，当目标对象的行为属于预设烦躁行为时，检测驾驶员的行为。其中，目标对象的行为是否属于预设烦躁行为可以根据目标对象的声音、肢体动作和面部表情中的至少一项的检测数据来确定。

步骤S130，基于驾驶员的行为，控制发声器播放与目标对象的种类相一致的安抚语音。

基于驾驶员的行为，控制发声器播放与目标对象的种类相一致的安抚语音，即将驾驶员的行为作为控制发声器播放安抚语音的前提。这种情况下，在一个实施例中，步骤S130具体执行为：当驾驶员的行为符合第二预设规则时，控制发声器播放与目标对象的种类相一致的安抚语音；当驾驶员的行为不符合第二预设规则时，返回步骤S110，以继续执行检测目标对象的行为以及确定目标对象的种类的步骤。第二预设规则是根据实际情况人为设定的，例如，当驾驶员的行为为预设急躁行为时，控制发声器播放与目标对象的种类相一致的安抚语音，其中，驾驶员的行为是否属于预设烦躁行为可以根据驾驶员的声音、肢体动作和面部表情中的至少一项的检测数据来确定。

发声器播放的安抚语音可以是预先存储的内容固定的语音信号，也可以是对驾驶员说的话实时翻译得到的语音信号。

根据本实施例提供的语音播放方法，结合目标对象行为和驾驶员行为来衡量当前实际场景是否需要对目标对象进行安抚，当需要对目标对象进行安抚时，控制发声器发出与目标对象的种类相一致的安抚语音。一方面，利用机器安抚取代了驾驶员安抚，确保驾驶员全神贯注于驾驶操作，提高安全指数；另一方面，利用与目标对象的种类相一致的安抚语音进行目标对象安抚，相比于驾驶员语音安抚，安抚效果更好，从而可以更快地制止目标对象的不利行为，进一步提高安全指数。

图2是本申请一示例性实施例提供的目标对象行为检测方法的流程示意图。该目标对象行为检测方法适用于步骤S110中检测目标对象行为的过程。如图2所示，目标对象行为检测方法200包括如下步骤：

步骤S210，对采集到的包含目标对象声音的声音信号进行声强检测。

如上所述，声音是目标对象行为的一种表现形式，而声强是声音的一个特征。因此，声强可以在一定程度上反映目标对象行为。这里采用声音信号的声强来反映目标对象行为，相比于声音信号的其它特征，例如，响度、音高等，声强检测更加直观、易实现。

目标对象所处的当前场景下，可能存在由不同声源发出的多种声音，此时，由声音传感器，例如麦克风阵列，采集到的声音信号是多种声源发出的声音的混合信号。这种情况下，首先需要将目标对象声音从声音信号中提取出来，之后再对纯净的目标对象声音进行声强检测。

例如，步骤S210的具体执行过程如下。

首先，获取采集到的包含目标对象声音的声音信号。例如，从麦克风阵列获取声音信号。

其次，从声音信号中分离出目标对象声音。可以采用盲源分离技术从声音信号中分离出目标对象声音。

再次，对目标对象声音进行声强检测。声强的检测可以采用声强仪，即将分离出的目标对象声音输入声强仪，即可得到对应的声强值。

步骤S220，对采集到的包含目标对象的视频图像进行动作特征提取得到目标对象的动作特征。

目标对象所处的当前场景下，除了静态背景外，可能存在其它对象，例如驾驶员和乘客等，此时由图像传感器，例如摄像头，采集到的视频图像是包含多个对象的混合图像。这种情况下，首先需要将图像中的目标对象区域提取出来，之后再对目标对象区域进行动作特征提取，以得到目标对象的动作特征。

根据采用的动作特征提取方法的不同，得到的动作特征可以是全局特征，例如纹理特征、形状特征、轮廓特征等；也可以是局部特征，例如局部时空特征点。

步骤S230，基于检测到的声强值与强度阈值、动作特征的变化频率与频率阈值，确定目标对象的行为。

将声强和动作的变化频率作为确定目标对象行为的参考指标。例如，当检测到的声强值大于强度阈值，并且动作特征的变化频率高于频率阈值时，确定目标对象为急躁行为。

根据本实施例提供的目标对象行为检测方法，结合声强和动作的变化频率来确定目标对象行为，由于声强和动作变化频率具有较强的行为表现力，因此可以大大提升检测目标对应的精度。

在一个实施例中，当根据步骤S220获得的目标对象特征包括目标对象的局部时空特征点数据时，在步骤S230之前还包括：步骤S221，根据局部时空特征点数据中的坐标值的变化频率确定动作特征的变化频率。后续接着执行步骤S230。

这种情况下，步骤S210的具体执行过程如下。

首先，获取采集到的包含目标对象的视频图像。例如，从摄像头获取视频图像。

其次，从视频图像中分离出目标对象所在的第一图像区域。这里可以采用背景减除法从视频图像中分离出目标对象所在的第一图像区域。

再次，对第一图像区域进行局部特征提取，得到目标对象的局部时空特征点数据。具体而言，利用Harris 3D检测器或Cubjod检测器对第一图像区域的特征点进行检测，得到特征点对应的像素点的位置信息(x_s，y_s，t_s，σ_s，τ_s)。其中，x_s指示当前特征点的横坐标；y_s指示当前特征点的纵坐标；t_s指示当前特征点的横纵坐标对应的时间；σ_s指示当前特征点对应的空间尺度；τ_s指示当前特征点对应的时间尺度。这里选择的特征点包括肘关节、腕关节、膝关节和踝关节。

进一步地，步骤S221具体执行为：首先，计算相邻两帧图像中同一特征点的位置信息的差值；其次，判断差值是否大于变化阈值；再次，统计预定时间内差值大于变化阈值的次数；最后，利用统计的次数除以预定时间，得到目标对象的肢体动作特征的变化频率。

根据本实施例提供的目标对象行为的检测方法，采用局部时空特征点数据进行行为特征提取，提取出目标对象的行为后可以直接利用局部时空特征点数据中的位置信息的变化频率来衡量目标对象的行为的变化频率。而如果采用全局特征提取方法(包括纹理特征、轮廓特征等)来提取目标对象的行为的话，则需要对比相邻两帧图像中目标对象的行为的差异来计算变化频率。也就是说，本方案省略了对比的步骤，因此计算过程更简单。

图3是本申请第一示例性实施例提供的驾驶员行为检测方法的流程示意图。该驾驶员行为检测方法适用于步骤S120中检测驾驶员行为的过程。如图3所示，驾驶员行为检测方法300包括如下步骤：

步骤S310，对采集的包含驾驶员的视频图像分别进行表情特征提取和动作特征提取，得到驾驶员的表情特征和动作特征。

用于采集包含驾驶员的视频图像的摄像头和用于采集包含目标对象的视频图像的摄像头相同或不同。驾驶员所处的当前场景下，除了静态背景外，可能存在目标对象、乘客等，此时由摄像头采集到的视频图像是包含多种对象的混合图像。这种情况下，首先需要将图像中的驾驶员区域提取出来，之后再对驾驶员所在的图像区域进行特征提取，以得到驾驶员的表情特征和动作特征。

例如，步骤S310具体执行为如下过程。

首先，获取采集到的包含驾驶员的视频图像。可以从摄像头获取视频图像。

其次，从视频图像中分离出驾驶员所在的第二图像区域。这里可以利用背景减除法从视频图像中分离出驾驶员所在的第二图像区域。

再次，对第二图像区域进行局部特征提取，得到驾驶员的面部时空特征点数据和肢体时空特征点数据。面部时空特征点数据是指从面部区域中提取出的时空特征点数据，肢体时空特征点数据是指从肢体区域中提取出的时空特征点数据。

在一个实施例中，局部特征提取过程包括：首先利用Harris 3D检测器或Cubjod检测器对第二图像区域的特征点进行检测，得到特征点对应的像素点的位置。这里选择的特征点包括肢体特征点，例如肘关节、腕关节、膝关节和踝关节；和面部特征点，例如嘴角、眉头、眉尾、眼角等。其次，利用HOG 3D描述子或SIFT 3D描述子对检测到的特征点进行描述，以得到特征点对应的特征向量，即驾驶员的面部时空特征点数据和肢体时空特征点数据。

步骤S320，基于驾驶员的表情特征识别出驾驶员的表情。

在一个实施例中，利用预先训练好的表情识别模型根据驾驶员的表情特征识别出驾驶员的表情。表情识别模型包括表情特征和表情类别的映射关系，从而，可以利用表情识别模型识别出驾驶员的表情特征对应的表情类别。在一个实施例中，表情识别模型是一个二分类器，表情类别包括急躁情绪和非急躁情绪。

步骤S330，基于驾驶员的动作特征识别出驾驶员的动作。

在一个实施例中，利用预先训练好的动作识别模型根据驾驶员的动作特征识别出驾驶员的动作。动作识别模型包括动作特征和动作类别的映射关系，从而，可以利用动作识别模型识别出驾驶员的动作特征对应的动作类别。在一个实施例中，动作识别模型是一个二分类器，动作类别包括安抚动作和非安抚动作。

步骤S340，当驾驶员的表情为预设急躁表情和驾驶员的动作为预设安抚动作时，确定驾驶员的行为为预设安抚行为。

根据本实施例提供的驾驶员行为检测方法，结合表情和动作来确定驾驶员的行为，一方面表情和动作的判定基础均为视频图像，即仅需要图像传感器进行素材采集，节省硬件成本；另一方面表情和动作相互配合来确定驾驶员行为，相比于单独利用表情或动作中的一项来确定驾驶员行为而言，判断准确度更高。

图4是本申请第二示例性实施例提供的驾驶员行为检测方法的流程示意图。该驾驶员行为检测方法适用于步骤S120中检测驾驶员行为的过程。如图4所示，驾驶员行为检测方法400包括如下步骤：

步骤S410，对采集的包含驾驶员语音的声音信号进行语义识别，得到驾驶员的语义信息。

用于采集包含驾驶员语音的声音信号的麦克风和用于采集包含目标对象声音的声音信号的麦克风相同或不同。驾驶员所处的当前场景下，可能存在由不同声源发出的多种声音，此时，由麦克风阵列采集的声音信号是多种声源发出的声音的混合信号。这种情况下，首先需要将驾驶员语音从声音信号中提取出来，之后再对纯净的驾驶员语音进行语义识别，以得到驾驶员的语义信息。

步骤S420，基于驾驶员的语义信息和预设安抚关键词，确定驾驶员的行为为预设安抚行为。例如，当驾驶员的语义信息包含预设安抚语义时，确定驾驶员的行为为预设安抚行为。

下面以一个具体的例子，详述驾驶员行为检测方法400的执行过程。

根据步骤S410，首先，获取采集到的包含驾驶员语音的声音信号。例如可以从麦克风阵列获取声音信号。其次，从声音信号中分离出驾驶员语音。可以采用盲源分离技术从声音信号中分离出驾驶员语音。再次，对驾驶员语音进行文本分词，并提取关键词以作为驾驶员的语义信息。关键词的提取方法包括：基于词频-逆文档频率的统计特征提取、基于文档主题模型的关键词提取和基于TextRank的关键词提取。

根据步骤S420，首先，将从驾驶员语音中提取出的关键词和预设安抚关键词进行相似度匹配。预设安抚关键词包括“别动了”、“别叫了”、“stop”等。其次，基于提取出的关键词和预设安抚关键词的相似度以及第一相似度阈值，确定语义信息包含预设安抚语义。具体而言，预设安抚关键词为至少一个，提取出的关键词和至少一个预设安抚关键词的相似度高于相似度阈值时，确定驾驶员语义中包含预设安抚语义；反之，则不包含。

根据本实施例提供的驾驶员行为检测方法，利用驾驶员语音的语义作为驾驶员行为的衡量指标，由于语音信号相比于其它行为特征可以更准确地表达驾驶员的行为，即语音信号具有更高的可靠性，从而可以确保较高的检测精度。

应当理解，在其他实施例中，可以将驾驶员行为检测方法300和400组合，即同时将驾驶员的表情、动作和语义作为确定驾驶员行为的衡量指标，从而进一步提高检测精度。

图5为本申请一示例性实施例提供的目标对象种类确定方法的流程示意图。该目标对象种类确定方法适用于步骤S110中确定目标对象的种类的过程。如图5所示，目标对象种类确定方法500包括：

步骤S510，获取采集到的包含目标对象的视频图像中目标对象所在的第一图像区域。

目标对象所处的当前场景下，除了静态背景外，可能存在其它目标对象、驾驶员和乘客等，此时由图像传感器，例如摄像头，采集到的视频图像是包含多种对象的混合图像。这种情况下，首先需要将图像中的目标对象区域提取出来，之后再对目标对象区域的目标对象进行种类识别。

步骤S520，利用模板匹配算法和预设的目标对象模板，确定第一图像区域中的目标对象的种类。

目标对象模板包含目标对象图片和种类的对应关系。模板匹配，即根据预设的多个目标对象图片，在第一图像区域中搜索与该目标对象图片对应的目标对象，进而匹配出目标对象的种类。模板匹配算法包括基于索引表的算法、基于图像相关性的算法或基于序贯相关性的算法。

图6是本申请第二示例性实施例提供的语音播放方法的流程示意图。如图6所示，语音播放方法600和图1所示语音播放方法100的区别仅在于，在步骤S130之前还包括：

步骤S610，控制发声器将采集到的驾驶员发出的安抚语音模拟成与目标对象的种类相一致的安抚语音。

发声器可以对驾驶员语音进行语音理解，并输出与目标对象种类相一致的目标对象声音，从而实现对宠物情绪的安抚。相比于，利用预先存储的固定安抚语音进行安抚而言，更有针对性，安抚效果更好。

发声器可以采用现有的宠物发声器，这种情况下，相当于将现有的宠物发声器赋予新的宠物安抚功能，扩展了宠物发声器的应用范围。

示例性装置

图7为本申请第一示例性实施例提供的语音播放装置的结构示意图。如图7所示，语音播放装置70包括确定模块71、第一检测模块72、第二检测模块73和控制模块74。其中，确定模块71用于确定目标对象的种类。第一检测模块72用于基于目标对象的行为检测驾驶员的行为。第二检测模块73用于基于驾驶员的行为，控制发声器播放与目标对象的种类相一致的安抚语音。控制模块74用于基于驾驶员的行为，控制发声器播放与目标对象的种类相一致的安抚语音。

在一个实施例中，第一检测模块72具体用于当目标对象的行为符合第一预设规则时，检测驾驶员的行为。

在一个实施例中，第二检测模块73具体用于当驾驶员的行为符合第二预设规则时，控制发声器播放与目标对象的种类相一致的安抚语音。

图8为本申请第二示例性实施例提供的语音播放装置的结构示意图。如图8所示，在语音播放装置80中，控制模块74还用于控制发声器将采集到的驾驶员发出的安抚语音模拟成与目标对象的种类相一致的安抚语音。

第一检测模块72具体包括：检测单元721、第一特征提取单元722、第一确定单元723。检测单元721用于对采集到的包含目标对象声音的声音信号进行声强检测。第一特征提取单元722用于对采集到的包含目标对象的视频图像进行动作特征提取得到目标对象的动作特征。第一确定单元723用于基于检测到的声强值与强度阈值、动作特征的变化频率与频率阈值，确定目标对象的行为。

在一个实施例中，检测单元721具体用于获取采集到的包含目标对象声音的声音信号；从声音信号中分离出目标对象声音；对目标对象声音进行声强检测。

在一个实施例中，第一特征提取单元722具体用于获取采集到的包含目标对象的视频图像；从视频图像中分离出目标对象所在的第一图像区域；对第一图像区域进行局部特征提取，得到目标对象的局部时空特征点数据。

这种情况下，第一检测模块72还包括第二确定单元724，用于根据局部时空特征点数据中的坐标值的变化频率确定动作特征的变化频率。

在本实施例中，第二检测模块73具体包括：第二特征提取单元731、第一识别单元732、第二识别单元733和第三确定单元734。其中，第二特征提取单元731用于对采集的包含驾驶员的视频图像分别进行表情特征提取和动作特征提取，得到驾驶员的表情特征和动作特征。第一识别单元732用于基于驾驶员的表情特征识别出驾驶员的表情。第二识别单元733用于基于驾驶员的动作特征识别出驾驶员的动作。第三确定单元734用于当驾驶员的表情为预设急躁表情和驾驶员的动作为预设安抚行为时，确定驾驶员的行为为预设安抚行为。

在一个实施例中，第二特征提取单元731具体用于获取采集到的包含驾驶员的视频图像；从视频图像中分离出驾驶员所在的第二图像区域；对第二图像区域进行布局特征提取，得到驾驶员的面部时空特征点数据和肢体时空特征点数据。

这种情况下，可以利用背景减除法从视频图像中分离出驾驶员所在的第二图像区域。局部特征提取过程具体包括：利用检测器对第二图像区域的特征点进行检测；利用描述子对检测到的特征点进行描述，以得到驾驶员的面部时空特征点数据和肢体时空特征点数据。

在一个实施例中，第一识别单元732具体用于利用预先训练好的表情识别模型根据驾驶员的表情特征识别出驾驶员的表情。第二识别单元733具体用于利用预先训练好的动作识别模型根据驾驶员的动作特征识别出驾驶员的动作。

在本实施例中，确定模块71具体包括获取单元711和第四确定单元712。其中，获取单元711用于获取采集到的包含目标对象的视频图像中目标对象所在的第一图像区域。第五确定单元712用于利用模板匹配算法和预设的目标对象模板，确定第一图像区域中的目标对象的种类。

在一个实施例中，第二识别单元733还用于对采集的包含驾驶员的语音信号进行语义识别，得到驾驶员的语义信息。第三确定单元734还用于基于驾驶员的语义信息和预设安抚关键词，确定驾驶员的行为为预设安抚行为。

在一个实施例中，第三识别单元733具体用于获取采集到的包含驾驶员语音的声音信号；从声音信号中分离出驾驶员语音；对驾驶员语音进行文本分词，并提取关键词以作为驾驶员的语义信息。这种情况下，第三确定单元734具体用于将从驾驶员语音中提取出的关键词和预设安抚关键词进行相似度匹配；基于提取出的关键词和预设安抚关键词的相似度以及第一相似度阈值，确定语义信息包含预设安抚语义。

示例性电子设备

图9是根据本申请一个实施例的电子设备的结构示意图。如图9所示，该电子设备80可以包括处理器81和用于存储处理器81可执行指令的存储器82。处理器81可以用于执行根据本申请的任意一项实施例提供的语音播放方法。

具体地，该电子设备80可以包括一个或多个处理器81和存储器82。处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。

存储器82可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现根据本申请的任意一项实施例提供的语音播放方法。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置83可以包括通信网络连接器、键盘、鼠标等。该输出装置84可以包括显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

当然，为了简化，图9中仅示出了该电子设备80中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

本申请的实施例提供了一种计算机可读存储介质。该存储介质存储有计算机程序，计算机程序用于执行根据本申请的任意一项实施例提供的语音播放方法。

具体地，除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行根据本申请各种实施例提供的语音播放方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音播放方法，包括：

检测目标对象的行为以及确定所述目标对象的种类；

基于所述目标对象的行为，检测驾驶员的行为；

基于所述驾驶员的行为，控制发声器播放与所述目标对象的种类相一致的安抚语音；

其中，所述检测驾驶员的行为包括：

对采集到的包含所述驾驶员的视频图像分别进行表情特征提取和动作特征提取，得到所述驾驶员的表情特征和动作特征；

基于所述驾驶员的表情特征识别出所述驾驶员的表情；

基于所述驾驶员的动作特征识别出所述驾驶员的动作；

当所述驾驶员的表情为预设急躁表情和所述驾驶员的动作为预设安抚动作时，确定所述驾驶员的行为为预设安抚行为。

2.根据权利要求1所述的方法，其中，所述检测目标对象的行为包括：

对采集到的包含目标对象声音的声音信号进行声强检测；

对采集到的包含所述目标对象的视频图像进行动作特征提取得到所述目标对象的动作特征；

基于检测到的声强值与强度阈值、所述动作特征的变化频率与频率阈值，确定所述目标对象的行为。

3.根据权利要求2所述的方法，其中，所述对采集到的包含目标对象声音的声音信号进行声强检测包括：

获取采集到的包含目标对象声音的声音信号；

从所述声音信号中分离出所述目标对象声音；

对所述目标对象声音进行声强检测。

4.根据权利要求3所述的方法，其中，从所述声音信号中分离出所述目标对象声音包括：

采用盲源分离技术从所述声音信号中分离出所述目标对象声音。

5.根据权利要求2所述的方法，其中，对采集到的包含所述目标对象的视频图像进行动作特征提取得到所述目标对象的动作特征包括：

获取采集到的包含所述目标对象的视频图像；

从所述视频图像中分离出所述目标对象所在的第一图像区域；

对所述第一图像区域进行局部特征提取，得到所述目标对象的局部时空特征点数据；

在所述基于检测到的声强值与强度阈值、所述动作特征的变化频率与频率阈值，确定所述目标对象的行为之前，还包括：

根据所述局部时空特征点数据中坐标值的变化频率确定所述动作特征的变化频率。

6.根据权利要求1所述的方法，其中，在所述控制发声器播放与所述目标对象的种类相一致的安抚语音之前，还包括：

控制发声器将采集到的驾驶员发出的安抚语音模拟成与所述目标对象的种类相一致的安抚语音。

7.一种语音播放装置，包括：

确定模块，用于确定目标对象的种类；

第一检测模块，用于检测所述目标对象的行为；

第二检测模块，用于基于所述目标对象的行为，检测驾驶员的行为；

控制模块，用于基于所述驾驶员的行为，控制发声器播放与所述目标对象的种类相一致的安抚语音；

其中，所述检测驾驶员的行为包括：

基于所述驾驶员的表情特征识别出所述驾驶员的表情；

基于所述驾驶员的动作特征识别出所述驾驶员的动作；

8.一种计算机可读存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序在被处理器运行时使得所述处理器执行上述权利要求1-6中任一项所述的语音播放方法。

9.一种电子设备，包括：

处理器；以及

用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于执行上述权利要求1-6中任一项所述的语音播放方法。