CN112562664A

CN112562664A - 音响调节方法、系统、车辆及计算机存储介质

Info

Publication number: CN112562664A
Application number: CN202011353739.2A
Authority: CN
Inventors: 胡晓健
Original assignee: Shanghai Xiandou Intelligent Robot Co ltd; Shanghai Xianta Intelligent Technology Co Ltd
Current assignee: Shanghai Xiandou Intelligent Robot Co ltd; Shanghai Xianta Intelligent Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-26

Abstract

本发明提供一种音响调节方法、系统、车辆及计算机存储介质，所述音响调节方法包括：获取语音信息；获取所述语音信息的声源方位；将所述声源方位调整为最佳听音点；控制音响向所述最佳听音点播放所述语音信息的反馈语音。本发明提供的音响调节方法、系统、车辆及计算机存储介质，能够识别出当前语音交互对象的方位，在做出语音反馈时，自动调整最佳听音点至语音交互对象，以达到最佳的语音交互效果。

Description

音响调节方法、系统、车辆及计算机存储介质

技术领域

本发明涉及人机交互技术领域，特别是涉及车辆的音响调节方法、系统、车辆及计算机存储介质。

背景技术

在智能系统的功能应用中，通过语音识别的方式来控制系统的功能越来越强大，用户以语音方式与智能系统进行语音问答或者交互中，更加方便了对各个功能系统的控制。

但在目前的语音交互中，无论是哪个用户发出语音命令，扬声器都是以同样的声场输出语音交互相关的语音信息。例如在汽车座舱中，当多个乘客需要在同一时间与车载智能系统进行语音交互时，很多时候无法分辨出当前的语音反馈是针对哪一个乘客做出的，语音交互效果很差。

发明内容

本发明的目的在于提供一种音响调节方法、系统、车辆及计算机存储介质，能够识别出当前语音交互对象的方位，在做出语音反馈时，自动调整最佳听音点至语音交互对象，以达到最佳的语音交互效果。

在本发明的一个方面，首先提供一种音响调节方法，具体地，所述音响调节方法包括：

获取语音信息；

获取所述语音信息的声源方位；

将所述声源方位调整为最佳听音点；

控制音响向所述最佳听音点播放所述语音信息的反馈语音。

可选地，在执行获取所述语音信息的声源方位的步骤中包括：

获取所述语音信息的声强分布中的最强方位；

将所述声强分布中的最强方位作为所述声源方位。

获取所述语音信息的声强分布中的最强方位；

获取所述声强分布中的最强方位对应的座椅方位；

将所述座椅方位作为所述声源方位。

根据所述语音信息获取所述语音信息中的语音年龄和/或语音性别；

获取目标人员的图像信息；

根据所述图像信息获取所述目标人员的图像年龄和/或图像性别；

判定所述语音年龄符合所述图像年龄和/或所述语音性别符合所述图像性别时，将所述目标人员的方位作为所述声源方位。

获取目标人员的图像信息；

根据所述图像信息获取所述目标人员的唇语口型；

判定所述语音信息符合所述唇语口型时，将所述目标人员的方位作为所述声源方位。

可选地，在执行将所述声源方位调整为最佳听音点的步骤中包括：

获取所述声源方位的目标人员的头部高度；

将所述头部高度作为所述最佳听音点的声场高度。

可选地，在执行获取所述声源方位的目标人员头部高度的步骤中包括：

根据所述语音信息获取所述声源高度；

将所述声源高度作为所述头部高度。

获取所述目标人员的图像信息；

根据所述图像信息计算所述头部高度。

可选地，在执行控制音响向所述最佳听音点播放所述语音信息的反馈语音的步骤之前包括：

对所述声源方位之外的至少一个方位进行消音。

可选地，在执行控制音响向所述最佳听音点播放所述语音信息的反馈语音的步骤中包括：

控制距离最靠近所述最佳听音点的音响向所述最佳听音点播放所述语音信息的反馈语音。

控制所述音响向所述最佳听音点发出的反馈语音选自不同声音。

可选地，在控制所述音响向所述最佳听音点播放所述语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

在另一方面，本发明还提供了一种音响调节系统，具体地，所述音响调节系统包括依次连接的语音采集器和处理器，其中：

所述语音采集器用于采集并发送语音信息至所述处理器；

所述处理器用于根据所述语音信息识别声源方位，并生成听音调节信号以将所述声源方位调整为最佳听音点，并控制音响向所述最佳听音点播放所述语音信息的反馈语音。

可选地，所述处理器还用于根据所述语音信息，获取所述语音信息的声强分布中的最强方位，并将所述声强分布中的最强方位作为所述声源方位。

可选地，所述处理器还预存每个座椅的方位；所述处理器匹配所述声强分布中的最强方位对应的座椅方位，并将所述座椅方位作为所述声源方位。

可选地，所述音响调节系统还包括与所述处理器连接的摄像头；

所述摄像头用于获取并发送目标人员的图像信息至所述处理器；

所述处理器根据所述语音信息获取所述语音信息中的语音年龄和/或语音性别，并根据所述图像信息获取所述目标人员的图像年龄和/或图像性别，在判定所述语音年龄符合所述图像年龄和/或所述语音性别符合所述图像性别时，将所述目标人员的方位作为所述声源方位。

所述处理器根据所述图像信息获取所述目标人员的唇语口型，在判定所述语音信息符合所述唇语口型时，将所述目标人员的方位作为所述声源方位。

可选地，所述处理器还用于获取所述声源方位的目标人员头部高度，并将所述头部高度作为所述最佳听音点的声场高度。

可选地，所述处理器根据所述语音信息获取所述声源高度，并将所述声源高度作为所述头部高度。

可选地，所述音响调节系统还包括与所述处理器连接的摄像头；所述摄像头用于获取并发送目标人员的图像信息至所述处理器；

所述处理器获取所述目标人员的图像信息，并根据所述图像信息计算所述头部高度。

可选地，所述音响调节系统还包括与所述处理器连接的消噪模块，所述消噪模块用于在所述处理器的控制下，对所述声源方位之外的至少一个方位进行消音。

可选地，所述处理器控制距离最靠近所述最佳听音点的音响向所述最佳听音点播放所述语音信息的反馈语音。

可选地，所述处理器控制音响向所述最佳听音点发出的反馈语音选自不同声音。

可选地，所述处理器在控制所述音响向所述最佳听音点播放所述语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

在另一方面，本发明还提供了一种车辆，具体地，所述车辆包括音响和如上述的音响调节系统。

在另一方面，本发明还提供了一种计算机存储介质，具体地，所述计算机存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，可实现如上述的音响调节方法。

本发明提供的音响调节方法、系统、车辆及计算机存储介质，能够识别出当前语音交互对象的方位，在做出语音反馈时，自动调整最佳听音点至语音交互对象，以达到最佳的语音交互效果。

附图说明

图1为本发明一实施例的音响调节方法流程图。

图2为本发明一实施例的获取声源方位的流程图。

图3为本发明另一实施例的获取声源方位的流程图。

图4为本发明一实施例的音响调节系统的方框图。

图5为本发明另一实施例的音响调节系统的方框图。

图6为本发明一实施例的车辆的方框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的一个方面，提供了一种音响调节方法。图1为本发明一实施例的音响调节方法流程图。

如图1所示，在一实施例中，音响调节方法包括：

S10：获取语音信息；

语音交互中，通过对应用场景内的语音监听获取到语音信息。

S20：获取语音信息的声源方位；

通过技术手段，计算出发出声音的声源所在方位。

S30：将声源方位调整为最佳听音点；

根据定位到的声源方位，以声源方位为最佳听音点生成调音方案。

S40：控制音响向最佳听音点播放语音信息的反馈语音。

根据最佳听音点的听音方案，控制音响播放反馈语音。控制的方式可以是角度控制、频响控制以及强度控制等各种控制方法。

通过识别出当前语音交互对象的方位，自动调整最佳听音点至语音交互对象，以在做出语音反馈时，达到最佳的语音交互效果。

在一实施例中，在执行S20：获取语音信息的声源方位的步骤中包括：

获取语音信息的声强分布中的最强方位，将声强分布中的最强方位作为声源方位。

通过同步测量语音信息的声强分布，绘制声强分布图，找出其中声强最强方位，也就获取到了声源方位。例如，在阵列式麦克风分布矩阵中，接收到声音最强的那个麦克风的位置，就可以认为是最接近声源的位置。通过至少两个平面的阵列式麦克风分布矩阵，可以更精确地定位到声源方位。

获取语音信息的声强分布中的最强方位；获取声强分布中的最强方位对应的座椅方位；将座椅方位作为声源方位。

通过同步测量语音信息的声强分布，绘制声强分布图，找出其中声强最强方位。然后分析出这个声强最强方位所对应的座椅方位，也就锁定了座椅上乘员作为语音信息的声源。

图2为本发明一实施例的获取声源方位的流程图。

如图2所示，在一实施例中，在执行S20：获取语音信息的声源方位的步骤中包括：

S201：根据语音信息获取语音信息中的语音年龄和/或语音性别。

先从监听到的语音信息中分析出语音年龄和/或语音性别。比如8岁的男性儿童或者60岁的老年女性。

S202：获取目标人员的图像信息。

通过摄像头获取应用场景内的人员图像。

S203：根据图像信息获取目标人员的图像年龄和/或图像性别。

从应用场景内的人员图像中分析出场景内目标人员的图像年龄和/或图像性别，比如8岁的男性儿童或者60岁的老年女性。

S204：判定语音年龄符合图像年龄和/或语音性别符合图像性别时，将目标人员的方位作为声源方位。

对分析出的年龄以及性别进行匹配，成功匹配到的人员可以确认为是发出语音信息的目标人员。

在当前的语音识别技术下，通过分析语音信息，可以判断发声的乘员年龄和/或性别。同样的，在当前的图像识别技术下，通过分析使用场景内人员的图像信息，也可以判断发声的乘员年龄和/或性别。当图像年龄与语音年龄能够唯一对应，和/或图像姓名与语音性别能够唯一对应，即可以目标人员的方位作为声源方位。

由于不同的人员有不同的语音特征值。语音特征值可以是特定人员在声纹、声域、频率以及声调等声音特征的表征值。在其他实施例中，通过预存不同人员的语音特征值，可以根据每个人说话表达出的语音信息中的不同特点，来识别不同的目标人员。

图3为本发明另一实施例的获取声源方位的流程图。

如图3所示，在一实施例中，在执行S20：获取语音信息的声源方位的步骤中包括：

S211：获取目标人员的图像信息。

通过摄像头获取应用场景内的人员图像。

S212：根据图像信息获取目标人员的唇语口型。

通过对应用场景内目标人员图像信息中唇语口型的分析，获得每个人实时的说话状态。

S213：判定语音信息符合唇语口型时，将目标人员的方位作为声源方位。

当分析出一个目标人员的唇语口型与获取的语音信息匹配时，确认这个目标人员是发出语音信息声音的人员，将这个目标人员所在的方位作为声源方位。

唇语分析技术也是一种精准分析技术。通过对应用场景内各个人员的口型进行实时图像分析，并与接收到的语音信息进行对比，就能确定讲话的目标人员，进而可以将讲话的目标人员所在的方位作为声源方位。

在一实施例中，在执行S30：将声源方位调整为最佳听音点的步骤中包括：

获取声源方位的目标人员的头部高度；

将头部高度作为最佳听音点的声场高度。

不同的人具有不同的身高。在听音方位的调节中，将目标人员耳朵所在的头部作为听音方位的目标高度，能够带给用户更好的体验。

在一实施例中，在执行获取声源方位的目标人员头部高度的步骤中包括：

根据语音信息获取声源高度；将声源高度作为头部高度。

通过在垂直距离上对声源进行强度监测，能够相对准确地检测到目标人员口部所在的头部高度。

获取目标人员的图像信息；根据图像信息计算头部高度。

目前的图像测量技术已经是一种成熟的测量技术。通过对目标人员图像的分析，能够相对准确地计算出目标人员口部所在的头部高度。

在一实施例中，在执行S40：控制音响向最佳听音点播放语音信息的反馈语音的步骤之前包括：

对声源方位之外的至少一个方位进行消音。

找到目标所在的最佳听音点之后，对其他无关的方位进行消音处理，既可以增加语音互动的私密性，也可以避免在语音反馈时对其他方位的语音干扰。消音的方式除了采用定向声音传送外，可以采取阻性消音技术，也可以采用抗性消音技术。在一实施例中，在反馈语音的播放中，通过利用反馈语音音频的同步反向信号进行消噪。

在一实施例中，在执行S40：控制音响向最佳听音点播放语音信息的反馈语音的步骤中包括：

控制距离最靠近最佳听音点的音响向最佳听音点播放语音信息的反馈语音。

以距离最佳听音点最近的音响向最佳听音点播放反馈语音，相比其他音响可以达到比较好的反馈效果。

控制音响向最佳听音点发出的反馈语音选自不同声音。

不同声音的反馈语音比如童音、男低音、女中音、少女音等具有特色的声音。以不同的声音向最佳听音点播放反馈语音，能够具有明显的区分效果。

在一实施例中，在S40：控制音响向最佳听音点播放语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

其中，角度控制是通过调整音响的音轴线的指向性来达到最佳听音点所需的播放效果，频响控制是通过调整音频的频率响应曲线来达到最佳听音点所需的播放效果，强度控制是通过调整音响输出的声音强度来达到最佳听音点所需的播放效果。

不同的控制方式在实际场景中具有不同的优缺点。通过适当的取舍配置，能够组合出更好的播放效果。

在另一方面，本发明还提供了一种音响调节系统。图4为本发明一实施例的音响调节系统的方框图。

如图4所示，在一实施例中，音响调节系统包括依次连接的语音采集器1和处理器2。

语音采集器1用于采集并发送语音信息至处理器2。处理器2用于根据语音信息识别声源方位，生成听音调节信号以将声源方位调整为最佳听音点，并控制音响向最佳听音点播放语音信息的反馈语音。

采集到语音信息后，通过常用的技术手段，可以计算出发出声音的声源所在方位。然后根据定位到的声源方位，以声源方位为最佳听音点生成调音方案。根据最佳听音点的听音方案，控制音响播放反馈语音。控制的方式可以是角度控制、频响控制以及强度控制等各种控制方法。

在一实施例中，处理器还用于根据语音信息，获取语音信息的声强分布中的最强方位，并将声强分布中的最强方位作为声源方位。

在一实施例中，处理器还预存每个座椅的方位；处理器匹配声强分布中的最强方位对应的座椅方位，并将座椅方位作为声源方位。

通过同步测量语音信息的声强分布，绘制声强分布图，找出其中声强最强方位。然后分析出这个声强最强方位所对应的座椅方位，也就锁定了目标座椅上乘员作为语音信息的声源。

图5为本发明另一实施例的音响调节系统的方框图。

如图5所示，在一实施例中，音响调节系统还包括与处理器2连接的摄像头3；摄像头3用于获取并发送目标人员的图像信息至处理器2。处理器2根据语音采集器1采集到的语音信息获取语音信息中的语音年龄和/或语音性别，并根据图像信息获取目标人员的图像年龄和/或图像性别。处理器2在判定语音年龄符合图像年龄和/或语音性别符合图像性别时，将目标人员的方位作为声源方位。

在一实施例中，音响调节系统还包括与处理器连接的摄像头；摄像头用于获取并发送目标人员的图像信息至处理器。处理器根据图像信息获取目标人员的唇语口型，在判定语音信息符合唇语口型时，将目标人员的方位作为声源方位。

在一实施例中，处理器还用于获取声源方位的目标人员头部高度，并将头部高度作为最佳听音点的声场高度。

在一实施例中，处理器根据语音信息获取声源高度，并将声源高度作为头部高度。

在一实施例中，音响调节系统还包括与处理器连接的摄像头；摄像头用于获取并发送目标人员的图像信息至处理器。处理器获取目标人员的图像信息，并根据图像信息计算头部高度。

在一实施例中，音响调节系统还包括与处理器连接的消噪模块，消噪模块用于在处理器的控制下，对声源方位之外的至少一个方位进行消音。

在一实施例中，处理器控制距离最靠近声源方位的音响向最佳听音点播放语音信息的反馈语音。

在一实施例中，处理器控制音响向最佳听音点发出的反馈语音选自不同声音。

在一实施例中，处理器在控制音响向最佳听音点播放语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

在另一方面，本发明还提供了一种车辆。图6为本发明一实施例的车辆的方框图。

如图6所示，在一实施例中，车辆包括互相连接的音响10和如上述的音响调节系统20。

车辆在实现音响调节方法时，所实施的步骤与以上实施例相同，具体请参考上述各实施例，在此不再赘述。

在另一方面，本发明还提供了一种计算机存储介质，具体地，计算机存储介质上存储有计算机程序，计算机程序在被处理器执行时，可实现如上述的音响调节方法。计算机程序在实现音响调节方法时，所实施的步骤与以上实施例相同，具体请参考上述各实施例，在此不再赘述。

在本文中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语的具体含义。

在本文中，用于描述元件的序列形容词“第一”、“第二”等仅仅是为了区别属性类似的元件，并不意味着这样描述的元件必须依照给定的顺序，或者时间、空间、等级或其它的限制。

在本文中，除非另有说明，“多个”、“若干”的含义是两个或两个以上。

本领域普通技术人员可以理解，实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音响调节方法，其特征在于，包括：

获取语音信息；

获取所述语音信息的声源方位；

将所述声源方位调整为最佳听音点；

控制音响向所述最佳听音点播放所述语音信息的反馈语音。

2.如权利要求1所述的音响调节方法，其特征在于，在执行获取所述语音信息的声源方位的步骤中包括：

获取所述语音信息的声强分布中的最强方位；

将所述声强分布中的最强方位作为所述声源方位。

3.如权利要求1所述的音响调节方法，其特征在于，在执行获取所述语音信息的声源方位的步骤中包括：

获取所述语音信息的声强分布中的最强方位；

获取所述声强分布中的最强方位对应的座椅方位；

将所述座椅方位作为所述声源方位。

4.如权利要求1所述的音响调节方法，其特征在于，在执行获取所述语音信息的声源方位的步骤中包括：

获取目标人员的图像信息；

5.如权利要求1所述的音响调节方法，其特征在于，在执行获取所述语音信息的声源方位的步骤中包括：

获取目标人员的图像信息；

根据所述图像信息获取所述目标人员的唇语口型；

6.如权利要求1所述的音响调节方法，其特征在于，在执行将所述声源方位调整为最佳听音点的步骤中包括：

获取所述声源方位的目标人员的头部高度；

将所述头部高度作为所述最佳听音点的声场高度。

7.如权利要求6所述的音响调节方法，其特征在于，在执行获取所述声源方位的目标人员头部高度的步骤中包括：

根据所述语音信息获取所述声源高度；

将所述声源高度作为所述头部高度。

8.如权利要求6所述的音响调节方法，其特征在于，在执行获取所述声源方位的目标人员头部高度的步骤中包括：

获取所述目标人员的图像信息；

根据所述图像信息计算所述头部高度。

9.如权利要求1所述的音响调节方法，其特征在于，在执行控制音响向所述最佳听音点播放所述语音信息的反馈语音的步骤之前包括：

对所述声源方位之外的至少一个方位进行消音。

10.如权利要求1所述的音响调节方法，其特征在于，在执行控制音响向所述最佳听音点播放所述语音信息的反馈语音的步骤中包括：

11.如权利要求1所述的音响调节方法，其特征在于，在执行控制音响向所述最佳听音点播放所述语音信息的反馈语音的步骤中包括：

12.如权利要求1所述的音响调节方法，其特征在于，在控制所述音响向所述最佳听音点播放所述语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

13.一种音响调节系统，其特征在于，包括依次连接的语音采集器和处理器，其中：

所述语音采集器用于采集并发送语音信息至所述处理器；

14.如权利要求13所述的音响调节系统，其特征在于，所述处理器还用于根据所述语音信息，获取所述语音信息的声强分布中的最强方位，并将所述声强分布中的最强方位作为所述声源方位。

15.如权利要求14所述音响调节系统，其特征在于，所述处理器还预存每个座椅的方位；所述处理器匹配所述声强分布中的最强方位对应的座椅方位，并将所述座椅方位作为所述声源方位。

16.如权利要求13所述的音响调节系统，其特征在于，所述音响调节系统还包括与所述处理器连接的摄像头；

17.如权利要求13所述的音响调节系统，其特征在于，所述音响调节系统还包括与所述处理器连接的摄像头；

18.如权利要求13所述的音响调节系统，其特征在于，所述处理器还用于获取所述声源方位的目标人员头部高度，并将所述头部高度作为所述最佳听音点的声场高度。

19.如权利要求18所述的音响调节系统，其特征在于，所述处理器根据所述语音信息获取所述声源高度，并将所述声源高度作为所述头部高度。

20.如权利要求18所述的音响调节系统，其特征在于，所述音响调节系统还包括与所述处理器连接的摄像头；所述摄像头用于获取并发送目标人员的图像信息至所述处理器；

21.如权利要求13所述的音响调节系统，其特征在于，所述音响调节系统还包括与所述处理器连接的消噪模块，所述消噪模块用于在所述处理器的控制下，对所述声源方位之外的至少一个方位进行消音。

22.如权利要求13所述的音响调节系统，其特征在于，所述处理器控制距离最靠近所述最佳听音点的音响向所述最佳听音点播放所述语音信息的反馈语音。

23.如权利要求13所述的音响调节系统，其特征在于，所述处理器控制所述音响向所述最佳听音点发出的反馈语音选自不同声音。

24.如权利要求13所述的音响调节系统，其特征在于，所述处理器在控制所述音响向所述最佳听音点播放所述语音信息的反馈语音时，控制方式选自角度控制、频响控制以及强度控制中的至少一项。

25.一种车辆，其特征在于，包括音响和如权利要求13-24任一项所述的音响调节系统。

26.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，可实现如权利要求1-12任一项所述的音响调节方法。