CN115881125A

CN115881125A - 车载多音区语音交互方法、装置、电子设备和存储介质

Info

Publication number: CN115881125A
Application number: CN202310057346.4A
Authority: CN
Inventors: 吴俊楠; 汤欣钰; 高鹏; 王育军
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Automobile Technology Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Automobile Technology Co Ltd
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-03-31
Anticipated expiration: 2043-01-19
Also published as: CN115881125B

Abstract

本申请提出一种车载多音区语音交互方法、装置、电子设备和存储介质，其中，方法包括：对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取频谱信号；针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差；根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区；根据各频点所属的音区，确定每个音区对应的语音信号；根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。该方法可以有效地将各个音区的语音信号分离开，使得各个音区独立交互，互不影响，提高了各座位上语音交互的精准性。

Description

车载多音区语音交互方法、装置、电子设备和存储介质

技术领域

本申请涉及车联网技术领域，尤其涉及一种车载多音区语音交互方法、装置、电子设备和存储介质。

背景技术

语音在车辆智能座舱的设计中处于核心地位。人与座舱之间的语音交互容易受到车内其他人声干扰，影响交互体验。

相关技术中，可以采用波束方法将主驾驶和副驾驶的音区分隔开，将后排左右两个音区分割开。但是，波束对干扰的压制性能有限，并且主驾驶或者副驾驶说话，在后排的两个麦克风也能接收到完整的信号，若后排乘客说话，前排的麦克风也能接收到完整的信号，从而会影响各座位上语音交互的精准性。

发明内容

本申请提出一种车载多音区语音交互方法、装置、电子设备和存储介质。具体方案如下：

本申请一方面实施例提出了一种车载多音区语音交互方法，车辆座舱内设置两对麦克风，两对麦克风形成多个音区，该方法包括：

对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号；

针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差；

根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区；

根据各频点所属的音区，确定每个音区对应的语音信号；

根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

本申请另一方面方面实施例提出了一种车载多音区语音交互装置，车辆座舱内设置两对麦克风，两对麦克风形成多个音区，该装置包括：

转换模块，用于对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号；

第一确定模块，用于针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差；

第二确定模块，用于根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区；

第三确定模块，用于根据各频点所属的音区，确定每个音区对应的语音信号；

控制模块，用于根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

本申请另一方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述一方面所述的方法。

本申请另一方面实施例提出了一种计算机程序产品，其上存储有计算机程序，所述程序被处理器执行时实现如前述一方面所述的方法。

本申请提出的车载多音区语音交互方法、装置、电子设备和存储介质，通过基于两对麦克风采集的语音信号分别在频谱信号上每个频点上的相位差，确定每个频点所属的音区，从而可以有效地将各个音区的语音信号分离开，使得各个音区独立交互，互不影响，提高了各座位上语音交互的精准性。并且，基于相位差对麦克风采集的语音信号进行分离，所需计算资源比较小，能够高效实时处理。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种车载多音区语音交互方法的流程示意图；

图2为本申请实施例提供的一种车辆座舱内麦克风的设置示意图；

图3为本申请实施例提供的另一种车载多音区语音交互方法的流程示意图；

图4为本申请实施例提供的另一种车载多音区语音交互方法的流程示意图；

图5为本申请实施例提供的一种车载多音区语音交互的过程示意图；

图6为本申请实施例提供的一种车载多音区语音交互装置的结构示意图；

图7为本申请实施例提供的一种电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的车载多音区语音交互方法、装置、电子设备和存储介质。

图1为本申请实施例提供的一种车载多音区语音交互方法的流程示意图。

本申请实施例的车载多音区语音交互方法的执行主体为车载多音区语音交互装置，该装置可设置于电子设备中，比如车机中，以实现车载多音区语音交互功能。

如图1所示，该方法可以包括以下步骤：

步骤101，对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号。

本申请中，车辆座舱内可以设置两对麦克风，比如一对麦克风可以设置在座舱内的车身中轴线上，另一对麦克风可以设置在座舱内垂直于中轴线的垂线上。其中，两对麦克风可以采用全指向性麦克风，每对麦克风中两个麦克风之间的距离可以小于预设距离。

需要说明的是，预设距离可以根据实际需要设置，本申请对此不作限定。

本申请中，车辆座舱内设置的两对麦克风可以形成多个音区，多个音区之间相互独立，每个音区可以对应座舱内的一个座位。

本申请中，麦克风的摆放位置比较灵活，可以根据座舱的布局灵活调整。

作为一种示例，如图2所示，车辆座舱内设置有4个麦克风mic1、mic2、mic3和mic4，其中，一对麦克风mic1和mic3设置在Line1上，另一对麦克风mic2和mic4设置在Line2上，每对麦克风之间的距离可以不超过2cm，4个麦克风可以将座舱划分为4个音区，也即每个座位对应一个音区。

本申请中，可以从两对麦克风中确定出目标麦克风，对目标麦克风采集的语音信号进行频域转换，比如可以对目标麦克风采集的语音信号进行短时傅里叶变换，以获取目标麦克风采集的语音信号对应的频谱信号。

本申请中，在确定目标麦克风时，可以将两对麦克风中的任一麦克风作为目标麦克风。或者，为了提高准确性，也可以获取每个麦克风采集的语音信号，根据每个麦克风采集的语音信号的强度，确定声源所属的音区，并根据声源所属的音区，从两对麦克风中确定出目标麦克风。

在根据声源所属的音区，从两对麦克风中确定出目标麦克风时，可以将距离声源所属的音区最近的麦克风中的任一麦克风作为目标麦克风。或者，预先设置每个音区与候选麦克风之间的对应关系，若声源所属的音区是一个，也即只有一个声源，可以将声源所属的音区对应的候选麦克风作为目标麦克风；若声源所属的音区是两个且相邻，那么可以将距离两个音区最近的麦克风作为目标麦克风；若声源所属的音区是两个且不相邻，可以将两对麦克风中的任一麦克风作为目标麦克风；若声源所属的音区是三个，可以根据与两个音区都相邻的音区确定目标麦克风；若声源所属的音区为四个，可以将两对麦克风中的任一麦克风作为目标麦克风。

以图2所示的车辆座舱内两对麦克风的设置方式为例，若声源所属的音区为副驾对应的音区，可以将mic1或mic2作为目标麦克风，或者预先设置在声源所属的音区为副驾对应的音区时，将mic1作为目标麦克风。若声源所属的音区包括主驾对应的音区和副驾对应的音区，可以将mic2作为目标麦克风。若声源所属的音区包括主驾对应的音区和后排左侧座位对应的音区，那么可以将4个麦克风中任一麦克风为作为目标麦克风。若声源所属的音区为主驾对应的音区、副驾对应的音区和后排左侧座位对应的音区，可见副驾对应的音区与另外两个音区都相邻，可以将mic1或mic2作为目标麦克风。

需要说明的是，上述确定目标麦克风的方式仅为示例，可以根据实际需要确定，本申请对此不作限定。

步骤102，针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差。

本申请中，频谱信号上包括多个频点，对于每个频点，可以将第一对麦克风采集的语音信号在每个频点做互相关，以确定第一对麦克风采集的语音信号在每个频点上的第一相位差，并将第二对麦克风采集的语音信号在每个频点做互相关，以确定第二对麦克风采集的语音信号在每个频点上的第二相位差。

其中，每个频点对应的第一相位差可以用于表征频点传到第一对麦克风中两个麦克风的时间早晚，每个频点对应的第二相位差可以用于表征频点传到第二对麦克风中两个麦克风的时间早晚。

需要说明的是，本申请中，第一对麦克风中“第一”和第二对麦克风“第二”，是为了便于区分两对麦克风。

步骤103，根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区。

本申请中，由于每个频点传到一对麦克风中的两个麦克风的时间不同，因此，每对麦克风可以将座舱划分为两个音区，根据每个频点对应的第一相位差，可以确定每个频点属于第一对麦克风划分的两个音区中的哪个音区，根据每个频点对应的第二相位差，可以确定每个频点属于第二对麦克风划分的两个音区中的哪个音区，基于每个频点所属的两个音区可以确定每个频点最终所属的音区。

步骤104，根据各频点所属的音区，确定每个音区对应的语音信号。

在确定频谱信号中每个频点所属的音区后，可以确定属于同一音区的频点，那么根据同一音区的频点可以得到该音区的频谱信号，将该音区的频谱信号进行时域转换，可以得到该音区的语音信号。由此，可以确定每个音区对应的语音信号，从而将麦克风采集的语音信号分离开。

比如，座舱内四个座位上的人同时说话，座舱内的麦克风可以采集到四个人的混合语音信号，采用上述方法可以确定每个音区对应的语音信号，也即将四个人的语音信号从混合语音信号中分离，得到每个人单独的语音信号。

步骤105，根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

本申请中，可以对每个音区的语音信号进行语音识别，得到识别结果，并根据识别结果控制相应的车载设备执行相应动作。

比如，可以对图2中的mic1采集的语音信号进行上述处理，以确定每个音区对应的语音信号，若副驾对应的音区的语音信号的振幅大于预设值，可以认为包含有效内容，其余座位对应的音区的语音信号的振幅小于或等于预设值，可以认为未包含有效内容，那么可以对副驾对应的音区的语音信号进行识别，得到识别结果为“打开车窗”，那么可以控制副驾右侧的车窗打开。

在进行语音识别时，可以由车机端进行语音识别，也可以将每个音区的语音信号发送到云端，由云端进行语音识别，再获取云端返回的识别结果，本申请对此不作限定。

本申请实施例中，车辆座舱内设置两对麦克风，两对麦克风形成多个音区，通过对目标麦克风采集的语音信号进行频域转换，得到频域信号，针对频域信号上的每个频点，确定两对麦克风信号分别在每个频点上的相位差，基于相位差确定每个频点所属的音区，并基于各频点的所属的音区，确定每个音区对应的语音信号，再根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。由此，基于两对麦克风采集的语音信号分别在频谱信号上每个频点上的相位差，确定每个频点所属的音区，从而可以有效地将各个音区的语音信号分离开，使得各个音区独立交互，互不影响，提高了各座位上语音交互的精准性。并且，基于相位差对麦克风采集的语音信号进行分离，所需计算资源比较小，能够高效实时处理。

图3为本申请实施例提供的另一种车载多音区语音交互方法的流程示意图。如图3所示，该方法可以包括：

步骤301，对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号。

步骤302，针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差。

本申请中，步骤301-步骤302可以采用本申请各实施例中任一种方式实现，故在此不再赘述。

步骤303，根据第一相位差，从前方区域和后方区域中确定出每个频点所属的第一位置区域。

本申请中，第一对麦克风可以将座舱分为前方区域和后方区域，第二对麦克风可以将座舱分为左侧区域和右侧区域。比如，上述图2中，mic2和mic4将座舱沿着Line1分为前方区域和后方区域，mic1和mic3将座舱沿着Line2分为左侧区域和右侧区域。

本申请中，可以根据第一对麦克风在每个频点上的第一相位差，确定每个频点先到达第一对麦克风中的哪个麦克风，从而从前方区域和后方区域中确定出每个频点所属的第一位置区域，也即确定每个频点属于前方区域还是后方区域。

步骤304，根据第二相位差，从左侧区域和左侧区域中确定出每个频点所属的第二位置区域。

本申请中，可以根据第二对麦克风在每个频点上的第一相位差，确定每个频点先到达第二对麦克风中的哪个麦克风，从而从左侧区域和右侧区域中确定出每个频点所属的第二位置区域，也即确定每个频点属于左侧区域还是后侧区域。

步骤305，根据第一位置区域与第二位置区域之间的交集，确定每个频点所属的音区。

针对每个频点，可以根据每个频点所属的第一位置区域与第二位置区域之间的交集，确定每个频点所属的音区。

以图2为例，若频点属于前方区域和右侧区域，可以确定两个区域的交集为右前方区域，也即频点所属的音区为副驾对应的音区；若频点属于前方区域和左侧区域，可以确定两个区域的交集为左前方区域，也即频点所属的音区为主驾对应的音区；若频点属于后方区域和右侧区域，可以确定两个区域的交集为右后方区域，也即频点所属的音区为后排右侧座位对应的音区；若频点属于后方区域和左侧区域，可以确定两个区域的交集为左后方区域，也即频点所属的音区为后排左侧座位对应的音区。由此，当座舱内的多个座位上的人同时说话时，可以确定频谱信号上每个频点是属于哪个乘客的。

步骤306，根据各频点所属的音区，确定每个音区对应的语音信号。

本申请中，可以根据各频点所属的音区，确定每个音区对应的掩码信息，并根据每个音区对应的掩码信息和两对麦克风中任一麦克风采集的语音信号，确定每个音区对应的语音信号。其中，一个音区对应的掩码信息可以用于表征各频点中哪些点属于该音区哪些点不属于该音区。

以上述图2中主驾对应的音区为例，频谱信号中若频点属于主驾对应的音区点，掩码为1，若频点不属于主驾对应的音区，掩码为0，由此，可以得到主驾对应的音区的掩码信息也即掩码矩阵，可以将主驾对应的音区的掩码矩阵与mic1、mic2、mic3和mic4中任一麦克风采集的语音信号的频谱信号相乘，得到主驾对应的音区的频谱信号，之后对主驾对应的音区的频谱信号进行时域转换，得到主驾对应的音区的语音信号。类似地，可以确定副驾对应的语音信号，后排右侧座位对应的音区的语音信号和后排左侧座位对应的语音信号。

或者，可以根据各频点所属的音区，确定属于同一音区的频点，之后将属于同一音区的频点按照时间顺序进行组合，可以得到每个音区的频谱信号，之后对每个音区的频谱信号进行时域转换，得到每个音区的语音信号。

步骤307，根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

本申请中，步骤307可以采用本申请各实施例中任一种方式实现，故在此不再赘述。

本申请实施例中，第一对麦克风可以将座舱分为前方区域和后方区域，第二对麦克风将座舱分为左侧区域和右侧区域，在根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区时，可以确定根据第一相位差，从前方区域和后方区域中确定出每个频点所属的第一位置区域，并根据第二相位差，从左侧区域和左侧区域中确定出每个频点所属的第二位置区域，再根据第一位置区域与第二位置区域之间的交集，确定每个频点所属的音区。由此，基于频点对应的第一相位差，确定频点属于前方区域还是后方区域，基于频点对应的第二相位差，确定频点属于左侧区域还是右侧区域，然后根据频点所属的两个区域的交集，确定频点所属的音区，再根据频点所属的音区确定每个音区的语音信号，从而可以提高频点所属音区的确定准确性，进而可以提高各音区语音分离的准确性。

图4为本申请实施例提供的另一种车载多音区语音交互方法的流程示意图。如图4所示，该方法可以包括：

步骤401，对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号。

步骤402，针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差。

步骤403，根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区。

步骤404，根据各频点所属的音区，确定每个音区对应的语音信号。

本申请中，步骤401-步骤404可以采用本申请各实施例中任一种方式实现，故在此不再赘述。

步骤405，利用预先训练的降噪模型，对每个音区对应的语音信号进行降噪处理，以获取降噪信号。

由于每个音区对应的语音信号中可能还存在风噪、车内空调噪声、发动机噪声等，这些噪声属于非平稳噪声。一般的信号处理降噪通常假设噪声是平稳的，因此不适合用来处理这一类噪声。基于此，本申请中，可以将每个音区对应的语音进行分别输入到预先训练的降噪模型中进行降噪处理，以获取降噪信号。

步骤406，对每个音区对应的降噪信号进行语音识别，以获取识别结果。

本申请中，可以对每个音区对应的降噪信号进行语音识别，以获取每个音区对应的语音识别结果。

由于某时刻座舱内可能只有一个说话或两个或者三个人同时说话，因此有些音区可能没有有效的语音信号。进一步地，可以先确定降噪信号的振幅，若振幅小于设定阈值，可以认为该音区对应的座位上的人没有说话，那么可以不对该音区的降噪信号进行语音识别。

步骤407，根据识别结果控制相应车载设备执行相应动作。

在实际应用中，车载交互时，通常先唤醒再下达控制指令，因此，本申请中，可以先将每个音区的识别结果与唤醒词进行匹配，若某音区的识别结果与唤醒词匹配，说明该音区对应的座位上的乘客可能要下达控制指令给座舱，之后可以将该音区的语音信号进行语音识别，以识别后续的控制指令，根据控制指令控制相应车载设备执行相应动作。若某音区的识别结果与唤醒词不匹配，可以将该音区的识别结果与预设的控制指令进行匹配，若该音区的识别结果与某控制指令匹配，那么可以根据该控制指令控制相应车载设备执行相应动作。

本申请实施例中，在根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作时，可以先利用预先训练的降噪模型，对每个音区对应的语音信号进行降噪处理，以获取降噪信号，之后对每个音区对应的降噪信号进行语音识别，以获取识别结果，再根据识别结果控制相应车载设备执行相应动作。由此，通过利用降噪模型对每个音区对应的语音信号进行降噪处理，可以提高每个音区语音识别结果的准确性。

为了便于理解本申请的车载多音区语音交互方法，下面结合图2和图5进行说明。图5为本申请实施例提供的一种车载多音区语音交互的过程示意图。

图2中四个全指向性麦克风mic1、mic2、mic3和mic4，分别采集得到的四路语音信号m1、m2、m3和m4。

如图5所示，基于mic1采集的语音信号m1和mic3采集的语音信号m3在某麦克风的频谱信号上各频点之间的相位差，可以将座舱沿着Line2分成上下两部分，上音区mask1和下音区mask2（对应上述将座舱分为左侧区域和右侧区域），也即可以确定频点属于上音区mask1还是下音区mask2；基于mic2采集的语音信号m2和mic4采集的语音信号m4在各频点上的相位差，可以将座舱沿着Line1分成左右两部分（对应上述将座舱分为前方区域和后方区域），左音区mask3和右音区mask4，也即可以确定频点属于左音区mask3还是右音区mask4。

上述的上音区mask1、下音区mask2、左音区mask3和右音区mask4可以组合出4个一区，将上音区和左音区取交集可以得到左上音区；将上音区与右音区取交集可得到右上音区；将下音区与左音区取交集可得到左下音区；将下音区与右音区取交集可得到右下音区。

由此，若频点属于上音区和左音区，可以确定频点所属的音区为左上音区，也即副驾对应的音区；若频点属于上音区与右音区，可以确定频点所属的音区为右上音区，也即后排右侧座位对应的音区；若频点属于下音区与左音区，可以确定频点所属的音区为左下音区，也即主驾对应的音区；若频点属于下音区和右音区，可以确定所属的音区为右下音区，也即后排左侧座位对应的音区。

在确定各频点所属的音区后，可以将同一音区的频点组合，得到左上音区的语音信号y1、右上音区语音信号y2、左下音区的语音信号y3和右下音区的语音信号y4，从而通过对频谱信号上的各频点进行分区，得到各音区的语音信号。

之后，将每个音区的语音信号分别输入到神经网络中进行降噪，之后分别对每个音区降噪后的语音信号进行唤醒检测。若一个音区或多个音区都进行了唤醒，可以认为这些音区对应的座位上的用户想要下达控制指令给座舱，因此可以将唤醒的这一路语音信号进行语音识别，以识别后续的控制指令，并控制相应的车载设备执行相应的动作。

为了实现上述实施例，本申请实施例还提出一种车载多音区语音交互装置。

图6为本申请实施例提供的一种车载多音区语音交互装置的结构示意图。

如图6所示，该装置600可以包括：

转换模块610，用于对两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取目标麦克风采集的语音信号对应的频谱信号；

第一确定模块620，用于针对频谱信号上的每个频点，确定第一对麦克风采集的语音信号在每个频点上的第一相位差及第二对麦克风采集的语音信号在每个频点上的第二相位差；

第二确定模块630，用于根据每个频点对应的第一相位差和第二相位差，确定每个频点所属的音区；

第三确定模块640，用于根据各频点所属的音区，确定每个音区对应的语音信号；

控制模块650，用于根据每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

进一步，在本申请实施例的一种实现方式中，第一对麦克风将座舱分为前方区域和后方区域，第二对麦克风将座舱分为左侧区域和右侧区域，第二确定模块630，用于：

根据第一相位差，从前方区域和后方区域中确定出每个频点所属的第一位置区域；

根据第二相位差，从左侧区域和左侧区域中确定出每个频点所属的第二位置区域；

根据第一位置区域与第二位置区域之间的交集，确定每个频点所属的音区。

在本申请实施例的一种实现方式中，第三确定模块640，用于：

根据各频点所属的音区，确定每个音区对应的掩码信息；

根据掩码信息和任一麦克风采集的语音信号，确定每个音区对应的语音信号。

根据各频点所属的音区，确定属于同一音区的频点；

将属于同一音区的频点按照时间顺序进行组合，以获取每个音区对应的语音信号。

在本申请实施例的一种实现方式中，控制模块650，用于：

利用预先训练的降噪模型，对每个音区对应的语音信号进行降噪处理，以获取降噪信号；

对每个音区对应的降噪信号进行语音识别，以获取识别结果；

根据识别结果控制相应车载设备执行相应动作。

在本申请实施例的一种实现方式中，该装置还可以包括：

获取模块，用于获取每个麦克风采集的语音信号；

第四确定模块，用于根据语音信号的强度，确定声源所属的音区；

第五确定模块，用于根据声源所属的音区，从两对麦克风中确定出目标麦克风。

需要说明的是，前述对车载多音区语音交互方法实施例的解释说明也适用于该实施例的车载多音区语音交互装置，此处不再赘述。

本申请实施例中，基于两对麦克风采集的语音信号分别在频谱信号上每个频点上的相位差，确定每个频点所属的音区，从而可以有效地将各个音区的语音信号分离开，使得各个音区独立交互，互不影响，提高了各座位上语音交互的精准性。并且，基于相位差对麦克风采集的语音信号进行分离，所需计算资源比较小，能够高效实时处理。

为了实现上述实施例，本申请还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的方法。

图7为本申请实施例提供的一种电子设备的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出（I/ O）接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风（MIC），当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/ O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车载多音区语音交互方法，其特征在于，车辆座舱内设置两对麦克风，所述两对麦克风形成多个音区，所述方法包括：

对所述两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取所述目标麦克风采集的语音信号对应的频谱信号；

针对所述频谱信号上的每个频点，确定第一对麦克风采集的语音信号在所述每个频点上的第一相位差及第二对麦克风采集的语音信号在所述每个频点上的第二相位差；

根据所述每个频点对应的第一相位差和第二相位差，确定所述每个频点所属的音区；

根据各频点所属的音区，确定每个音区对应的语音信号；

根据所述每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

2.如权利要求1所述的方法，其特征在于，所述第一对麦克风将所述座舱分为前方区域和后方区域，所述第二对麦克风将所述座舱分为左侧区域和右侧区域，所述根据所述每个频点对应的第一相位差和第二相位差，确定所述每个频点所属的音区，包括：

根据所述第一相位差，从所述前方区域和所述后方区域中确定出所述每个频点所属的第一位置区域；

根据所述第二相位差，从所述左侧区域和所述左侧区域中确定出所述每个频点所属的第二位置区域；

根据所述第一位置区域与所述第二位置区域之间的交集，确定所述每个频点所属的音区。

3.如权利要求1所述的方法，其特征在于，所述根据各频点所属的音区，确定每个音区对应的语音信号，包括：

根据所述各频点所属的音区，确定每个音区对应的掩码信息；

根据所述掩码信息和任一麦克风采集的语音信号，确定所述每个音区对应的语音信号。

4.如权利要求1所述的方法，其特征在于，所述根据各频点所属的音区，确定每个音区对应的语音信号，包括：

根据所述各频点所属的音区，确定属于同一音区的频点；

将属于同一音区的频点按照时间顺序进行组合，以获取所述每个音区对应的语音信号。

5.如权利要求1所述的方法，其特征在于，所述根据所述每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作，包括：

对所述每个音区对应的降噪信号进行语音识别，以获取识别结果；

根据所述识别结果控制相应车载设备执行相应动作。

6.如权利要求1所述的方法，其特征在于，在所述对所述两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取所述目标麦克风采集的语音信号对应的频谱信号之前，还包括：

获取每个麦克风采集的语音信号；

根据所述语音信号的强度，确定声源所属的音区；

根据所述声源所属的音区，从所述两对麦克风中确定出所述目标麦克风。

7.一种车载多音区语音交互装置，其特征在于，车辆座舱内设置两对麦克风，所述两对麦克风形成多个音区，所述装置包括：

转换模块，用于对所述两对麦克风中的目标麦克风采集的语音信号进行频域转换，以获取所述目标麦克风采集的语音信号对应的频谱信号；

第一确定模块，用于针对所述频谱信号上的每个频点，确定第一对麦克风采集的语音信号在所述每个频点上的第一相位差及第二对麦克风采集的语音信号在所述每个频点上的第二相位差；

第二确定模块，用于根据所述每个频点对应的第一相位差和第二相位差，确定所述每个频点所属的音区；

控制模块，用于根据所述每个音区对应的语音信号的识别结果，控制相应车载设备执行相应动作。

8.如权利要求7所述的装置，其特征在于，所述第一对麦克风将所述座舱分为前方区域和后方区域，所述第二对麦克风将所述座舱分为左侧区域和右侧区域，所述第二确定模块，用于：

9.如权利要求7所述的装置，其特征在于，所述第三确定模块，用于：

10.如权利要求7所述的装置，其特征在于，所述第三确定模块，用于：

根据所述各频点所属的音区，确定属于同一音区的频点；

11.如权利要求7所述的装置，其特征在于，所述控制模块，用于：

根据所述识别结果控制相应车载设备执行相应动作。

12.如权利要求7所述的装置，其特征在于，还包括：

获取模块，用于获取每个麦克风采集的语音信号；

第四确定模块，用于根据所述语音信号的强度，确定声源所属的音区；

第五确定模块，用于根据所述声源所属的音区，从所述两对麦克风中确定出所述目标麦克风。

13.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-6中任一所述的方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。