CN109545219A

CN109545219A - 车载语音交互方法、系统、设备及计算机可读存储介质

Info

Publication number: CN109545219A
Application number: CN201910020769.2A
Authority: CN
Inventors: 史金龙
Original assignee: Beijing Electric Vehicle Co Ltd
Current assignee: Beijing Electric Vehicle Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-03-29

Abstract

本发明公开一种车载语音交互方法、系统、设备及计算机可读存储介质，该车载语音交互系统包括：麦克风阵列模块，用于接收不同位置的声音信号；语音交互模块，包括：回声消除增强子模块，用于从声音信号中滤除所述第一用户之外的声音信号，生成第一声音信号；多位置声源定位子模块，用于从第一声音信号中识别第一用户的第一语音信号，确定第一用户的位置；指令识别子模块，用于识别第一语音信号的指令信息；语音执行模块，用于接收指令信息，执行相应操作。通过实施本发明，可以有效滤除其它位置的声源的干扰，从而提高用户语音采集的准确度及辨识度，更加精确地获取用户发出的指令，并执行相应操作，从而提高用户的使用体验。

Description

车载语音交互方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及语音交互技术领域，具体涉及一种车载语音交互方法、系统、设备及计算机可读存储介质。

背景技术

目前，为了优化用户的驾驶感受，汽车上配置的功能逐渐增多，例如车载娱乐功能、车载通讯功能、车载导航功能、车载网络功能等，甚至整合了人工智能技术。随着人工智能技术的发展，语音交互系统在车载领域的应用越来越多。

目前，车载语音交互系统的麦克风往往设置在靠近驾驶员正前方的位置，而语音的反馈则是来自车上所有的音响发出的声音，目前的波速成形技术只能做二维的波束处理，由于语音的反馈声音是在全车范围内，当主驾驶讲话时，后排乘客的说话的声音也会被前排麦克风接收从而干扰主驾和副驾驶，噪声较多，导致车内人员无法有效准确地通过语音交互系统进行交互。

发明内容

有鉴于此，本发明实施例提供了一种车载语音交互方法、系统、设备及计算机可读存储介质，以解决现有技术中无法有效识别多个声源进行对应处理的问题。

根据第一方面，本发明实施例提供了一种车载语音交互系统，包括：麦克风阵列模块，用于接收不同位置的声音信号；语音交互模块，包括：回声消除增强子模块，用于从声音信号中滤除第一用户之外的声音信号，生成第一声音信号；多位置声源定位子模块，用于从所述第一声音信号中识别第一用户的第一语音信号，确定所述第一用户的位置；指令识别子模块，用于识别所述第一语音信号的指令信息；语音执行模块，用于接收所述指令信息，执行相应操作。

结合第一方面，在第一方面第一实施方式中，所述语音交互模块还包括：声纹识别子模块，用于识别所述第一语音信号中的语音特征，根据所述语音特征判断所述第一用户的身份；所述语音执行模块根据所述身份及第一语音信号执行相应操作。

结合第一方面，在第一方面第三实施方式中，所述指令识别子模块包括：语音识别子模块，用于将所述第一语音信号输入至预设的语音模型中进行匹配识别，将所述语音信号转化为文本信息；自然语义理解子模块，用于对所述文本信息进行自然语义理解，将所述第一语音信号中的指令信息和对应的数据库进行匹配；逻辑信号转换子模块，用于根据指令信息将所述第一语音信号转换为函数文本信息及总线信号。

结合第一方面，在第一方面第四实施方式中，所述语音执行模块包括：车辆控制子模块，通过车载信息娱乐系统与车辆总线通信，用于对车辆进行语音控制；信息娱乐系统控制子模块，通过语音接口对车载应用程序进行语音控制；在线信源控制子模块，通过所述语音接口对外接信源的应用程序进行语音控制；功放扬声器子模块，用于对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。

结合第一方面第四实施方式，在第一方面第五实施方式中，所述功放扬声器子模块包括：功放扬声器，所述功放扬声器的数量为偶数个。

结合第一方面，在第一方面第六实施方式中，所述麦克风阵列模块包括：麦克风阵列组件，所述麦克风阵列组件的数量为偶数个。

根据第二方面，本发明实施例提供了一种车载语音交互方法，包括：接收不同位置的声音信号；从所述声音信号中滤除所述第一用户之外的声音信号，生成第一声音信号；从所述第一声音信号中识别第一用户的第一语音信号，确定所述第一用户的位置；识别所述第一语音信号的指令信息；根据所述指令信息执行相应操作。

结合第二方面，在第二方面第一实施方式中，该车载语音交互方法还包括：识别所述第一语音信号中的语音特征，根据所述语音特征判断所述第一用户的身份；所述语音执行模块根据所述身份及第一语音信号执行相应操作。

结合第二方面，在第二方面第三实施方式中，所述识别所述第一语音信号的指令信息，包括：将所述第一语音信号输入至预设的语音模型中进行匹配识别，将所述语音信号转化为文本信息；对所述文本信息进行自然语义理解，将所述第一语音信号中的指令信息和对应的数据库进行匹配；根据指令信息将所述第一语音信号转换为函数文本信息及总线信号。

结合第二方面，在第二方面第四实施方式中，所述根据所述指令信息执行相应操作，包括：通过车载信息娱乐系统与车辆总线通信，用于对车辆进行语音控制；通过语音接口对车载应用程序进行语音控制；通过所述语音接口对外接信源的应用程序进行语音控制；对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。

根据第三方面，本发明实施例提供了一种车载语音交互设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第二方面或者第二方面的任意一种实施方式中所述的车载语音交互方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第二方面或者第二方面的任意一种实施方式中所述的车载语音交互方法。

本发明实施例的有益效果在于，使用多位置声源定位技术，可以有效滤除其它位置的声源的干扰，从而提高用户语音采集的准确度及辨识度，并进一步基于采集到的语音信号进行指令识别，能够更加精确地获取用户发出的指令，并执行相应操作，从而提高用户的使用体验。

并且，结合声纹识别技术，不仅可以识别不同人的身份，还可以识别到具体人员特征，如成人、儿童等，为用户提供个性化执行的服务内容。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明实施例的车载语音交互系统的结构示意图；

图2示出了本发明实施例的麦克风阵列模块1的安装位置示意图；

图3示出了本发明另一实施例的车载语音交互系统的结构示意图；

图4示出了本发明另一实施例的车载语音交互系统的结构示意图；

图5示出了本发明另一实施例的车载语音交互系统的结构示意图；

图6示出了本发明实施例的车载语音交互方法的流程图；

图7示出了本发明实施例的车载语音交互方法的步骤S3的流程图；

图8示出了本发明实施例的车载语音交互方法的步骤S4的流程图；

图9示出了本发明实施例的车载语音交互设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种车载语音交互系统，如图1所示，该车载语音交互系统主要包括：麦克风阵列模块1、语音交互模块2及语音执行模块3等。

其中，该麦克风阵列模块1用于接收不同位置的声音信号；实际应用中，该麦克风阵列模块1主要由麦克风阵列组件101组成，可以设置于车辆内部，用以采集车内人员说话时的声音信号。如图2所示，该麦克风阵列组件101的数量一般为偶数个(例如2个、4个和6个等)成对组合，用来匹配五座车辆前排、后排，甚至是七座车辆的第三排。

如图1所示，该语音交互模块2主要包括：回声消除增强子模块21、多位置声源定位子模块22及指令识别子模块23，其中，回声消除增强子模块21用于从麦克风阵列模块1采集的声音信号中滤除第一用户之外的声音信号，生成第一声音信号。具体地，该回声消除增强子模块21可采用已有的回声消除算法对主声源(第一用户)的声音信号进行增强放大，而滤除第一用户声音无关的声音信号，生成该第一声音信号。

多位置声源定位子模块22用于从该第一声音信号中识别第一用户的第一语音信号，确定第一用户的位置。

实际应用中，在车辆内部可能同时载有多名乘车人员，包括主驾驶、副驾驶、后排乘客等，在车辆中，可通过分别设置的麦克风阵列组件来获取不同乘车人员的声音。但是，由于车内空间有限，当设置于某一位置的麦克风阵列采集距离最近的乘车人员的声音时，其他位置的人员发出的声音同样会被该麦克风阵列采集到，从而产生干扰。例如，主驾驶位置的司机说话时，设置于驾驶座周围的麦克风可采集到其说话声音，当同时，该麦克风同样会采集到副驾驶或后排乘客的声音，甚至是一些车载设备发出的声音，从而对主驾驶的司机的声音信号产生干扰。

因此，在本发明实施例中，通过该回声消除增强子模块21从麦克风阵列模块1采集的声音信号中识别第一用户(例如是主驾驶座的司机)的第一语音信号，滤除第一用户之外的语音信号，并通过多位置声源定位子模块22，确定该第一用户的位置，从而实现当多个位置中的一个位置讲话时，其他乘客发出的声音都会被当作干扰来进行消除，使得说话位置的用户的声音信号不容易受到干扰。

指令识别子模块23用于识别该第一语音信号的指令信息。该指令识别子模块23则是从第一用户的声音信号中识别出具体的指令信息，并转化为CAN控制信号发送给语音执行模块3。

语音执行模块3接收该指令信息，从而执行相应操作。

本发明实施例的车载语音交互系统，使用多位置声源定位技术，可以有效滤除其它位置的声源的干扰，从而提高用户语音采集的准确度及辨识度，并进一步基于采集到的语音信号进行指令识别、从而执行操作，能够更加精确地识别和获知用户发出的指令，并执行相应操作，从而提高用户的使用体验。

可选地，在本发明的一些实施例中，如图3所示，该语音交互模块2还包括：

声纹识别子模块24，用于识别第一语音信号中的语音特征，根据语音特征判断第一用户的身份。声纹是指语音汇总蕴含的能表征和标识说话人的语音特征，这些特征包括频谱、倒频谱、线型预测系数、共振峰、音质、声韵、习语等各种层次的信息，声纹则是这些特征所建立的语音模型的总称。本发明实施例中，具体可根据用户的声纹来识别用户的身份，例如可以判断该第一用户是否是车主本人，或是判断该第一用户是成人或儿童，从而使得语音执行模块3可进一步根据用户的不同身份，在执行其语音指令之外，还可执行不同的操作，为用户提供不同的服务。

可选地，在本发明的一些实施例中，如图4所示，该指令识别子模块23主要包括：

语音识别子模块221，用于将第一语音信号输入至预设的语音模型中进行匹配识别，将语音信号转化为文本信息；语音识别子模块221自动将第一语音信号输入到预设的语音模型中进行匹配识别处理，将语音信号转化为表征第一用户的意图的文本类信息。其中，该预设的语音模型可以例如是：进行语音识别中比较常用的动态时间规整算法(DTW)、隐马尔科夫模型(HMM)、人工神经网络(ANN)等。

自然语义理解子模块222，用于对文本信息进行自然语义理解，将第一语音信号中的指令信息和对应的数据库进行匹配；

逻辑信号转换子模块223，用于根据指令信息将第一语音信号转换为函数文本信息及总线信号，通过CAN总线传输至语音执行模块3。

通过该指令识别子模块23，能够对用户发出的语音指令进行识别，从而准确获取用户的指令信息，执行相应操作。

可选地，在本发明的一些实施例中，如图5所示，该语音执行模块3主要包括：

车辆控制子模块31，通过车载信息娱乐系统与车辆总线通信，用于对车辆进行语音控制，例如，对车辆的空调、座椅加热通风、车窗、天窗、灯光、雨刮、360环视等系统进行控制，但本发明并不以此为限。

信息娱乐系统控制子模块32，通过语音接口对车载应用程序进行语音控制；该车载应用程序可以包含但不限于以下这些应用：如收音机、本地音乐、本地导航、视频等应用。

在线信源控制子模块33，通过所述语音接口对外接信源的应用程序进行语音控制；该外接信源的应用程序可以包含但不限于以下这些应用：在线音乐、在线导航、天气、股票、航旅信号、百科等应用。

功放扬声器子模块34，用于对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。实际应用中，该功放扬声器子模块34主要为功放扬声器，可以将系统预存的音频信息或者合成的音频进行音频信号放大和发声，实际应用中该功放扬声器配置的数量多为偶数个，例如：普通型为2个、4个、6个和8个，豪华型12个等，具体数量与采用内置功放位置功放有关。

通过本发明实施例的车载语音交互系统的声源定位和声纹识别的组合技术，可以配合账户系统识别出车主或者非车主，成人或者儿童等，为不同位置和不同人群提供不同的服务，以下结合几个具体应用场景对本发明实施例的车载语音交互系统的功能及应用作进一步说明。

应用场景1：通过声源定位和声纹识别讲话者为车主本人，车主可以进行导航、灯光、雨刮、360环视、分区空调和分区座椅控制等功能，其他非车主乘客可以根据其具体座位的位置进行对应位置的车控功能，例如分区空调、分区座椅控制、窗户的调控等。

应用场景2：通过声源定位和声纹识别讲话者为儿童，则可以为儿童提供讲故事、后排娱乐系统看动画片、玩游戏等服务信息。

应用场景3：通过指定开关，如6麦克风阵列，例如七座SUV或者MPV，第一排乘客想和第三排乘客说话，但是第二排乘客也在说话干扰第一排乘客说话，可以通过前排麦克风对应第三排扬声器进行发声，第三排乘客可以通过对应位置麦克风对第一排乘客进行回复，实现车内空间的远距离通话，消除中间干扰。

以上应用场景仅是用以举例说明本发明实施例的车载语音交互系统的功能及应用，本发明并不以此为限。

本发明实施例还提供一种车载语音交互方法，如图6所示，该车载语音交互方法主要包括：

步骤S1：接收不同位置的声音信号；详细内容可参见上述实施例中麦克风阵列模块1的相关描述。

步骤S2：从声音信号中滤除第一用户之外的声音信号，生成第一声音信号；详细内容可参见上述实施例中回声消除增强子模块21的相关描述。

步骤S3：从第一声音信号中识别第一用户的第一语音信号，确定第一用户的位置；详细内容可参见上述实施例中多位置声源定位子模块22的相关描述。

步骤S4：识别第一语音信号的指令信息；详细内容可参见上述实施例中指令识别子模块23的相关描述。

步骤S5：根据指令信息执行相应操作。详细内容可参见上述实施例中语音执行模块3的相关描述。

本发明实施例的车载语音交互方法，使用多位置声源定位技术，可以有效滤除其它位置的声源的干扰，从而提高用户语音采集的准确度及辨识度，并进一步基于采集到的语音信号进行指令识别，能够更加精确地获取用户发出的指令，并执行相应操作，从而提高用户的使用体验。

可选地，在本发明的一些实施例中，该车载语音交互方法还包括：识别第一语音信号中的语音特征，根据语音特征判断第一用户的身份；语音执行模块3根据身份及第一语音信号执行相应操作。详细内容可参见上述实施例中声纹识别子模块24的相关描述。

可选地，在本发明的一些实施例中，如图7所示，步骤S3，识别第一语音信号的指令信息的过程，主要包括：

步骤S31：将第一语音信号输入至预设的语音模型中进行匹配识别，将语音信号转化为文本信息；

步骤S32：对文本信息进行自然语义理解，将第一语音信号中的指令信息和对应的数据库进行匹配；

步骤S33：根据指令信息将第一语音信号转换为函数文本信息及总线信号。

详细内容可参见上述实施例中指令识别子模块23的相关描述。

可选地，在本发明的一些实施例中，如图8所示，步骤S4，根据所述指令信息执行相应操作的过程，主要包括：

步骤S41：通过车载信息娱乐系统与车辆总线通信，对车辆进行语音控制；

步骤S42：通过语音接口对车载应用程序进行语音控制；

步骤S43：通过语音接口对外接信源的应用程序进行语音控制；

步骤S44：对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。

详细内容可参见上述实施例中语音执行模块3的相关描述。

本发明实施例还提供一种车载语音交互设备，如图9所示，该车载语音交互设备可以包括处理器91和存储器92，其中处理器91和存储器92可以通过总线或者其他方式连接，图9中以通过总线连接为例。

处理器91可以为中央处理器(Central Processing Unit，CPU)。处理器91还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器92作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的车载语音交互方法对应的程序指令/模块(例如，图1所示的麦克风阵列模块1、语音交互模块2及语音执行模块3)。处理器91通过运行存储在存储器92中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的车载语音交互方法。

存储器92可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器91所创建的数据等。此外，存储器92可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器92可选包括相对于处理器91远程设置的存储器，这些远程存储器可以通过网络连接至处理器91。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器92中，当被所述处理器91执行时，执行如图6-图8所示实施例中的车载语音交互方法。

上述车载语音交互设备具体细节可以对应参阅图6至图8所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种车载语音交互系统，其特征在于，包括：

麦克风阵列模块，用于接收不同位置的声音信号；

语音交互模块，包括：

回声消除增强子模块，用于从所述声音信号中滤除第一用户之外的声音信号，生成第一声音信号；

多位置声源定位子模块，用于从所述第一声音信号中识别所述第一用户的第一语音信号，确定所述第一用户的位置；

指令识别子模块，用于识别所述第一语音信号的指令信息；

语音执行模块，用于接收所述指令信息，执行相应操作。

2.根据权利要求1所述的车载语音交互系统，其特征在于，所述语音交互模块还包括：

声纹识别子模块，用于识别所述第一语音信号中的语音特征，根据所述语音特征判断所述第一用户的身份；

所述语音执行模块根据所述身份及第一语音信号执行相应操作。

3.根据权利要求1所述的车载语音交互系统，其特征在于，所述指令识别子模块包括：

语音识别子模块，用于将所述第一语音信号输入至预设的语音模型中进行匹配识别，将所述语音信号转化为文本信息；

自然语义理解子模块，用于对所述文本信息进行自然语义理解，将所述第一语音信号中的指令信息和对应的数据库进行匹配；

逻辑信号转换子模块，用于根据指令信息将所述第一语音信号转换为函数文本信息及总线信号。

4.根据权利要求1所述的车载语音交互系统，其特征在于，所述语音执行模块包括：

车辆控制子模块，通过车载信息娱乐系统与车辆总线通信，用于对车辆进行语音控制；

信息娱乐系统控制子模块，通过语音接口对车载应用程序进行语音控制；

在线信源控制子模块，通过所述语音接口对外接信源的应用程序进行语音控制；

功放扬声器子模块，用于对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。

5.根据权利要求4所述的车载语音交互系统，其特征在于，所述功放扬声器子模块包括：功放扬声器，所述功放扬声器的数量为偶数个。

6.根据权利要求1所述的车载语音交互系统，其特征在于，所述麦克风阵列模块包括：

麦克风阵列组件，所述麦克风阵列组件的数量为偶数个。

7.一种车载语音交互方法，其特征在于，包括：

接收不同位置的声音信号；

从所述声音信号中滤除第一用户之外的声音信号，生成第一声音信号；

从所述第一声音信号中识别所述第一用户的第一语音信号，确定所述第一用户的位置；

识别所述第一语音信号的指令信息；

根据所述指令信息执行相应操作。

8.根据权利要求7所述的车载语音交互方法，其特征在于，还包括：

识别所述第一语音信号中的语音特征，根据所述语音特征判断所述第一用户的身份；

9.根据权利要求7所述的车载语音交互方法，其特征在于，所述识别所述第一语音信号的指令信息，包括：

将所述第一语音信号输入至预设的语音模型中进行匹配识别，将所述语音信号转化为文本信息；

对所述文本信息进行自然语义理解，将所述第一语音信号中的指令信息和对应的数据库进行匹配；

根据指令信息将所述第一语音信号转换为函数文本信息及总线信号。

10.根据权利要求7所述的车载语音交互方法，其特征在于，所述根据所述指令信息执行相应操作，包括：

通过车载信息娱乐系统与车辆总线通信，用于对车辆进行语音控制；

通过语音接口对车载应用程序进行语音控制；

通过所述语音接口对外接信源的应用程序进行语音控制；

对预存的音频信息和/或合成的音频信息进行音频信号放大和功放。

11.一种车载语音交互设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求7-10中任一项所述的车载语音交互方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求7-10中任一项所述的车载语音交互方法。