CN111554281B

CN111554281B - 自动识别语种的车载人机交互方法、车载终端及存储介质

Info

Publication number: CN111554281B
Application number: CN202010168966.1A
Authority: CN
Inventors: 杨冰冰
Original assignee: Xiamen Zhongyunchuang Electronic Technology Co ltd
Current assignee: Xiamen Zhongyunchuang Electronic Technology Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-11-07
Anticipated expiration: 2040-03-12
Also published as: CN111554281A

Abstract

本发明公开了一种自动识别语种的车载人机交互方法、车载终端及存储介质，其通过预设一个以上语种的语料库，所述语料库根据车辆的人机交互场景进行配置，且每个语种的语料库设有对应语种的模板语音；将接收的用户语音与所述模板语音进行匹配，根据匹配结果判断所述用户语音的语种类型；根据用户语音的语种类型调用对应语种的语料库，并利用该对应语种的语料库实现人机交互；从而实现无语言障碍的车载人机交互功能，满足国际化需求。

Description

自动识别语种的车载人机交互方法、车载终端及存储介质

技术领域

本发明涉及智能汽车技术领域，特别是一种自动识别语种的车载人机交互方法及其应用该方法的车载终端和存储介质。

背景技术

如今的汽车功能已经不仅仅是传统的代步功能，随着时代的发展，新型技术的不断开发，汽车也越来越智能化，从出行工具转变为智能的生活平台。其中，车载语音交互技术成为智能汽车的发展主流。

传统的车载人机交互主要是采用触控式或按键式，用户不仅需要手动操作，而且还需要频繁低头看屏幕来确认自己的操作是否正确，使得用户无法专心驾驶，导致极大的安全隐患。

车载语音交互技术解放了人的手和眼睛，使人机交互能够以人类最熟悉的方式进行，只需用户发出语音指令就可以完成相关操作，不用低头、不用动手，确保驾驶员的注意力集中在驾驶上，提高安全性。特别是，车载语音交互技术不仅能够解放用户的双手，而且增加了用户与汽车之间的互动，更具有趣味性和新鲜感，能够以更加人性化的方式给予用户反馈，而不是冰冷的机械触感。

在全球化日益显著的今天,语种差异一直是阻碍国际交流的鸿沟。随着国际化程度不断提高，国人不断走出国门，外国人不断的来中国旅游、经商，无论是中国的语音种类还是国外的语种都过于繁多，导致语音交互功能无法广泛使用。例如，熟悉英文等外文的外国人驾驶中国的汽车时，无法使用中文的车载语音交互系统。因此，跨语言应用场景的语音识别和语音交互成为急需解决的问题。

发明内容

本发明为解决上述问题，提供了一种自动识别语种的车载人机交互方法、车载终端及存储介质，其通过预设一个以上语种的语料库，并通过识别用户语音的语种类型调用对应语种的语料库，从而根据该对应语种的语料库实现无语言障碍的车载人机交互功能。

为实现上述目的，本发明采用的技术方案为：

一种自动识别语种的车载人机交互方法，其包括以下步骤：

预设一个以上语种的语料库，所述语料库根据车辆的人机交互场景进行配置，且每个语种的语料库设有对应语种的模板语音；

将接收的用户语音与所述模板语音进行匹配，根据匹配结果判断所述用户语音的语种类型；

根据用户语音的语种类型调用对应语种的语料库，并利用该对应语种的语料库实现人机交互。

优选的，所述用户语音和所述模板语音为车辆启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制车辆启动，同时，根据匹配结果识别用户语音的语种类型；或者，所述用户语音和所述模板语音为程序启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制程序启动，同时，根据匹配结果识别用户语音的语种类型。

优选的，所述用户语音与所述模板语音进行匹配，是通过分别对所述用户语音和所述模板语音提取音频特征，根据所述音频特征进行匹配；所述音频特征包括短时功率谱密度、语谱图、共振峰，先根据语谱图进行特征匹配，满足匹配条件后再进一步根据短时功率谱密度和共振峰进行特征匹配；或者，同时根据短时功率谱密度、语谱图、共振峰进行特征匹配。

所述语谱图的提取进一步包括以下步骤：

对所述用户语音或所述模板语音进行语音分帧；

对每个语音帧按照时序分别进行快速傅里叶变换；

将变换后的频谱幅度值作为纵坐标，语音帧对应的时间作为横坐标，语音能量作为坐标点值，得到语谱图。

所述短时功率谱密度的提取进一步包括以下步骤：

对所述用户语音中的N个采样点的信号u_N(n)进行傅里叶变换：

并进一步对变换后信号求短时功率谱密度：

所述共振峰的提取进一步包括以下步骤：

首先对所述用户语音进行预加重处理；

并进行希尔伯特变换，得到原实值信号的解析信号；

接着采用四个自适应共振峰滤波器进行动态滤波处理，每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成；

然后进行清浊音检测、性别检测、能量检测；

最后通过移动平均值作决策，符合预设条件的值作为共振峰估计值保留，不符合预设条件的值用其移动平均值代替。

优选的，所述用户语音与所述模板语音进行匹配，进一步包括以下步骤：

通过codec芯片采集用户语音的模拟信号；

通过PCM将模拟信号转换为数字信号，并将所述数字信号经I2S总线传送至CPU；

通过CPU对语音信号进行预处理；所述预处理包括：消除回音、噪声抑制、自动增益，并将预处理后的语音信号编码成码流；

通过CPU对码流进行音频特征的提取，得到用户语音的音频特征；

将用户语音的音频特征与模板语音的音频特征进行匹配。

优选的，所述人机交互为语音交互和/或界面交互；所述语音交互是根据所述对应语种的语料库进行语音输出，实现人机的语音交流；所述界面交互是根据所述对应语种的语料库在车载界面展示对应语种的菜单，实现人机的界面交互。

本发明之另一目的在于，提供一种车载终端，包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得车载终端实现如上述任一项所述的车载人机交互方法。

本发明之再一目的在于，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，车载终端执行所述指令使得车载终端实现上述任一项所述的车载人机交互方法。

本发明的有益效果是：

(1)本发明通过预设一个以上语种的语料库，并通过识别用户语音的语种类型调用对应语种的语料库，从而根据该对应语种的语料库实现无语言障碍的车载人机交互功能，满足国际化需求；

(2)本发明用于语种识别的模板语音采用启动指令的语音，包括车辆启动指令或程序启动指令，一方面，车辆可根据该启动指令控制车辆或程序启动，操作便捷；另一方面，在启动的同时还可进行语种分析和识别，无需用户进行语种切换的操作，用户体验更好；

(3)本发明通过提取语音的音频特征进行特征匹配和语种识别，该音频特征首先对语谱图进行匹配，匹配成功后再进一步通过短时功率谱密度和共振峰进行验证，在保证识别准确性的基础上能够提高算法效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种自动识别语种的车载人机交互方法的流程简图；

图2为本发明的用户音频处理和分析过程的流程简图；

图3为本发明一种车载终端的人机交互系统框架结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成：肺和气管、喉、声道。肺是语音产生的能源所在。气管连接着肺和喉，是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统，其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官，包括咽喉、口腔和鼻腔。

语音是声音的一种，是由人的发声器官发出，具有一定语法和意义的声音。大脑对发音器官发出运动神经指令，控制发音器官各种肌肉运动从而振动空气从而形成。不同的语种具有不同的发音方法，不同发音方法发出的语音具有不同的音频特征。因此，通过对语音的各项音频特征进行提取和分析，能够对语音的语种进行精准的识别。

本发明基于语音的语种识别，提出了一种自动识别语种的车载人机交互方法，如图1所示，其包括以下步骤：

所述语种包括以下任一种，或者两种以上：汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语、泰语等等，不以此为限。其中，所述汉语还可进一步包括各种地方方言。

所述人机交互场景包括以下任一种，或者两种以上：数字仪表、地图导航、空调控制、车载多媒体影音娱乐、整车状态显示、远程故障诊断、无线通信、网络办公、信息处理、智能交通辅助驾驶等，不以此为限。

本发明中基于语音的语种识别，优选采用语音指令作为语种识别依据；本实施例中，所述语音指令采用车辆启动指令或上述人机交互场景对应的程序启动指令。

实施方案之一：所述用户语音和所述模板语音为车辆启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制车辆启动，同时，根据匹配结果识别用户语音的语种类型。例如

实施方案之二：所述用户语音和所述模板语音为程序启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制程序启动，同时，根据匹配结果识别用户语音的语种类型。例如

优选的，所述用户语音与所述模板语音进行匹配，是通过分别对所述用户语音和所述模板语音提取音频特征，根据所述音频特征进行匹配。本实施例中，所述音频特征包括短时功率谱密度、语谱图、共振峰，先根据语谱图进行特征匹配，满足匹配条件后再进一步根据短时功率谱密度和共振峰进行特征匹配；或者，同时根据短时功率谱密度、语谱图、共振峰进行特征匹配。

所述语谱图(Spectrogram)是时序相关的傅里叶分析的显示图像，可以反映音乐信号频谱随时间改变而变换。由于是采用二维平面表达三维信息，所述语音能量(即，坐标点值)的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。

所述语谱图中显示了大量与所述用户语音或模板语音的信号特性相关的信息，如共振峰、能量等频域参数随时间的变化情况，它同时具有时域波形与频谱图的特点。也就是说，语谱图本身包含了语音信号的所有的频谱信息，没有经过任何加工，所以语谱图关于语音的频谱信息是无损的。

所述语谱图的提取进一步包括以下步骤：

对所述用户语音或所述模板语音进行语音分帧；

对每个语音帧按照时序分别进行快速傅里叶变换；

其中，语音分帧，是对每一个语音帧FFT，然后求绝对值/平方，得到的数值都是正值，类似图像的像素点，显示出来就是语谱图。

功率谱定义：

对于有限的信号，功率谱之所以可以估计，是基于两点假设：1)信号平稳；2)随机信号具有遍历性。因此在本发明中采用短时功率谱密度法的计算算法进行分析，具体的，所述短时功率谱密度的提取进一步包括以下步骤：

对所述用户语音中的N个采样点的信号u_N(n)进行傅里叶变换：

并进一步对变换后信号求短时功率谱密度：

其中，语音信号u的相关函数就是u卷积上u的翻转，而相关函数Ruu与功率谱密度S是互为傅里叶变换。u对应傅里叶变换U，u的翻转对应U的共轭，时域的卷积对应频域的相乘，从而得到了上述功率谱估计的表达式。

共振峰是表征语音信号特征的基本参数之一。它在语音信号合成、语音识别和语音编码等方面起着重要作用。共振峰可以等效为声道系统函数的复极点对，由于人的声道平均长度为17cm，而语音信号的能量主要集中在0-5kHz，因此语音通常包含4到5个稳定的共振峰。

传统的共振峰提取方法都是基于谱分析和峰值检测技术。这些方法对于噪声背景下共振峰的检测，比较不准确，本系统是基于预滤波的方法，在进行谱峰检测之前对每一个共振峰使用一个时变的自适应滤波器进行预滤波。预滤波限制了每个共振峰的频谱范围，因此减小了相邻峰值之间的干扰和背景噪声的干扰。

本实施例中，所述共振峰的提取进一步包括以下步骤：

首先对所述用户语音进行预加重处理，以移除频谱倾斜；

并进行希尔伯特变换，得到原实值信号的解析信号，便于分析计算；

接着采用四个自适应共振峰滤波器进行动态滤波处理，每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成，以抑制相邻共振峰的干扰和基频干扰；

然后进行清浊音检测、性别检测(根据基频)、能量检测；性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值；能量检测是为了滤除无话段，类似于端点检查；清浊音检测是为了滤除清音，因为清音不含共振峰；

通过以上方法提取到共振峰特征值会比一般的LPC内插法的更近精准。

如图2所示，本实施例中，所述用户语音与所述模板语音进行匹配，进一步包括以下步骤：

通过codec芯片采集用户语音的模拟信号；

将用户语音的音频特征与模板语音的音频特征进行匹配。

模拟音频信号经模数转换(A/D变换)直接形成的二进制序列，该文件没有附加的文件头和文件结束标志。本实施例采用的PCM(Pulse-code Modulation，脉冲编码调制)是一种模拟信号的数字化方法，常被用于数字电信系统中，非常频繁地，PCM编码以一种串行通信的形式，使数字传讯由一点至下一点变得更容易，不论在已给定的系统内，或物理位置。PCM单通道音频数据以采样位数(bit)串行记录在比特流中：8bit采样位数，意味着每个采样值能占据1个字节大小；16bit采样位数，分为两个字节以小端(little-endian)方式存储在比特流中。PCM的每个样本值包含在一个整数i中，i的长度为容纳指定样本长度所需的最小字节数。首先存储低有效字节，表示样本幅度的位放在i的高有效位上，剩下的位置为0。

其中，所述人机交互为语音交互和/或界面交互；所述语音交互是根据所述对应语种的语料库进行语音输出，实现人机的语音交流；所述界面交互是根据所述对应语种的语料库在车载界面展示对应语种的菜单，实现人机的界面交互。

本发明的车载人机交互方法的操作流程如下：

首先，假设预先配置汉语和英语两个语种的语料库，汉语语料库的模板语音为“您好，请启动”，英语语料库的模板语音为“Hello！Please start.”

当车主上车后，对着麦克风说“Hello！Please start”的启动指令；

然后，系统将接收的启动指令(用户语音)进行音频特征的提取，并将用户语音的音频特征与所述模板语音的音频特征进行匹配，根据匹配结果判断所述用户语音的语种类型为英语；

最后，根据匹配结果，调用对应的英语语料库，将系统语言配置为英语，利用该英语语料库与车主进行语音交互，并且将汽车中控OSD菜单语言转换为英语。

本发明还提供一种车载终端，包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得车载终端实现如上述任一项所述的车载人机交互方法。

如图3所示，所述车载终端的硬件架构主要采用AMR11与DSP来开发，软件部分采用linux作为系统内核。ARM11与Linux的搭建实现对整个汽车语音系统各个功能模块的开发设计，采用DSP控制IC用于实现音频部分的译码和解码。

车载终端可以是计算机设备，其包括至少一个处理器，通信总线，存储器以及至少一个通信接口。

处理器可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线可包括一通路，在上述组件之间传送信息。所述通信接口604，使用任何收发器一类的车载终端，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)，蓝牙通信模块，WIFI通信模块等。

存储器可以是只读存储器(ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(EEPROM)、只读光盘(CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器用于存储执行本发明方案的程序代码，并由处理器来控制执行。所述处理器用于执行所述存储器中存储的程序代码。

在具体实现中，作为一种实施例，处理器可以包括一个或多个CPU。

在具体实现中，作为一种实施例，车载终端可以包括多个处理器，例如处理器和处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，车载终端还可以包括输出设备和输入设备。输出设备和处理器通信，可以以多种方式来显示信息。例如，输出设备可以是液晶显示器,发光二级管显示设备，阴极射线管显示设备，触控屏，或投影仪等。输入设备和处理器通信，可以以多种方式接受用户的输入。本实施例的输入设备至少包括麦克风。

车载终端的存储器中存储了一个或多个软件模块。车载终端可以通过处理器以及存储器中的程序代码来实现软件模块，实现上述实施例所说的车载人机交互方法。

本申请一个实施例还提供了一种计算机存储介质，该计算机存储介质中存储有指令；车载终端(可以是计算机设备，例如服务器)执行该指令，例如计算机设备中的处理器执行该指令，使得该车载终端实现上述实施例所说的车载人机交互方法。

本申请实施例提供一种计算机程序产品，该计算机程序产品包括指令；车载终端(可以是计算机设备，例如服务器)执行该指令，使得该车载终端执行上述方法实施例的车载人机交互方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于车载终端及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种自动识别语种的车载人机交互方法，其特征在于，包括以下步骤：

根据用户语音的语种类型调用对应语种的语料库，并利用该对应语种的语料库实现人机交互；

所述用户语音与所述模板语音进行匹配，是通过分别对所述用户语音和所述模板语音提取音频特征，根据所述音频特征进行匹配；所述音频特征包括短时功率谱密度、语谱图、共振峰，先根据语谱图进行特征匹配，满足匹配条件后再进一步根据短时功率谱密度和共振峰进行特征匹配；

所述共振峰的提取进一步包括以下步骤：

首先对所述用户语音进行预加重处理；

并进行希尔伯特变换，得到原实值信号的解析信号；

然后进行清浊音检测、性别检测、能量检测；

2.根据权利要求1所述的自动识别语种的车载人机交互方法，其特征在于，所述用户语音和所述模板语音为车辆启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制车辆启动，同时，根据匹配结果识别用户语音的语种类型；或者，所述用户语音和所述模板语音为程序启动指令，所述用户语音与所述模板语音进行匹配时，根据匹配结果控制程序启动，同时，根据匹配结果识别用户语音的语种类型。

3.根据权利要求1所述的自动识别语种的车载人机交互方法，其特征在于，所述语谱图的提取进一步包括以下步骤：

对所述用户语音或所述模板语音进行语音分帧；

对每个语音帧按照时序分别进行快速傅里叶变换；

4.根据权利要求1所述的自动识别语种的车载人机交互方法，其特征在于，所述短时功率谱密度的提取进一步包括以下步骤：

对所述用户语音中的N个采样点的信号进行傅里叶变换：

；

并进一步对变换后信号求短时功率谱密度：

。

5.根据权利要求1至4任一项所述的自动识别语种的车载人机交互方法，其特征在于，所述用户语音与所述模板语音进行匹配，进一步包括以下步骤：

通过codec芯片采集用户语音的模拟信号；

将用户语音的音频特征与模板语音的音频特征进行匹配。

6.根据权利要求1至4任一项所述的自动识别语种的车载人机交互方法，其特征在于，所述人机交互为语音交互和/或界面交互；所述语音交互是根据所述对应语种的语料库进行语音输出，实现人机的语音交流；所述界面交互是根据所述对应语种的语料库在车载界面展示对应语种的菜单，实现人机的界面交互。

7.一种车载终端，其特征在于，包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得车载终端实现如权利要求1至6任一项所述的车载人机交互方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，车载终端执行所述指令使得车载终端实现权利要求1至6任一项所述的车载人机交互方法。