CN118197301A

CN118197301A - 语音识别方法、装置、设备、存储介质及车辆

Info

Publication number: CN118197301A
Application number: CN202211594388.3A
Authority: CN
Inventors: 王智超
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-06-14

Abstract

本申请公开了一种语音识别方法、装置、设备、存储介质及车辆。其中，该方法包括：获取目标用户的图像特征和音频特征；对所述图像特征进行唇动检测，得到唇动信息；根据所述唇动信息确定所述目标用户发出语音指令的时间段；将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征；对所述多模态融合特征进行识别，得到所述语音指令的识别结果。根据本申请实施例的语音识别方法，能够保证语音识别系统和目标用户之间的正常交互，提高语音识别的准确率，进而能够提升目标用户的语音交互体验。

Description

语音识别方法、装置、设备、存储介质及车辆

技术领域

本申请属于语音识别技术领域，尤其涉及一种语音识别方法、装置、设备、存储介质及车辆。

背景技术

随着人工智能的发展，语音助手的应用越来越广泛。例如，车载语音交互功能目前已成为智能车辆的标配。语音识别模块作为语音交互系统中的前端模块，其语音识别的准确率对整个语音交互系统的性能有着重要影响。

目前，车载语音识别技术无法区分目标用户和非目标用户。因此，在目标用户与语音系统交互的过程中，若非目标用户发出语音，则容易导致语音识别系统误识别非目标用户的声音，进而干扰与目标用户之间的正常交互。另外，在车内噪声较大的情况下，现有技术中的语音识别系统容易受到噪声干扰而导致语音识别的准确率较低，从而影响目标用户的语音交互体验。

发明内容

本申请实施例提供了一种语音识别方法、装置、设备、存储介质及车辆，能够保证语音识别系统和目标用户之间的正常交互，提高语音识别的准确率，进而能够提升目标用户的语音交互体验。

第一方面，本申请实施例提供了一种语音识别方法，该方法包括：

获取目标用户的图像特征和音频特征；

对所述图像特征进行唇动检测，得到唇动信息；

根据所述唇动信息确定所述目标用户发出语音指令的时间段；

将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征；

对所述多模态融合特征进行识别，得到所述语音指令的识别结果。

在一种可能的实现方式中，所述获取目标用户的图像特征和音频特征之前，所述方法还包括：

接收用户的唤醒输入；

响应于所述唤醒输入，确定所述用户为目标用户；

同步采集所述目标用户的图像信号和音频信号；

所述获取目标用户的图像特征和音频特征，包括：

从所述视频信号中提取所述目标用户的图像特征，以及从所述音频信号中提取所述目标用户的音频特征。

在一种可能的实现方式中，所述将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征，包括：

将所述时间段内所述图像特征的采样率和所述音频特征的采样率进行对齐，得到第一图像特征和第一音频特征；

将所述第一图像特征和所述第一音频特征对应的帧进行拼接，得到多模态融合特征。

在一种可能的实现方式中，所述对所述多模态融合特征进行识别，得到所述语音指令的识别结果，包括：

对所述多模态融合特征进行音节识别，得到多个音节序列；

将所述多个音节序列中的至少部分音节序列分别转换为词序列，得到多个所述词序列及各所述词序列的第一概率，其中，一个所述音节序列可转化为至少一个词序列；

通过语言模型确定多个所述词序列中每一个所述词序列的第二概率；

对同一所述词序列的所述第一概率和所述第二概率进行加权求和，得到所述词序列的第三概率；

将所述第三概率最大的所述词序列确定为所述语音指令的识别结果。

在一种可能的实现方式中，所述对所述多模态融合特征进行音节识别，得到多个音节序列之后，所述方法还包括：

确定各所述音节序列的概率；

所述将所述多个音节序列中的至少部分音节序列分别转换为词序列，得到多个所述词序列及各所述词序列的第一概率，包括：

按照概率从大到小的顺序对所述多个音节序列进行排序，确定前n个音节序列，所述n为正整数；

将所述前n个音节序列中的每一个所述音节序列分别转换为词序列，得到多个所述词序列；

分别确定各所述词序列的第一概率，任一所述词序列的第一概率等于转换为所述词序列所依赖的所述音节序列的概率与由所述音节序列转换为所述词序列的概率之积。

在一种可能的实现方式中，在得到所述语音指令的识别结果之后，所述方法还包括：

显示所述识别结果。

第二方面，本申请实施例提供了一种语音识别装置，该装置包括：

获取模块，用于获取目标用户的图像特征和音频特征；

检测模块，用于对所述图像特征进行唇动检测，得到唇动信息；

第一确定模块，用于根据所述唇动信息确定所述目标用户发出语音指令的时间段；

融合模块，用于将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征；

识别模块，用于对所述多模态融合特征进行识别，得到所述语音指令的识别结果。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现上述第一方面中任一种可能的实现方法中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述第一方面中任一种可能的实现方法中的方法。

第五方面，本申请实施例提供了一种车辆，该车辆包括以下至少一项：

如第二方面的任一项实施例中的语音识别装置；

如第三方面的任一项实施例中的电子设备；

如第四方面的任一项实施例中的计算机可读存储介质。

本申请实施例的语音识别方法、装置、设备、存储介质及车辆，通过获取目标用户的图像特征，对图像特征进行唇动检测，以及根据检测得到的唇动信息确定目标用户发出语音指令的时间段，能够准确识别目标用户是否发出语音指令，进而能够区分目标用户和非目标用户。如此，能够保证语音识别系统和目标用户之间的正常交互。通过对目标用户发出语音指令的时间段内的图像特征和音频特征进行融合，再对融合得到的多模态融合特征进行识别，能够提高语音识别的准确率。如此，通过本申请实施例，能够提升目标用户的语音交互体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法的流程示意图；

图2是本申请实施例提供的一种多模态识别系统的结构示意图；

图3是本申请实施例提供的一种语音识别装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面将对本申请的方案进行进一步描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但本申请还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请的一部分实施例，而不是全部的实施例。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着车辆智能化的发展，车载语音交互功能目前已成为智能车辆的标配。语音识别模块作为语音交互系统中的前端模块，其语音识别的准确率对整个语音交互系统的性能有着重要影响。

目前，车载语音识别技术主要采用单模态识别技术，即只通过麦克风采集的语音信号识别用户发出的语音指令，单模态识别技术存在以下问题：

一方面，车内目标用户在唤醒语音交互系统并发出语音指令后，通常麦克风会继续录音一段时间，以方便目标用户免于再次唤醒、继续发出指令，此时若车内其他用户(非目标用户)说话，则可能产生音区泄露问题导致单模态语音识别系统误识别非目标用户的声音，进而干扰与目标用户之间的正常交互。

另一方面，在车内噪声较大的情况下，单模态语音识别系统易受到噪声干扰而导致识别准确率下降，从而影响目标用户的语音交互体验。

如此，为了解决现有技术问题，本申请实施例提供了一种语音识别方法、装置、设备、存储介质及车辆。

下面首先对本申请实施例所提供的语音识别方法进行介绍。

图1示出了本申请实施例提供的一种语音识别方法的流程示意图。如图1所示，本申请实施例提供的语音识别方法包括以下步骤：

S110、获取目标用户的图像特征和音频特征；

S120、对图像特征进行唇动检测，得到唇动信息；

S130、根据唇动信息确定目标用户发出语音指令的时间段；

S140、将时间段内的图像特征和音频特征进行融合，得到多模态融合特征；

S150、对多模态融合特征进行识别，得到语音指令的识别结果。

本申请实施例的语音识别方法通过获取目标用户的图像特征，对图像特征进行唇动检测，以及根据检测得到的唇动信息确定目标用户发出语音指令的时间段，能够准确识别目标用户是否发出语音指令，进而能够区分目标用户和非目标用户。如此，能够保证语音识别系统和目标用户之间的正常交互。通过对目标用户发出语音指令的时间段内的图像特征和音频特征进行融合，再对融合得到的多模态融合特征进行识别，能够提高语音识别的准确率。如此，通过本申请实施例，能够提升目标用户的语音交互体验。

下面介绍上述各个步骤的具体实现方式。

在一些实施例中，在S110中，目标用户可以是唤醒语音交互系统的用户。图像特征可以包括目标用户的唇部特征。

为了得到目标用户的图像特征和音频特征，在一些实施例中，在上述S110之前，还可以包括：

接收用户的唤醒输入；

响应于唤醒输入，确定用户为目标用户；

同步采集目标用户的图像信号和音频信号；

基于此，上述S110具体可以包括：

从图像信号中提取目标用户的图像特征，以及从音频信号中提取目标用户的音频特征。

这里，唤醒输入可以用于唤醒语音交互系统。其中，唤醒输入可以是语音输入，语音交互系统可以包括摄像头和麦克风。在车载环境中，语音交互系统可以包括多个摄像头和多个麦克风。其中，摄像头和麦克风可以是独立的，多个摄像头可以分别拍摄车辆中的多个位置，多个麦克风可以分别收录多个位置处的声音。也即，摄像头和位置可以是一一对应的关系，麦克风和位置也可以是一一对应的关系。多个位置例如可以包括主驾位置、副驾位置、二排左位置、二排右位置等。

作为一种示例，多个麦克风均可以是开启状态。在某个位置的麦克风接收到用户的唤醒输入之后，系统即可以确定该位置为目标位置，在目标位置处的用户为目标用户，并激活与目标位置对应的目标摄像头，以通过目标摄像头采集目标用户的图像信号，并通过与目标位置对应的麦克风同步采集目标用户的音频信号。如此，在得到图像信号和音频信号之后，可以从图像信号中提取目标用户的图像特征，以及从音频信号中提取目标用户的音频特征。

这样，通过将进行唤醒输入的用户确定为目标用户，以及同步采集目标用户的图像信号和音频信号，能够从图像信号中提取得到目标用户的图像特征，以及从音频信号中提取得到目标用户的音频特征。

在一些实施例中，在S120中，对图像特征进行唇动检测可以是对当前时刻检测出的人脸图像中的唇部关键点与历史时刻人脸图像中的唇部关键点进行一一匹配，然后根据匹配结果确定各个关键点的位置是否发生了变化，进而确定唇动信息。其中，历史时刻可以是当前时刻之前的时刻。除此之外，还可以通过其他方法进行唇动检测，在此不再赘述。如此，唇动信息中可以包括用户发出语音指令的起止时间点。

在一些实施例中，在S130中，由于唇动信息中可以包括用户发出语音指令的起止时间点，因此，能够根据唇动信息确定目标用户发出语音指令的时间段。

在一些实施例中，在S140中，多模态融合特征可以包括图像特征和音频特征。

为了得到多模态融合特征，在一些实施例中，在上述S140具体可以包括：

将时间段内图像特征的采样率和音频特征的采样率进行对齐，得到第一图像特征和第一音频特征；

将第一图像特征和第一音频特征对应的帧进行拼接，得到多模态融合特征。

这里，由于图像特征的采样率和音频特征的采样率可以不同，因此，为了得到多模态融合特征，可以先将时间段内图像特征的采样率和音频特征的采样率进行对齐，得到第一图像特征和第一音频特征。其中，第一图像特征和第一音频特征的采样率可以是相同的。通过将第一图像特征和第一音频特征对应的帧进行拼接，即可得到多模态融合特征。其中，拼接可以是任何形式的拼接，在此不做限定。例如，第一图像特征对应的帧可以全部位于第一音频特征对应的帧之前，可以全部位于第一音频特征对应的帧之后，也可以与第一音频特征对应的帧交叉排列。

这样，通过将采样率相同的第一图像特征和第一音频特征对应的帧进行拼接，能够得到多模态融合特征。

在一些实施例中，在S150中，多模态识别系统可以对多模态融合特征进行识别。通过将多模态融合特征输入至多模态识别系统中，可以输出得到语音指令的识别结果。

作为一种示例，多模态识别系统200的结构示意图可以如图2所示。在图2中，多模态识别系统可以包括多模态声学模型21和解码器22。其中，解码器22可以包括发音词典221和语言模型222。其中，多模态声学模型21可以将多模态融合特征转换为音节序列，发音词典221可以将音节序列转换为词序列，语言模型222可以对词序列在实际情况中出现的概率进行计算。

基于此，为了得到语音指令对应的识别结果，在一些实施例中，上述S150具体可以包括：

对多模态融合特征进行音节识别，得到多个音节序列；

将多个音节序列中的至少部分音节序列分别转换为词序列，得到多个词序列及各词序列的第一概率，其中，一个音节序列可转化为至少一个词序列；

通过语言模型确定多个词序列中每一个词序列的第二概率；

对同一词序列的第一概率和第二概率进行加权求和，得到词序列的第三概率；

将第三概率最大的词序列确定为语音指令的识别结果。

这里，通过多模态声学模型可以对多模态融合特征进行音节识别，得到多个音节序列以及每个音节序列分别对应的概率。其中，多模态声学模型可以是任意能够实现音节识别的声学模型，在此不做限定。在得到音节序列之后，通过发音词典可以将音节序列转换为词序列，并得到通过该音节序列转换得到的词序列对应的概率。其中，一个音节序列可以转换为多个词序列。每个词序列对应的第一概率可以是音节序列对应的概率与该音节序列转换得到的词序列对应的概率之积。在得到多个词序列之后，通过语言模型可以确定上述多个词序列分别对应的第二概率。其中，第二概率可以是词序列在实际情况中可能出现的概率。如此，通过解码器可以对同一词序列的第一概率和第二概率进行加权求和，得到该词序列的第三概率。在多个词序列中，第三概率最大的词序列即可以为语音指令的识别结果。

这样，通过多模态识别系统对多模态融合特征进行识别，能够得到语音指令对应的识别结果。

为了提高语音识别的效率，在一些实施例中，在上述对多模态融合特征进行音节识别，得到多个音节序列之后，还可以包括：

确定各音节序列的概率。

基于此，上述将多个音节序列中的至少部分音节序列分别转换为词序列，得到多个词序列及各词序列的第一概率具体可以包括：

按照概率从大到小的顺序对多个音节序列进行排序，确定前n个音节序列，n为正整数；

将前n个音节序列中的每一个音节序列分别转换为词序列，得到多个词序列；

分别确定各词序列的第一概率，任一词序列的第一概率等于转换为词序列所依赖的音节序列的概率与由音节序列转换为词序列的概率之积。

这里，若音节序列对应的概率较小，则该音节序列与目标用户发出的语音指令可能相差较大。因此，在音节序列较多的情况下，若将每个音节序列均转换为词序列，则会浪费语音识别的时间。

这样，通过将前n个音节序列转换为词序列，能够提高语音识别的效率。

基于此，为了使目标用户能够确认语音识别结果是否准确，在一些实施例中，在上述S150之后，还可以包括：

显示识别结果。

这里，识别结果可以显示在车机屏幕中。

这样，通过显示识别结果，使目标用户能够直观看到语音识别结果，以确认语音识别结果是否准确。

基于上述实施例提供的语音识别方法，相应地，本申请还提供了语音识别装置的具体实现方式。请参见以下实施例。

如图3所示，本申请实施例提供的语音识别装置300包括以下模块：

获取模块310，用于获取目标用户的图像特征和音频特征；

检测模块320，用于对图像特征进行唇动检测，得到唇动信息；

第一确定模块330，用于根据唇动信息确定目标用户发出语音指令的时间段；

融合模块340，用于将时间段内的图像特征和音频特征进行融合，得到多模态融合特征；

识别模块350，用于对多模态融合特征进行识别，得到语音指令的识别结果。

下面对上述语音识别装置300进行详细说明，具体如下所示：

在其中一些实施例中，语音识别装置300还可以包括：

接收模块，用于在获取目标用户的图像特征和音频特征之前，接收用户的唤醒输入；

第二确定模块，用于响应于唤醒输入，确定用户为目标用户；

采集模块，用于同步采集目标用户的图像信号和音频信号；

基于此，获取模块310具体可以包括：

提取子模块，用于从图像信号中提取目标用户的图像特征，以及从音频信号中提取目标用户的音频特征。

在其中一些实施例中，融合模块340具体可以包括：

对齐子模块，用于将时间段内图像特征的采样率和音频特征的采样率进行对齐，得到第一图像特征和第一音频特征；

拼接子模块，用于将第一图像特征和第一音频特征对应的帧进行拼接，得到多模态融合特征。

在其中一些实施例中，识别模块350具体可以包括：

识别子模块，用于对多模态融合特征进行音节识别，得到多个音节序列；

转换子模块，用于将多个音节序列中的至少部分音节序列分别转换为词序列，得到多个词序列及各词序列的第一概率，其中，一个音节序列可转化为至少一个词序列；

第一确定子模块，用于通过语言模型确定多个词序列中每一个词序列的第二概率；

求和子模块，用于对同一词序列的第一概率和第二概率进行加权求和，得到词序列的第三概率；

第二确定子模块，用于将第三概率最大的词序列确定为语音指令的识别结果。

在其中一些实施例中，语音识别装置300还可以包括：

第三确定模块，用于在对多模态融合特征进行音节识别，得到多个音节序列之后，确定各音节序列的概率；

基于此，转换子模块具体可以包括：

排序单元，用于按照概率从大到小的顺序对多个音节序列进行排序，确定前n个音节序列，n为正整数；

转换单元，用于将前n个音节序列中的每一个音节序列分别转换为词序列，得到多个词序列；

确定单元，用于分别确定各词序列的第一概率，任一词序列的第一概率等于转换为词序列所依赖的音节序列的概率与由音节序列转换为词序列的概率之积。

在其中一些实施例中，语音识别装置300还可以包括：

显示模块，用于在得到语音指令的识别结果之后，显示识别结果。

本申请实施例的语音识别装置通过获取目标用户的图像特征，对图像特征进行唇动检测，以及根据检测得到的唇动信息确定目标用户发出语音指令的时间段，能够准确识别目标用户是否发出语音指令，进而能够区分目标用户和非目标用户。如此，能够保证语音识别系统和目标用户之间的正常交互。通过对目标用户发出语音指令的时间段内的图像特征和音频特征进行融合，再对融合得到的多模态融合特征进行识别，能够提高语音识别的准确率。如此，通过本申请实施例，能够提升目标用户的语音交互体验。

基于上述实施例提供的语音识别方法，本申请实施例还提供了电子设备的具体实施方式。图4示出了本申请实施例提供的电子设备400示意图。

电子设备400可以包括处理器410以及存储有计算机程序指令的存储器420。

具体地，上述处理器410可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器420可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器420可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器420可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器420可在综合网关容灾设备的内部或外部。在特定实施例中，存储器420是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请的第一方面的方法所描述的操作。

处理器410通过读取并执行存储器420中存储的计算机程序指令，以实现上述实施例中的任意一种语音识别方法。

在一个示例中，电子设备400还可包括通信接口430和总线440。其中，如图4所示，处理器410、存储器420、通信接口430通过总线440连接并完成相互间的通信。

通信接口430，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线440包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线440可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

示例性的，电子设备400可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等。

该电子设备可以执行本申请实施例中的语音识别方法，从而实现结合图1和图3描述的语音识别方法和装置。

另外，结合上述实施例中的语音识别方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音识别方法。

除此之外，本申请实施例还提供了一种车辆,该车辆可以包括以下至少一项：

如第二方面的任一项实施例中的语音识别装置；

如第三方面的任一项实施例中的电子设备；

如第四方面的任一项实施例中的计算机可读存储介质。在此不再进行赘述。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取目标用户的图像特征和音频特征；

对所述图像特征进行唇动检测，得到唇动信息；

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的图像特征和音频特征之前，所述方法还包括：

接收用户的唤醒输入；

响应于所述唤醒输入，确定所述用户为目标用户；

同步采集所述目标用户的图像信号和音频信号；

所述获取目标用户的图像特征和音频特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述多模态融合特征进行识别，得到所述语音指令的识别结果，包括：

对所述多模态融合特征进行音节识别，得到多个音节序列；

5.根据权利要求4所述的方法，其特征在于，所述对所述多模态融合特征进行音节识别，得到多个音节序列之后，所述方法还包括：

确定各所述音节序列的概率；

6.根据权利要求1所述的方法，其特征在于，在得到所述语音指令的识别结果之后，所述方法还包括：

显示所述识别结果。

7.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标用户的图像特征和音频特征；

8.一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的语音识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的语音识别方法。

10.一种车辆，其特征在于，包括至少以下一种：

如权利要求7所述的语音识别装置；

如权利要求8所述的电子设备；

如权利要求9所述的计算机可读存储介质。