CN115050366A

CN115050366A - 一种语音识别方法、装置及计算机存储介质

Info

Publication number: CN115050366A
Application number: CN202210802127.XA
Authority: CN
Inventors: 芮元勋; 蔡勇
Original assignee: Hozon New Energy Automobile Co Ltd
Current assignee: Hozon New Energy Automobile Co Ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-09-13
Anticipated expiration: 2042-07-08
Also published as: CN115050366B

Abstract

本发明公开了一种语音识别方法、装置及计算机存储介质，所述语音识别方法包括：获取到语音信息后，基于深度学习模型获取所述语音信息来自车外的第一置信度；以及对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度；根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息。本发明提供的一种语音识别方法、装置及计算机存储介质，基于深度学习模型获取语音信息来自车外的第一置信度，以及通过对语音信息进行信号处理，获取语音信息来自车外的第二置信度，根据语音信息的第一置信度和第二置信度，确认是否拒绝识别语音信息，减少了车内语音的误识别，避免车内部分功能被车外语音所控制，增加了车内语音控制安全性。

Description

一种语音识别方法、装置及计算机存储介质

技术领域

本发明涉及车载语音识别领域，特别是涉及一种语音识别方法、装置及计算机存储介质。

背景技术

语音交互是当前人机交互的重要方式之一，告别传统手动操作交互方式，语音交互从某种意义上解放了人类双手，并实现了人机之间的远距离交互，为人们生活提供了便捷。目前车辆内的语音识别已经是非常普及的技术，语音交互也是驾驶员在驾驶汽车时，实现对车载系统控制最为方便与高效的手段。车内环境下的语音识别与控制将成为未来人车交互的热点技术方向。相关技术中，车辆内的语音识别在实际使用中产生了一个安全性问题，就是车外的人的说话语音也有可能被车内语音系统所识别，严重影响语音识别系统的安全性，降低了系统识别的准确性。因此，如何拒识别车外语音，减少车内语音的误识别，避免车内部分功能被车外语音所控制，仍是相关技术人员亟待解决的问题。

发明内容

本发明的目的在于提供一种语音识别方法、装置及计算机存储介质，减少车内语音的误识别，避免车内部分功能被车外语音所控制，增加车内语音控制安全性。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种语音识别方法，所述语音识别方法包括：

获取到语音信息后，基于深度学习模型获取所述语音信息来自车外的第一置信度；以及

对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度；

根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息。

作为其中一种实施方式，所述基于深度学习模型获取所述语音信息来自车外的第一置信度，包括：

对所述语音信息进行快速傅里叶变换。

作为其中一种实施方式，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，包括：

计算所述语音信息的高频信号能量和低频信号能量。

作为其中一种实施方式，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，还包括：

根据本底噪声频谱信息，计算低频噪声能量和噪声总能量；

根据所述低频噪声能量和所述噪声总能量，计算行驶噪声阈值。

根据所述高频信号能量、所述低频信号能量和所述行驶噪声阈值，计算所述语音信息来自车外的第二置信度。

作为其中一种实施方式，所述根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息，包括：

在所述第一置信度与所述第二置信度的和大于预设阈值时，拒绝识别所述语音信息。

作为其中一种实施方式，所述基于深度学习模型获取所述语音信息来自车外的第一置信度之前，包括：

获取参考音音频信息和车内音频信息；

根据所述参考音音频信息，对所述车内音频信息进行回声消除。

作为其中一种实施方式，所述根据所述参考音音频信息，对所述车内音频信息进行回声消除之后，包括：

对进行回声消除后的车内音频信息进行语音检测；

若语音检测判断为否，则对所述车内音频信息进行快速傅里叶变换得到本底噪声频谱信息。

第二方面，本发明实施例提供了一种语音识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述语音识别方法的步骤。

第三方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述语音识别方法的步骤。

本发明实施例提供的一种语音识别方法、装置及计算机存储介质，所述语音识别方法包括：获取到语音信息后，基于深度学习模型获取所述语音信息来自车外的第一置信度；以及对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度；根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息。如此，基于深度学习模型获取语音信息来自车外的第一置信度，以及通过对语音信息进行信号处理，获取语音信息来自车外的第二置信度，根据语音信息的第一置信度和第二置信度，确认是否拒绝识别语音信息，减少了车内语音的误识别，避免车内部分功能被车外语音所控制，增加了车内语音控制安全性。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本发明不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本发明实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，在本文中，采用了诸如S101、S102等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S102后执行S101等，但这些均应在本发明的保护范围之内。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参见图1，为本发明实施例提供的一种语音识别方法，该语音识别方法可以由本发明实施例提供的一种语音识别装置来执行，该语音识别装置可以采用软件和/或硬件的方式来实现，所述语音识别方法包括以下步骤：

步骤S101：获取到语音信息后，基于深度学习模型获取所述语音信息来自车外的第一置信度；

需要说明的是，深度学习方法实质上是一种机器学习方法，其目的在于：建立一个能够模拟人类大脑进行分析学习的神经网络，通过模仿人类大脑的机制来对诸如图像、声音、文本等各类数据进行解释。具体实现中，深度学习方法可以基于各种模型来实现，此处的模型可包括但不限于：全连接神经网络(Fully Connected Neural Network，FCNN)模型、时间递归(Long Short Term Memory，LSTM)神经网络模型、循环神经网络(RecurrentNeural Network，RNN)模型、深度神经网络(Deep Neural Network，DNN)模型、卷积神经网络(Convolutional Neural Network，CNN)、误差反向传播(Back Propagation，BP)神经网络模型等等，或者若干种模型结构的结合。本步骤可以通过构建神经网络模型，采用所构建的神经网络模型来对语音信息进行深度学习，将语音信息的时域信号或频域信号作为模型输入，语音信息来自车外的第一置信度作为模型输出，从而实现对语音信息来自车外的置信度的获取。

在一实施方式中，所述基于深度学习模型获取所述语音信息来自车外的第一置信度之前，包括：

获取参考音音频信息和车内音频信息；

这里，获取车内音频信息可以是车辆中控系统、智能后视镜系统、智能抬头显示系统等常用的车载与驾驶员交互的电子系统基于车辆内的声音采集装置如麦克风等实时采集当前车内声音信号，所述车内声音信号包括车内噪声信号和车内语音信号。可以理解地，车辆中控系统、智能后视镜系统、智能抬头显示系统等常用的车载与驾驶员交互的电子系统与车辆的麦克风连接，以通过车辆的麦克风实时采集车内音频信息，所述车内音频信息可能是用户在车辆内发出的语音信息，也可能是车载终端或移动终端如手机正在播放的音频数据。参考音音频信息可以是播放器正在播放的音频数据或TTS语音播报信息，一般由底层硬件或者驱动层得到，其作用是给回声消除模块消除正在播放的音乐或TTS语音播报信息。回声消除模块通常是由自适应滤波器和维纳滤波器组成。

在一实施方式中，所述根据所述参考音音频信息，对所述车内音频信息进行回声消除之后，包括：

对进行回声消除后的车内音频信息进行语音检测；

这里，对车内音频信息进行回声消除后再进行语音检测，当VAD(Voice activedetection，语音检测)判断为否时，将该车内音频信息当做噪声信号，再进行快速傅里叶变换，以更新本底噪声频谱信息。

在一实施方式中，所述基于深度学习模型获取所述语音信息来自车外的第一置信度，包括：

对所述语音信息进行快速傅里叶变换。

这里，快速傅里叶变换是时域信号和频域信号相互转换的算法。

步骤S102：对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度；

在一实施方式中，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，包括：

计算所述语音信息的高频信号能量和低频信号能量。

这里，将语音信息分别经过高通滤波器和低通滤波器后，分别计算RMS值即可获得所述语音信息的高频信号能量和低频信号能量。高通滤波器和低通滤波器都需要设置截止频率，其作用是决定取多高的频率能量及多低的频率能量，截止频率通过实际车辆声学特性实测决定。

在一实施方式中，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，还包括：

根据本底噪声频谱信息，计算低频噪声能量和噪声总能量；

具体地，获取本底噪声频谱信息，根据本底噪声频谱信息计算RMS值即可获得噪声总能量。将本底噪声经过低通滤波器后，计算RMS值即可获得低频噪声能量。行驶噪声阈值的设置可以但不限于使用计算低频噪声能量占比的方法：

TH＝E_low/E_all；

其中，TH表示行驶噪声阈值，E_low表示低频噪声能量，E_all表示噪声总能量。

具体地，可以但不限于根据以下公式计算语音信息来自车外的第二置信度：

CONF2＝(S_high/S_low)/TH；

其中，CONF2表示通过信号处理方法得到的语音信息来自车外的置信度，S_high表示高频信号能量，S_low表示低频信号能量。

步骤S103：根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息。

这里，通过步骤S101中获得的语音信息来自车外的第一置信度和步骤S102中获得的语音信息来自车外的第二置信度，结合两个置信度来判断语音信息是否来自车外，从而确认是否拒绝识别所述语音信息。如此，减少了车内语音的误识别，避免车内部分功能被车外语音所控制，增加了车内语音控制安全性。

在一实施方式中，所述根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息，包括：

具体地，根据以下公式判断语音信息来自车外：

CONF1+CONF2>A；

其中，CONF1表示通过深度学习模型的输出结果得到的语音信息来自车外的置信度，CONF2表示通过信号处理方法得到的语音信息来自车外的置信度，A为实车经验值，需实车调试得到。

综上，上述实施例提供的语音识别方法中，获取到语音信息后，基于深度学习模型获取所述语音信息来自车外的第一置信度，以及对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，在所述第一置信度和所述第二置信度和大于预设阈值时，拒绝识别所述语音信息，减少了车内语音的误识别，避免车内部分功能被车外语音所控制，增加了车内语音控制安全性。

基于前述实施例相同的发明构思，本发明实施例提供了一种语音识别装置，如图2所示，该语音识别装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图2中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图2中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。所述处理器110用于运行所述计算机程序时，实现所述语音识别方法。

该语音识别装置还可包括：至少一个网络接口112。该语音识别装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统113。

其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器111用于存储各种类型的数据以支持该语音识别装置的操作。这些数据的示例包括：用于在该语音识别装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现上述所述的语音识别方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于深度学习模型获取所述语音信息来自车外的第一置信度，包括：

对所述语音信息进行快速傅里叶变换。

3.根据权利要求1所述的语音识别方法，其特征在于，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，包括：

计算所述语音信息的高频信号能量和低频信号能量。

4.根据权利要求1所述的语音识别方法，其特征在于，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，还包括：

根据本底噪声频谱信息，计算低频噪声能量和噪声总能量；

5.根据权利要求3或4所述的语音识别方法，其特征在于，所述对所述语音信息进行信号处理，获取所述语音信息来自车外的第二置信度，包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述第一置信度和所述第二置信度，确认是否拒绝识别所述语音信息，包括：

7.根据权利要求1所述的语音识别方法，其特征在于，所述基于深度学习模型获取所述语音信息来自车外的第一置信度之前，包括：

获取参考音音频信息和车内音频信息；

8.根据权利要求7所述的语音识别方法，其特征在于，所述根据所述参考音音频信息，对所述车内音频信息进行回声消除之后，包括：

对进行回声消除后的车内音频信息进行语音检测；

9.一种语音识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述语音识别方法的步骤。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述语音识别方法的步骤。