CN112435670A

CN112435670A - 语音识别方法、语音识别设备和计算机可读存储介质

Info

Publication number: CN112435670A
Application number: CN202011255409.XA
Authority: CN
Inventors: 刘瑞凯
Original assignee: Qingdao Goertek Intelligent Sensor Co Ltd
Current assignee: Qingdao Goertek Intelligent Sensor Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-03-02

Abstract

本发明公开了一种语音识别方法，该方法包括：执行对语音识别设备所在空间的语音检测操作，获得第一语音信号；获取第一语音信号对应的第二语音信号，执行对第一语音信号的离线识别操作，获得第一识别结果；其中，第二语音信号为与第一语音信号包含相同的语音信息的信号；若第一识别结果为识别失败，则对获得第一识别结果之前获取的第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果。本发明还公开了一种语音识别设备和计算机可读存储介质。本发明旨在实现在线语音识别与离线语音识别相互配合可实现语音识别效率的有效提高。

Description

语音识别方法、语音识别设备和计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及语音识别方法、语音识别设备和计算机可读存储介质。

背景技术

随着经济技术的发展，设备的智能化程度越来越高，语音识别功能在智能化设备中的应用越来越广泛。其中，大多具有语音识别功能的设备同时搭载了离线语音识别和在线语音识别功能。

然而，设备一般优先采用在线语音识别对语音信号进行识别，在无法获取到在线语音识别结果时，才会对语音信号采用离线方式进行识别，而由于在线语音识别耗时一般较长，在线语音识别与离线语音识别以这种方式进行配合存在语音识别效率低下的问题。

发明内容

本发明的主要目的在于提供一种语音识别方法，旨在实现在线语音识别与离线语音识别相互配合可实现语音识别效率的有效提高。

为实现上述目的，本发明提供一种语音识别方法，应用于语音识别设备，所述语音识别方法包括以下步骤：

执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号；

获取所述第一语音信号对应的第二语音信号，执行对所述第一语音信号的离线识别操作，获得第一识别结果；其中，所述第二语音信号为与第一语音信号包含相同语音信息的信号；

若所述第一识别结果为识别失败，则对获得所述第一识别结果之前获取的所述第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果。

可选地，所述获取所述第一语音信号对应的第二语音信号的步骤包括：

执行对所述第一语音信号的录制操作，获得所述第二语音信号。

可选地，所述对获得所述第一识别结果之前获取的所述第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果的步骤包括：

将获得所述第一识别结果之前获取的所述第二语音信号上传至云服务器，以使所述云服务器对所述第二语音信号执行语音识别操作；

获取所述云服务器基于所述第二语音信号返回的数据作为所述第二识别结果；

将所述第二识别结果确定为目标识别结果。

可选地，所述执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤之后，还包括：

若所述第一识别结果为识别成功，则确定所述第一识别结果对应的语音指令作为目标识别结果；

停止上传所述第二语音信号至所述云服务器。

可选地，所述执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号的步骤之后，还包括

对所述第一语音信号执行唤醒词识别操作；

若所述唤醒词识别操作的识别结果为所述第一语音信号包含设定唤醒词，则执行所述执行对所述第一语音信号的录制操作，获得第二语音信号；执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤。

可选地，所述对所述第一语音信号执行唤醒词识别操作的步骤包括：

提取所述第一语音信号的第一声音特征参数，获取预先存储的所述设定唤醒词对应的第二声音特征参数；

比对所述第一声音特征参数与所述第二声音特征参数；

若存在与所述第二声音特征参数匹配的第一声音特征参数，则确定所述唤醒词识别操作的识别结果为所述第一语音信号包含设定唤醒词；

若不存在与所述第二声音特征参数匹配的第一声音特征参数，则确定所述唤醒词识别操作的识别结果为所述第一语音信号不包含设定唤醒词。

可选地，所述执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤包括：

确定所述第一语音信号中所述设定唤醒词对应的第一子信号；

确定所述第一语音信号中的第二子信号；所述第二子信号为检测时刻晚于所述第一子信号的语音信号；

执行对所述第二子信号的离线识别操作，获得所述第一识别结果。

可选地，所述执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号的步骤之后，还包括：

根据所述目标识别结果控制目标设备运行。

此外，为了实现上述目的，本申请还提出一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上任一项所述的语音识别方法的步骤。

此外，为了实现上述目的，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上任一项所述的语音识别方法的步骤。

本发明提出的一种语音识别方法，该方法对所述语音识别设备所在空间的语音执行语音检测操作得到第一语音信号，并进一步获取与第一语音信号包含相同语音信息的第二语音信号，同时对第一语音信号进行离线识别得到第一识别结果，在离线识别的第一识别结果为失败时，对得到第一识别结果之前获取的第二语音信号进行在线识别，从而得到目标识别结果，由于离线语音识别耗时一般小于在线语音识别，通过此语音识别的配合方式，检测到的第一语音信号的离线识别结果为失败时才采用在线语音识别，并且在第一语音信号离线识别的同时生成用于在线识别的第二语音信号，使在线识别时用于识别的在线终端可快速获取到第二语音信号并进行识别，从而实现得到最终语音识别结果的效率有效提高。

附图说明

图1为本发明语音识别设备一实施例运行涉及的硬件结构示意图；

图2为本发明语音识别设备另一实施例运行涉及的硬件结构示意图；

图3为本发明语音识别方法一实施例的流程示意图；

图4为本发明语音识别方法另一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号；获取所述第一语音信号对应的第二语音信号，执行对所述第一语音信号的离线识别操作，获得第一识别结果；其中，所述第二语音信号为与第一语音信号包含相同的语音信息的信号；若所述第一识别结果为识别失败，则对获得所述第一识别结果之前获取的所述第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果。

由于现有技术中，设备一般优先采用在线语音识别对语音信号进行识别，在无法获取到在线语音识别结果时，才会对语音信号采用离线方式进行识别，而由于在线语音识别耗时一般较长，在线语音识别与离线语音识别以这种方式进行配合存在语音识别效率低下的问题。

本发明提供上述的解决方案，旨在实现在线语音识别与离线语音识别相互配合可实现语音识别效率的有效提高。

本发明实施例提出一种语音识别设备，可以是任意具有语音识别功能的设备(例如手机、智能手表、平板电脑、智能音箱等)。

在本发明实施例中，参照图1，语音识别设备包括：处理器1001(例如CPU)，存储器1002，麦克风1003等。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

计时器1004具体用于统计空调器的上电后的持续运行时长、以及室内风机降速后或室外风机降速后的间隔时长。

存储器1002、麦克风1003均通过通信总线与处理器1001连接。麦克风1003可根据实际需求设置有一个或多于一个。麦克风1003可用于采集语音识别设备所在环境中的语音形成语音信号。

本领域技术人员可以理解，图1中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1002中可以包括语音识别程序。在图1所示的装置中，处理器1001可以用于调用存储器1002中存储的语音识别程序，并执行以下实施例中语音识别方法的相关步骤操作。

具体的，在本发明实施例中，参照图2，语音识别设备包括离线语音识别模块1、在线语音识别模块2和执行模块3。这里的每个功能模块均具有上述的处理器1001和存储器1002。其中，离线语音识别模块1和在线语音识别模块2之间通信连接，具体的，两个模块之间的连接方式可具体包括通过通用异步收发传输器(UART)连接和双向二线制同步串行总线(I2C)。其中，在线语音识别模块2可与云服务器4连接，以通过云服务器4实现语音信号的在线识别；离线语音识别模块1可与上述的麦克风1003连接，以获取麦克风1003采集的语音信号。而执行模块3与离线语音识别模块1连接，离线语音识别模块1可获取到目标语音识别结果(由离线语音识别模块1识别得到或由在线语音识别模块识别得到)后，将目标语音识别结果对应的语音指令发送给执行模块3，执行模块3可按照接收到语音指令控制目标设备运行。基于此，下面语音识别方法实施例中涉及的离线语音识别过程由离线语音识别模块1执行，下面语音识别方法实施例中涉及的在线语音识别过程由在线语音识别模块2执行。

本发明实施例还提供一种语音识别方法，应用于上述语音识别设备，以对用户发出的语音进行识别。

参照图3，提出本申请语音识别方法一实施例。在本实施例中，所述语音识别方法包括：

步骤S10，执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号；

语音识别设备所在环境的用户发出语音时会在环境中形成相应的声音信号，语音识别设备基于语音检测操作对用户所发出的语音进行采集。

具体的，在语音识别设备的语音识别功能处于开启状态时，控制麦克风实时采集语音识别设备所在环境中存在的语音信号，得到这里的第一语音信号。

设备的语音识别功能可由用户通过输入指令开启，具体的，这里的指令可通过按键或图像识别用户手势等方式得到。

步骤S20，获取所述第一语音信号对应的第二语音信号，执行对所述第一语音信号的离线识别操作，获得第一识别结果；其中，所述第二语音信号为与第一语音信号包含相同语音信息的信号；

在本发明实施例中，执行对所述第一语音信号的录制操作，获得所述第二语音信号。具体的，在麦克风采集到第一语音信号后，通过语音识别设备内部的录制模块对第一语音信号进行录制得到第二语音信号，基于此方式，可有效地保证第一语音信号和第二语音信号所包含语音信息的一致性，有利于保证后续的在线语音识别的准确性。此外，在其他实施例中，第二语音信号也可通过麦克风实时采集得到，例如，语音识别设备可设置有两个麦克风，一个麦克风采集到的设备所在环境中存在的语音信号作为第一语音信号，用于离线语音识别；另一个麦克风采集到的设备所在环境中存在的语音信号作为第二语音信号，用于在线语音识别。

离线识别操作具体指的是采用语音识别设备的存储器中本地存储的数据对第一语音信号进行语音识别，得到的结果作为第一识别结果。具体的，本地可存储有通过机器学习生成的语音识别模型，将第一语音信号输入语音识别模型，将语音识别模块输出的结果作为第一识别结果。此外，本地还可存储有设定语音指令的声音特征参数，基于此，提取第一语音信号中的声音特征参数，将提取到的声音特征参数与存储的声音特征参数比对，参数匹配则第一识别结果为识别成功、且确定第一语音信号包括设定语音指令，参数不匹配则第一识别结果为识别失败。

第一识别结果可具体包括识别成功、识别失败和识别成功时识别得到的语音指令。

当语音识别模块包括离线语音识别模块和在线语音识别模块时，离线语音识别模块对实时采集到的第一语音信号执行离线识别操作时，在线语音识别模块对实时采集到的第一语音信号进行录制得到第二语音信号。

步骤S30，判断所述第一识别结果是否为识别失败；

若所述第一识别结果为识别失败，则执行步骤S40。

具体的，当语音识别模块包括离线语音识别模块和在线语音识别模块时，离线语音识别模块可基于其自身的第一识别结果生成对应的识别状态指令，在线语音识别模块可基于接收到的识别状态指令确定离线语音识别的识别结果是否成功。例如，当在线语音识别模块接收到的识别状态指令为第一标识符时，认为第一识别结果为识别失败；当在线语音识别模块接收到的识别状态指令为第二标识符时，认为第二识别结果为识别成功。

步骤S40，对获得所述第一识别结果之前获取的所述第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果。

在离线语音识别过程中获取到的第二语音信号会保存在语音识别中的设定存储区域。具体为，该设定存储区域位于在线语音识别模块内，用于存储待上传到云服务器的数据。在线识别操作具体指的是基于语音识别设备与外部设备的通信连接对设定存储区域内读取到的第二语音信号进行识别，得到的结果作为第二识别结果。而第二识别结果可认为是语音识别的最终结果。

具体的，在本实施例中，在线识别的过程为：将获得所述第一识别结果之前获取的所述第二语音信号上传至云服务器，以使所述云服务器对所述第二语音信号执行语音识别操作；获取所述云服务器基于所述第二语音信号返回的数据作为所述第二识别结果；将所述第二识别结果确定为目标识别结果。当语音识别模块包括离线语音识别模块和在线语音识别模块时，在线语音设备模块基于接收到的结果状态指令确定离线识别失败时，可将其当前录制得到的第二语音信号上传到云服务器。语音识别设备与云服务器联网，云服务器可从其联网的所有设备中搜索数据来对第二语音信号进行识别，识别得到的结果返回至语音识别设备，语音识别设备将接收到的数据作为第二识别结果，并将第二识别结果确定为语音识别的最终识别得到的目标识别结果。

在其他实施例中，语音识别设备也可不将第二语音信号上传到云服务器，而是接收从云服务器或其他设备发送的识别数据，采用接收到的识别数据在本地对第二语音信号进行识别。

本发明实施例提出的一种语音识别方法，该方法对所述语音识别设备所在空间的语音执行语音检测操作得到第一语音信号，并进一步获取与第一语音信号包含相同语音信息的第二语音信号，同时对第一语音信号进行离线识别得到第一识别结果，在离线识别的第一识别结果为失败时，对得到第一识别结果之前获取的第二语音信号进行在线识别，从而得到目标识别结果，由于离线语音识别耗时一般小于在线语音识别，通过此语音识别的配合方式，检测到的第一语音信号的离线识别结果为失败时才采用在线语音识别，并且在第一语音信号离线识别的同时生成用于在线识别的第二语音信号，使在线识别时用于识别的在线终端可快速获取到第二语音信号并进行识别，从而实现得到最终语音识别结果的效率有效提高。

进一步的，在本实施例中，参照图3，在步骤S30之后，若所述第一识别结果为识别成功，则可执行步骤S50、步骤S60。

步骤S50，确定所述第一识别结果对应的语音指令作为目标识别结果；

具体的，从第一识别结果中提取通过离线识别得到的语音指令，该语音指令可认为是对语音识别的最终结果。

步骤S60，停止上传所述第二语音信号至所述云服务器。

其中，可删除第二语音信号。

此外，也可保存第二语音信号，在第二语音信号保存的数量达到设定阈值时或接收到用户的指令时，可将保存的第二语音信号及其对应的第一语音信号的识别结果上传到云服务器，以使云服务器基于接收到的数据对语音识别设备的离线识别的准确性进行评价。具体的，云服务器可对接收到的数据中的第二语音信号进行重新识别，将识别得到的结果与接收到的数据中对应的识别结果进行比对，得到语音识别设备的离线语音识别功能的评价参数，还可基于评价参数对语音识别设备中用于离线识别的数据库内的数据进行修正。

在本实施例中，在通过离线方式可成功识别到第一语音信号中的语音指令时，不再上传第二语音信号，有利于减少云服务器的访问次数，减少云服务器的使用成本。

进一步的，在本实施例中，步骤S10之后，通过离线语音识别或在线语音识别得到目标识别结果后，可根据上述目标识别结果控制目标设备运行。这里的目标设备可以是语音识别设备本身，也可以是其他与目标设备连接的设备。例如，目标设备为音箱，可根据目标识别结果控制音箱进行音频播放。基于此，用户发出语音时，语音识别设备可快速提取得到相应的语音控制指令并快速响应。

进一步的，基于上述实施例，提出本申请语音识别方法另一实施例。在本实施例中，参照图4，所述步骤S10之后，还包括：

步骤S01，对所述第一语音信号执行唤醒词识别操作；

步骤S02，若所述唤醒词识别操作的识别结果为所述第一语音信号包含设定唤醒词，则执行步骤S20。

具体的，提取所述第一语音信号的第一声音特征参数，获取预先存储的所述设定唤醒词对应的第二声音特征参数；比对所述第一声音特征参数与所述第二声音特征参数；若存在与所述第二声音特征参数匹配的第一声音特征参数，则确定所述唤醒词识别操作的识别结果为所述第一语音信号包含设定唤醒词；若不存在与所述第二声音特征参数匹配的第一声音特征参数，则确定所述唤醒词识别操作的识别结果为所述第一语音信号不包含设定唤醒词。

其中，第二声音特征参数具体通过预先获取设定唤醒词对应的多个语音信号样本，基于语音信号样本进行分析得到。第二声音特征参数可保存在语音识别设备的存储器中。设定唤醒词的内容可根据实际情况进行设置，可为预先配置，也可由用户设置。设定唤醒词的数量可根据实际需求设置有一个或多于一个。

具体的，在本实施例中，当语音识别设备包括离线语音识别模块和在线语音识别模块时，这里的步骤S01和步骤S02均由离线语音识别模块执行，离线语音识别模块得到唤醒词识别结果后，若识别结果为包含设定唤醒词时，可发送录音指令至在线语音识别模块，在线语音识别模块接收到录音指令后启动对第一语音信号的录制操作。

在本实施例中，获取到语音信号后，先判断语音信号是否存在唤醒词，语音信号包含设定唤醒词时才对进行后续的语音识别，保证语音识别结果的准确性和基于语音识别结果控制设备时的有效性，避免误识别。其中，基于预先存储的声音特征参数来进行唤醒词识别，也就是说，采用离线方式识别语音信号中的唤醒词，由于离线识别语音的耗时较短，基于此方式，用户可通过设定唤醒词快速唤醒语音识别设备进行语音识别。

进一步的，在本实施例中，基于上述步骤S01和步骤S02，步骤S20中执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤包括：确定所述第一语音信号中所述设定唤醒词对应的第一子信号；确定所述第一语音信号中的第二子信号；所述第二子信号为检测时刻晚于所述第一子信号的语音信号；执行对所述第二子信号的离线识别操作，获得所述第一识别结果。

具体的，可在第一语音信号中确定第一声音特征参数与第二声音特征参数匹配的信号作为第一子信号，将第一语音信号的其他信号中检测时刻晚于第一子信号的信号作为第二子信号，在离线识别时对第二子信号进行识别。基于此，有利于提高离线识别结果的准确性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上语音识别方法任一实施例的相关步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，应用于语音识别设备，其特征在于，所述语音识别方法包括以下步骤：

2.如权利要求1所述的语音识别方法，其特征在于，所述获取所述第一语音信号对应的第二语音信号的步骤包括：

3.如权利要求1所述的语音识别方法，其特征在于，所述对获得所述第一识别结果之前获取的所述第二语音信号执行在线识别操作，获得第二识别结果作为目标识别结果的步骤包括：

将所述第二识别结果确定为目标识别结果。

4.如权利要求3所述的语音识别方法，其特征在于，所述执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤之后，还包括：

停止上传所述第二语音信号至所述云服务器。

5.如权利要求1所述的语音识别方法，其特征在于，所述执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号的步骤之后，还包括

对所述第一语音信号执行唤醒词识别操作；

6.如权利要求5所述的语音识别方法，其特征在于，所述对所述第一语音信号执行唤醒词识别操作的步骤包括：

比对所述第一声音特征参数与所述第二声音特征参数；

7.如权利要求5所述的语音识别方法，其特征在于，所述执行对所述第一语音信号的离线识别操作，获得第一识别结果的步骤包括：

8.如权利要求1至7中任一项所述的语音识别方法，其特征在于，所述执行对所述语音识别设备所在空间的语音检测操作，获得第一语音信号的步骤之后，还包括：

根据所述目标识别结果控制目标设备运行。

9.一种语音识别设备，其特征在于，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1至8中任一项所述的语音识别方法的步骤。