CN108962250A

CN108962250A - 语音识别方法、装置及电子设备

Info

Publication number: CN108962250A
Application number: CN201811126305.1A
Authority: CN
Inventors: 邹明; 叶顺平; 付聪
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2018-12-07

Abstract

本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别方法、装置及电子设备，该语音识别方法，包括：基于用户输入的特定输入信息触发设备唤醒；基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。本发明实施例中，实现了在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

Description

语音识别方法、装置及电子设备

技术领域

本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别方法、装置及电子设备。

背景技术

随着信息技术的发展，语音识别技术也随之迅速地发展，而利用语音识别的产品越来越多，例如，会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平。

在语音识别中，用户通常利用语音唤醒来实现对设备的激活，从而进行后续的语音交互处理。但是，通过在语音唤醒设备后，通常仅可以执行一次后续针对设备的操作，若用户希望继续执行后续操作，需要重新再次输入唤醒词来唤醒设备，操作过程繁琐，步骤冗余，用户的操作体验度交差。因此，如何在一定时间内基于一次语音唤醒来执行后续的多个指令执行的处理过程成为了当前亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种语音识别方法、装置及电子设备，能够实现在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

基于用户输入的特定输入信息触发设备唤醒；

基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；

若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。

第二方面，本发明实施例还提供一种语音识别装置，该装置包括：

触发单元，用于基于用户输入的特定输入信息触发设备唤醒；

确定单元，用于基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；

处理单元，用于若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。

第三方面，本发明实施例还提供一种电子设备，该电子设备包括：

包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述的语音识别方法。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的语音识别方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例中，基于用户输入的特定输入信息触发设备唤醒；并在设备唤醒之后，基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。本发明实施例提供的上述处理，实现了在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的一种语音识别装置的结构示意图；

图3为本发明实施例提供的一种语音识别的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在现有技术中，在设备中进行基于语音唤醒的语音交互过程时，可以包括：

当用户期望该设备执行某个处理时，如让该设备播放一首歌，用户通常需要对该设备语音输入对应的执行指令“播放一首歌”，且在语音输入该执行指令之前，还需要先语音输入该设备对应的唤醒词，如“你好，问问”，以实现对该设备的激活。也即若要该设备执行该指令，用户需要语音输入“你好，问问，播放一首歌”，该设备才会进行对应的歌曲播放的操作处理。并且对于该设备而言，用户每次要其执行某个执行指令时，均需要在语音输入该执行指令时语音输入该设备的唤醒词，该设备才能够执行该执行指令对应的操作。

对于上述现有技术中的处理过程，虽然能够实现基于用户的执行指令执行对应的操作处理，但是，由于在执行每个执行指令时均需要唤醒词的介入才能触发执行该指令的操作，所以就要求该设备对每个输入的执行指令都优先进行唤醒词的验证处理，从而造成该设备的处理过程繁杂，增加了处理的资源消耗，并且由于每个执行指令中都要携带唤醒词，增加了用户的使用负担，降低了用户的使用体验。

本发明实施例提供的语音识别方法、装置及电子设备，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

如图1所示，为本发明实施例提供的语音识别方法的流程示意图，该方法应用于具有麦克风的电子设备中，该方法包括如下步骤：

步骤S101，基于用户输入的特定输入信息触发设备唤醒。

对于本发明实施例，电子设备通过其上的麦克风实时获取环境中的声音信号，并将获取到的声音信号进行数模转换以及降噪等处理后，再按照特定格式进行编码，并将编码后的音频数据输入到语音唤醒的软件模块。在本发明实施例中，语音唤醒的软件模块对于实时输入的流式音频数据，按照一定的时间间隔划分为一帧，并提取相应的音频特征。

对于本发明实施例，对于用户输入的特定输入信息，会基于该特定输入信息进行该电子设备的唤醒触发，从而使得该电子设备处于唤醒状态。

步骤S102，基于用户输入的操作指令，确定操作指令的输入时间是否在设备处于唤醒状态的预设时间段内。

对于本发明实施例，会对该电子设备进行唤醒状态的持续时间进行预先配置。当达到该持续时间时，用户只能再次进行相应的特定输入信息的输入才可以继续激活该电子设备，使其处于持续的唤醒状态。否则此时，对于用户输入的操作指令，该电子设备不执行任何对应该指令的操作处理。

对于本发明实施例，该唤醒状态的预设时间段可以由用户设置，也可以由电子设备设置，或者由电子设备生产厂商设置。在本发明实施例中不做限定。其可以根据需要配置为5分钟，即该电子设备在唤醒后，如果未接收到任何操作指令或处理，5分钟后其自动从唤醒状态切换为睡眠或关机模式。当然，该5分钟的配置仅是为了说明本发明实施例所列举的一个持续时间，但并不仅局限于此。

步骤S103，若在设备处于唤醒状态的预设时间段内，基于用户输入的操作指令进行对应的操作处理。

对于本发明实施例，由于用户输入的操作指令对应的输入时间在该电子设备于唤醒状态的预设时间段内，所以该电子设备可以直接基于该用户输入的操作指令执行对应的操作。

本发明实施例中，基于用户输入的特定输入信息触发设备唤醒；并在设备唤醒之后，基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。本发明实施例通过上述处理，实现了在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

实施例二

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上还包括实施例二所示的操作，其中，

该步骤S101可以包括步骤S1011(图中未标注)和步骤S1012(图中未标注)，其中，

步骤S1011，接收用户输入的输入信息，确定该输入信息是否为特定输入信息。

步骤S1012，若该输入信息为特定输入信息，基于该特定输入信息触发设备唤醒。

对于本发明实施例，电子设备在接收到用户输入的输入信息后，会对该输入信息进行一系列的格式转换处理，之后对处理后的数据进行识别判定，从而确定该输入信息是不是特定输入信息。并在确定该输入信息为特定输入信息后，该电子设备会基于该确定的结果进行启动，使得该电子设备处于唤醒激活状态，从而可以实现基于特定输入信息来对电子设备的唤醒激活，增加了该电子设备的启动安全性，提升了用户的使用体验。

实施例三

本发明实施例的另一种可能的实现方式，在实施例一或实施例二所示的基础上还包括实施例三所示的操作，其中，

该步骤S102可以包括步骤S1021(图中未标注)、步骤S1022(图中未标注)和步骤S1023(图中未标注)，其中，

步骤S1021，接收用户输入的操作指令，确定操作指令的输入时间。

步骤S1022，基于操作指令的输入时间，确定输入时间与触发设备唤醒的触发时间是否满足预设关系；

步骤S1023，若满足预设关系，确定操作指令的输入时间在设备处于唤醒状态的预设时间段内。

对于本发明实施例，在接收到用户输入的操作指令时，可以同时记录该操作指令输入时的输入时间，并通过输入时间与电子设备在触发唤醒时的触发时间的对应关系，确定二者的对应关系是否满足预设关系。并在满足预设关系时，确定该操作指令的输入时间在该电子设备处于唤醒状态的预设时间段内。

其中，对于该电子设备在触发唤醒时的触发时间，可以是在该电子设备被触发唤醒的同时，该电子设备所记录的时间。

该预设关系可以配置为二者的时间差值小于预先配置的时间阈值(也可以叫做上述的预设时间段)，如时间阈值(预设时间段)为5分钟，则时间差值小于5分钟即可。

在一个具体地本发明实施例中，电子设备唤醒的触发时间是9:45，当9:48时接收到用户输入的一个操作指令M，通过计算，确定该两个时间的差值为3分钟，预先配置的电子设备的唤醒状态持续时间为5分钟，由于3小于5，确定该操作指令M的输入时间在该电子设备处于唤醒状态的预设时间段内。

对于本发明实施例，对于用户输入的一个或多个操作指令，只要各操作指令的输入时间与电子设备在触发唤醒时的触发时间的对应关系满足该预先配置的预设关系，均可以确定该操作指令的输入时间在电子设备处于唤醒状态的预设时间段内，从而可以实现了在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

实施例四

本发明实施例的另一种可能的实现方式，在实施例一或实施例二所示的基础上还包括实施例四所示的操作，其中，

该步骤S102可以包括步骤S1021’(图中未标注)、步骤S1022’(图中未标注)和步骤S1023’(图中未标注)，其中，

步骤S1021’，接收用户当前输入的操作指令，确定当前操作指令的第一输入时间。

步骤S1022’，基于当前操作指令的第一输入时间，确定第一输入时间与前一次操作指令的第二输入时间是否满足预设关系。

步骤S1023’，若满足预设关系，确定当前操作指令的第一输入时间在设备处于唤醒状态的预设时间段内。

对于本发明实施例，在接收到用户当前输入的操作指令时，可以同时记录该操作指令输入时的输入时间，作为第一输入时间，并通过该第一输入时间与上一次用户输入操作指令时所记录的第二输入时间，确定二者的对应关系是否满足预设关系。并在满足预设关系时，确定该操作指令的第一输入时间在该电子设备处于唤醒状态的预设时间段内。

其中，该预设关系可以配置为二者的时间差值小于预先配置的时间阈值(也可以叫上述的预设时间段)，如时间阈值(预设时间段)为5分钟，则时间差值小于5分钟即可。

在一个具体地本发明实施例中，当9:48时接收到用户输入的一个操作指令M，通过查询上一次接收到用户的操作指令N的时间为9:44，通过计算，确定该两个时间的差值为4分钟，预先配置的电子设备的唤醒状态持续时间为5分钟，由于4小于5，从而确定该操作指令M对应的输入时间在该电子设备处于唤醒状态的预设时间段内。

对于本发明实施例，对于用户输入的一个或多个操作指令，只要连续两次操作指令的输入时间的对应关系满足该预先配置的预设关系，均可以确定当前操作指令的输入时间在电子设备处于唤醒状态的预设时间段内，从而可以实现了在一定时间内基于一次唤醒的多个指令执行过程，降低了设备的处理消耗，简化了处理过程，并且提升了用户的使用体验。

实施例五

本发明实施例的另一种可能的实现方式，在实施例一至实施例四中任一实施例的基础上还包括实施例五所示的操作，其中，

该步骤S102之后还可以包括步骤S102A(图中未标注)，其中，

步骤S102A，若不在所述设备处于唤醒状态的预设时间段内，发送相应的指示信息，所述指示信息用于指示用户输入所述特定输入信息，以使所述设备处于唤醒状态。

对于本发明实施例，由于操作指令的输入时间未在该电子设备处于唤醒状态的预设时间段内，此时需要重新唤醒该电子设备以进行操作指令的识别，若要重新唤醒该电子设备，则可以通过该电子设备发送相应的指示信息，来指示该用户输入特定输入信息来使得该电子设备处于唤醒状态，否则，该电子设备不会对该操作指令做任何相应处理，从而可以有效地提醒用户，提升用户的使用体验。

实施例六

本发明实施例的另一种可能的实现方式，在实施例一至实施例五中任一实施例的基础上还包括实施例六所示的操作，其中，

对于前述用户输入的输入信息、用户输入的操作指令以及电子设备发送的指示信息而言，其均可以包括语音信息。

对于本发明实施例，对于电子设备而言，在接收用户输入的信息和指令时，均是接收用户输入的语音信息，并再对该语音信息进行相应的处理。并且在发送相应的指示信息时，也可以发送相应的语音指示信息来指示用户进行相应的处理，从而可以便捷地实现与用户的信息交互，提升用户的使用体验。

实施例七

本发明实施例提供的一种语音识别装置的结构示意图，如图2所示，本发明实施例的语音识别装置20可以包括：触发单元21、确定单元22、处理单元23，其中，

触发单元21，用于基于用户输入的特定输入信息触发设备唤醒；

确定单元22，用于基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内；

处理单元23，用于若在所述设备处于唤醒状态的预设时间段内，基于用户输入的操作指令执行对应的操作处理。

在一个可能地实现方式中，触发单元21，用于接收用户输入的输入信息，确定所述输入信息是否为特定输入信息；若所述输入信息为特定输入信息，基于所述特定输入信息触发所述设备唤醒。

在一个可能地实现方式中，确定单元22，用于接收用户输入的操作指令，确定所述操作指令的输入时间；基于所述操作指令的输入时间，确定所述输入时间与触发所述设备唤醒的触发时间是否满足预设关系；若满足预设关系，确定所述操作指令的输入时间在所述设备处于唤醒状态的预设时间段内。

在一个可能地实现方式中，确定单元22，用于接收用户当前输入的操作指令，确定当前操作指令的第一输入时间；基于当前操作指令的第一输入时间，确定所述第一输入时间与前一次操作指令的第二输入时间是否满足预设关系；若满足预设关系，确定当前操作指令的第一输入时间在所述设备处于唤醒状态的预设时间段内。

在一个可能地实现方式中，处理单元23，还用于若不在所述设备处于唤醒状态的预设时间段内，发送相应的指示信息，所述指示信息用于指示用户输入所述特定输入信息，以使所述设备处于唤醒状态。

在一个可能地实现方式中，用户输入的输入信息、操作指令和指示信息包括语音信息。

本发明实施例的语音识别装置可执行本发明实施例一至实施例六任一实施例所示的语音识别方法，其实现原理相类似，此处不再赘述。

实施例八

本发明实施例提供了一种电子设备，如图3所示，图3所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括通信接口4004。需要说明的是，实际应用中通信接口4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

其中，处理器4001应用于本发明实施例中，用于实现图2所示的触发单元、确定单元、处理单元的功能。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明实施例方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现图2所示实施例提供的语音识别装置的动作。

本发明实施例提供了一种电子设备适用于上述方法任一实施例。在此不再赘述。

实施例九

本发明实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行实施例一至实施例六任一实施例所示的语音识别方法。

本发明实施例提供了一种非暂态计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本申请装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本申请的几个具体实施例，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

基于用户输入的特定输入信息触发设备唤醒；

2.如权利要求1所述方法，其特征在于，所述基于用户输入的特定输入信息触发设备唤醒，包括：

接收用户输入的输入信息，确定所述输入信息是否为特定输入信息；

若所述输入信息为特定输入信息，基于所述特定输入信息触发所述设备唤醒。

3.如权利要求1或2所述方法，其特征在于，基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内，包括：

接收用户输入的操作指令，确定所述操作指令的输入时间；

基于所述操作指令的输入时间，确定所述输入时间与触发所述设备唤醒的触发时间是否满足预设关系；

若满足预设关系，确定所述操作指令的输入时间在所述设备处于唤醒状态的预设时间段内。

4.如权利要求1或2所述方法，其特征在于，基于用户输入的操作指令，确定所述操作指令的输入时间是否在所述设备处于唤醒状态的预设时间段内，包括：

接收用户当前输入的操作指令，确定当前操作指令的第一输入时间；

基于当前操作指令的第一输入时间，确定所述第一输入时间与前一次操作指令的第二输入时间是否满足预设关系；

若满足预设关系，确定当前操作指令的第一输入时间在所述设备处于唤醒状态的预设时间段内。

5.如权利要求1-4中任一项所述方法，其特征在于，还包括：

若不在所述设备处于唤醒状态的预设时间段内，发送相应的指示信息，所述指示信息用于指示用户输入所述特定输入信息，以使所述设备处于唤醒状态。

6.如权利要求1-5中任一项所述方法，其特征在于，用户输入的输入信息、操作指令和指示信息包括语音信息。

7.一种语音识别装置，其特征在于，包括：

8.如权利要求7所述装置，其特征在于，用户输入的输入信息、操作指令和指示信息包括语音信息。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求6中任一项所述的语音识别方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求6中任一项所述的语音识别方法。