CN114155854A

CN114155854A - 语音数据的处理方法及装置

Info

Publication number: CN114155854A
Application number: CN202111516804.3A
Authority: CN
Inventors: 李含珍; 王峰; 任晓楠
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-08
Anticipated expiration: 2041-12-13
Also published as: WO2023109129A1; CN114155854B; CN118020100A

Abstract

本申请提供一种语音数据的处理方法及装置，当智能设备的唤醒词被配置为第一词语，并对采集的第一语音数据进行处理时，当第一语音数据中不包括第一词语但包括预设内容时，向用户提示第一词语，从而防止用户因遗忘、或不知道修改后的唤醒词、或错误说出其他设备唤醒词等情况下，无法唤醒智能设备的情况，从而提高了智能设备的智能化程度，提高了应用该方法及装置的智能设备的用户的使用体验。

Description

语音数据的处理方法及装置

技术领域

本申请涉及语音数据处理技术领域，尤其涉及一种语音数据的处理方法及装置。

背景技术

随着电子技术的发展，越来越多的电视机、音箱等智能设备都设置有语音交互功能，使用户可以通过说话的方式向智能设备发出指令，当终端设备采集用户的语音数据后，识别并执行其中的指令。

现有技术中，为了节省智能设备的功耗，智能设备通常处于低功耗等工作模式，用户与智能设备对话时，需要首先说出智能设备的唤醒词，来“唤醒”智能设备，使其切换为正常工作状态。相应地，智能设备只有在检测到唤醒词之后，才继续处用户在该唤醒词之后的说出的指令

采用现有技术，一些智能设备的唤醒词可以进行更改，而在唤醒词更改后，一旦用户遗忘或者不能确定更改后的唤醒词，用户将无法“唤醒”智能设备，导致了智能设备的智能化程度不足，严重降低用户体验。

发明内容

本申请提供一种语音数据的处理方法及装置，用于解决无法唤醒智能设备导致智能设备的智能化程度不足、用户体验较差的技术问题。

本申请提供一种语音数据的处理方法，包括：确定所述智能设备的唤醒词被配置为第一词语；采集用户的第一语音数据；当识别到所述第一语音数据中包括所述第一词语，所述智能设备切换工作状态；当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语；当识别到所述第一语音数据中不包括所述第一词语且不包括所述预设内容时，所述智能设备不切换工作状态

在本申请第一方面一实施例中，所述识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语，包括：当识别到所述第一语音数据中不包括所述第一词语但包括所述预设内容时，将检测次数加1，所述检测次数为连续采集到语音数据中不包括所述词语且包括所述预设内容的次数；当所述检测次数大于预设次数时，向所述用户提示所述第一词语。

在本申请第一方面一实施例中，所述识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语，包括：当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，采集用户的第二语音数据；当识别到所述第二语音数据中包括语义为询问所述第一词语的语句，向所述用户提示所述第一词语。

在本申请第一方面一实施例中，所述预设内容包括以下的一项或多项：所述智能设备在所述第一词语之前被配置过的至少一个唤醒词；所述智能设备绑定的用户账户配置过的至少一个唤醒词；具有语音数据处理功能的至少一个其他设备的被配置的唤醒词。

在本申请第一方面一实施例中，所述方法还包括：当所述智能设备启动时，从存储设备中获取所述智能设备在所述第一词语之前被配置过的至少一个唤醒词，从服务器获取所述具有语音数据处理功能的至少一个其他设备的被配置的唤醒词；当所述用户使用账号登录所述智能设备，根据所述用户的账号，从服务器获取所述智能设备绑定的用户账户配置过的至少一个唤醒词。

在本申请第一方面一实施例中，所述方法还包括：当所述用户使用账号登录所述智能设备，且所述用户将所述智能设备的唤醒词由第一词语修改为第二词语时，将所述第二词语发送至所述服务器，使所述服务器记录所述第二词语。

在本申请第一方面一实施例中，所述向所述用户提示所述第一词语，包括：在显示界面上显示所述第一词语的文本提示信息；或者，通过语音播放所述第一词语的语音提示信息。

在本申请第一方面一实施例中，在预设时间后，停止向所述用户提示所述第一词语；或者，当采集到用户的第三语音数据，并识别到所述第三语音数据中包括所述第一词语后，停止向所述用户提示所述第一词语。

在本申请第一方面一实施例中，所述采集用户的第一语音数据之后，还包括：通过机器学习模型，确定所述第一语音数据中的是否包括所述第一词语和所述预设内容；或者，确定所述第一语音数据中每个文字的拼音，通过所述每个文字的拼音、所述第一词语的拼音以及所述预设内容的拼音，确定所述第一语音数据中的是否包括所述第一词语和所述预设内容。

本申请第二方面提供一种语音数据的处理装置，用于执行如本申请第一方面任一项提供的语音数据的处理方法，该装置包括：确定模块，用于确定所述智能设备的唤醒词被配置为第一词语；采集模块，用于采集用户的第一语音数据；处理模块，用于识别所述第一语音数据中是否包括所述第一词语，以及是否包括预设内容；其中，当识别到所述第一语音数据中包括所述第一词语，所述智能设备切换工作状态；当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态；当识别到所述第一语音数据中不包括所述第一词语且不包括所述预设内容时，所述智能设备不切换工作状态；提示模块，用于当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，向所述用户提示所述第一词语。

综上，本申请提供的语音数据的处理方法及装置，当智能设备的唤醒词被配置为第一词语，并对采集的第一语音数据进行处理时，当第一语音数据中不包括第一词语但包括预设内容时，向用户提示第一词语，从而防止用户因遗忘、或不知道修改后的唤醒词、或错误说出其他设备唤醒词等情况下，无法唤醒智能设备的情况，从而提高了智能设备的智能化程度，提高了应用该方法及装置的智能设备的用户的使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种应用场景的示意图；

图2为一种智能设备处理语音数据的方法流程示意图；

图3为本申请提供的语音数据的处理方法一实施例的流程示意图；

图4为本申请提供的智能设备的唤醒词的示意图；

图5为本申请提供的智能设备一种提示唤醒词的方式的示意图；

图6为本申请提供的智能设备另一种提示唤醒词的方式的示意图；

图7为本申请提供的语音数据的处理方法另一实施例的流程示意图；

图8为本申请提供的语音数据的处理方法又一实施例的流程示意图；

图9为本申请提供的智能设备实现对预设内容进行处理的示意图；

图10为本申请提供的对语音数据进行处理的一实施例的流程示意图；

图11为本申请提供的智能设备进行语音数据处理的处理结构示意图；

图12为本申请提供的语音数据的处理装置一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在正式介绍本申请实施例之前，先结合附图，对本申请所应用的场景，以及场景中所存在的问题进行说明。例如，图1为本申请一种应用场景的示意图，示出了用户1通过语音交互的方式控制智能设备2的示意图，其中，智能设备2可以是手机、平板电脑、电视机、智能音箱或者其他智能家电等具有相关语音交互功能的电子设备，图1中以智能设备2为电视机作为示例。

在一些实施例中，为了节省功耗，智能设备2平时处于低功耗等工作模式下，用户1需要通过语音向智能设备2发出指令时，需要先说出智能设备2所设置的唤醒词“XXXX”，随后再说出指令“播放电影”。则对于智能设备2，其处理流程可以参照图2所示的过程，其中，图2为一种智能设备处理语音数据的方法流程示意图，当智能设备2在S10中通过麦克风等语音采集装置采集到语音数据后，首先在S20中识别语音数据中是否包括唤醒词“XXXX”，如果不包括该唤醒词则不会切换到正常工作状态而是继续保持低功耗状态，并返回执行S10继续采集语音数据。如果S20中识别到语音数据中包括唤醒词“XXXX”，则智能设备2在S30中根据唤醒词切换到工作状态，并在S40中识别并执行语音数据中的命令，或者继续采集后续的语音数据，再识别并执行其中的命令等，最终在执行完命令或者在一端时间未检测到用户继续说话后，智能设备2再次从工作状态切换回低功耗状态，并重新执行S10中采集语音数据并识别唤醒词的步骤。

在一些实施例中，如图1场景中所示的智能设备2可以在接收到用户发出的语音数据后，通过其内置的机器学习模型对语音数据进行处理得到其中的唤醒词和命令等；或者，智能设备2还可以将语音数据发送至网络服务器3，由服务器3对语音数据进行识别等处理并将得到的唤醒词和命令返回智能设备。最终，智能设备2确定用户1说出了“播放电影”的命令，从服务器3获取电影数据，并在其显示屏幕21上播放电影。

在一些实施例中，智能设备的唤醒词并不固定、而是可以由用户进行删除、修改、替换等操作，以丰富用户的使用体验并提高功能性。例如，如图1所示的智能设备2的供应商预设的唤醒词为“XXXX”，用户1可以将唤醒词更改为“YYYY”等。上述“XXXX”和“YYYY”仅为示例的普遍性表示，每个唤醒词的字数和具体的实现不作限定，更改前后的唤醒词存在不同即可。如，将唤醒词由“海信小聚”修改为“小聚小聚”等。

但是，当智能设备的唤醒词更改为“YYYY”后，一旦用户遗忘修改后的唤醒词、或者其他用户并不知道更改后的唤醒词，还对着智能设备说出预设的唤醒词“XXXX”时，智能设备将判断其采集到的语音数据中不包括唤醒词“YYYY”，从而不会切换工作状态，使得用户无法通过语音向智能设备发出命令，给用户造成无法“唤醒”智能设备的感受，严重降低用户体验。

因此，本申请提供一种语音数据的处理方法及装置，用于解决上述场景中智能设备更改唤醒词后可能无法唤醒，使得智能设备的智能化程度较低的技术问题。下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请提供的语音数据的处理方法一实施例的流程示意图，如图3所示的处理方法可应用在如图1所示的场景中，由智能设备2执行，该方法包括：

S101：智能设备采集第一语音数据，并识别第一语音数据中是否包括唤醒词，以及是否包括预设内容。其中，在执行S101之前的S100中智能设备确定其唤醒词被配置为第一词语，假设更改之前的唤醒词为“XXXX”，用户将智能设备的唤醒词更改为第一词语“YYYY”，智能设备此时只有在采集到语音数据并识别出其中包括当前作为唤醒词的第一词语“YYYY”后，才会切换工作状态。可以理解的是，当智能设备的唤醒词被配置为第一词语后，除非唤醒词被重新配置，在重新被配置之前，智能设备都将重复采集语音数据，并根据第一词语作为唤醒词进行工作状态的切换。在一些实施例中，S100可以是智能设备启动后，确定其当前唤醒词被配置为第一词语；或者，S100具体可以是智能设备根据用户的指示将当前唤醒词配置为第一词语。

如图3中的S20-S40，当智能设备确定S101中采集的第一语音数据中包括第一词语“YYYY”时，切换工作状态，并执行第一语音数据中第一词语后的命令，或者继续采集语音数据并执行其中的命令。S20-S40的实现方式与图2所示相同，不再赘述。否则，在检测到语音数据中不包括当前作为唤醒词的第一词语时，智能设备不会切换工作状态。

特别地，在本申请实施例的S102-S103中，智能设备识别S101采集的第一语音数据中虽然不包括第一词语“YYYY”，但是包括预设内容时，确定用户说出第一语音数据是希望唤醒智能设备，却说出的是错误的唤醒词，因此，智能设备通过S103向用户通过可视化页面(UI)、语音(TTS)等方式向用户提示智能设备当前被配置的唤醒词为第一词语，并返回S101中重新采集语音数据并进行识别。

在一些实施例中，上述预设内容可以包括以下标号为a-c的一项或多项：a、智能设备的唤醒词在被配置为第一词语之前，被配置过的至少一个唤醒词，记为第二词语，例如，智能设备的供应商提供的预设唤醒词为“XXXX”，该智能设备在使用的过程中，用户曾经将唤醒词配置为“AAAA”、“BBBB”，并在本次配置后当前的唤醒词为第一词语“YYYY”，此时，该智能设备的预设内容可以包括该智能设备配置过的词语“AAAA”和“BBBB”，这些第二词语以第二词语集合的形式存储在智能设备中，在后续接收到语音数据后，可以使用语音识别模型等方式，判断语音数据中是否包括存储的预设内容。当智能设备2启动时，服务器可以将第二词语集合发送至智能设备2。

在一些实施例中，上述预设内容还可以包括：b、智能设备绑定的用户账户所配置过的至少一个唤醒词，记为第三词语。例如，图4为本申请提供的智能设备的唤醒词的示意图，其中，用户在使用智能设备2的过程中，通过其用户账户“登录”该智能设备2，实现用户账户与智能设备2的“绑定”，此时，智能设备2可以从网络服务器获取第三词语集合，该第三词语集合中是用户账户使用的其他设备所配置的唤醒词。

具体地，如图4所示，当用户使用用户账户登录智能设备，并通过标号①的路径将唤醒词由“XXXX”更改为新的唤醒词“YYYY”，使得智能设备将存储更改后的唤醒词“YYYY”，随后，智能设备还通过标号②的路径将该唤醒词“YYYY”发送至服务器存储，存储到与用户账户对应的第三词语集合中。对于服务器，在接收到同一用户账户绑定的不同设备发送的唤醒词时，都会将该唤醒词存入用户账户对应的第三词语集合中进行记录。则当如图4所示的智能设备2在检测到用户使用其用户账户登录后，都可以根据其用户账户向服务器请求获取服务器存储的词语集合，使得服务器将词语集合通过标号③的路径发送至智能设备。

在一些实施例中，上述预设内容还可以包括：c、具有语音数据处理功能的至少一个其他设备被配置的一个或多个唤醒词，记为第四词语。其中，其他设备是指同样具备语音识别功能的电子设备，例如：智能音箱、电脑、手机等，可以是由智能设备不同供应商提供的。如图4所示的智能设备2的供应商提供的服务器，可以通过标号⑤的路径从互联网中获取其他设备所预设的唤醒词，并存储在第四词语集合中。当智能设备2启动时，服务器可以将第四词语集合通过图4中标号④的路径发送至智能设备2。

在一些实施例中，如图4所示的智能设备中所存储的预设内容可以同时包括上述a-c中的一种或多种，则当智能设备识别到语音数据中包括第一词语，会切换工作状态执行命令；而当智能设备识别到语音数据中不包括词语、但包括任一预设内容(第二词语、第三词语或者第四词语)时，则会提示第一词语。可以理解的是，当智能设备识别到语音数据中既不包括第一词语、也不包括预设内容，则不会响应，并重新采集语音数据进行识别。

在一些实施例中，图5为本申请提供的智能设备一种提示唤醒词的方式的示意图，假设智能设备的第一词语“YYYY”，预设内容包括更改前的唤醒词“XXXX”，则当用户说出“XXXX，播放电影”，智能设备识别到语音数据中不包括第一词语但包括预设内容中更改前的唤醒词时，智能设备2可以在其显示界面21上显示文本形式的文本提示信息211：“请叫我YYYY”，具体可以通过UI界面上弹窗等形式实现，本实施例对UI实现不做限定。在一些实施例中，智能设备显示文本提示信息后，可以一直保持显示状态，直到智能设备在后续采集到用户的第三语音数据，并识别到第三语音数据中包括第一词语，说明智能设备的提示让用户确定了新的唤醒词，则停止在显示界面上显示提示信息；或者，为了防止对其他显示页面的影响，智能设备可以在预设时间(例如15s)后，停止显示提示信息。

图6为本申请提供的智能设备另一种提示唤醒词的方式的示意图，智能设备识别到语音数据中不包括第一词语但包括预设内容中更改前的唤醒词时，可以通过扬声器等播放装置，通过语音播放第一词语的语音提示信息“请叫我YYYY”等。可以理解的是，上述语音提示信息仅为示例，还可以播放如“我的名字现在叫做YYYY，请使用我的新名字唤醒我”，“我现在叫YYYY噢，随时等您叫醒我”等更加丰富、人性化的语音提示信息。

因此，本申请提供的语音数据的处理方法在具体实现过程中，可以实现如下的场景应用：场景一、用户A将智能设备的唤醒词更改后，用户B向该智能设备说出更改前的唤醒词，则智能设备将提示更改后的唤醒词。场景二、用户将智能设备的唤醒词更改后遗忘，或者习惯性地说出更改前的唤醒词，则智能设备将提示更改后的唤醒词。场景三、用户向智能设备说出其他设备的唤醒词，则智能设备将提示其唤醒词。

综上，本申请实施例提供的语音数据的处理方法，智能设备除了采集第一语音数据，并根据第一语音数据中的第一词语切换工作状态，还在第一语音数据中不包括第一词语但包括预设内容时，向用户提示第一词语，因此在智能设备的唤醒词可以被更改的情况下，防止用户因遗忘、或不知道修改后的唤醒词、或错误说出其他设备唤醒词等情况下，无法“唤醒”智能设备的情况，使得智能设备能够在用户错误地说出预设内容中的词汇但实际是“希望”唤醒智能设备的情况下，主动向用户提示其正确的唤醒词，帮助用户再次说出当前的唤醒词而唤醒智能设备，从而提高了智能设备的智能化程度，提高了智能设备的用户的使用体验。且整个过程都可以仅通过智能设备的软件进行实现与优化，能够避免对智能设备硬件的改动，具有较低的设计与制造成本，易于实现与推广。

图7为本申请提供的语音数据的处理方法另一实施例的流程示意图，如图7所示的实施例在图3所示实施例的基础上，当智能设备在S102中识别到所采集的第一语音数据中，不包括第一词语但包括预设内容时，在S201中将检测次数加1。其中，检测次数为智能设备连续采集到的语音数据中不包括第一词语但包括预设内容的次数。随后，当S202中确定检测次数累积已大于预设次数，智能设备再通过S103提示第一词语。

示例性地，当智能设备连续3次采集到的第一语音数据中，均不包括当前作为唤醒词的第一词语“YYYY”但包括预设内容中的词语“XXXX”，说明此时用户连续呼出预设内容中的词语，是希望唤醒智能设备但使用了错误的唤醒词，因此，在连续第3次检测到第一语音数据中不包括第一词语“YYYY”但包括预设内容中相同的词语“XXXX”后，智能设备通过如图5或者图6的方式向用户提示第一词语。或者，上述检测次数还可以是预设时间段(例如1分钟)内所采集到的语音数据中不包括所述第一词语且包括所述预设内容的次数等。因此，如图7所示的实施例通过检测次数的计算与累积，对用户说出预设内容的目的是否为唤醒智能设备进行验证，保证后续提示的准确性，保证提示的有效，提高智能设备的处理准确率和处理效率。图7中其他步骤的实现方式与图3中相同，不再赘述。

图8为本申请提供的语音数据的处理方法又一实施例的流程示意图，如图8所示的实施例在图3所示实施例的基础上，当智能设备在S102中识别到所采集的第一语音数据中，不包括第一词语但包括预设内容时，并不直接通过S103提示第一词语，而是继续在S301中采集第二语音数据，其中，智能设备可以采集用户在第一语音数据之后说出的有效话术，并直到流式识别截止的情况下，所采集到的数据记为第二语音数据。随后，并S302中在识别待第二语音数据中包括询问第一词语相关的语句时，再通过S103提示第一词语。其中，检测到的语句可以是用户向智能设备询问第一词语的语句，可以通过语义识别的方式，确定第二语音数据中包括的语句的语义为询问第一词语。

示例性地，假设智能设备当前的唤醒词为第一词语“YYYY”，预设内容中包括更改前的词语“XXXX”。则当用户说出词语“XXXX”后，智能设备并没有立即提示，则用户可能会继续说出类似于“唤醒词不对吗？”“语音唤醒坏了吗？”，“为什么不能语音唤醒了？”等语句，随后，智能设备根据采集到的第二语音数据中包括的上述语句，确定用户确实希望唤醒智能设备但并不能确定唤醒词，此时，智能设备再通过图5或者图6的方式提示第一词语。因此，本实施例能够在用户没有说出唤醒词的情况下，智能设备依然能够响应于用户询问唤醒词的预设内容的语句，使得智能设备进一步丰富了功能、提高了智能化程度。

图9为本申请提供的智能设备实现对预设内容进行处理的示意图，如图9所示，智能设备通过其本地存储对预设内容进行存储，可以预置该智能设备的主唤醒词，以及其他品牌的智能设备的热门唤醒词等。随后，供应商的服务器所提供的云端存储可以通过运行和账号两种方式管理向智能设备下发的新增热门唤醒词以及用户账户对应的唤醒词。其中，运行管理模式指若市场上其他设备有新增的热门唤醒词，则通过featurecode等方式识别同一类智能设备并为此类设备批量下发新增的唤醒词。账号管理模式指用户登录过的设备更改的唤醒词都会通过云端与用户账户进行绑定及同步存储。则当智能设备启动后，首先进行本地唤醒词存储校验，若本地无存储的唤醒词则拉取运营管理的唤醒词数据并存储；若用户通过账号登陆上线后，云端主动推送云端存储的唤醒词并与本地合并；若用户在本地进行更改唤醒词操作，操作完成后若检测到该用户账号上线，则本地主动向云端推送更新。

图10为本申请提供的对语音数据进行处理的一实施例的流程示意图，其中，当用户说出第一语音数据后，智能设备使用机器学习模型等方式对唤醒词进行校验，并在确定第一语音数据中包括第一词语后，正常响应执行命令。而当不包括第一词语但包括预设内容(预设内容是修改过的唤醒词)，对检测到的次数进行统计，并继续采集用户说出的第二语音数据。后续根据第二语音数据中的语义确定用户在询问第一词语，智能设备再向用户提示第一词语，或者，当次数大于预设次数后，智能设备再向用户提示第一词语。

在一些实施例中，智能设备可以通过其自身的机器学习模型，识别第一语音数据中是否包括第一词语和预设内容，或者，智能设备还可以将第一语音数据发送至云端的服务器，由服务器识别第一语音数据中是否包括第一词语和预设内容并向智能设备返回识别结果，来减少智能设备的计算量。又或者，智能设备还可以通过将第一语音数据中每个文字的拼音，与唤醒词的拼音以及预设内容的拼音进行比较的方式进行识别，从而提高识别的模糊度来提高识别率。

示例性地，在图10所示的实施例中，可以通过如下两种方式进行唤醒词的校验，(1)唤醒模型打分：当采集到第一语音数据，唤醒模型为第一语音数据中的唤醒词打分。若得分结果为用户当前设置的第一词语，则正常响应用户唤醒；若得分结果不是当前设置的第一词语但为存储的预设内容，则采集第二语音数据并启动语义分析推送准备阶段，后续将第二语音数据推送到服务器进行语义的识别与处理，并接收到服务器发送的识别结果，确定第二语音数据的语义为询问第一词语时，智能设备再提示第一词语。(2)云端识别文本转译：用户开启此错误唤醒提示功能后，识别引擎一直处于开启状态，采集第一语音数据并检测到识别文本后转译为拼音，再与存储的第一词语以及预设内容也转译为拼音后进行精确匹配。若拼音匹配为用户当前设置的第一词语，则正常响应用户唤醒；若拼音匹配结果不是当前设置的第一词语但为预设内容，则采集第二语音数据并启动语义分析推送准备阶段。

图11为本申请提供的智能设备进行语音数据处理的处理结构示意图，其中，针对语音数据处理的语音识别技术主要包括信号处理和特征提取、声学模型、语言模型、解码器四部分。在该结构中，信号处理和特征提取以音频信号为输入，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。针对声音特征提取，目前有许多方法，如梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、多媒体内容描述接口(MPEG7)等。声学模型是把语音转化为声学表示的输出，即找到给定的语音源于某个声学符号的概率。最常用的声学建模方式是隐马尔科夫模型(HMM)。在HMM下，状态是隐变量，语音是观测值，状态之间的跳转符合马尔科夫假设。其中，状态转移概率密度多采用几何分布建模，而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展，深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型被应用到观测概率的建模中，并取得了非常好的效果。由科大讯飞提出的FSMN就是一种基于DNN改进型网络结构。在DNN的隐藏层中引入延时结构，将t-N～t-1时刻的隐藏层历史信息作为下一层的输入，从而引入了语音序列的历史信息，同时避免了RNN训练BPTT带来的问题，如：梯度消逝，计算复杂度高等。语言模型估计通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，又叫语言模型分数。统计语言模型成为语音识别中语言处理的主流技术，其中统计语言模型有很多种，如N-Gram语言模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(DecisionTree Models)等。而N元语言模型是最常被使用的统计语言模型，特别是二元语言模型(bigram)、三元语言模型(trigram)。解码器(Decoder)基于训练好的声学模型，并结合词典、语言模型，对输入的语音帧序列识别。主要完成的工作包括：给定输入特征序列xT1x1T的情况下，在由声学模型、声学上下文、发音词典和语言模型等四种知识源组成的搜索空间(Search Space)中，通过维特比(Viterbi)搜索，寻找最佳词串等。

在前述各实施例中，对本申请实施例提供的语音数据的处理方法进行了介绍，而为了实现上述本申请实施例提供的方法中的各功能，作为执行主体的智能设备可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

例如，图12为本申请提供的语音数据的处理装置一实施例的结构示意图，如图12所示的装置100包括：采集模块1001、处理模块1002、提示模块1003和确定模块1004。其中，确定模块1004用于确定智能设备的唤醒词被配置为第一词语；采集模块1001用于采集用户的第一语音数据；处理模块1002用于识别第一语音数据中是否包括智能设备最新设置的第一词语，以及是否包括预设内容；其中，当识别到第一语音数据中包括第一词语，智能设备切换工作状态；当识别到第一语音数据中不包括第一词语但包括预设内容时，智能设备不切换工作状态；当识别到第一语音数据中不包括第一词语且不包括预设内容时，智能设备不切换工作状态；提示模块1003用于当识别到第一语音数据中不包括第一词语但包括预设内容时，向用户提示第一词语

具体地，语音数据的处理装置中的各模块分别执行的上述步骤的具体原理及实现方式，可参考本申请前述实施例中的语音数据的处理方法中的描述，不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

本申还提供一种电子设备，包括：处理器以及存储器，通过总线连接；其中，存储器中存储有计算机程序，当处理器执行计算机程序时，处理器可用于执行如本申请前述实施例中任一语音数据的处理方法。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被执行时可用于执行如本申请前述实施例提供的数据处理方法中任一语音数据的处理方法。

本申请实施例还提供一种运行指令的芯片，所述芯片用于执行如本申请前述任一实施例提供的语音数据的处理方法。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，可用于实现如本申请前述任一语音数据的处理方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音数据的处理方法，应用于智能设备，其特征在于，包括：

确定所述智能设备的唤醒词被配置为第一词语；

采集用户的第一语音数据；

当识别到所述第一语音数据中包括所述第一词语，所述智能设备切换工作状态；

当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语；

当识别到所述第一语音数据中不包括所述第一词语且不包括所述预设内容时，所述智能设备不切换工作状态。

2.根据权利要求1所述的方法，其特征在于，所述识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语，包括：

当识别到所述第一语音数据中不包括所述第一词语但包括所述预设内容时，将检测次数加1，所述检测次数为连续采集到语音数据中不包括所述词语且包括所述预设内容的次数；

当所述检测次数大于预设次数时，向所述用户提示所述第一词语。

3.根据权利要求1所述的方法，其特征在于，所述识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态，并向所述用户提示所述第一词语，包括：

当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，采集用户的第二语音数据；

当识别到所述第二语音数据中包括语义为询问所述第一词语的语句，向所述用户提示所述第一词语。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述预设内容包括以下的一项或多项：

所述智能设备在所述第一词语之前被配置过的至少一个唤醒词；

所述智能设备绑定的用户账户配置过的至少一个唤醒词；

具有语音数据处理功能的至少一个其他设备的被配置的唤醒词。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述智能设备启动时，从存储设备中获取所述智能设备在所述第一词语之前被配置过的至少一个唤醒词，从服务器获取所述具有语音数据处理功能的至少一个其他设备的被配置的唤醒词；

当所述用户使用账号登录所述智能设备，根据所述用户的账号，从服务器获取所述智能设备绑定的用户账户配置过的至少一个唤醒词。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述用户使用账号登录所述智能设备，且所述用户将所述智能设备的唤醒词由第一词语修改为第二词语时，将所述第二词语发送至所述服务器，使所述服务器记录所述第二词语。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述向所述用户提示所述第一词语，包括：

在显示界面上显示所述第一词语的文本提示信息；

或者，通过语音播放所述第一词语的语音提示信息。

8.根据权利要求7所述的方法，其特征在于，

在预设时间后，停止向所述用户提示所述第一词语；

或者，当采集到用户的第三语音数据，并识别到所述第三语音数据中包括所述第一词语后，停止向所述用户提示所述第一词语。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述采集用户的第一语音数据之后，还包括：

通过机器学习模型，确定所述第一语音数据中的是否包括所述第一词语和所述预设内容；

或者，确定所述第一语音数据中每个文字的拼音，通过所述每个文字的拼音、所述第一词语的拼音以及所述预设内容的拼音，确定所述第一语音数据中的是否包括所述第一词语和所述预设内容。

10.一种语音数据的处理装置，其特征在于，包括：

确定模块，用于确定智能设备的唤醒词被配置为第一词语；

采集模块，用于采集用户的第一语音数据；

处理模块，用于识别所述第一语音数据中是否包括所述第一词语，以及是否包括预设内容；其中，当识别到所述第一语音数据中包括所述第一词语，所述智能设备切换工作状态；当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，所述智能设备不切换工作状态；当识别到所述第一语音数据中不包括所述第一词语且不包括所述预设内容时，所述智能设备不切换工作状态；

提示模块，用于当识别到所述第一语音数据中不包括所述第一词语但包括预设内容时，向所述用户提示所述第一词语。