CN112382285B

CN112382285B - 语音控制方法、装置、电子设备和存储介质

Info

Publication number: CN112382285B
Application number: CN202011211760.9A
Authority: CN
Inventors: 杨松; 邹赛赛; 曹介谊; 邵俊尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-08-15
Anticipated expiration: 2040-11-03
Also published as: JP2022003415A; US20210319795A1; US11893988B2; JP7281521B2; CN112382285A

Abstract

本申请公开了语音控制方法、装置、电子设备和存储介质，涉及语音技术、云计算和自然语言处理NLP技术领域。具体实现方案为：获取客户端发送的目标音频，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，增加了目标音频中包含唤醒词的可能性，并提高了获取到的目标音频的可靠性和准确度，进而，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令对客户端进行控制，其中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，通过将识别到的唤醒词的音频帧划分第一音频频段和第二音频片段，并进行连续的识别，提高了指令识别的效率和可靠性。

Description

语音控制方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机和深度学习技术领域，具体涉及语音技术、云计算和自然语言处理NLP技术领域。还涉及语音控制方法、装置、电子设备和存储介质。

背景技术

随着智能语音交互的普及，智能语音交互的应用和产品不断面世，而对提升语音识别率的要求也逐步提高。

智能设备根据获取到的语音，进行唤醒词检测，并在检测到唤醒词后，将获取到的包含唤醒词的语音上传至语音服务器进行识别，得到语音识别结果，根据语言识别的结果对设备进行控制，从而准确获取语音的识别结果，对于提高设备语音控制的准确度至关重要。因此，如何准确识别语音中的指令，是亟待解决的技术问题。

发明内容

本申请提供了一种用于提高语音控制准确度的语音控制方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种语音控制方法，该方法包括：

获取客户端发送的目标音频；其中，所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频；

对所述目标音频进行语音识别；

在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。

根据本申请的另一方面，提供了另一种语音控制方法，包括：

在待机状态下，采集音频并对采集到的音频识别唤醒词；

在识别出所述唤醒词的情况下唤醒；

将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，所述目标音频，用于语音识别，在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令进行控制；所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。

根据本申请的另一方面，提供了一种语音控制装置，包括：

获取模块，用于获取客户端发送的目标音频；其中，所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频；

识别模块，用于对所述目标音频进行语音识别；

控制模块，用于在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。

根据本申请的另一方面，提供了另一种语音控制装置，包括：

采集模块，用于在待机状态下，采集音频并对采集到的音频识别唤醒词；

唤醒模块，用于在识别出所述唤醒词的情况下唤醒；

发送模块，用于将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，所述目标音频，用于语音识别，在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令进行控制；所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的语音控制方法，或执行第二方面所述的语音控制方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的语音控制方法，或执行第二方面所述的语音控制方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，执行第一方面所述的语音控制方法，或执行第二方面所述的语音控制方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种语音控制方法的流程示意图；

图2为本申请实施例提供的另一种语音控制方法的流程示意图；

图3为本申请实施例提供的另一种语音控制方法的流程示意图；

图4为本申请实施例提供的另一种语音控制方法的流程示意图；

图5为本申请实施例提供的又一种语音控制方法的流程示意图；

图6为本申请实施例提供的一种语音控制装置的结构示意图；

图7为本申请实施例提供的另一种语音控制装置的结构示意图；

图8是本申请实施例的语音控制的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

智能设备根据获取到的语音，进行唤醒词检测，并在检测到唤醒词后，启动语音起点和尾点的检测，并将起始点之间的语音上传至语音服务器进行识别，得到语音识别结果。然而，基于语音起始点和尾点检测的算发获取到的语音，进行语音识别，存在以下的问题：

(1)唤醒误报：由于唤醒检测算法本身不是严格精确的，会将不是唤醒词的语音检测为唤醒词，那么这时启动语音起尾点检测的行为本身就是不对的，从而将不是用户真实意图的语音送给识别。

(2)可靠性差：由于唤醒算法检测到的唤醒时机不一定准确，那么根据唤醒时机来启动语音起点检测的操作，得到的语音起点也就不一定准。从而，云端获基于获取到的语音数据，识别得到的数据则不是精确的，那么识别引擎对收到的数据进行识别时，就得不到完全一致的识别结果，从而影响识别性能。

为此，本申请实施例提供了一种语音控制方法，以提高语音控制准确度，并提高了指令识别的效率和可靠性。

下面参考附图描述本申请实施例的语音控制方法、装置、电子设备和存储介质。

图1为本申请实施例所提供的一种语音控制方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，获取客户端发送的目标音频，其中，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频。

本实施例的执行主体为服务器，该服务器可以是本地的服务器，也可以是云端的服务器，其中，服务器可以是单个的服务器也可以是服务器集群。

其中，客户端，是指由服务器提供服务的应用程序、网页，或终端设备，例如，机器人等。比如，本申请的服务器为语音控制的应用程序的服务器，则客户端是所有安装在用户的终端设备中的该语音控制的应用程序，本申请实施例对此不做限定。

其中，目标音频为音频流格式，通过该音频流格式实现了语音的连续采集。

本申请的一个实施例中，服务器从客户端获取到的目标音频，包含客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集到的音频。也就是说，服务器在从客户端获取到目标音频前，客户端进行语音检测，在检测到唤醒词后，根据检测到唤醒词的时机往前获取目标时长的音频，以及采集唤醒之后的预设时长的音频，本实施例中的目标音频是以检测到唤醒词后，将检测到唤醒词的时间点往前追溯目标时长，例如，检测到唤醒词的时间点为t，则将t-5秒的时间点，作为语音的起点，以获取得到时长为T的目标音频。本申请中目标音频包含唤醒之前的目标时长内的音频，以及唤醒之后采集的音频，以使得获取的目标音频中可以涵盖唤醒词的语音部分，以提高目标音频中识别得到唤醒词的可靠性。

步骤102，对目标音频进行语音识别。

具体地，服务器根据获取到的目标音频，进行唤醒词识别过滤，并进行语音指令的识别，进而根据识别得到的语音指令进行客户端的控制。

步骤103，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令，对客户端进行控制，其中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分。

本实施例的一个示例中，将目标音频划分为第一音频片段和第二音频片段，其中，第一音频片段是目标音频开始的预设时间的音频片段，第一音频片段中可能包含唤醒词，即先在第一音频片段中进行唤醒词的识别，以提高识别的可靠性。第二音频片段指示可能包含语音指令，即在第二音频片段中用于进行语音指令的识别。服务器在获取到目标音频后，会在第一音频片段中进行唤醒词的识别和过滤，若在第一音频片段内识别出唤醒词，则继续对第二音频片段进行识别，并在从第二音频片段中识别得到指令后，根据该识别得到的指令，对客户端进行控制，例如，服务器获取到的目标音频为：小A，小A，请放音乐。从而，识别到的指令为打开音响，服务器将指令“放音乐”发送至客户端，以使客户端进行音乐播放。

本实施例中，通过服务器先确定第一音频片段内识别出唤醒词，可以降低客户端由于唤醒词检测误报导致发送的无效的目标音频的可能性，从而提高后续识别的可靠性。

本实施例中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，具体地，在本实施例的一种场景下，第一音频片段中识别出的唤醒词的语音位于第一音频片段的结束帧中，由于指令是晚于唤醒词的，则第二音频片段则晚于第一音频片段。在本实施例的另一种场景下，第一音频片段中识别出的唤醒词的语音帧不是位于第一音频片段的结束帧中，则指令有可能存在与第一音频片段中，从而第二音频片段与第一音频片段可以存在交叠部分，以提高指令识别的准确性。

需要说明的是，结尾帧可以是第一音频片段的末尾的预设帧，例如末尾的预设3帧，或2帧，本实施例中不进行限定。

本实施例的语音控制方法中，获取客户端发送的目标音频，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，增加了目标音频中包含唤醒词的可能性，并提高了获取到的目标音频的可靠性和准确度，进而，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令对客户端进行控制，其中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，通过将识别到的唤醒词的音频帧划分第一音频频段和第二音频片段，并进行连续的识别，提高了指令识别的效率和可靠性。

基于上一实施例，本实施例提供了另一种语音控制方法的可能的实现方式，具体说明了通过对唤醒词的过滤，确定第一音频片段中唤醒词对应的音频帧，基于唤醒词对应的目标音频帧对应的时刻，确定唤醒词是否处于第一音频片段中，以提高唤醒词识别的可靠性。图2为本申请实施例提供的另一种语音控制方法的流程示意图，如图2所示，步骤102之后，还包含以下步骤：

步骤201，对语音识别得到的文本进行唤醒词过滤。

在本申请实施例的一种可能的实现方式中，可根据训练得到的文本识别网络，将目标音频的语音输入文本识别网络，输出语音对应的文本，同时文本中指示了不同的文本内容与语音中各音频帧的对应关系，基于客户端预设的唤醒词，在语音对应的文本中进行唤醒词匹配，作为一种可能实现方式，可基于欧式距离或余璇距离，确定文本中是否匹配到唤醒词，例如，预设唤醒词的为小A，或者为叮咚等，匹配得到的唤醒词为“小A，小A”。

步骤202，在过滤出唤醒词的情况下，在目标音频中确定与唤醒词匹配的文本对应的目标音频帧。

本实施例中，若在语音对应的识别文本中，过滤出了唤醒词，则在目标音频中，确定与唤醒词匹配的文本对应的目标音频帧，并确定目标音频帧对应的出现时刻。

在一种场景下，获取得到的语音中唤醒词存在一定的尾音，在对语音识别得到的文本中存在尾音的拖音，例如，目标音频为“xiaodu···u打开视频”，其中，唤醒词为“xiaodu···u”，指令为“打开视频”，本实施例中，在从识别文本中过滤出唤醒词“xiaodu···u”，确定该唤醒词匹配的文本对应的目标音频帧后，确定目标目标音频帧对应的出现时刻。

也就是说本实施例中，过滤出唤醒词，确定目标音频帧出现的时刻后，即实现了将语音进行了切分，其切分结果为“xiaodu···u|打开视频”，其中“|”指示了切分的时刻，也就是说“|”之前的时刻为目标音频帧的时刻，“|”之后的时刻为目标音频帧之后的相邻时刻。

步骤203，若在目标音频中目标音频帧的出现时刻早于第一音频片段的结束时刻，则确定在第一音频片段内识别出唤醒词。

本实施例中，若在目标音频中，确定目标音频帧出现的时刻是早于第一音频片段的结束时刻，则说明第一音频片段中包含唤醒词，提高了第一音频片段中唤醒词识别的可靠性，否则，说明第一音频片段中未识别出唤醒词。由于指令通常是在唤醒词之后说出的，例如：小A，小A，请打开视频，其中，“小A，小A”是唤醒词，“请打开视频”为指令，因此，在第一音频片段中识别出唤醒词后，则可以继续进行第二音频片段的识别，以识别得到指令，提高指令识别的可靠性，避免了未识别得到唤醒词后，直接放弃，导致指令无法识别得到。

本实施例的语音控制方法中，通过对语音识别得到的文本进行唤醒词的过滤，并确定唤醒词匹配的文本在目标音频中对应的目标音频帧，提高了唤醒词对应的目标音频帧确定的准确性，若目标音频帧的出现时刻早于第一音频片段的结束时刻，则确定唤醒词处于第一音频片段中，提高了第一音频片段中唤醒词识别的准确度和可靠性。

基于上述实施例，本实施例提供了一种语音控制方法的可能的实现方式，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据唤醒词匹配的文本对应的目标音频帧，确定第二音频片段，以提高第二音频片段起始时间确定的准确性，从而可以提高指令识别的准确率和可靠性。因此，图3为本申请实施例提供的另一种语音控制方法的流程示意图，如图3所示，步骤203之后，包含以下步骤：

步骤301，在目标音频中，将目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻。

步骤302，根据第二音频片段的起始时刻，以及第二音频片段的设定时长，确定第二音频片段。

本实施例中，在确定在第一音频片段内识别出唤醒词的情况下，根据唤醒词匹配的文本对应的目标音频帧，在目标音频中，将唤醒词匹配的文本对应的目标音频帧之后的相邻音频帧的出现时刻，作为第二音频片段的起始时刻，进而根据第二音频片段的起始时刻，以及第二音频片段的设定时长，确定第二音频片段，以提高第二音频片段起始时间确定的准确性，从而提高了指令识别的准确性。

例如，目标音频为“xiaodu···u打开视频”，其中，唤醒词为“xiaodu···u”，指令为“打开视频”。本实施例中，通过过滤出唤醒词，确定目标音频帧出现的时刻后，即实现了将语音进行了切分，其切分结果为“xiaodu···u|打开视频”，其中“|”指示了切分的时刻，也就是说“|”之前的时刻为目标音频帧的时刻，“|”之后的时刻为目标音频帧之后的相邻时刻，即本申请中第二音频片段为“打开视频”，识别得到的指令为“打开视频”，从而，本实施例中，确定的第二音频片段的起始时刻，提高了第二音频片段确定的准确性。相比与现有技术中，在对该音频进行切分时，是根据检测到唤醒词时的唤醒时刻进行切分，基于唤醒时刻进行切分，则可能切分得到的结果为“xiaodu|u(勿)～打开视频”，即第二音频片段为“u～打开视频”，根据第二音频识别得到的指令为“勿打开视频”，导致指令识别错误。

需要理解的是，该唤醒词匹配的文本对应的目标音频帧的时刻可以早于第一音频片段的结尾时刻，也可以和第一音频片段的结尾时刻相同，也就是说唤醒词对应的目标音频帧可以处于第一音频片段的中间帧，也可以为结尾帧。在一种场景下，若唤醒词对应的目标音频帧为第一音频片段的中间帧，则以目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻确定的第二音频片段和第一音频片段之间存在重叠。在另一种场景下，若唤醒词对应的目标音频帧为第一音频片段的结束帧，则以目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻确定的第二音频片段晚于第一音频片段。由于将唤醒词从目标音频中过滤出后，在确定的第二音频片段中进行指令的识别时，可提高指令识别的可靠性。

本实施例的语音控制方法中，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据唤醒词匹配的文本对应的目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻，根据第二音频片段的起始时刻，以及第二音频片段的设定时长，确定第二音频片段，也就是说，本申请中是以识别得到的唤醒词对应的目标音频帧，确定第二音频片段，以提高第二音频片段起始时间确定的准确性，从而提高了指令识别的准确性。

实际应用中，服务器在对目标音频进行语音识别之后，可能在对目标音频划分得到的第一音频片段内无法识别得到唤醒词，或者是在第二音频片段中无法识别得到指令，而识别不到唤醒词或者是无法识别得到指令，可能是在对目标音频进行划分得到的第一音频片段和第二音频片段划分不准确，导致无法在第一音频片段中识别到唤醒词，或者是无法在第二音频片段中识别出指令，因此，为了提高识别的可靠性，本实施例的语音控制方法中，可在无法识别得到唤醒词或者是指令的情况下，对目标音频进行预设的目标音频的时长进行删除，并进行二次的识别，以提高识别的可靠性。基于上述实施例，本实施例提供了一种语音控制方法的可能的实现方式，图4为本申请实施例提供的另一种语音控制方法的流程示意图，如图4所示，该方法包含以下步骤：

步骤401，在第一音频片段内未识别出唤醒词的情况下，或者，在第二音频片段内未识别出指令的情况下，将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频。

在本实施例的一种场景中，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，在第一音频片段内未识别出唤醒词的情况下，由于第一音频片段是从目标音频的开始时刻，按照预设时长确定的，其中，第一音频片段的时长大于目标时长，而目标时长，是指在检测到唤醒词时，唤醒词之前的预设时长，例如为2秒，则第一音频片段则可以为2.5秒。也就是说第一音频片段中包含目标时长，以提高第一音频片段中包含唤醒词的可能性，当在第一音频片段中未识别出唤醒词时，则认为第一音频片段划分的不准确，也可以理解为目标时长内不包含唤醒词，从而将将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，也就是说需要基于保留的音频，重新进行第一音频片段和第二音频片段的划分。

在本实施例的另一种场景中，在第二音频片段内未识别出指令的情况下，则可能是第一音频片段和第二音频片段划分的不合理，也就是说第二音频片段中还包含了干扰信息，例如为唤醒词的部分拖音，例如，“xiaodu|u(勿)～打开视频”，则需要将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，也就是说需要基于保留的音频，重新进行语音识别。

步骤402，对保留的音频重新进行语音识别。

步骤403，根据重新进行语音识别所得到的指令，对客户端进行控制。

本实施例的一个示例中，对保留的音频重新进行语音识别，可在保留的音频中，重新确定出第一音频片段和第二音频片段，而对保留的音频重新进行第二音频片段的划分，并根据重新划分的第二音频片段进行指令的识别，其中，第二音频片段的时长大于第一音频片段，通过设置较长的第二音频片段以提高指令识别的可靠性。

本实施例的语音控制方法中，对目标音频进行识别，在对第一音频片段和第二音频片段进行连续识别，当在第一音频片段识别不出唤醒词，或者在第二音频片段识别不出指令词的时候，都会将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，然后对保留的音频，重新进行解码识别，相比现有技术仅对获取到的音频片段进行一次语音识别的操作，提高了识别的可靠性。

为了实现上述实施例，本实施例提供了另一种语音控制方法，该控制方法的执行主体为客户端，图5为本申请实施例提供的又一种语音控制方法的流程示意图。

如图5所示，该方法包含以下步骤：

步骤501，在待机状态下，采集音频并对采集到的音频识别唤醒词。

本实施例的执行主体为客户端。

本实施例中，客户端在待机状态下，通过客户端上设置的麦克风采集音频，并对采集到的音频在进行降噪处理后，识别唤醒词，以提高唤醒词识别的可靠性，作为一种可能的实现方式，采用预先训练得到的基于自然语言处理(Natural Language Processing，NLP)技术的唤醒词识别模型，对采集得到的音频进行唤醒词识别。

步骤502，在识别出唤醒词的情况下唤醒。

具体地，在客户端识别到采集的音频中包含唤醒词的情况下，则唤醒客户端，也就是说客户端从低点的休眠状态转换为可接收指令的唤醒状态。

步骤503，将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器，其中，目标音频，用于语音识别，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令进行控制，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分。

本申请的一个实施例中，客户端在识别到采集的音频中包含唤醒词的情况下表，进行目标音频的采集，为了提高目标音频的准确度，目标音频包含客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集到的音频。也就是说，客户端进行语音检测，在检测到唤醒词后，根据检测到唤醒词的时机往前获取目标时长的音频，即唤醒之前的目标时长内的音频，以及唤醒之后的预设时长的音频，例如，检测到唤醒词的时间点为t，则将t-5秒的时间点，作为语音的起点，以获取得到时长为T的目标音频。本申请中目标音频包含唤醒之前的目标时长内的音频，以及唤醒之后采集的音频，以使得获取的目标音频中可以涵盖唤醒词的语音部分，避免了相关技术中基于唤醒时机确定音频采集的起始点，导致检测时机不准而使得目标音频精度较差的问题，提高了目标音频采集的可靠性。

本实施例中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分。在一种场景下，若唤醒词对应的目标音频帧为第一音频片段的中间帧，则以目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻确定的第二音频片段和第一音频片段之间存在重叠。在另一种场景下，若唤醒词对应的目标音频帧为第一音频片段的结束帧，则以目标音频帧之后的相邻音频帧的出现时刻作为第二音频片段的起始时刻确定的第二音频片段晚于第一音频片段。由于将唤醒词从目标音频中过滤出后，在确定的第二音频片段中进行指令的识别时，可提高指令识别的可靠性。

进一步，客户端在获取到目标音频后，将目标音频发送至服务器，以使得服务器根据获取到的目标音频，对目标音频进行识别，在对第一音频片段和第二音频片段进行连续识别，当在第一音频片段识别不出唤醒词，或者在第二音频片段识别不出指令词的时候，都会将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，然后对保留的音频，重新进行解码识别，相比现有技术仅对获取到的音频片段进行一次语音识别的操作，提高了识别的可靠性。

需要说明的是，前述服务器端实施例中的，关于服务器如何对获取到的目标音频进行识别的解释说明，也适用于本实施例，此处不再赘述。

本实施例的语音控制方法中，用于在待机状态下，采集音频并对采集到的音频识别唤醒词，以在识别出唤醒词的情况下唤醒客户端，将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，目标音频，用于语音识别，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令进行控制；第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，本实施例中采集到的目标音频中包含唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，实现了获取到的语音起点提前，以使得获取到的语音中包含唤醒词，从而使得获取到的语音反映了用户的真实意图，提高了识别的可靠性。避免了以唤醒时刻作为获取的语音的起点，导致语音获取的起始点不准确，使得获取的目标音频不是用户真实意图的音频，导致识别准确度较低的问题。

基于上述实施例，本实施例中目标音频为音频流格式，通过该音频流格式实现了语音的连续采集。

为了实现上述实施例，本申请还提供了一种语音控制装置，该装置设置于服务器中。

图6为本申请实施例提供的一种语音控制装置的结构示意图。

如图6所示，包括：获取模块61、识别模块62和控制模块63。

获取模块61，用于获取客户端发送的目标音频；其中，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频。

识别模块62，用于对目标音频进行语音识别。

控制模块63，用于在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令，对客户端进行控制；其中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分。

进一步，在本申请实施例的一种可能的实现方式中，该装置，还包括：

删除模块，用于在所述第一音频片段内未识别出所述唤醒词的情况下，或者，在所述第二音频片段内未识别出所述指令的情况下，将所述目标音频起始位置的所述目标时长的音频片段删除，以得到保留的音频。

上述识别模块62，还用户对所述保留的音频重新进行语音识别。

上述控制模块63，还用于根据重新进行语音识别所得到的指令，对所述客户端进行控制。

在本申请实施例的一种可能的实现方式中，其中，所述第一音频片段的时长大于所述目标时长；所述第二音频片段的时长大于所述第一音频片段。

在本申请实施例的一种可能的实现方式中，该装置，还包括：

过滤模块，用于对语音识别得到的文本进行所述唤醒词过滤。

确定模块，用于在过滤出所述唤醒词的情况下，在所述目标音频中确定与所述唤醒词匹配的文本对应的目标音频帧；若在所述目标音频中所述目标音频帧的出现时刻早于所述第一音频片段的结束时刻，则确定在所述第一音频片段内识别出所述唤醒词。

在本申请实施例的一种可能的实现方式中，上述控制模块63，还用于：

在所述目标音频中，将所述目标音频帧之后的相邻音频帧的出现时刻作为所述第二音频片段的起始时刻；根据所述第二音频片段的起始时刻，以及所述第二音频片段的设定时长，确定所述第二音频片段。

需要说明的是，前述服务器端实现的语音控制方法实施例的解释说明，也适用于该实施例的语音控制装置，原理相同，故在此不再赘述。

本申请实施例的语音控制装置中，对目标音频进行识别，在对第一音频片段和第二音频片段进行连续识别，当在第一音频片段识别不出唤醒词，或者在第二音频片段识别不出指令词的时候，都会将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，然后对保留的音频，重新进行解码识别，相比现有技术仅对获取到的音频片段进行一次语音识别的操作，提高了识别的可靠性。

为了实现上述实施例，本申请还提供了一种语音控制装置，该装置设置于客户端中。

图7为本申请实施例提供的另一种语音控制装置的结构示意图。

如图7所示，包括：采集模块71、唤醒模块72和发送模块73。

采集模块71，用于在待机状态下，采集音频并对采集到的音频识别唤醒词。

唤醒模块72，用于在识别出唤醒词的情况下唤醒。

发送模块73，用于将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，目标音频，用于语音识别，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令进行控制；第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分。

进一步，在本申请实施例的一种可能的实现方式中，其中，目标音频为音频流格式。

需要说明的是，前述客户端实现的语音控制方法实施例的解释说明，也适用于该实施例的语音控制装置，原理相同，故在此不再赘述。

本实施例的语音控制装置中，用于在待机状态下，采集音频并对采集到的音频识别唤醒词，以在识别出唤醒词的情况下唤醒客户端，将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，目标音频，用于语音识别，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令进行控制；第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，本实施例中采集到的目标音频中包含唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，实现了获取到的语音起点提前，以使得获取到的语音中包含唤醒词，从而使得获取到的语音反映了用户的真实意图，提高了识别的可靠性。避免了以唤醒时刻作为获取的语音的起点，导致语音获取的起始点不准确，使得获取的目标音频不是用户真实意图的音频，导致识别准确度较低的问题。

为了实现上述实施例，本实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，执行前述方法实施例所述的语音控制方法。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的语音控制方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音控制的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音控制方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音控制方法对应的程序指令/模块(例如，附图6所示的获取模块61、识别模块62和控制模块63，或者如附图7所示的采集模块71、唤醒模块72和发送模块73)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音控制方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音控制的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至语音控制的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音控制方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与语音控制的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，对目标音频进行识别，在对第一音频片段和第二音频片段进行连续识别，当在第一音频片段识别不出唤醒词，或者在第二音频片段识别不出指令词的时候，都会将目标音频起始位置的目标时长的音频片段删除，以得到保留的音频，然后对保留的音频，重新进行解码识别，相比现有技术仅对获取到的音频片段进行一次语音识别的操作，提高了识别的可靠性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音控制方法，包括：

对所述目标音频进行语音识别；

在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分；

所述对所述目标音频进行语音识别之后，还包括：

在所述第一音频片段内未识别出所述唤醒词的情况下，或者，在所述第二音频片段内未识别出所述指令的情况下，将所述目标音频起始位置的所述目标时长的音频片段删除，以得到保留的音频；

对所述保留的音频重新确定出第一音频片段和第二音频片段，并根据重新划分的第二音频片段进行指令的识别；

根据重新进行语音识别所得到的指令，对所述客户端进行控制。

2.根据权利要求1所述的语音控制方法，其中，所述第一音频片段的时长大于所述目标时长；

所述第二音频片段的时长大于所述第一音频片段。

3.根据权利要求1-2任一项所述的语音控制方法，其中，所述对所述目标音频进行语音识别之后，还包括：

对语音识别得到的文本进行所述唤醒词过滤；

在过滤出所述唤醒词的情况下，在所述目标音频中确定与所述唤醒词匹配的文本对应的目标音频帧；

若在所述目标音频中所述目标音频帧的出现时刻早于所述第一音频片段的结束时刻，则确定在所述第一音频片段内识别出所述唤醒词。

4.根据权利要求3所述的语音控制方法，其中，所述根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制之前，还包括：

在所述目标音频中，将所述目标音频帧之后的相邻音频帧的出现时刻作为所述第二音频片段的起始时刻；

根据所述第二音频片段的起始时刻，以及所述第二音频片段的设定时长，确定所述第二音频片段。

5.一种语音控制方法，包括：

在待机状态下，采集音频并对采集到的音频识别唤醒词；

在识别出所述唤醒词的情况下唤醒；

将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；

其中，所述目标音频，用于语音识别，在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令进行控制；所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分；

根据重新进行语音识别所得到的指令，对客户端进行控制。

6.根据权利要求5所述的语音控制方法，其中，所述目标音频为音频流格式。

7.一种语音控制装置，包括：

识别模块，用于对所述目标音频进行语音识别；

控制模块，用于在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分；

所述装置，还包括：

删除模块，用于在所述第一音频片段内未识别出所述唤醒词的情况下，或者，在所述第二音频片段内未识别出所述指令的情况下，将所述目标音频起始位置的所述目标时长的音频片段删除，以得到保留的音频；

所述识别模块，还用于对所述保留的音频重新确定出第一音频片段和第二音频片段，并根据重新划分的第二音频片段进行指令的识别；

所述控制模块，还用于根据重新进行语音识别所得到的指令，对所述客户端进行控制。

8.根据权利要求7所述的语音控制装置，其中，所述第一音频片段的时长大于所述目标时长；

所述第二音频片段的时长大于所述第一音频片段。

9.根据权利要求7-8任一项所述的语音控制装置，其中，所述装置，还包括：

过滤模块，用于对语音识别得到的文本进行所述唤醒词过滤；

10.根据权利要求9所述的语音控制装置，其中，所述控制模块，还用于：

11.一种语音控制装置，包括：

唤醒模块，用于在识别出所述唤醒词的情况下唤醒；

发送模块，用于将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，所述目标音频，用于语音识别，在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令进行控制；所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分；

所述装置还用于：

根据重新进行语音识别所得到的指令，对客户端进行控制。

12.根据权利要求11所述的语音控制装置，其中，所述目标音频为音频流格式。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的语音控制方法，或者执行权利要求5或6中所述的语音控制方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的语音控制方法，或者执行权利要求5或6中所述的语音控制方法。