CN111696553A

CN111696553A - 一种语音处理方法、装置及可读介质

Info

Publication number: CN111696553A
Application number: CN202010508205.6A
Authority: CN
Inventors: 赵楠; 崔文华
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-22
Anticipated expiration: 2040-06-05
Also published as: CN111696553B

Abstract

本申请实施例提供了一种语音处理方法、装置及可读介质。所述方法包括：获取目标语音，确定目标语音与预设信息是否匹配，若目标语音与预设信息相匹配，则执行目标语音对应的目标处理，使得在耳机上实现了根据目标语音进行对应处理，避免了对手机等移动终端的依赖，而且不再需要先进行唤醒之后才能开始说语音，提高了唤醒的便捷性，方便了用户的使用，继而提高了语音助手的使用频率。

Description

一种语音处理方法、装置及可读介质

技术领域

本申请涉及无线耳机技术领域，特别是涉及语音处理方法、语音处理装置、用于语音处理的装置、机器可读介质。

背景技术

随着无线耳机技术的发展，真无线耳机(True Wireless Stereo，TWS)逐渐成为消费者的不二选择。真无线耳机的左右两个耳机本体“完全分离”，看不到一丝一毫的外露线材，是真正意义上的无线耳机。对比传统的“无线耳机”，真无线耳机的连接不仅是耳机和信号发射设备之间信号传输，还有主副耳机之间也存在无线连接。

现有的语音助手是在手机上实现的，耳机仅用于语音的采集和播放，有的还支持通过耳机来唤醒，但是语音助手依赖于手机运行，且唤醒语音助手的方式也很单一，并不方便用户的使用，使得语音助手的使用频率较低，语音助手的真正价值无法得到体现。

发明内容

鉴于上述问题，本申请实施例提出了一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置、用于语音处理的装置、机器可读介质，本申请实施例能够解决语音助手依赖手机运行，唤醒语音助手的方式也很单一，并不方便用户的使用，使得语音助手的使用频率较低的问题。

为了解决上述问题，本申请公开了一种语音处理方法，应用于耳机，包括：

获取目标语音；

确定所述目标语音与预设信息是否匹配；

若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理。

可选地，所述预设信息包括预设指令，所述确定所述目标语音与预设信息是否匹配包括：

检测所述目标语音中是否包括所述预设指令，若所述目标语音中包括所述预设指令，则确定所述目标语音与预设指令相匹配，若所述目标语音中不包括所述预设指令，则确定所述目标语音与预设指令不匹配。

可选地，所述执行所述目标语音对应的目标处理包括：

执行所述预设指令相关联的目标处理。

可选地，所述若所述目标语音包括所述预设指令，则确定所述目标语音与预设指令相匹配包括：

确定所述目标语音中还包括处理信息；

所述执行所述目标语音对应的目标处理包括：

根据所述处理信息，执行所述预设指令相关联的目标处理。

可选地，所述预设信息包括预设唤醒词，所述确定所述目标语音与预设信息是否匹配包括：

检测所述目标语音中是否包括所述预设唤醒词和指令信息，若所述目标语音中包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词相匹配，若所述目标语音中不包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词不匹配。

可选地，所述检测所述目标语音中是否包括所述预设唤醒词和指令信息包括：

利用内置于所述耳机的骨振动传感器，将所述目标语音划分为第一目标语音和第二目标语音；

检测所述第一目标语音或第二目标语音与所述预设唤醒词是否相同。

可选地，所述目标语音中第一目标语音在第二目标语音之前，所述方法还包括：

当所述第一目标语音与所述预设唤醒词相同，则将所述第二目标语音确定为所述指令信息；

或者，当所述第二目标语音与所述预设唤醒词相同，则将所述第一目标语音确定为所述指令信息。

可选地，所述若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理包括：

确定所述指令信息对应的目标处理；

执行所述目标处理。

基于所述语音处理功能，对所述指令信息进行语音处理。

可选地，所述基于所述语音处理功能，对所述指令信息进行语音处理包括：

将所述指令信息发送至云端服务器，以供所述云端服务器基于所述语音处理功能得到与所述指令信息对应的语音处理结果，并将所述语音处理功能发送给所述耳机或耳机收纳装置。

可选地，所述将所述指令信息发送至云端服务器包括：

将所述指令信息经过所述耳机收纳装置发送至所述云端服务器。

将所述指令信息发送至与所述耳机连接的耳机收纳装置，以供所述耳机收纳装置基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

将所述指令信息发送至与所述耳机连接的移动终端，以供所述移动终端基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

可选地，所述目标处理包括以下至少一种：接听通话、拒接通话、挂断通话、回拨、取消呼出通话、查找联系人、开始播放第一音频、暂停播放所述第一音频、结束所述第一音频的播放、在播放所述第一音频时，切换为播放第二音频、调高音量、调低音量、查找音频、开始录音、结束录音、暂停录音、开启语音处理功能、关闭语音处理功能、开启翻译处理功能、关闭翻译处理功能、开启音效处理功能、关闭音效处理功能。

本申请实施例还公开了一种语音处理装置，应用于耳机，包括：

获取模块，用于获取目标语音；

匹配模块，用于确定所述目标语音与预设信息是否匹配；

处理执行模块，用于若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理。

可选地，所述预设信息包括预设指令，所述匹配模块包括：

第一检测子模块，用于检测所述目标语音中是否包括所述预设指令，若所述目标语音中包括所述预设指令，则确定所述目标语音与预设指令相匹配，若所述目标语音中不包括所述预设指令，则确定所述目标语音与预设指令不匹配。

可选地，所述处理执行模块包括：

第一执行子模块，用于执行所述预设指令相关联的目标处理。

可选地，所述第一检测子模块包括：

信息确定单元，用于确定所述目标语音中还包括处理信息；

所述处理执行模块包括：

第二执行子模块，用于根据所述处理信息，执行所述预设指令相关联的目标处理。

可选地，所述预设信息包括预设唤醒词，所述匹配模块包括：

第二检测子模块，用于检测所述目标语音中是否包括所述预设唤醒词和指令信息，若所述目标语音中包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词相匹配，若所述目标语音中不包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词不匹配。

可选地，所述第二检测子模块包括：

语音划分单元，用于利用内置于所述耳机的骨振动传感器，将所述目标语音划分为第一目标语音和第二目标语音；

检测单元，用于检测所述第一目标语音或第二目标语音与所述预设唤醒词是否相同。

可选地，所述目标语音中第一目标语音在第二目标语音之前，所述装置还包括：

第一指令信息单元模块，用于当所述第一目标语音与所述预设唤醒词相同，则将所述第二目标语音确定为所述指令信息；

或者，第二指令信息单元模块，用于当所述第二目标语音与所述预设唤醒词相同，则将所述第一目标语音确定为所述指令信息。

可选地，所述处理执行模块包括：

处理确定子模块，用于确定所述指令信息对应的目标处理；

第三执行子模块，用于执行所述目标处理。

可选地，所述处理执行模块包括：

语音处理子模块，用于基于所述语音处理功能，对所述指令信息进行语音处理。

可选地，所述语音处理子模块包括：

第一发送单元，用于将所述指令信息发送至云端服务器，以供所述云端服务器基于所述语音处理功能得到与所述指令信息对应的语音处理结果，并将所述语音处理功能发送给所述耳机或耳机收纳装置。

可选地，所述第一发送单元具体用于：

可选地，所述语音处理子模块包括：

第二发送单元，用于将所述指令信息发送至与所述耳机连接的耳机收纳装置，以供所述耳机收纳装置基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

可选地，所述语音处理子模块包括：

第三发送单元，用于将所述指令信息发送至与所述耳机连接的移动终端，以供所述移动终端基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

本申请实施例还公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取目标语音；

确定所述目标语音与预设信息是否匹配；

可选地，所述执行所述目标语音对应的目标处理包括：

执行所述预设指令相关联的目标处理。

确定所述目标语音中还包括处理信息；

所述执行所述目标语音对应的目标处理包括：

根据所述处理信息，执行所述预设指令相关联的目标处理。

可选地，所述目标语音中第一目标语音在第二目标语音之前，所述操作的指令还包括：

确定所述指令信息对应的目标处理；

执行所述目标处理。

基于所述语音处理功能，对所述指令信息进行语音处理。

可选地，所述将所述指令信息发送至云端服务器包括：

本申请实施例还公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上述的语音处理方法。

本申请实施例包括以下优点：

综上所述，依据本申请实施例，通过获取目标语音，确定目标语音与预设信息是否匹配，若目标语音与预设信息相匹配，则执行目标语音对应的目标处理，使得在耳机上实现了根据目标语音进行对应处理，避免了对手机等移动终端的依赖，而且不再需要先进行唤醒之后才能开始说语音，提高了唤醒的便捷性，方便了用户的使用，继而提高了语音助手的使用频率。

附图说明

图1示出了本申请的一种语音处理方法实施例的步骤流程图；

图2示出了本申请的另一种语音处理方法实施例的步骤流程图；

图3示出了本申请的又一种语音处理方法实施例的步骤流程图；

图4示出了本申请的一种语音处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于语音处理的装置的框图；

及图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种语音处理方法实施例的步骤流程图，应用于耳机，具体可以包括如下步骤：

步骤101，获取目标语音。

在本申请实施例中，耳机除了播放声音外，还可以采集目标语音，例如，通过设置在耳机上的麦克风采集目标语音，或者还可以通过与耳机连接的耳机收纳装置(例如耳机收纳盒)采集目标语音，再发送给耳机，或者其他任意适用的获取方式，本申请实施例对此不做限制。

步骤102，确定所述目标语音与预设信息是否匹配。

在本申请实施例中，预设信息包括预设指令、预设唤醒词等信息，预设信息包括语音、文本等形式，或者其他任意适用的信息或形式，本申请实施例对此不做限制。预设信息可以存储于耳机上，还可以支持用户的自定义设置、更改、删除等。

在本申请实施例中，耳机在获取目标语音后，可以确定目标语音与预设信息是否匹配，例如，检测目标语音中是否包括预设信息，若目标语音中包括预设信息，则目标语音与预设信息相匹配，或者其他任意适用的确定匹配的方式，本申请实施例对此不做限制。例如，预设信息包括预设指令“下一曲”，则用户说的话为“下一曲”，即目标语音中包括预设指令，确定目标语音与预设信息相匹配。

步骤103，若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理。

在本申请实施例中，若目标语音与预设信息相匹配，则耳机可以根据目标语音执行相应的处理，即目标处理。目标处理包括通话相关的处理、语音播放相关的处理、音量调节相关的处理、录音相关的处理、语音处理、翻译处理、音效处理等，或者其他任意适用的处理，本申请实施例对此不做限制。

在本申请实施例中，耳机可以根据目标语音确定相应的目标处理，再执行该目标处理。例如，目标语音为“汪汪，今天天气怎么样”，由于“汪汪”是预设唤醒词，目标语音中包括预设唤醒词，则目标语音与预设信息相匹配，确定相应的目标处理为由语音助手对“今天天气怎么样”进行应答，语音助手对目标语音进行识别，并查询到今天的天气状况信息，将天气状况信息在耳机上进行播报。

在本申请实施例中，可选地，目标处理包括以下至少一种：接听通话、拒接通话、挂断通话、回拨、取消呼出通话、查找联系人、开始播放第一音频、暂停播放所述第一音频、结束所述第一音频的播放、在播放所述第一音频时，切换为播放第二音频、调高音量、调低音量、查找音频、开始录音、结束录音、暂停录音、开启语音处理功能、关闭语音处理功能、开启翻译处理功能、关闭翻译处理功能、开启音效处理功能、关闭音效处理功能。

其中，通话包括但不限于电话、即时通讯软件中的音频通话或视频通话等。执行接听通话、拒接通话、挂断通话、回拨、取消呼出通话、查找联系人等目标处理时，耳机将相应的处理指令发送给连接的手机等移动终端，或者耳机可以不依赖于手机等移动终端，独立实现电话、即时通讯软件中的音频通话等功能，或者耳机还可以利用设置有显示器的耳机收纳装置，实现视频通话等功能，则耳机直接执行相应的目标处理。耳机上可以存储有联系人的列表，耳机对目标语音进行识别，并查找目标语音中的联系人的相关信息。例如，预设信息包括“接听”、“拒接”、“挂断”、“回拨”、“查找联系人XXX”、“汪汪、接听通话”等，在耳机确定目标语音与预设信息匹配后，则执行相应的处理。

其中，音频播放时的处理可以包括开始播放、暂停播放、结束播放、切换播放的音频、查找音频等，或者其他任意适用的处理，本申请实施例对此不做限制。第一音频和第二音频可以存储在耳机上、或耳机收纳装置上、或云端服务器上或移动终端上。例如，预设信息包括“开始播放”、“暂停播放”等，在耳机确定目标语音与预设信息匹配后，则执行相应的处理。

其中，调高音量、调低音量可以在待机、通话、音频播放等工作状态下进行，或者其他任意适用的工作状态下对音量进行调节，本申请实施例对此不做限制。例如，预设信息包括“调高音量到8”、“调低音量到5”等，在耳机确定目标语音与预设信息匹配后，则执行相应的处理。

其中，录音包括电话录音、语音备忘等，或者其他任意适用的录音方式，本申请实施例对此不做限制。针对录音的处理包括开始录音、结束录音、暂停录音等，或者其他任意适用的处理，本申请实施例对此不做限制。例如，预设信息包括“开始录音”、“暂停录音”等，在耳机确定目标语音与预设信息匹配后，则执行相应的处理。

其中，语音处理包括对语音进行识别、理解并作出相应反馈的处理过程，包括将语音转换为相应的文本、或者命令，针对语音信息进行识别，并根据理解作出相应反馈，或者其他任意适用的处理，本申请实施例对此不做限制。

在本申请实施例中，语音处理功能包括对于语音进行处理所调用的算法、数据库、以及计算资源等，或者其他任意适用的与语音处理相关的内容，本申请实施例对此不做限制。针对语音处理功能的处理包括开启语音处理功能、关闭语音处理功能等，或者其他任意适用的处理，本申请实施例对此不做限制。例如，预设信息包括“汪汪，明天天气怎么样”等，在耳机确定目标语音与预设信息匹配后，开启语音处理功能，对“明天天气怎么样”进行语音处理，得到语音处理结果，在耳机上对结果进行播放。

例如，一个语音处理功能为仅调用本地的计算资源，利用本地的语音识别模型对语音进行识别，语音识别模型保存着从预先收集的语音中抽取的语音特征，可识别的语音相对限制于本地的语音模型中语音特征，识别的速度限制于本地的计算资源；另一个语音处理功能为利用云端服务器，将语音上传到云端服务器，调用云端服务器上的计算资源，利用语音识别模型对语音进行识别，并理解语音中的语音，对语音作出相应的反馈，不再限制于本地的计算资源和样本库，可以有更好的语音处理效果，得到更为复杂多样的结果。

其中，翻译处理功能包括电话翻译、对话翻译、同声传译等，或者其他任意适用的翻译处理，本申请实施例对此不做限制。针对翻译处理功能的处理包括开启翻译处理功能、关闭翻译处理功能等，或者其他任意适用的处理，本申请实施例对此不做限制。例如，预设信息包括“汪汪，将通话内容中的英文翻译成中文”等，在耳机确定目标语音与预设信息匹配后，开启翻译处理功能，对通话内容进行翻译处理，得到翻译处理结果，在耳机上对结果进行播放。

其中，音效处理功能包括对语音中的人声进行处理，或者对语音进行音效处理，例如，美音、变声、混响等，或者其他任意适用的处理，本申请实施例对此不做限制。针对音效处理功能的处理包括开启音效处理功能、关闭音效处理功能等，或者其他任意适用的处理，本申请实施例对此不做限制。例如，预设信息包括“汪汪，开启音效处理功能”等，在耳机确定目标语音与预设信息匹配后，开启音效处理功能，对接收的语音进行音效处理，得到音效处理结果，在耳机上对结果进行播放。

参照图2，示出了本申请的另一种语音处理方法实施例的步骤流程图，应用于耳机，具体可以包括如下步骤：

步骤201，获取目标语音。

步骤202，检测所述目标语音中是否包括所述预设指令，若所述目标语音中包括所述预设指令，则确定所述目标语音与预设指令相匹配，若所述目标语音中不包括所述预设指令，则确定所述目标语音与预设指令不匹配。

在本申请实施例中，预设信息包括预设指令，预设指令是耳机上存储的与目标处理相对应的指令，例如，“下一曲”、“接听”、“调高音量”等预设指令，或者其他任意适用的指令，本申请实施例对此不做限制。

在本申请实施例中，耳机检测目标语音中是否包括预设指令，若目标语音中包括预设指令，则确定目标语音与预设指令相匹配，若目标语音中不包括预设指令，则确定目标语音与预设指令不匹配。

步骤203，若所述目标语音与预设信息相匹配，则执行所述预设指令相关联的目标处理。

在本申请实施例中，当预设信息为预设指令时，预设指令可以与目标处理相关联，目标语音对应的目标处理是预设指令相关联的目标处理。耳机可以先根据预设指令确定相关联的目标处理，再执行该目标处理。例如，预设指令包括“回拨”，当目标语音与该预设指令相匹配，则耳机执行回拨处理，向上一次来电的号码发起电话请求、或音频通话请求、或视频通话请求等。具体可以包括任意适用的预设指令，本申请实施例对此不做限制。

在本申请实施例中，可选地，在若所述目标语音包括所述预设指令，则确定所述目标语音与预设指令相匹配的一种实现方式中，可以包括：确定所述目标语音中还包括处理信息；相应的，执行所述目标语音对应的目标处理的实现方式中可以包括：根据处理信息，执行预设指令相关联的目标处理。

在一些情况下，目标语音与预设指令相匹配时，目标语音中不仅包括预设指令，还包括其他内容，即处理信息。例如，目标语音为“查找歌曲YYY”，其中，预设指令为“查找歌曲”，处理信息为“YYY”，在进行查找歌曲的处理时，需要根据关键词“YYY”进行搜索。具体可以包括任意适用的需要根据处理信息执行的目标处理，本申请实施例对此不做限制。

综上所述，依据本申请实施例，通过获取目标语音，检测所述目标语音中是否包括所述预设指令，若所述目标语音中包括所述预设指令，则确定所述目标语音与预设指令相匹配，若所述目标语音中不包括所述预设指令，则确定所述目标语音与预设指令不匹配，若所述目标语音与预设信息相匹配，则执行所述预设指令相关联的目标处理，使得在耳机上实现了根据目标语音进行对应处理，避免了对手机等移动终端的依赖，而且不再需要先进行唤醒之后才能开始说语音，提高了唤醒的便捷性，方便了用户的使用，继而提高了语音助手的使用频率。

参照图3，示出了本申请的又一种语音处理方法实施例的步骤流程图，应用于耳机，具体可以包括如下步骤：

步骤301，获取目标语音。

步骤302，检测所述目标语音中是否包括所述预设唤醒词和指令信息，若所述目标语音中包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词相匹配，若所述目标语音中不包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词不匹配。

在本申请实施例中，预设信息包括预设唤醒词，预设唤醒词可以是默认的，也可以是用户自定义设置的，本申请实施例对此不做限制。目标语音与预设唤醒词相匹配时，目标语音中不仅包括预设唤醒词，还包括其他内容，即指令信息。

在本申请实施例中，指令信息用于指示耳机确定相应的目标处理，指令信息与上述预设指令不同，目标语音中必须同时包括预设唤醒词和指令信息，才可以确定目标语音与预设信息相匹配，才会唤醒耳机执行相应的处理。指令信息可以是预先存储在耳机上的指令信息，也可以将没有预先存储在耳机上的其他任意的信息作为指令信息。例如，“汪汪，下一曲”、“汪汪，接听”、“汪汪，今晚的足球比赛精彩吗”等预设唤醒词和指令信息，其中，“汪汪”为预设唤醒词，“下一曲”、“接听”为预先存储在耳机上的指令信息，“今晚的足球比赛精彩吗”是没有预先存储在耳机上的指令信息。

在本申请实施例中，耳机检测目标语音中是否包括预设唤醒词和指令信息，若目标语音中包括预设唤醒词和指令信息，则确定目标语音与预设指令相匹配，若目标语音中不包括预设唤醒词和指令信息，则确定目标语音与预设指令不匹配。在检测目标语音中是否包括预设唤醒词和指令信息时，检测到目标语音中包括预设唤醒词和其他的语音，则将其他的语音作为指令信息。

在本申请实施例中，确定目标语音与预设信息是否匹配时，可以检测目标语音中是否包括预设指令，也可以检测目标语音中是否包括预设唤醒词和指令信息，两种方式可以同时在耳机上运行，以使耳机同时支持两种语音处理的方式。

在本申请实施例中，可选地，检测所述目标语音中是否包括所述预设唤醒词和指令信息的一种实现方式中，可以包括：利用内置于所述耳机的骨振动传感器，将所述目标语音划分为第一目标语音和第二目标语音；检测所述第一目标语音或第二目标语音与所述预设唤醒词相同。

耳机中可以内置骨振动传感器，可以检测用户讲话时颅骨的振动，利用骨振动传感器，根据检测到的骨振动，可以准确且快速的找到用户在讲话时的停顿，并据此将目标语音划分为第一目标语音和第二目标语音，然后检测第一目标语音或第二目标语音与预设唤醒词是否相同，即可确定目标语音中是否包括预设唤醒词。这种方式可以准确而快速的对用户讲的话进行断句，以便检测出目标语音中是否包括预设唤醒词，避免对目标语音中是否包括预设唤醒词的误检测，提高准确率。

在本申请实施例中，可选地，目标语音中第一目标语音在第二目标语音之前，还可以包括：当第一目标语音与预设唤醒词相同，则将第二目标语音确定为指令信息，例如，“汪汪，今晚的足球比赛精彩吗”，“汪汪”为第一目标语音，“今晚的足球比赛精彩吗”为第二目标语音，第一目标语音与预设唤醒词相同，则将第二目标语音确定为指令信息；或者，当第二目标语音与预设唤醒词相同，则将所述第一目标语音确定为指令信息，例如，“今晚的足球比赛精彩吗，汪汪”，“今晚的足球比赛精彩吗”为第一目标语音，“汪汪”为第二目标语音，第二目标语音与预设唤醒词相同，则将第一目标语音确定为指令信息。既支持预设唤醒词在指令信息之前，又支持指令信息在预设唤醒词之前。

在本申请实施例中，可选地，若目标语音与预设信息相匹配，则执行目标语音对应的目标处理的一种实现方式中，可以包括：确定所述指令信息对应的目标处理，执行所述目标处理。

指令信息可以与目标处理相关联，目标语音对应的目标处理是指令信息相关联的目标处理。耳机可以先根据指令信息确定相关联的目标处理，再执行该目标处理。例如，指令信息包括“调高音量”，当目标语音与该预设唤醒词和指令信息相匹配，则耳机执行调高音量的处理，具体可以包括任意适用的指令信息，本申请实施例对此不做限制。

步骤303，若所述目标语音与预设信息相匹配，基于所述语音处理功能，对所述指令信息进行语音处理。

在本申请实施例中，当目标语音与预设唤醒词和指令信息相匹配时，耳机唤醒语音处理功能，将目标语音中的指令信息交给语音处理功能来处理。基于语音处理功能，对指令信息进行语音处理。例如，用户说“汪汪，今天气温多少度？”，耳机在采集到用户说的话后，由耳机联网查询到今天的气温，然后耳机播放“今天气温28度”。

在本申请实施例中，可选地，基于所述语音处理功能，对所述指令信息进行语音处理的一种实现方式中，可以包括：将指令信息发送至云端服务器，以供所述云端服务器基于所述语音处理功能得到与所述指令信息对应的语音处理结果，并将所述语音处理功能发送给所述耳机或耳机收纳装置。

耳机可以具备联网的能力，在采集到指令信息后，可以将指令信息发送至云端服务器，由云端服务器基于语音处理功能对指令信息进行语音处理，得到语音处理结果后，云端服务器再将语音处理结果发送给耳机或耳机收纳装置。受限于耳机的体积，耳机的电量、存储空间、计算能力等资源有限的情况下，将指令信息交给云端服务器进行处理，可以减少耳机的功耗，提高语音处理的处理速度。耳机也可以通过其他方式将指令信息发送给云端服务器，本申请实施例对此不做限制。

在本申请实施例中，可选地，将所述指令信息发送至云端服务器的一种实现方式可以包括：将指令信息经过所述耳机收纳装置发送至所述云端服务器。

耳机可以与耳机收纳装置建立连接，耳机收纳装置可以具备联网的能力，指令信息可以经由耳机收纳装置发送给云端服务器。例如，耳机与耳机收纳装置通过蓝牙传输处理信息和语音处理结果，耳机收纳装置上内置有移动通信芯片，可以将处理信息发送给云端服务器。

在本申请实施例中，可选地，基于所述语音处理功能，对所述指令信息进行语音处理的一种实现方式中，可以包括：将指令信息发送至与耳机连接的耳机收纳装置，以供耳机收纳装置基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

耳机可以与耳机收纳装置连接，例如，耳机和耳机收纳装置之间通过蓝牙传输所述指令信息。耳机和耳机收纳装置都具备蓝牙芯片，可以通过蓝牙建立连接传输指令信息。当耳机通过蓝牙连接移动终端时，一般的蓝牙耳机只具备一组蓝牙芯片，耳机可以通过蓝牙与移动终端之间传输数据。为实现本申请的技术方案，即还要通过蓝牙连接耳机收纳装置，蓝牙耳机可以具备两组蓝牙芯片，其中一组蓝牙芯片用于与移动终端之间传输数据，另一组蓝牙芯片用于与耳机收纳装置之间传输指令信息。

在本申请实施例中，受限于耳机的体积，耳机的电量、存储空间、计算能力等资源有限的情况下，耳机可以利用耳机收纳装置来完成语音处理。耳机收纳装置上可以运行该语音处理功能的应用程序，耳机收纳装置还可以利用云端服务器的资源来实现语音处理功能。耳机获取到指令信息后，可以将指令信息发送至耳机连接的耳机收纳装置，耳机收纳装置接收到指令信息后，基于语音处理功能对指令信息进行语音处理，得到语音处理结果，耳机收纳装置可以播放或显示语音处理结果，或可以根据语音处理结果进行相应的处理，耳机收纳装置还可以将语音处理结果发送给耳机。

在本申请实施例中，可选地，基于所述语音处理功能，对所述指令信息进行语音处理的一种实现方式中，可以包括：将所述指令信息发送至与所述耳机连接的移动终端，以供所述移动终端基于所述语音处理功能得到与所述指令信息对应的语音处理结果。

耳机可以与移动终端连接，移动终端上可以运行该语音处理功能的应用程序，耳机获取到指令信息后，可以将指令信息发送至耳机连接的移动终端，移动终端接收到指令信息后，基于语音处理功能对指令信息进行语音处理，得到语音处理结果，移动终端还可以将语音处理结果发送给耳机或耳机收纳装置。

综上所述，依据本申请实施例，通过获取目标语音，检测所述目标语音中是否包括所述预设唤醒词和指令信息，若所述目标语音中包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词相匹配，若所述目标语音中不包括所述预设唤醒词和指令信息，则确定所述目标语音与预设唤醒词不匹配，若所述目标语音与预设信息相匹配，则基于所述语音处理功能，对所述指令信息进行语音处理，使得在耳机上实现了根据目标语音进行对应处理，避免了对手机等移动终端的依赖，而且不再需要先进行唤醒之后才能开始说语音，提高了唤醒的便捷性，方便了用户的使用，继而提高了语音助手的使用频率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的运动动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请的一种语音处理装置实施例的结构框图，应用于耳机，具体可以包括：

获取模块401，用于获取目标语音；

匹配模块402，用于确定所述目标语音与预设信息是否匹配；

处理执行模块403，用于若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理。

在本申请实施例中，可选地，所述预设信息包括预设指令，所述匹配模块包括：

在本申请实施例中，可选地，所述处理执行模块包括：

在本申请实施例中，可选地，所述第一检测子模块包括：

信息确定单元，用于确定所述目标语音中还包括处理信息；

所述处理执行模块包括：

在本申请实施例中，可选地，所述预设信息包括预设唤醒词，所述匹配模块包括：

在本申请实施例中，可选地，所述第二检测子模块包括：

在本申请实施例中，可选地，所述目标语音中第一目标语音在第二目标语音之前，所述装置还包括：

在本申请实施例中，可选地，所述处理执行模块包括：

处理确定子模块，用于确定所述指令信息对应的目标处理；

第三执行子模块，用于执行所述目标处理。

在本申请实施例中，可选地，所述处理执行模块包括：

在本申请实施例中，可选地，所述语音处理子模块包括：

在本申请实施例中，可选地，所述第一发送单元具体用于：

在本申请实施例中，可选地，所述语音处理子模块包括：

在本申请实施例中，可选地，所述目标处理包括以下至少一种：接听通话、拒接通话、挂断通话、回拨、取消呼出通话、查找联系人、开始播放第一音频、暂停播放所述第一音频、结束所述第一音频的播放、在播放所述第一音频时，切换为播放第二音频、调高音量、调低音量、查找音频、开始录音、结束录音、暂停录音、开启语音处理功能、关闭语音处理功能、开启翻译处理功能、关闭翻译处理功能、开启音效处理功能、关闭音效处理功能。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种用于语音处理的装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑行操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：

获取目标语音；

确定所述目标语音与预设信息是否匹配；

可选地，所述执行所述目标语音对应的目标处理包括：

执行所述预设指令相关联的目标处理。

确定所述目标语音中还包括处理信息；

所述执行所述目标语音对应的目标处理包括：

根据所述处理信息，执行所述预设指令相关联的目标处理。

确定所述指令信息对应的目标处理；

执行所述目标处理。

基于所述语音处理功能，对所述指令信息进行语音处理。

可选地，所述将所述指令信息发送至云端服务器包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音处理方法、一种语音处理装置、一种用于语音处理的装置、一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音处理方法，其特征在于，应用于耳机，包括：

获取目标语音；

确定所述目标语音与预设信息是否匹配；

2.根据权利要求1所述的方法，其特征在于，所述预设信息包括预设指令，所述确定所述目标语音与预设信息是否匹配包括：

3.根据权利要求2所述的方法，其特征在于，所述执行所述目标语音对应的目标处理包括：

执行所述预设指令相关联的目标处理。

4.根据权利要求2所述的方法，其特征在于，所述若所述目标语音包括所述预设指令，则确定所述目标语音与预设指令相匹配包括：

确定所述目标语音中还包括处理信息；

所述执行所述目标语音对应的目标处理包括：

根据所述处理信息，执行所述预设指令相关联的目标处理。

5.根据权利要求1所述的方法，其特征在于，所述预设信息包括预设唤醒词，所述确定所述目标语音与预设信息是否匹配包括：

6.根据权利要求5所述的方法，其特征在于，所述检测所述目标语音中是否包括所述预设唤醒词和指令信息包括：

7.根据权利要求6所述的方法，其特征在于，所述目标语音中第一目标语音在第二目标语音之前，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理包括：

确定所述指令信息对应的目标处理；

执行所述目标处理。

9.根据权利要求5所述的方法，其特征在于，所述若所述目标语音与预设信息相匹配，则执行所述目标语音对应的目标处理包括：

基于所述语音处理功能，对所述指令信息进行语音处理。

10.根据权利要求9所述的方法，其特征在于，所述基于所述语音处理功能，对所述指令信息进行语音处理包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述指令信息发送至云端服务器包括：

12.根据权利要求9所述的方法，其特征在于，所述基于所述语音处理功能，对所述指令信息进行语音处理包括：

13.根据权利要求9所述的方法，其特征在于，所述基于所述语音处理功能，对所述指令信息进行语音处理包括：

14.根据权利要求1所述的方法，其特征在于，所述目标处理包括以下至少一种：接听通话、拒接通话、挂断通话、回拨、取消呼出通话、查找联系人、开始播放第一音频、暂停播放所述第一音频、结束所述第一音频的播放、在播放所述第一音频时，切换为播放第二音频、调高音量、调低音量、查找音频、开始录音、结束录音、暂停录音、开启语音处理功能、关闭语音处理功能、开启翻译处理功能、关闭翻译处理功能、开启音效处理功能、关闭音效处理功能。

15.一种语音处理装置，其特征在于，应用于耳机，包括：

获取模块，用于获取目标语音；

匹配模块，用于确定所述目标语音与预设信息是否匹配；

16.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取目标语音；

确定所述目标语音与预设信息是否匹配；

17.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至14中一个或多个所述的语音处理方法。