CN110619873A

CN110619873A - 音频处理方法、装置及存储介质

Info

Publication number: CN110619873A
Application number: CN201910760806.3A
Authority: CN
Inventors: 路康虹; 杨瑞; 冯小川; 崔世起; 韩伟; 秦斌; 王刚; 李丹
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-27
Also published as: RU2735363C1; WO2021031308A1; KR102300257B1; EP4184506A1; JP2022501623A; KR20210024408A; US20210050010A1; EP3779968A1; US11264027B2; JP7166294B2

Abstract

本公开是关于一种音频处理方法、装置及存储介质，该方法包括：在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据；在获取第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，则获取第二音频数据；根据第一音频数据和第二音频数据，得到目标音频数据。本公开的技术方案，相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理，无需再次唤醒目标应用程序，能简化对话流程；且结合第一音频数据和第二音频数据，得到目标音频数据，对目标音频数据一起进行音频响应，能够更精确的获得用户真实需求，减少孤立的分别响应第一音频数据和第二音频数据所导致的响应错误的概率，提升了音频响应的正确率。

Description

音频处理方法、装置及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种音频处理方法、装置及存储介质。

背景技术

目前，通过语音进行人机交互的交互方式受到了广泛关注，整个互联网行业都在积极探索语音交互可能的应用方式和应用场景，且已经有大量基于语音交互的产品面世，如智能音箱、语音助手等。其中，语音助手几乎成为了各个厂家的新品发布会的重点，在一定程度上影响了用户的消费选择。但是，用户与语音助手进行交互的过程中，存在对话过程繁杂，且对话不流畅的问题。

发明内容

本公开提供一种音频处理方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种音频处理方法，所述方法应用于电子设备，包括：

在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据；

在获取所述第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，则获取所述第二音频数据；

根据所述第一音频数据和所述第二音频数据，得到目标音频数据。

可选的，所述方法还包括：

确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差；

所述根据所述第一音频数据和所述第二音频数据，得到目标音频数据，包括：

如果所述时间差大于或者等于第一设定时长，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据。

可选的，所述如果所述时间差大于或者等于第一设定时长，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据，包括：

如果所述时间差大于或者等于第一设定时长，则检测所述第一音频数据的输入是否完整；

如果所述第一音频数据的输入不完整，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据。

可选的，所述如果所述第一音频数据的输入不完整，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据，包括：

如果第一音频数据的输入不完整，判断所述第一音频数据与所述第二音频数据是否能够拼接；

如果所述第一音频数据与所述第二音频数据能够拼接，则将所述第一音频数据与所述第二音频数据进行拼接，得到目标音频数据。

可选的，所述方法还包括：

如果所述第一音频数据的输入完整，则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。

可选的，所述方法还包括：

对所述目标音频数据进行回声消除处理；

基于进行回声消除处理后的目标音频数据，得到响应信息；

输出所述响应信息。

可选的，所述方法还包括：

获取待检测音频数据；

确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息；

如果所述待检测音频数据中包含所述唤醒信息，则对所述目标应用程序进行唤醒处理；

其中，所述音频数据包括语音数据。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：

第一音频获取模块，配置为在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据；

第二音频获取模块，配置为在获取所述第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，则获取所述第二音频数据；

第一音频确定模块，配置为根据所述第一音频数据和所述第二音频数据，得到目标音频数据。

可选的，所述装置还包括：

时间确定模块，配置为确定结束获取所述第一音频数据与开始获取所述第二音频数据之间的时间差；

所述第一音频确定模块，包括：

音频确定子模块，配置为如果所述时间差大于或者等于第一设定时长，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据。

可选的，所述音频确定子模块，具体配置为：

可选的，所述音频确定子模块，还具体配置为：

可选的，所述装置还包括：

第二音频确定模块，配置为如果所述第一音频数据的输入完整，则将所述第一音频数据和所述第二音频数据分别确定为所述目标音频数据。

可选的，所述装置还包括：

回声消除模块，配置为对所述目标音频数据进行回声消除处理；

响应模块，配置为基于进行回声消除处理后的目标音频数据，得到响应信息；

输出模块，配置为输出所述响应信息。

可选的，所述装置还包括：

第三音频获取模块，配置为获取待检测音频数据；

信息确定模块，配置为确定所述待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息；

唤醒模块，配置为如果所述待检测音频数据中包含所述唤醒信息，则对所述目标应用程序进行唤醒处理；

其中，所述音频数据包括语音数据。

根据本公开实施例的第三方面，提供一种音频处理装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面中的音频处理方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理装置的处理器执行时，使得所述装置能够执行上述第一方面中的音频处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，唤醒目标应用程序之后，在获取第一音频数据的过程中，如果检测到第二音频数据，能够对第一音频数据和第二音频数据进行分析和处理，得到目标音频数据，在连续对话的过程中，可以分别对多个音频数据直接进行处理，相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理，不需要再次唤醒目标应用程序，在简化对话流程的基础上，使语音交互过程更加流畅；且结合第一音频数据和第二音频数据，得到目标音频数据，对目标音频数据一起进行音频响应，能够更加精确的获得用户真实需求，减少孤立的分别响应第一音频数据和第二音频数据导致的响应错误的概率，故还提升了音频响应的正确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的音频处理方法的流程图一。

图2是根据一示例性实施例示出的音频处理方法的流程示意图二。

图3是根据一示例性实施例示出的一种音频处理装置框图。

图4是根据一示例性实施例示出的一种音频处理装置的硬件结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的音频处理方法的流程图一，如图1所示，该方法应用于电子设备，其中，电子设备包括移动终端和固定终端，例如，手机、平板电脑、掌上电脑、笔记本电脑、台式机、可穿戴式移动设备、智能音箱等。该方法包括以下步骤：

在步骤101中，在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据。

其中，目标应用程序为可以安装在电子设备上的应用程序，用于与用户进行语音交互，例如，语音助手等。第一音频信号可以包括基于电子设备所包含的声音采集组件所采集的语音信号，例如，用户发出的语音信号。第一音频数据是对第一音频信号进行数字化处理之后的音频数据。

可以通过电子设备所包含的音频采集组件采集音频信号，并对音频信号进行数字化处理，得到音频数据。其中，音频采集组件可以是电子设备所包含的用于采集音频的组件，以电子设备是手机为例，音频采集组件可以为手机上的麦克风。

本公开实施例中，可以通过语音唤醒的方式唤醒目标应用程序，在唤醒目标应用程序之后，可以基于目标应用程序获取音频数据。

例如，在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时，可以对该语音信号进行数字化处理，得到语音数据。并检测语音数据中是否包含预先设定的唤醒词，如果语音数据中包含有唤醒词，则可以唤醒目标应用程序。其中，唤醒词可以是用户根据需求设定的，例如，可以将唤醒词设置为“小爱同学”。

在步骤102中，在获取第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，则获取第二音频数据。

该第二音频数据可以与第一音频数据相同，也可以与第一音频数据不同。只要是在获取第一音频数据的过程中所获取到的音频数据，均可称为第二音频数据。

在步骤103中，根据第一音频数据和第二音频数据，得到目标音频数据。

目标应用程序在不同的时刻分别获取到第一音频数据和第二音频数据之后，能够根据第一音频数据和第二音频数据，得到目标音频数据，以使目标应用程序根据目标音频数据做出相应的响应。

其中，目标音频数据包括以下至少之一：第一音频数据、第二音频数据、第一音频数据和第二音频数据拼接而成的第三音频数据。以目标音频数据是第一音频数据和第二音频数据拼接而成的第三音频数据为例，如果第一音频数据所包含的内容为“今天的天气是”，第二音频数据所包含的内容为“晴天”，则第三音频数据、即目标音频数据所包含的内容可以为“今天的天气是晴天”。

本公开的实施例中，唤醒目标应用程序之后，在获取第一音频数据的过程中，如果检测到第二音频数据，能够同时对第一音频数据和第二音频数据进行分析和处理，得到目标音频数据。在连续对话的过程中，可以同时分别对多个的音频数据直接进行处理，而不需要再次唤醒目标应用程序，不仅能够简化对话流程，还能使语音交互过程更加流畅。

所述根据第一音频数据和第二音频数据，得到目标音频数据，包括：

根据所述第一音频数据的第一语义内容和所述第二音频数据的第二语义内容，得到所述目标音频数据。

例如，所述第一语义内容和所述第二语义内容互为补充，则可以组合所述第一音频数据和所述第二音频数据得到所述目标音频数据，这种应用场景可为：用户在发出第一语音信号之后，中间停顿了一下或者被打断导致需要通过第二音频信号进行补充。

这里，以第一语义内容为“请帮我”，第二语义内容为“定个闹钟”为例，对第一语义内容和第二语义内容进行语义分析，确定出第一语义内容和第二语义内容互为补充。然后可以组合第一音频数据和第二音频数据得到目标音频数据。这样就可以确定用户最终的需求是“请帮我定个闹钟”。

再例如，第一语义内容和所述第二语义内容相互矛盾，则可以以所述第二音频数据作为所述目标音频数据，这种应用场景为：用户发出的第一音频信号错误，通过第二音频信号纠正的场景。

以第一语义内容为“今天武汉的天气”，第二语义内容为“不，我想查的是今天北京的天气”为例。对第一语义内容和第二语义内容进行语义分析，则可以分析出第一音频数据和第二音频数据均为用于查询天气。虽然第一语义内容和第二语义内容具有相关性，但是第一音频数据用于查询武汉天气，而第二音频数据是用于查询北京天气的，两者是相互矛盾的，且能够分析出第一语义内容是错误的。这时可以判定目标应用程序可以不用对第一音频数据进行处理，并将第二音频数据确定为目标音频数据，并输出第二音频数据所对应的响应信息。

又例如，第一语义内容和所述第二语义内容相互独立，没有语义上的相互补充和矛盾，则将所述第一音频数据和第二音频数据作为两条目标音频数据，分别需要进行音频响应。这种应用场景为：用户比较着急的情况下或者语速比较快的用户，可能很短的时间内发出了完全独立的两条语音信号。

这里，以第一语义内容为“今天武汉的天气”，第二语义内容为“请帮我定一个闹钟”为例，对第一语义内容和第二语义内容进行语义分析，则可以分析出第一语义内容和第二语义内容并不相关，且第一音频数据和第二音频数据可以分别表征用户两种不同的需求。这时，就可以确定第一语义内容和所述第二语义内容相互独立，即没有语义上的相互补充和矛盾，则将所述第一音频数据和第二音频数据作为两条目标音频数据，分别需要进行音频响应，并分别输出第一音频数据和第二音频数据所对应的响应信息。

本公开实施例中的技术方案，相较于对接收到的音频数据进行响应之后再对下一个音频数据进行处理，不需要再次唤醒目标应用程序，在简化对话流程的基础上，使语音交互过程更加流畅；且结合第一音频数据和第二音频数据，得到目标音频数据，对目标音频数据一起进行音频响应，能够更加精确的获得用户真实需求，减少孤立的分别响应第一音频数据和第二音频数据导致的响应错误的概率，故还提升了音频响应的正确率。

在其他可选的实施例中，该方法还包括：

确定结束获取第一音频数据与开始获取第二音频数据之间的时间差；

对应地，步骤103包括：

如果结束获取第一音频数据与开始获取第二音频数据之间的时间差大于或者等于第一设定时长，则根据第一音频数据和第二音频数据，得到目标音频数据。

由于在获取音频数据的过程中，用户可能会稍有停顿。这时，目标应用程序可能会将停顿前后所获取到的音频数据分别确定为第一音频数据和第二音频数据。

由于第一音频数据和第二音频数据的获取时刻不同，且第二音频数据是在结束第一音频数据之后获取的，电子设备可以分别获取结束获取第一音频数据的结束时刻和开始获取第二音频数据的开始时刻，然后基于该结束时刻和开始时刻得到时间差。

然后，将获得的时间差与设置的第一设定时长进行比较，在时间差大于或者等于第一设定时长时，则确定用户可能不是在讲话的过程中稍有停顿。这种情况下需要对第一音频数据和第二音频数据进行进一步的判断和处理，以得到目标音频数据。例如，可以将第一音频数据和第二音频数据分别作为目标音频数据、或者对第一音频数据和第二音频数据进行拼接处理，得到目标音频数据等。

如果结束获取第一音频数据与开始获取第二音频数据之间的时间差小于第一设定时长，则确定用户是在讲话的过程中稍有停顿。此时，可以直接将第一音频数据和第二音频数据拼接为完整的音频数据，并将该完整的音频数据作为目标音频数据。

本公开实施例中，在得到目标音频数据之前，先对结束获取第一音频数据与开始获取第二音频数据之间的时间差进行一个判定，再确定是否要对第一音频数据和第二音频数据进行进一步处理，能够减少对获取到的音频数据进行不必要的处理过程。

在其他可选的实施例中，如果时间差大于或者等于第一设定时长，则根据第一音频数据和第二音频数据，得到目标音频数据，包括：

如果时间差大于或者等于第一设定时长，则检测第一音频数据的输入是否完整；

如果第一音频数据的输入不完整，则根据第一音频数据和第二音频数据，得到目标音频数据。

在结束获取第一音频数据与开始获取第二音频数据之间的时间差大于或者等于第一设定时长时，可以进一步检测第一音频数据的输入是否完整。检测第一音频数据的输入是否完整包括：获取第一语音数据的第一语义内容；对所述第一语义内容进行语义分析，得到语义分析结果；根据语义分析结果确定第一音频数据的输入是否完整。

例如，第一音频数据的第一语义内容为“请帮我定”。经过对第一语义内容进行分析可知，虽然第一语义内容中包括部分词语，但是仅基于第一语义内容中所包含的词语并不足以确定出用户的需求是什么。由此可知，第一语义内容用户可能是在发出语音信号的过程中有所停顿或者被中断，可以判定第一语音数据的输入不完整。

在其他的实施例中，当第一语音数据不完整，且检测到用户不再输入其它音频信号时，目标应用程序也可以根据语境，针对第一音频数据做出相应的响应信息。例如，第一音频数据的第一语义内容为“请帮我定”，目标应用程序所做出的响应信息则可以为“请问您需要我帮您定什么”。

这里，可以基于自然语言处理NLP(Natural Language Processing)技术检测第一音频数据的输入是否完整。

在其他可选的实施例中，如果第一音频数据的输入不完整，则根据第一音频数据和第二音频数据，得到目标音频数据，包括：

如果第一音频数据的输入不完整，判断第一音频数据与第二音频数据是否能够拼接；

如果第一音频数据与第二音频数据能够拼接，则将第一音频数据与第二音频数据进行拼接，得到目标音频数据。

例如，第一音频数据所包含的内容为“今天的天气是”，第二音频数据所包含的内容为“晴天”，则第三音频数据、即目标音频数据所包含的内容则为“今天的天气是晴天”。

在其他可选的实施例中，该方法还包括：如果第一音频数据的输入完整，则将第一音频数据和第二音频数据分别确定为目标音频数据。

这里，如果第一音频数据的输入完整，则确定目标应用程序可以针对于第一音频数据得到对应的响应信息，这时，就可以直接将第一音频数据确定为目标音频数据。同样地，如果第二音频数据的输入完整，则可以将第二音频数据确定为目标音频数据。这样，目标应用程序就可以分别得到第一音频数据和第二音频数据对应的响应信息。

在其他可选的实施例中，该方法还包括：

对目标音频数据进行回声消除处理；基于进行回声消除处理后的目标音频数据，得到响应信息；输出响应信息。

在进行音频处理的过程中，电子设备可能会录入电子设备自身发出的音频信号(音乐、消息提示音)等，这时，就需要对目标音频数据进行回声消除处理，并基于进行回声处理之后的目标音频数据得到响应信息，这样，能够减少电子设备所发出的音频信号的干扰，保证目标应用程序所输出的响应信息的准确性和稳定性。

这里，可以基于自动语音识别(Automatic Speech Recognition，ASR)技术和回声消除(Acoustic Echo Cancellation，AEC)技术对目标音频数据进行回声消除处理。

在其他的实施例中，为了减少录入环境噪音、环境人声(用户或者他人不针对于目标应用程序所发出的声音)等的概率，还可以基于ASR技术和NLP技术对目标音频数据进行处理，以屏蔽掉不是对目标应用程序所发出的声音。

在其他可选的实施例中，该方法还包括：

获取待检测音频数据；确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息；如果待检测音频数据中包含唤醒信息，则对目标应用程序进行唤醒处理；其中，音频数据包括语音数据。

可以通过电子设备所包含的音频采集组件采集音频信号，并对音频信号进行数字化处理，得到音频数据，其中，音频采集组件可以是电子设备所包含的用于采集音频的组件，以电子设备是手机为例，音频采集组件可以为手机上的麦克风。

其中，待检测音频数据可以包括：对采集到的用户的语音信号进行数字化处理得到的语音数据；唤醒信息可以为预先设定的唤醒词；目标应用程序可以是安装在电子设备上的用于与用户进行语音交互的应用程序，例如，语音助手。

具体地，在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时，可以对该语音信号进行数字化处理，得到语音数据，并检测语音数据中是否包含预先设定的唤醒词。其中，唤醒词可以是用户根据需求设定的，例如，可以将唤醒词设置为“小爱同学”。

其中，唤醒处理是指控制目标应用程序从休眠状态进入工作状态，在唤醒目标应用程序之后，可以通过目标应用程序对音频数据进行处理。在其他实施例中，还可以通过图标、快捷键等接收用户输入的唤醒操作，唤醒目标应用程序。

在其他可选的实施例中，以安装在手机上的语音助手为例，用户在与手机上的语音助手进行语音交互时，可以先通过设定指令唤醒语音助手，在唤醒语音助手之后开始讲话，语音助手会根据用户讲话的内容做出相应的反馈。

其中，设定指令包括以下至少之一：设定的语音指令、针对手机上的图标的触发指令、针对手机上的快捷键的触发指令。这里，以用户向语音助手询问今天和明天的天气为例，主要对话内容如下：

用户：小爱同学(这里是通过语音指令唤醒的语音助手，也可以通过点击图标、快捷键等其他方式唤醒语音助手)

小爱：在/提示音(响应提示)

用户：今天天气

小爱：今天北京天气……(播报今天天气)

小爱：在/提示音(响应提示)

用户：明天呢

小爱：明天北京天气……(播报明天天气)

在其他实施例中，用户可以先通过设定指令唤醒语音助手，在唤醒语音助手之后开始讲话，如果语音助手在用户讲完一句话之后，预判出用户可能会继续说话，会在语音助手回复结束后，自动打开麦克风，以接收用户发出的下一条指令。这里，以用户通过语音助手定闹钟为例，主要对话内容如下：

小爱：在/提示音(响应提示)

用户：我要定闹钟

小爱：你想设置几点的闹钟

用户：晚上七点

小爱：为你定好了，晚上七点的闹钟

图2是根据一示例性实施例示出的音频处理方法的流程示意图二，如图2所示，该方法主要包括以下步骤：

在步骤201中，获取待检测音频数据，确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息。

例如，在基于电子设备所包含的音频采集组件接收到用户发出的语音信号时，可以对该语音信号进行数字化处理，得到语音数据，并检测语音数据中是否包含预先设定的唤醒词。其中，唤醒词可以是用户根据需求设定的，例如，可以将唤醒词设置为“小爱同学”。

在步骤202中，如果待检测音频数据中包含唤醒信息，则对目标应用程序进行唤醒处理。

唤醒处理是指控制目标应用程序从休眠状态进入工作状态，在唤醒目标应用程序之后，可以通过目标应用程序对音频数据进行处理。在其他实施例中，还可以通过图标、快捷键等接收用户输入的唤醒操作，唤醒目标应用程序。

在步骤203中，在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据。

第一音频数据是对第一音频信号进行数字化处理之后的数据，其中，第一音频信号可以为基于声音采集组件采集的用户发出的语音信号。

在步骤204中，在获取第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，获取第二音频数据。

在步骤205中，确定结束获取第一音频数据与开始获取第二音频信号所对应的第二音频数据之间的时间差。

在步骤206中，判断结束获取第一音频数据与开始获取第二音频数据之间的时间差是否大于或者等于第一设定时长。

在其他实施例中，如果结束获取第一音频数据与开始获取第二音频数据之间的时间差小于第一设定时长，则直接将第一音频数据和第二音频数据拼接为目标音频数据。

基于结束获取第一音频数据与开始获取第二音频数据之间具有时间差，而目标应用程序不能确定第一音频数据和第二音频数据是两组完全独立的数据，还是具备关联性的两组数据，可能不能做出准确的响应。

本公开实施例中，在得到目标音频数据之前，先对结束获取第一音频数据与开始获取第二音频数据之间的时间差进行一个判定，再确定是否要对第一音频数据和第二音频数据进行进一步处理，不仅能够减少对获取到的音频数据进行不必要的处理过程，还可以得到更加精确的响应信息。

在步骤207中，如果时间差大于或者等于第一设定时长，则检测第一音频数据的输入是否完整。

这里，可以NLP技术检测第一音频数据的输入是否完整。如果检测到第一音频数据的输入完整，则得到与第一音频数据相对应的相应信息，并输出该响应信息。

在步骤208中，如果第一音频数据的输入不完整，判断第一音频数据与第二音频数据是否能够拼接。

在步骤209中，如果第一音频数据与第二音频数据能够拼接，则将第一音频数据与第二音频数据进行拼接，得到目标音频数据。

在步骤210中，如果第一音频数据的输入完整，则将第一音频数据和第二音频数据分别确定为目标音频数据。

在步骤211中，基于目标音频数据，得到响应信息。

在步骤212中，输出响应信息。

在其他可选的实施例中，基于接收到的交互终止指令，结束目标应用程序与用户之间的交互。这里，是通过语音方式输入交互终止指令，也可以通过点击图标、快捷键等其他方式输入交互终止指令。

本公开实施例中，在唤醒目标应用程序之后，用户可以随时、直接与目标应用程序进行对话，这样，目标应用程序在进行连续对话的过程中，也能够及时响应用户的所输入的各个音频信号。例如，当用户在听音乐的过程中，如果用户对目标应用程序所提供的音乐内容不满意时，可以直接说一声“换一首”；当用户需要连续对目标应用程序发出语音信号时，目标应用程序能够连续接收语音信号并进行相应的响应，不需要再次唤醒目标应用程序，也不需要等待目标应用程序将针对之前接收的语音信号所做出的响应信息输出完毕。

图3是根据一示例性实施例示出的一种音频处理装置框图。如图3所示，该音频处理装置300主要包括：

第一音频获取模块301，配置为在唤醒目标应用程序之后，获取第一音频信号所对应的第一音频数据；

第二音频获取模块302，配置为在获取第一音频数据的过程中，如果检测到第二音频信号所对应的第二音频数据，则获取第二音频数据；

第一音频确定模块303，配置为根据第一音频数据和第二音频数据，得到目标音频数据。

在其他可选的实施例中，装置300还包括：

时间确定模块，配置为确定结束获取第一音频数据与开始获取第二音频数据之间的时间差；

第一音频确定模块，包括：

音频确定子模块，配置为如果时间差大于或者等于第一设定时长，则根据第一音频数据和第二音频数据，得到目标音频数据。

在其他可选的实施例中，音频确定子模块，具体配置为：

在其他可选的实施例中，音频确定子模块，还具体配置为：

在其他可选的实施例中，装置300还包括：

第二音频确定模块，配置为如果第一音频数据的输入完整，则将第一音频数据和第二音频数据分别确定为目标音频数据。

在其他可选的实施例中，装置300还包括：

回声消除模块，配置为对目标音频数据进行回声消除处理；

输出模块，配置为输出响应信息。

在其他可选的实施例中，装置300还包括：

第三音频获取模块，配置为获取待检测音频数据；

信息确定模块，配置为确定待检测音频数据中是否包含用于唤醒目标应用程序的唤醒信息；

唤醒模块，配置为如果待检测音频数据中包含唤醒信息，则对目标应用程序进行唤醒处理；

其中，音频数据包括语音数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种音频处理装置400的硬件结构框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种音频处理方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，所述方法应用于电子设备，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述如果所述时间差大于或者等于第一设定时长，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述如果所述第一音频数据的输入不完整，则根据所述第一音频数据和所述第二音频数据，得到所述目标音频数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

对所述目标音频数据进行回声消除处理；

基于进行回声消除处理后的目标音频数据，得到响应信息；

输出所述响应信息。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取待检测音频数据；

其中，所述音频数据包括语音数据。

8.一种音频处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述第一音频确定模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述音频确定子模块，具体配置为：

11.根据权利要求10所述的装置，其特征在于，所述音频确定子模块，还具体配置为：

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

13.根据权利要求9至12任一项所述的装置，其特征在于，所述装置还包括：

输出模块，配置为输出所述响应信息。

14.根据权利要求9至12任一项所述的装置，其特征在于，所述装置还包括：

第三音频获取模块，配置为获取待检测音频数据；

其中，所述音频数据包括语音数据。

15.一种音频处理装置，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至7中任一种音频处理方法中的步骤。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理装置的处理器执行时，使得所述装置能够执行上述权利要求1至7中任一种音频处理方法。