CN112702469B

CN112702469B - 语音交互方法和设备、音视频处理方法及语音播报方法

Info

Publication number: CN112702469B
Application number: CN201911013497.XA
Authority: CN
Inventors: 姚海通
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-07-22
Anticipated expiration: 2039-10-23
Also published as: CN112702469A

Abstract

本发明公开了一种语音交互方法和设备、音视频处理方法及语音播报方法。音频设备与智能设备建立连接，以向智能设备传输对应于输入语音的音频数据或音频信号；响应于在输入语音中存在预定内容，对预定内容对应的语音片段的音频数据或音频信号进行处理；以及通过上述连接，将经过处理的音频数据或音频信号传输给智能设备。对待播放的音频、视频，以及待播报的文本内容，也都可以进行类似的处理。由此，能够保障顺畅的语音交互、音频/视频播放、语音播报，不被系统的智能语音助手或其它应用的语音交互功能干扰。

Description

语音交互方法和设备、音视频处理方法及语音播报方法

技术领域

本公开涉及语音处理领域，特别涉及语音交互、音频及视频处理及语音播报技术领域。

背景技术

随着计算机技术的进步，语音处理能力显著提升，人与机器之间进行语音交互的方案得到了快速的发展。

苹果公司的iOS系统提供了智能语音助手Siri。当接收到用户发出的唤醒关键词语音“嘿！Siri”时，其智能语音助手Siri会唤醒，并与用户进行语音交互操作。

同样地，谷歌公司的安卓(Android)系统也提供了智能语音助手GoogleAssistant。当接收到用户发出的唤醒关键词语音“Hi，Google”(或“OK，Google”、“Hey，Google”)时，其智能语音助手Google Assistant会唤醒，并与用户进行语音交互操作。

另外，还有很多应用也都分别提供了语音交互的功能。当用户发出相应的唤醒关键词时，会唤醒这些应用的语音交互功能，与用户进行语音交互操作。

这些语音交互功能为人机交互带来了很多便利。

然而，当在一个设备上具有多个语音交互系统时，在一些情况下，也会产生相互干扰的情形。

例如，当用户通过一个应用进行语音交互的过程中，提到了系统或另一个应用的语音交互功能的唤醒关键词时，例如iOS系统中的“嘿！Siri”或安卓系统中的“Hi，Google”时，会唤醒系统或另一个应用的语音交互功能。这样，用户与前一个应用之间的正常语音对话就被打断，语音交互过程受到了干扰。

这种干扰问题的一种解决方案是在系统设置或其它应用设置中进行设置，以关闭系统的智能语音助手，或关闭唤醒关键词唤醒功能。

然而，当用户下次希望通过相应唤醒关键词唤醒系统的智能语音助手或该应用的语音交互功能时，又需要再次开启唤醒关键词唤醒功能。

这样，操作将会非常麻烦。

同样地，在进行音频及视频播放时，以及自动语音播报时，也存在类似的的干扰问题。

因此，仍然需要能够避免被系统的智能语音助手或其它应用的语音交互功能干扰的语音交互方案。

发明内容

本发明要解决的一个技术问题是，提供一种涉及音频的处理方案，其能够避免被系统的智能语音助手或其它应用的语音交互功能干扰。

根据本公开的第一个方面，提供了一种语音交互方法，包括：与智能设备建立连接，以向智能设备传输对应于输入语音的音频数据或音频信号；响应于在输入语音中存在预定内容，对预定内容对应的语音片段的音频数据或音频信号进行处理；以及通过上述连接，将经过处理的音频数据或音频信号传输给智能设备。

可选地，连接是使得智能设备关闭其自身的音频输入功能的连接。

可选地，连接是蓝牙连接。

可选地，该语音交互方法还可以包括：接收输入语音，并将其转换为音频数据或音频信号；或者与音频输入设备建立第二连接，并经由第二连接从音频输入设备接收输入语音的音频数据或音频信号。

可选地，该语音交互方法还可以包括：对输入语音进行语音识别或语音特征检测，以从其中检测预定内容。

可选地，处理是使得智能设备上针对预定内容的识别机制不能识别预定内容的处理。

可选地，处理包括下述至少一种：将语音片段拉长或压缩；在语音片段中进行插入处理；对语音片段进行模糊化操作。

可选地，预定内容是智能设备的功能激活关键词。

可选地，智能设备基于所接收到的音频数据或音频信号进行交互处理。

可选地，该方法还可以包括：将音频数据识别为文本；检测文本中是否存在第一文本内容，第一文本内容对应于上述预定内容。

可选地，检测文本中是否存在第一文本内容的步骤可以包括：对文本中的文本内容进行自然语言理解处理，以识别其中对应于预定意图的文本内容，作为第一文本内容。

根据本公开的第二个方面，还提供了一种语音交互方法，包括：与音频设备建立连接；通过上述连接从音频设备接收音频数据；响应于在音频数据中存在对应于预定内容的语音片段的音频数据，对语音片段的音频数据进行处理；以及基于经过处理的音频数据进行交互处理。

可选地，连接是蓝牙连接。

可选地，该语音交互方法还可以包括：音频设备接收输入语音，并将其转换为音频数据；或者音频设备与音频输入设备建立第二连接，并经由第二连接从音频输入设备接收输入语音的音频数据或音频信号。

可选地，与音频设备建立连接的步骤包括：基于私有协议在智能设备上的应用与音频设备之间建立连接，通过上述连接从音频设备接收音频数据的步骤包括：基于私有协议从音频设备接收音频数据。

可选地，从音频设备接收的音频数据是基于私有协议编码的音频数据，基于私有协议从音频设备接收音频数据的步骤包括：应用从智能设备的连接模块接收来自音频设备的音频数据；以及基于私有协议对所接收的音频数据进行解码。

可选地，该语音交互方法还可以包括：对解码后的音频数据进行语音识别或语音特征检测，以从其中检测预定内容。

可选地，预定内容是智能设备的功能激活关键词。

开心的，处理是使得智能设备上针对预定内容的识别机制不能识别预定内容的处理。

可选地，该方法由智能设备上的应用执行，该方法还可以包括：向智能设备的操作系统和/或智能设备上的其它应用传送经过处理的音频数据。

根据本公开的第三个方面，还提供了一种音频设备，包括：音频处理模块，响应于在输入语音中存在预定内容，对预定内容对应的语音片段的音频数据进行处理；以及第一连接模块，用于与智能设备建立连接，并通过上述连接，将经过处理的音频数据传输给智能设备。

可选地，该音频设备还可以包括：音频输入模块，用于接收输入语音，并将其转换为音频数据；或者第二连接模块，用于与音频输入设备建立第二连接，并经由第二连接从音频输入设备接收输入语音的音频数据或音频信号。

根据本公开的第四个方面，还提供了一种语音交互设备，包括：第一连接装置，用于与智能设备建立连接，以向智能设备传输对应于输入语音的音频数据；第一处理装置，响应于在输入语音中存在预定内容，对预定内容对应的语音片段的音频数据进行处理；以及传输装置，用于通过上述连接，将经过处理的音频数据传输给智能设备。

根据本公开的第五个方面，还提供了一种语音交互设备，包括：连接装置，用于与音频设备建立连接；接收装置，用于通过上述连接从音频设备接收音频数据；第二处理装置，响应于在音频数据中存在对应于预定内容的语音片段的音频数据，对语音片段的音频数据进行处理；以及交互装置，基于经过处理的音频数据进行交互处理。

根据本公开的第六个方面，还提供了一种视频处理方法，包括：检测视频中是否存在对应于预定内容的语音片段；以及响应于检测到对应于预定内容的语音片段，对语音片段的音频数据或音频信号进行处理。

可选地，检测视频中是否存在对应于预定内容的语音片段的步骤包括：在视频的字幕文本中检测对应于预定内容的文本片段；以及以视频中所检测到的文本片段对应的语音片段作为对应于预定内容的语音片段。

可选地，所述处理包括：删除语音片段；或者将语音片段替换为预定音频内容。

根据本公开的第七个方面，还提供了一种视频播放方法，包括：使用根据根据本公开的第六个方面的方法对待播放视频进行处理；以及播放待播放视频。

根据本公开的第八个方面，还提供了一种语音播报方法，包括：检测待播报文本中是否存在第一文本内容；删除所检测到的第一文本内容，或将所检测到的第一文本内容替换为第二文本内容，以得到新的待播报文本；以及将新的待播报文本转换为语音信号。

根据本公开的第九个方面，还提供了一种音频处理方法，包括：将音频数据识别为文本；检测文本中是否存在第一文本内容；删除所检测到的第一文本内容，或将所检测到的第一文本内容替换为第二文本内容，以得到新文本；以及将新文本转换为语音信号。

可选地，检测文本中是否存在第一文本内容的步骤包括：对文本中的文本内容进行自然语言理解处理，以识别其中对应于预定意图的文本内容，作为第一文本内容。

根据本公开的第十个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

根据本公开的第十一个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本方案能够保障顺畅的语音交互、音视频播放以及自动语音播报，不被系统的智能语音助手或其它应用的语音交互功能干扰。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出根据本公开的语音交互方案的基本构思的示意图。

图2示出了根据本公开第一实施例的语音交互系统的示意性框图。

图3示出了根据本公开第二实施例的语音交互系统的示意性框图。

图4示出了根据本公开第三实施例的语音交互方法的示意性流程图。

图5示出了根据本公开第三实施例的语音交互设备的示意性流程图。

图6示出了根据本公开第四实施例的语音交互方法的示意性流程图。

图7示出了根据本公开第四实施例的语音交互设备的示意性流程图。

图8示出了可用于实现上述语音交互方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

当智能设备，例如手机等，通过一些连接方式(例如蓝牙连接方式)连接到音频设备(例如麦克风或具有音频输入功能的蓝牙耳机)以从该音频设备接收音频输入时，智能设备会自动禁用或关闭其自身的音频输入功能，或者说，会关闭智能设备自带的麦克风。

这样，在将来自音频设备的音频输入提供给智能设备的系统或智能设备上安装的其它应用，以便系统或其它应用对音频输入进行后续处理(例如检测其中是否存在相应的唤醒关键词)之前，如果能够对唤醒关键词对应的音频信号或音频数据进行处理，使得系统或其它应用不能从音频输入中识别出该关键词，那么就能够避免系统的智能语音助手或其它应用的语音交互功能被唤醒，从而避免当前对话被打断，从而免受干扰。

换言之，在智能设备与音频设备连接以从音频设备接收音频输入的情况下，使得能够在系统或其它应用检测唤醒关键词之前对相应的音频信号或音频数据进行处理，以从而避免唤醒系统的智能语音助手或其它应用的语音交互功能。

下面参考图1描述本公开在系统或其它应用检测唤醒关键词之前对相应的音频信号或音频数据进行处理的语音交互方案的基本构思。

本公开的语音交互过程可以是基于智能设备上的应用执行的。在基于该应用执行语音交互的过程中，需要防止系统的智能语音助手或其它应用的语音交互功能对该应用的语音交互过程产生干扰。

图1示意性地示出了根据本公开的语音交互方案的基本构思。

如图1所示，在语音交互过程中，对输入语音进行步骤S30的后续处理之前，在步骤S10判断输入语音中是否存在预定内容。

这里，输入语音可以是音频数据的数字形式，也可以是音频信号的模拟信号形式。

要检测的预定内容可以是智能设备的功能激活关键词。

例如，功能激活关键词可以是智能设备的系统的智能语音助手或其它应用的语音交互功能的上述唤醒关键词。

这里，也可以采用与系统或各应用的唤醒关键词识别方法相同的方法。也可以采用其它关键词识别方案。

例如，可以通过语音识别技术来检测输入语音中的预定内容。

或者，不一定需要将输入语音都识别为文本，而是可以通过对输入语音进行语音特征检测等方式，识别预定内容。例如，可以在音频数据或音频信号中寻找具有对应于预定内容的语音的特征的音频片段。这样，在检测过程中，不需要太强的语音处理能力，也不会耗费过多的资源。

当然，本申请的预定内容检测方法不限于此，可以采用各种可行的方法来进行检测。

在存在预定内容的情况下，在步骤S20，对预定内容对应的语音片段的音频数据或音频信号进行处理。

这里的处理，可以是使得智能设备上系统或其它应用针对预定内容的识别机制不能识别所述预定内容的处理。或者说，这里的处理使得相应的音频数据或音频信号发生变化，不易于被系统或其它应用识别。

例如，可以将预定内容对应的语音片段拉长或压缩，使得不易识别。

或者，可以在语音片段中进行插入处理，插入其它一些声音片段等，使得不易识别。

或者，还可以对语音片段进行模糊化操作，使得语音模糊而不易识别。

由此，可以在尽量不影响后续处理中的语音理解的情况下，避免触发智能设备的系统的智能语音助手或其它应用的语音交互功能。

在没有预定内容的情况下，将输入语音对应的音频信号或音频数据提供给步骤S30进行后续处理。

这里的后续处理可以包括两个方面。

一方面，后续处理可以包括当前语音交互过程的后续处理，例如语音识别、语义识别、交互决策等。换言之，智能设备例如通过其上安装的特定应用，基于所接收到的对应于语音输入的音频数据或音频信号进行交互处理。

另一方面，后续处理还可以包括智能设备的系统或其它应用的对该语音输入的相应处理，例如唤醒关键词检测等。

这样，在一些情况下，例如由于智能设备系统的具体设置，智能设备的系统或其它应用要对智能设备接收到的语音输入进行检测、激活关键词识别等处理。

在这些处理之前，在步骤S20对输入语音中存在的预定内容对应的语音片段的音频数据或音频信号进行了处理。系统或其它应用将不会识别出输入语音中原本具有的激活关键词，不会激活相应的智能语音助手或语音交互功能，从而不会打断当前的语音交互过程，不会产生干扰。

下面参考图2和图3来描述根据本公开的语音交互系统。

图2示出了具有音频输入模块110的音频设备100连接到智能设备200的情形。

如图2所示，音频设备100可以包括音频输入模块110和第一连接模块130。

音频输入模块110将所接收到的声音振动转换为音频信号，或者进一步通过模数转换而转换为音频数据。一般地，音频输入模块110例如可以是麦克风。

第一连接模块130用于与智能设备200建立连接。

如上所述，当音频设备100通过第一连接模块130连接到智能设备200时，智能设备200自身的音频输入功能被关闭。

这里的连接例如可以是音频信号线连接、USB数据线连接等有线连接，或者是Wi-Fi、蓝牙等无线数据连接。优选地，可以采用蓝牙连接方式。相应的第一连接模块130为蓝牙连接模块。

在语音交互过程中，音频设备100的音频输入模块110接收输入语音，并将其转换为音频信号或音频数据。

第一连接模块130将音频信号或音频数据传输给智能设备200。

智能设备200基于所接收到的音频数据或音频信号进行交互处理。

这里，智能设备200还可以进一步连接到云端300的服务器，通过与云端300配合来实现交互处理。

当在音频设备100执行上述步骤S10和S20的处理时，如图2所示，音频设备100还可以包括音频处理模块120。而当在智能设备200执行上述步骤S10和S20的处理时，音频设备100则可以不包括音频处理模块120。

关于这两种情形，下文中将进一步详细描述。

图3示出了具有音频输入设备400通过音频设备100连接到智能设备200的情形。

如图3所示，音频设备100可以包括第一连接模块130和第二连接模块140。

与图2所示情形相同，第一连接模块130用于与智能设备200建立连接。

音频输入设备400将所接收到的声音振动转换为音频信号，或者进一步通过模数转换而转换为音频数据。音频输入设备400可以是任何具有音频输入功能的设备。一般地，音频输入设备400例如可以是具有麦克风的设备。

第二连接模块140与音频输入设备400建立第二连接，并经由第二连接从音频输入设备接收输入语音的音频数据或音频信号。

第二连接例如可以是音频信号线连接、USB数据线连接等有线连接，或者是Wi-Fi、蓝牙等无线数据连接。当第一连接模块和第二连接模块均采用无线数据连接方式时，优选两者采用不同的连接方式。

优选地，第二连接模块采用有线连接方式，例如音频信号线连接，而第一连接模块采用无线连接方式，例如蓝牙连接方式。

在语音交互过程中，音频输入设备400接收输入语音，并将其转换为音频信号或音频数据。

音频设备100经由第二连接从音频输入设备400接收输入语音的音频数据或音频信号。

第一连接模块130将音频信号或音频数据传输给智能设备200。

当在音频设备100执行上述步骤S10和S20的处理时，如图3所示，音频设备100还可以包括音频处理模块120。而当在智能设备200执行上述步骤S10和S20的处理时，音频设备100则可以不包括音频处理模块120。

关于这两种情形，下文中将进一步详细描述。

首先，描述在音频设备100执行上述步骤S10和S20的处理的情形。

如图2和3所示，这种情形下，音频设备100还可以包括音频处理模块120。

当在音频输入模块110(图2)接收的输入语音、或由第二连接模块140从音频输入设备400(图3)接收的输入语音中存在预定内容时，音频处理模块120对预定内容对应的语音片段的音频数据或音频信号进行上述处理。

图4示出了由音频设备100对预定内容对应的语音片段进行处理的实施例的流程图。

在步骤S410，音频设备100与智能设备200建立连接，以向智能设备200传输对应于输入语音的音频数据或音频信号。

如上所述，此时，智能设备200自身的音频输入功能被关闭。

在步骤S420，响应于在输入语音中存在预定内容，音频处理模块120对预定内容对应的语音片段的音频数据或音频信号进行上述处理(例如图1中上述步骤S10和S20的处理)，使得系统或其它应用不易识别出该预定内容。

然后，在步骤S430，通过上述连接，将经过处理的音频数据或音频信号传输给智能设备200。

智能设备200基于从音频设备100接收到的音频数据或音频信号进行交互处理。

图5示出了可用于实施图4所述方法的语音交互设备500的示意性框图。

该语音交互设备500可以实施为上述音频设备100。

如图5所示，该语音交互设备500可以包括第一连接装置510、第一处理装置520以及传输装置530。

第一连接装置510用于与智能设备200建立连接，以向智能设备200传输对应于输入语音的音频数据。

第一处理装置520响应于在输入语音中存在预定内容，对预定内容对应的语音片段的音频数据进行上述处理。

传输装置530用于通过上述连接，将经过处理的音频数据传输给智能设备200。

另外，在语音交互设备500从音频输入设备400接收输入语音的音频数据或音频信号时，该语音交互设备500还可以包括第二连接装置(图中未示出)，用来与音频输入设备400建立第二连接。

由于智能设备200接收到的音频数据或音频信号中对应于预定内容(例如唤醒关键词)的语音片段的部分已经被处理过，系统或其它应用不会识别出该预定内容(例如唤醒关键词)，也就不会唤醒系统的智能语音助手或其它应用的语音交互功能。

于是，音频数据或音频信号传送给智能设备上执行当前语音交互功能的应用，从而可以正常而又顺畅地基于所接收到的音频数据或音频信号进行交互处理，而不会被打断或干扰。

接下来，描述在智能设备200执行上述步骤S10和S20的处理的情形。

这种情形下，音频设备100可以不必包括音频处理模块120，由智能设备200对预定内容对应的语音片段的音频数据进行上述处理。

图6示出了由智能设备200对预定内容对应的语音片段进行处理的实施例的流程图。

在步骤S610，智能设备200与音频设备100建立连接。

如上所述，此时，智能设备200自身的音频输入功能被关闭。

在图2所示情形下，音频设备100接收输入语音，并将其转换为音频数据。

或者，在图3所示情形下，音频设备100经由第二连接从音频输入设备400接收输入语音的音频数据或音频信号。在从音频输入设备400接收音频信号的情况下，音频设备100还可以对该音频信号进行模数转换，得到音频数据。

在步骤S620，通过上述连接从音频设备接收音频数据。

为了避免智能设备200从音频设备100接收到音频数据之后，系统或其它应用识别预定内容(例如唤醒关键词)从而激活系统的智能语音助手或其它应用的语音交互功能，优选地，可以在音频设备100和智能设备200上执行当前语音交互功能的应用之间，使用私有协议来进行数据通信。

具体说来，在步骤S610，可以基于私有协议在智能设备200上执行当前语音交互功能的应用与音频设备100之间建立上述连接。

相应地，在步骤S620，智能设备200上执行当前语音交互功能的应用基于上述私有协议从音频设备100接收音频数据。从音频设备100接收的音频数据可以是基于私有协议编码的音频数据。

智能设备200的系统和其它应用不能识别基于私有协议传输的音频数据，因此不会激活其智能语音助手或语音交互功能。

当前应用可以在从智能设备200的连接模块接收到来自音频设备100的音频数据之后，基于私有协议对所接收的音频数据进行解码。

然后，当前应用可以对解码后的音频数据进行语音识别或语音特征检测，以从其中检测预定内容。

在步骤S630，响应于在音频数据中存在对应于预定内容的语音片段的音频数据，对语音片段的音频数据进行上述处理(例如图1中上述步骤S10和S20的处理)。

在此之后，即使将音频数据提供给智能设备200的系统或其它应用，系统或其它应用也不能识别出预定内容(例如唤醒关键词)，不会激活其智能语音助手或语音交互功能，因而不会对当前语音交互功能产生干扰。

由此，在步骤S640，可以基于经过上述处理的音频数据进行交互处理，而不会受到系统或其它应用的干扰。

图7示出了可用于实施图6所述方法的语音交互设备700的示意性框图。

该语音交互设备700可以实施为上述智能设备200。

如图7所示，该语音交互设备700可以包括语音连接装置710、接收装置720、第二处理装置730、交互装置740。

连接装置710用于与音频设备建立连接。

接收装置720通过上述连接从音频设备接收音频数据。

第二处理装置730响应于在音频数据中存在对应于预定内容的语音片段的音频数据，对语音片段的音频数据进行处理。

交互装置740基于经过处理的音频数据进行交互处理。在进行交互处理的过程中，还可以与云端300的服务器进行通信以执行交互处理。

而系统或其它应用不能识别出预定内容(例如唤醒关键词)，不会激活其智能语音助手或语音交互功能，因而不会对当前语音交互功能产生干扰。

上文中详细描述了在语音交互过程中，避免因激活智能语音助手或语音交互功能，而对当前语音交互功能产生干扰的方案。

另一方面，本公开的技术构思还可以用于其它一些应用场景。

例如，在智能设备或智能设备附近的其它视频播放设备上播放视频时，视频中包含的一些预定内容(例如唤醒关键词)的音频内容也可能会激活智能语音助手或语音交互功能，从而对视频播放产生干扰。

此时，可以对待播放视频进行处理，例如删除或替换其中相关音频内容。由此，再播放该视频时，不会产生上述干扰。

在对待播放视频进行的上述处理中，可以检测视频中是否存在对应于预定内容的语音片段。

响应于检测到对应于预定内容的语音片段，可以对语音片段的音频数据或音频信号进行处理。该处理可以包括删除语音片段，或者将语音片段替换为预定音频内容。

这里，可以采用和上文中描述的针对音频进行检测的方法相同或类似的方法来检测对应于预定内容的语音片段。

或者，也可以借助于视频对应的字幕文件(视频自带的字幕文件、或者从网络等其它途径获得的对应字幕文件)来检测视频中是否存在对应于预定内容的语音片段。

换言之，可以在视频的字幕文本中检测对应于预定内容的文本片段。以视频中所检测到的文本片段对应的语音片段作为对应于预定内容的语音片段。

这种情况下，可以避免语音识别或音频信号检测的复杂处理。

又例如，在使用智能设备或智能设备附近的其它设备进行自动语音播报时，所播报的内容中如果包含预定内容，也可能会激活智能语音助手或语音交互功能，从而对视频播放产生干扰。

此时，可以在将待播报文本转换为语音信号之前，检测待播报文本中是否存在第一文本内容。

第一文本内容可以是对应于预定内容(例如唤醒词)的文本内容。

或者，还可以通过自然语言理解(语义识别)来识别需要处理的第一文本内容。

具体说来，可以对所述待播报文本中的文本内容进行自然语言理解处理，以识别其中对应于预定意图的文本内容。预定意图例如可以是对某个设备或应用或激活智能语音助手或语音交互功能的唤醒意图。这样，可以将通过自然语言理解识别出的文本内容作为所述第一文本内容。

如果检测到存在第一文本内容，则可以从待播报文本中删除所检测到的第一文本内容，或将所检测到的第一文本内容替换为第二文本内容，以得到新的待播报文本。第二文本内容可以是固定的文本，也可以是基于第一文本内容生成的内容，例如第一文本内容的同义词或近义词，或者将第一文本内容的字词顺序打乱后得到的文本内容。

然后，将新的待播报文本转换为语音信号。这样的语音信号播报之后，不会产生上述干扰。

另一方面，在播放音频或视频中包含的音频时，或者例如上文中描述的语音交互方案中，也可以借助文本识别来检测是否存在预定内容。

具体说来，可以将音频数据识别为文本，然后检测文本中是否存在第一文本内容(即唤醒词)。

同样地，第一文本内容可以是对应于预定内容(例如唤醒词)的文本内容。或者，还可以通过自然语言理解(语义识别)来识别需要处理的第一文本内容。

所检测到的第一文本内容对应的语音片段即为需要处理的语音片段。可以对如此检测到的语音片段进行上文中提到的处理。

或者，也可以删除所检测到的第一文本内容，或将所检测到的第一文本内容替换为第二文本内容，以得到新文本；以及将新文本转换为语音信号，从而得到新的音频数据。播放新的音频数据也不会产生上述干扰。

图8示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的方法。

上文中已经参考附图详细描述了根据本发明的方案。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法由音频设备执行，该方法包括：

与智能设备上执行当前语音交互功能的应用建立连接，以向所述应用传输对应于输入语音的音频数据或音频信号，其中，在所述应用与所述音频设备建立连接以从所述音频设备接收音频输入时，所述智能设备禁用或关闭其自身的音频输入功能；

响应于在输入语音中存在预定内容，对所述预定内容对应的语音片段的音频数据或音频信号进行处理,所述处理是使得所述智能设备上的操作系统和/或其它应用针对所述预定内容的识别机制不能识别所述预定内容的处理，所述预定内容是所述智能设备的功能激活关键词；以及

通过所述连接，将经过处理的音频数据或音频信号传输给所述应用。

2.根据权利要求1所述的语音交互方法，其特征在于，

所述连接是使得所述智能设备关闭其自身的音频输入功能的连接。

3.根据权利要求2所述的语音交互方法，其特征在于，

所述连接是蓝牙连接。

4.根据权利要求1所述的语音交互方法，其特征在于，还包括：

接收输入语音，并将其转换为音频数据或音频信号；或者

与音频输入设备建立第二连接，并经由所述第二连接从所述音频输入设备接收输入语音的音频数据或音频信号。

5.根据权利要求1所述的语音交互方法，其特征在于，还包括：

对所述输入语音进行语音识别或语音特征检测，以从其中检测所述预定内容。

6.根据权利要求1所述的语音交互方法，其特征在于，所述处理包括下述至少一种：

将所述语音片段拉长或压缩；

在所述语音片段中进行插入处理；

对所述语音片段进行模糊化操作。

7.根据权利要求1所述的语音交互方法，其特征在于，

所述智能设备基于所接收到的音频数据或音频信号进行交互处理。

8.根据权利要求1所述的语音交互方法，其特征在于，还包括：

将输入语音识别为文本；

检测所述文本中是否存在第一文本内容，所述第一文本内容对应于所述预定内容。

9.根据权利要求8所述的语音交互方法，其特征在于，检测所述文本中是否存在第一文本内容的步骤包括：

对所述文本中的文本内容进行自然语言理解处理，以识别其中对应于预定意图的文本内容，作为所述第一文本内容。

10.一种语音交互方法，其特征在于，所述语音交互方法由智能设备上执行当前语音交互功能的应用执行，该方法包括：

与音频设备建立连接；

通过所述连接从所述音频设备接收音频数据，其中，在所述应用与所述音频设备建立连接以从所述音频设备接收音频输入时，所述智能设备禁用或关闭其自身的音频输入功能；

响应于在所述音频数据中存在对应于预定内容的语音片段的音频数据，对所述语音片段的音频数据进行处理，所述处理是使得所述智能设备上的操作系统和/或其它应用针对所述预定内容的识别机制不能识别所述预定内容的处理，所述预定内容是所述智能设备的功能激活关键词；以及

基于经过处理的音频数据进行交互处理，并向所述智能设备的操作系统和/或其它应用传送经过所述处理的音频数据。

11.根据权利要求10所述的语音交互方法，其特征在于，

12.根据权利要求11所述的语音交互方法，其特征在于，

所述连接是蓝牙连接。

13.根据权利要求10所述的语音交互方法，其特征在于，还包括：

所述音频设备接收输入语音，并将其转换为音频数据；或者

所述音频设备与音频输入设备建立第二连接，并经由所述第二连接从所述音频输入设备接收输入语音的音频数据或音频信号。

14.根据权利要求10所述的语音交互方法，其特征在于，

所述与音频设备建立连接的步骤包括：

基于私有协议在智能设备上的应用与所述音频设备之间建立所述连接，

通过所述连接从所述音频设备接收音频数据的步骤包括：

基于所述私有协议从所述音频设备接收所述音频数据。

15.根据权利要求14所述的语音交互方法，其特征在于，

从所述音频设备接收的音频数据是基于所述私有协议编码的音频数据，

基于所述私有协议从所述音频设备接收所述音频数据的步骤包括：

所述应用从所述智能设备的连接模块接收来自所述音频设备的音频数据；以及

基于所述私有协议对所接收的音频数据进行解码。

16.根据权利要求15所述的语音交互方法，其特征在于，还包括：

对解码后的音频数据进行语音识别或语音特征检测，以从其中检测所述预定内容。

17.根据权利要求10所述的语音交互方法，其特征在于，所述处理包括下述至少一种：

将所述语音片段拉长或压缩；

在所述语音片段中进行插入处理；

对所述语音片段进行模糊化操作。

18.根据权利要求10所述的语音交互方法，其特征在于，还包括：

将音频数据识别为文本；

19.根据权利要求18所述的语音交互方法，其特征在于，检测所述文本中是否存在第一文本内容的步骤包括：

20.一种音频设备，其特征在于，包括：

音频处理模块，响应于在输入语音中存在预定内容，对所述预定内容对应的语音片段的音频数据进行处理,所述处理是使得智能设备上的操作系统和/或其它应用针对所述预定内容的识别机制不能识别所述预定内容的处理，所述预定内容是所述智能设备的功能激活关键词；以及

第一连接模块，用于与智能设备上执行当前语音交互功能的应用建立连接，并通过所述连接，将经过处理的音频数据传输给所述应用，其中，在所述应用与所述音频设备建立连接以从所述音频设备接收音频输入时，所述智能设备禁用或关闭其自身的音频输入功能。

21.根据权利要求20所述的音频设备，其特征在于，还包括：

音频输入模块，用于接收输入语音，并将其转换为音频数据；或者

第二连接模块，用于与音频输入设备建立第二连接，并经由所述第二连接从所述音频输入设备接收输入语音的音频数据或音频信号。

22.一种语音交互设备，其特征在于，包括：

第一连接装置，用于与智能设备上执行当前语音交互功能的应用建立连接，以向所述应用传输对应于输入语音的音频数据，其中，在所述应用与音频设备建立连接以从所述音频设备接收音频输入时，所述智能设备禁用或关闭其自身的音频输入功能；

第一处理装置，响应于在输入语音中存在预定内容，对所述预定内容对应的语音片段的音频数据进行处理,所述处理是使得所述智能设备上的操作系统和/或其它应用针对所述预定内容的识别机制不能识别所述预定内容的处理，所述预定内容是所述智能设备的功能激活关键词；以及

传输装置，用于通过所述连接，将经过处理的音频数据传输给所述应用。

23.一种语音交互设备，其特征在于，包括：

连接装置，用于与音频设备建立连接；

接收装置，用于通过所述连接从所述音频设备接收音频数据，其中，在所述语音交互设备与所述音频设备建立连接以从所述音频设备接收音频输入时，所述语音交互设备禁用或关闭其自身的音频输入功能；

第二处理装置，响应于在所述音频数据中存在对应于预定内容的语音片段的音频数据，对所述语音片段的音频数据进行处理,所述处理是使得所述语音交互设备上的操作系统和/或其它应用针对所述预定内容的识别机制不能识别所述预定内容的处理，所述预定内容是智能设备的功能激活关键词；以及

交互装置，基于经过处理的音频数据进行交互处理。

24.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至19中任何一项所述的方法。

25.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至19中任一项所述的方法。