CN108281145A

CN108281145A - 语音处理方法、语音处理装置和电子设备

Info

Publication number: CN108281145A
Application number: CN201810085367.6A
Authority: CN
Inventors: 李育国; 李彦勇; 刘树欢
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-07-13
Anticipated expiration: 2038-01-29
Also published as: CN108281145B

Abstract

公开了一种语音处理方法、语音处理装置和电子设备。所述方法包括：获取来自应用的语音数据；确定是否处于语音识别模式；响应于处于语音识别模式，将所述语音数据转换为文字数据；以及，基于所述文字数据输出文字。这样，在适当的情况下自动实现所有应用的语音识别功能。

Description

语音处理方法、语音处理装置和电子设备

技术领域

本申请涉及音频技术领域，且更具体地，涉及一种语音处理方法、语音处理装置和电子设备。

背景技术

随着各种电子设备的普及，为了提高电子设备上运行的应用的功能性，越来越多的应用涉及语音方面的功能。在这方面最典型的是社交软件，例如用户可以通过语音进行聊天。但是，并非在所有情况下用户都方便接听语音(比如，开会、公共场合、或者嘈杂的时候)。

因此，需要改进的语音处理方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种语音处理方法、语音处理装置和电子设备，其可以在适当的情况下自动实现所有应用的语音识别功能。

根据本申请的一个方面，提供了一种语音处理方法，包括：获取来自应用的语音数据；确定是否处于语音识别模式；响应于处于语音识别模式，将所述语音数据转换为文字数据；以及，基于所述文字数据输出文字。

根据本申请的另一方面，提供了一种语音处理装置，包括：语音获取单元，用于获取来自应用的语音数据；模式判定单元，用于确定是否处于语音识别模式；语音转换单元，用于响应于处于语音识别模式，将所述语音数据转换为文字数据；以及，文字输出单元，用于基于所述文字数据输出文字。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的语音处理方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的语音处理方法。

与现有技术相比，采用根据本申请实施例的语音处理方法、语音处理装置和电子设备，可以获取来自应用的语音数据；确定是否处于语音识别模式；响应于处于语音识别模式，将所述语音数据转换为文字数据；以及，基于所述文字数据输出文字。因此，可以基于是否处于语音识别模式，在适当的情况下自动实现所有应用的语音识别功能。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的语音处理方法的流程图。

图2图示了根据本申请实施例的语音处理方法的系统实现的示意图。

图3图示了根据本申请实施例的语音处理方法的第一应用示例的流程图。

图4图示了根据本申请实施例的语音处理方法的第二应用示例的流程图。

图5图示了根据本申请实施例的语音处理装置的框图。

图6图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在用户使用涉及语音的应用时，存在接听语音不方便的情况。

针对上述情况，例如，一些应用提供了长按语音上传到云端识别，并且返回文字信息的方式。但是，上述语音识别方案需要对每一条希望进行识别的语音进行单独操作，增加了用户操作的复杂度。

此外，并非所有应用都具有这种语音识别的功能。如果希望使得其它应用也具有语音识别的功能，则需要针对每个应用独立开发语音识别功能并相应地设置。

而且，有些应用之前可能根本不涉及语音识别类的操作，但又确实存在语音识别的需求。例如，多媒体播放类型的应用在播放音视频而且节目本身没有字幕时，可能也需要具有语音识别功能，以产生字幕，从而为听觉障碍用户提供更好的体验。

针对上述技术问题，本申请的基本构思是提出一种语音识别方法、语音识别装置和电子设备，其可以在确定处于语音识别模式的情况下，自动地将来自应用的语音数据转换为文字数据，从而适于所有需要语音识别功能的应用，且便于用户操作。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的语音处理方法的流程图。

如图1所示，根据本申请实施例的语音处理方法包括：S110，获取来自应用的语音数据；S120，确定是否处于语音识别模式；S130，响应于处于语音识别模式，将所述语音数据转换为文字数据；以及S140，基于所述文字数据输出文字。

下面，将详细地描述各个步骤。

在步骤S110，首先获取来自应用的语音数据。这里，根据本申请实施例的语音处理方法不仅限于获取来自社交类应用的语音数据，而是可以获取来自各种类型的应用的语音数据。例如，所述应用可以是社交类型的具有语音聊天功能的应用，比如微信、钉钉，也可以是其它类型的可能产生语音数据的应用，例如视频播放器、音频播放器、广播应用等。此外，所述应用也可能是电子设备自带的电话应用。也就是说，根据本申请实施例的语音处理方法适于处理所有类型的应用的语音数据。

在步骤S120，确定是否处于语音识别模式。具体来说，可以通过各种方式来确定是否处于语音识别模式，根据本申请实施例的语音处理方法将其分为主动类型和被动类型。

关于主动类型的确定方式，可以在相应的电子设备(或者电子设备所安装的操作系统)中，提供语音识别模式开关(例如，类似于移动电话中针对飞行模式的开关)。这样，通过检测语音识别模式开关的开启或关闭状态，可以确定用户对于语音识别功能的需求。一旦检测到所述语音识别模式开关处于开启状态，则可以确定电子设备处于语音识别模式。

关于被动类型的确定模式，可以通过其它关联情况的判定来确定是否处于语音识别模式。如上所述，在用户不方便收听语音的场合，例如用户正在开会的情况下，用户一般会将手机设置为静音或者振动模式。因此，通过检测用户是否处于这种静音或者振动模式，就可以确定处于语音识别模式。

当然，确定处于所述语音识别模式的特定情境模式不仅限于上述电子设备的静音情景模式或者振动情景模式，也可以包括其它类型的特定情境模式，例如，用户正在进行语音通话的情境模式，以及用户处于嘈杂环境下的情境模式。

相应地，针对不同类型的特定情境模式，也可以通过不同的方式来检测是否处于所述特定情境模式。例如，可以直接从电子设备的设置参数来检测电子设备是否处于静音情景模式或者振动情景模式；可以从电子设备的音频交互设备，比如麦克风和扬声器的工作状态来检测用户是否正在进行语音通话；可以通过电子设备的麦克风收集周围环境的声音，以确定用户是否处于嘈杂环境下。

因此，根据本申请实施例的语音处理方法并不限制特定情境模式的具体类型、以及特定情境模式的具体检测方式，只要检测到处于不适于收听语音的特定情境模式，都相应地确定电子设备处于所述语音识别模式，从而进行语音识别操作。这样，用户不需要针对各个场景单独进行设置，便于用户操作。此外，由于根据本申请实施例的语音处理方法可以自动确定电子设备是否处于语音识别模式，避免了用户在实际上不适于收听语音的情况下收听语音所造成的不便(例如，多次重听、漏听、错听等)。

因此，在根据本申请实施例的语音处理方法中，确定是否处于语音识别模式可以包括：检测语音识别模式开关的状态；以及，响应于检测到所述语音识别模式开关被设置为开启状态，确定处于所述语音识别模式。

因此，在根据本申请实施例的语音处理方法中，确定是否处于语音识别模式可以包括：检测是否处于特定情景模式；以及，响应于检测到处于所述特定情景模式，确定处于所述语音识别模式。

进一步地，在根据本申请实施例的语音处理方法中，检测是否处于特定情景模式可以包括：检测是否处于静音情景模式和振动情景模式中的至少一个。

在步骤S130，响应于处于语音识别模式，将所述语音数据转换为文字数据。

例如，在检测到电子设备当前处于语音识别模式时，即在用户不方便收听语音聊天信息时，可以自动地将语音数据转换成文字数据，使得用户能够方便快捷地浏览。

例如，可以在电子设备本地端进行上述转换操作，以获得最快的处理速度。替换地，为了减少本地的处理负荷，电子设备也可以将语音数据上传到云端。在云端由专用或共用服务器将接收到的语音数据进行语音识别生成文字数据并回传给电子设备。

并且，在步骤S140，基于所述文字数据输出文字。这样，根据本申请实施例的语音处理方法自动地将各种应用的语音数据识别为文字，然后，例如，通过电子设备的显示单元显示出来。

此外，如果响应于未处于语音识别模式，则说明用户方便收听语音，那么可以直接播放语音。即，在根据本申请实施例的语音处理方法中，进一步包括：响应于不处于语音识别模式，基于所述语音数据输出直接输出语音。

另外，如上所述，根据本申请实施例的语音处理方法不仅限于应用于社交类应用，而是也可以应用于多媒体播放类的应用。并且，基于不同应用类型，根据本申请实施例的语音输出方法输出文字数据和语音数据的形式也会不同。

具体来说，在根据本申请实施例的语音处理方法中，基于所述文字数据输出文字可以包括：确定所述应用的类型；以及，响应于所述应用属于即时消息类型，基于所述文字数据输出文字。

并且，在上述语音处理方法中，进一步包括：响应于所述应用属于多媒体播放类型，根据所述应用的播放参数来确定所述应用是否处于字幕显示模式；以及，响应于所述应用处于所述字幕显示模式，在基于所述文字数据输出文字的同时，基于多媒体数据输出多媒体，所述多媒体数据包括所述语音数据。

也就是说，当应用属于即时消息类型时，如果当前不适于播放语音，则仅基于所述文字数据输出文字；而当应用属于多媒体播放类型时，则可能需要将文字数据和多媒体数据一起输出。

另外，在应用于多媒体播放类的应用的情况下，根据本申请实施例的语音处理方法可以用作为正在播放的多媒体的字幕添加工具，也可用作实时翻译工具。

也就是说，根据本申请实施例的语音处理方法在将语音数据转换为文字数据时，并不仅限于输出与语音数据同种语言的文字数据，而是还可以输出跨语种的文字数据。并且，这种实时翻译工具的功能同样可以应用于多媒体播放类型的应用以外的其它应用，例如，上述即时消息类型的应用、甚至是电话应用。这样，根据用户的设置，如果用户预先设置输出中文文字，那么当用户接收到语音信息或者看视频、听演讲时，甚至用户在接听电话时，都可以看到显示的中文文字。

当然，本领域技术人员可以理解，用户也可以预先设置其它语种的文字输出。或者，在用户未设置的情况下，系统也可以自动判定语种转换。例如，在语音数据为两种不同语言的语音数据的情况下，系统可将其翻译为其中一种的文字并输出。

因此，在根据本申请实施例的语音处理方法中，基于所述文字数据输出文字可以包括：确定所述文字数据是否是预定语种的文字数据；响应于所述文字数据不是所述预定语种的文字数据，将所述文字数据转换为所述预定语种的文字数据；以及，基于所述文字数据输出文字。

图2图示了根据本申请实施例的语音处理方法的系统实现的示意图。如图2所示，根据本申请实施例的语音处理方法可以在系统层实现，用于处理来自应用层的各种语音数据。在S210，在系统范围内从各个应用接收传播过来的语音数据。然后，在S220，判定是否处于语音识别模式(进一步还可以包括上述的翻译模式)。如果处于语音识别模式，则在S230，将语音转换为文字，并在S240，在屏幕上显示文字。如果未处于语音识别模式，则在S250，播放声音。

因此，根据本申请实施例的语音处理方法解决了某些场景下语音交流不方便的问题，并且基于场景自动工作，不需要手动触发，提升了用户体验。

并且，根据本申请实施例的语音处理方法为系统内所有应用赋予了语音识别、翻译的能力，提升了系统性能。即，不需要为各个应用做单独开发，即可使其拥有语音识别、翻译的能力。

第一应用示例

如图3所示，在S310，获取来自应用的语音数据；在S320，检测语音识别模式开关是否设置为开启状态；在S330，响应于语音识别模式开关设置为开启状态，将语音数据转换为文字数据；在S340，输出文字；在S350，响应于语音识别模式开关未设置为开启状态，进一步检测是否处于特定情境模式；如果处于特定情境模式，则转到S330，将语音数据转换为文字数据；如果未处于特定情境模式，则在S360，进一步检测环境噪声是否大于预定阈值；如果环境噪声大于预定阈值，则转到S330，将语音数据转换为文字数据；如果环境噪声不大于预定阈值，在S370，播放语音数据。

通过上述第一应用示例，可以避免在用户未将语音识别模式开关设置为开启状态的情况下，在不适于收听语音的情况下收听语音。此外，通过检测是否处于特定情境模式和环境噪声的程度，可以避免用户在不便于收听语音的场合(例如会议中)或者过于嘈杂而听不清语音的场合下收听语音，同时又可以获得相关信息。

需要说明的是，尽管在上述示例中以一定的顺序执行了一系列的判断步骤，但是在实践中，本申请的实施例不限于此，可以以任何的串行的或并行的顺序执行上述判断步骤。

第二应用示例

如图4所示，在S410，获取来自应用的语音数据；在S420，检测是否处于语音识别模式；在S430，响应于处于语音识别模式，将语音数据转换为文字数据；在S440，确定应用的类型；S450，在确定应用是属于多媒体播放类型的应用的情况，根据该多媒体播放应用的播放参数确定所述应用是否处于字幕显示模式；在S460，在所述多媒体播放应用处于所述字幕显示模式的情况下，确定所述文字数据的语种是否为中文；在S470，在所述文字数据的语种是中文的情况，基于所述文字数据输出文字；而在S480，在所述文字数据的语种不是中文的情况，将所述文字数据翻译为中文文字，然后，返回S470，输出文字；另外，在S490，与S470中输出字幕同步地，基于多媒体数据输出音视频流。

通过上述第二应用示例，可以实现多媒体播放类型的应用的中文字幕添加功能。无论所播放的多媒体是否是基于中文的，用户都可以看到中文字幕。因此，这便于用户从各种不同语种的多媒体内容获得信息，也可以应用于用户通过观看多媒体来学习语言的场合。

示例性装置

图5图示了根据本申请实施例的语音处理装置的框图。

如图5所示，根据本申请实施例的语音处理装置500包括：语音获取单元510，用于获取来自应用的语音数据；模式判定单元520，用于确定是否处于语音识别模式；语音转换单元530，用于响应于所述模式判定单元520 判定处于语音识别模式，将所述语音获取单元510获取的语音数据转换为文字数据；以及文字输出单元540，用于基于所述语音转换单元530转换的文字数据输出文字。

在一个示例中，在上述语音处理装置500中，进一步包括：语音输出单元，用于响应于不处于语音识别模式，基于所述语音输出直接输出声音。

在一个示例中，在上述语音处理装置500中，所述模式判定单元520用于：检测语音识别模式开关的状态；以及，响应于检测到所述语音识别模式开关被设置为开启状态，确定处于所述语音识别模式。

在一个示例中，在上述语音处理装置500中，所述模式判定单元520用于：检测是否处于特定情景模式；以及，响应于检测到处于所述特定情景模式，确定处于所述语音识别模式。

在一个示例中，在上述语音处理装置500中，所述模式判定单元520检测是否处于特定情景模式包括：检测是否处于静音情景模式和振动情景模式中的至少一个。

在一个示例中，在上述语音处理装置500中，所述文字输出单元540用于：确定所述应用的类型；以及，响应于所述应用属于即时消息类型，基于所述文字数据输出文字。

在一个示例中，在上述语音处理装置500中，所述文字输出单元540进一步用于：响应于所述应用属于多媒体播放类型，根据所述应用的播放参数来确定所述应用是否处于字幕显示模式；以及，响应于所述应用处于所述字幕显示模式，在基于所述文字数据输出文字的同时，基于多媒体数据输出多媒体，所述多媒体数据包括所述语音数据。

在一个示例中，在上述语音处理装置500中，所述文字输出单元540用于：确定所述文字数据是否是预定语种的文字数据；响应于所述文字数据不是所述预定语种的文字数据，将所述文字数据转换为所述预定语种的文字数据；以及，基于所述文字数据输出文字。

这里，本领域技术人员可以理解，根据本申请实施例的语音处理装置的其它细节与之前说明的根据本申请实施例的语音处理方法的相应细节完全相同，为了避免冗余便不再赘述。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。该电子设备可以是用于运行应用的终端设备，例如智能手机、平板电脑等。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器6可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如语音识别模式的设置参数，所转换的文字数据等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是用于获取声音数据的麦克风，用于获取图像数据的摄像头等。此外，该输入设备13还可以包括例如网卡、键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括转换成的文字。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音处理方法，包括：

获取来自应用的语音数据；

确定是否处于语音识别模式；

响应于处于语音识别模式，将所述语音数据转换为文字数据；以及

基于所述文字数据输出文字。

2.如权利要求1所述的语音处理方法，进一步包括：

响应于不处于语音识别模式，基于所述语音数据输出直接输出语音。

3.如权利要求1所述的语音处理方法，其中，确定是否处于语音识别模式包括：

检测语音识别模式开关的状态；以及

响应于检测到所述语音识别模式开关被设置为开启状态，确定处于所述语音识别模式。

4.如权利要求1所述的语音处理方法，其中，确定是否处于语音识别模式包括：

检测是否处于特定情景模式；以及

响应于检测到处于所述特定情景模式，确定处于所述语音识别模式。

5.如权利要求4所述的语音处理方法，其中，检测是否处于特定情景模式包括：

检测是否处于静音情景模式和振动情景模式中的至少一个。

6.如权利要求1所述的语音处理方法，其中，基于所述文字数据输出文字包括：

确定所述应用的类型；以及

响应于所述应用属于即时消息类型，基于所述文字数据输出文字。

7.如权利要求6所述的语音处理方法，进一步包括：

响应于所述应用属于多媒体播放类型，根据所述应用的播放参数来确定所述应用是否处于字幕显示模式；以及

响应于所述应用处于所述字幕显示模式，在基于所述文字数据输出文字的同时，基于多媒体数据输出多媒体，所述多媒体数据包括所述语音数据。

8.如权利要求1所述的语音处理方法，其中，基于所述文字数据输出文字包括：

确定所述文字数据是否是预定语种的文字数据；

响应于所述文字数据不是所述预定语种的文字数据，将所述文字数据转换为所述预定语种的文字数据；以及

基于所述文字数据输出文字。

9.一种语音处理装置，包括：

语音获取单元，用于获取来自应用的语音数据；

模式判定单元，用于确定是否处于语音识别模式；

语音转换单元，用于响应于处于语音识别模式，将所述语音数据转换为文字数据；以及

文字输出单元，用于基于所述文字数据输出文字。

10.如权利要求9所述的语音处理装置，进一步包括：

语音输出单元，用于响应于不处于语音识别模式，基于所述语音数据输出直接输出语音。

11.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的语音处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的语音处理方法。