CN108597495A

CN108597495A - 一种处理语音数据的方法及装置

Info

Publication number: CN108597495A
Application number: CN201810215255.8A
Authority: CN
Inventors: 王柏钢
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-28
Anticipated expiration: 2038-03-15
Also published as: CN108597495B

Abstract

本发明实施例提供一种处理语音数据的方法及装置，应用于通信技术领域，可以解决待识别语音数据的识别结果准确性较低的问题。该方法包括：接收用户的第一输入，第一输入为用户输入待识别语音数据的操作；响应于第一输入，获取待识别语音数据对应的第一识别结果；根据第一语音数据库修正第一识别结果，得到第二识别结果，第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征；执行第二识别结果对应的操作指令。

Description

一种处理语音数据的方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种处理语音数据的方法及装置。

背景技术

随着通信技术的发展，手机、平板电脑等终端的智能化程度不断提高，以满足用户的各种需求。例如，用户在使用终端的语音识别功能时，对语音识别的准确性需求越来越高。

现有技术中，在用户使用终端的语音识别功能时，终端可以采集、处理用户输入的待识别语音数据，并将该待识别语音数据发送至网络设备；网络设备根据云端语音数据库中的语音数据识别接收到的待识别语音数据，并将该待识别语音数据的识别结果发送至终端；随后，终端可以根据接收到的待识别语音数据的识别结果，执行该待识别结果指示的操作指令。

存在的问题是，现有技术中对一个用户输入的待识别语音数据的识别过程依赖于云端语音数据库，而该云端语音数据库中的语音数据通常包括多个用户的语音数据，即除该用户的语音数据之外，还有其他用户的语音数据。从而，一个用户的待识别语音数据的识别结果，可能由云端语音数据库中除该用户之外的其他用户的语音数据识别得到。如此，可能导致终端获取的待识别语音数据的识别结果准确性较低。

发明内容

本发明实施例提供一种处理语音数据的方法及装置，以解决待识别语音数据的识别结果准确性较低的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供一种处理语音数据的方法，该方法包括：接收用户的第一输入，第一输入为用户输入待识别语音数据的操作；响应于第一输入，获取待识别语音数据对应的第一识别结果；根据第一语音数据库修正第一识别结果，得到第二识别结果，第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征；执行第二识别结果对应的操作指令。

第二方面，本发明实施例还提供了一种处理语音数据的装置，该装置包括：接收模块、获取模块、修正模块和执行模块；接收模块，用于接收用户的第一输入，第一输入为用户输入待识别语音数据的操作；获取模块，用于响应于接收模块接收的第一输入，获取待识别语音数据对应的第一识别结果；修正模块，用于根据第一语音数据库修正获取模块获取的第一识别结果，得到第二识别结果，第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征；执行模块，用于执行修正模块得到的第二识别结果对应的操作指令。

第三方面，本发明实施例提供了一种终端，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面中的处理语音数据的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面中的处理语音数据的方法的步骤。

本发明实施例中，可以保存预定义的用户对应的语音数据库，一个语音数据库包括一个预定义的用户历史输入的语音数据对应的语音特征。在预定义的用户输入待识别语音数据时，即使获取的待识别语音数据的识别结果不准确，也可以通过预定义的用户对应的语音数据库中的语音特征修正该识别结果，以获得符合该预定义的用户的识别结果。从而，可以提高待识别语音数据对应的识别结果的准确性，即提高该识别结果对应的操作指令的准确性，有利于提高用户使用语音识别功能时的用户体验。

附图说明

图1为本发明实施例提供的一种可能的安卓操作系统的架构示意图；

图2为本发明实施例提供的一种处理语音数据的方法的流程示意图；

图3为本发明实施例提供的另一种处理语音数据的方法的流程示意图；

图4为本发明实施例提供的另一种处理语音数据的方法的流程示意图；

图5为本发明实施例提供的一种处理语音数据的装置的结构示意图；

图6为本发明实施例提供的另一种处理语音数据的装置的结构示意图；

图7为本发明实施例提供的一种终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一语音数据集和第二语音数据集等是用于区别不同的语音数据集，而不是用于描述语音数据集的特定顺序。

本发明实施例中，处理语音数据的装置从服务器侧获取用户输入的待识别语音数据的识别结果之后，可以对修正该识别结果，得到符合该用户的识别结果。如此，可以提高待识别语音数据的识别结果的准确性。

本发明实施例中的终端可以为具有操作系统的终端。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

下面以安卓操作系统为例，介绍一下本发明实施例提供的处理语音数据的方法所应用的软件环境。

如图1所示，为本发明实施例提供的一种可能的安卓操作系统的架构示意图。在图1中，安卓操作系统的架构包括4层，分别为：应用程序层、应用程序框架层、系统运行库层和内核层(具体可以为Linux内核层)。

其中，应用程序层包括安卓操作系统中的各个应用程序(包括系统应用程序和第三方应用程序)。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。例如，系统设置应用、系统聊天应用和系统相机应用等应用程序。第三方设置应用、第三方相机应用和第三方聊天应用等应用程序。

系统运行库层包括库(也称为系统库)和安卓操作系统运行环境。库主要为安卓操作系统提供其所需的各类资源。安卓操作系统运行环境用于为安卓操作系统提供软件环境。

内核层是安卓操作系统的操作系统层，属于安卓操作系统软件层次的最底层。内核层基于Linux内核为安卓操作系统提供核心系统服务和与硬件相关的驱动程序。

以安卓操作系统为例，本发明实施例中，开发人员可以基于上述如图1所示的安卓操作系统的系统架构，开发实现本发明实施例提供的处理语音数据的方法的软件程序，从而使得该处理语音数据的方法可以基于如图1所示的安卓操作系统运行。即处理器或者终端设备可以通过在安卓操作系统中运行该软件程序实现本发明实施例提供的处理语音数据的方法。

需要说明的是，本发明实施例提供的处理语音数据的方法可以应用于识别语音数据的场景中。

其中，本发明实施例提供的处理语音数据的装置可以为能够收发语音数据的终端，或者，或者该终端的中央处理器(Central Processing Unit，CPU)，或者该终端中用于处理语音数据的控制单元。另外，本发明实施例提供的处理语音数据的装置还可以为与上述终端交互的服务器或者装置。上述终端可以包括手机或平板电脑等。具体的，以下方法实施例中以终端执行处理语音数据的方法为例，说明本发明实施例提供的处理语音数据的方法。

下面结合图2所示的处理语音数据的方法的流程图对本发明实施例提供的处理语音数据的方法进行详细描述。其中，虽然在方法流程图中示出了本发明实施例提供的处理语音数据的方法的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，图2中示出的处理语音数据的方法可以包括S201-S204：

S201、处理语音数据的装置接收用户的第一输入，第一输入为用户输入待识别语音数据的操作。

需要说明的是，处理语音数据的装置(如终端)中可以安装有“语音助手”应用等应用程序，该应用程序可以用于获取用户输入的语音数据，即支持用户输入待识别语音数据。示例性的，上述用户输入待识别语音数据可是用户通过处理语音数据的装置的“语音助手”应用输入的。

需要说明的是，本发明实施例提供的处理语音数据的装置可以具有触控屏，该触控屏可以用于接收用户的输入，并向该用户显示该输入对应的内容。其中，上述第一输入可以为触屏输入、指纹输入、重力输入、按键输入等。触屏输入为用户对处理语音数据的装置的触控屏的按压输入、长按输入、滑动输入、点击输入、悬浮输入(用户在触控屏附近的输入)等输入。指纹输入为用户对处理语音数据的装置的指纹识别器的滑动指纹、长按指纹、单击指纹和双击指纹等输入。重力输入为用户对处理语音数据的装置特定方向的晃动、特定次数的晃动等输入。按键输入对应于用户对处理语音数据的装置的电源键、音量键、Home键等按键的单击输入、双击输入、长按输入、组合按键输入等输入。具体的，本发明实施例对第一输入的方式不作具体限定，可以为任一可实现的方式。

可以理解的是，处理语音数据的装置的“语音助手”应用中包括用于触发处理语音数据的装置接收用户输入待识别语音的选项(记为“输入语音选项”)，以使得处理语音数据的装置得到待识别语音对应的待识别语音数据。

示例性的，处理语音数据的装置接收用户的待识别语音数据可以包括：用户在对处理语音数据的装置的“语音助手”应用中的“输入语音选项”进行长按输入的同时，输入待识别语音；处理语音数据的装置采用处理语音数据的装置中的麦克风等语音采集装置接收待识别语音，该待识别语音为模拟信号；处理语音数据的装置可以通过信号放大、滤波和平滑等处理步骤将待识别语音由模拟信号转化为数字信号，得到待识别语音对应的待识别语音数据。例如，用户输入的待识别语音数据为“给张小明打电话”。

可以理解的是，用户输入的待识别语音数据为数字信号，处理语音数据的装置可以获取待识别语音数据对应的文本数据，以获得待识别语音数据的语义。

S202、响应于第一输入，处理语音数据的装置获取待识别语音数据对应的第一识别结果。

其中，上述第一识别结果中可以为待识别语音数据对应的文本数据。

需要说明的是，处理语音数据的装置获取待识别语音对应的第一识别结果可能是不准确的。示例性的，处理语音数据的装置获取待识别语音数据对应的第一识别结果为“给张小宁打电话”。显然，第一识别结果中的“宁”是不准确的，即第一识别结果不准确。

S203、处理语音数据的装置根据第一语音数据库修正第一识别结果，得到第二识别结果。

需要说明的是，在处理语音数据的装置获取的待识别语音数据的第一识别结果不准确的情况下，处理语音数据的装置可以对第一识别结果进行修正。

需要强调的是，不同用户的语音数据对应的语音频谱通常不同。另外，同一用户在不同时间、不同身体状况时的语音频谱通常不同。

具体的，本发明实施例提供的第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征。其中，一个语音数据可以对应一个语音频谱。一般而言，本发明实施例提供的第一语音数据库保存在处理语音数据的装置中。也就是说，第一语音数据库中的包括的语音特征可以反映第一用户的发音和内容的关系。

可以理解的是，上述第一语音数据库中的语音特征对应文本数据，该文本数据可以为英语文本数据、汉语文本数据等。

其中，上述第一语音数据库为处理语音数据的装置中预定义的用户(记为第一用户)的语音数据库，即该第一语音数据库中的至少一个语音特征为该预定义的用户历史输入的语音数据对应的语音频谱的特征，例如，该预定义的用户为处理语音数据的装置的机主用户。

可以理解的是，本发明实施例中的第一输入可以为第一用户的输入，即上述待识别语音数据为第一用户输入的。从而，在处理语音数据的装置获取的第一用户输入的待识别语音数据的第一识别结果不准确的情况下，处理语音数据的装置可以根据第一用户对应的第一语音数据库修正第一识别结果，得到第二识别结果。例如，处理语音数据的装置对上述第一识别结果“给张小宁打电话”修正后，可以得到第二识别结果“给张小明打电话”。

S204、处理语音数据的装置执行第二识别结果对应的操作指令。

具体的，处理语音数据的装置可以根据待识别语音数据的第二识别结果，确定待识别语音数据的语义，以根据待识别语音数据的语义出待识别语音数据的指示的操作指令，即上述第二识别结果对应的操作指令。

示例性的，处理语音数据的装置可以执行上述待识别语音数据对应的第二识别结果“给张小明打电话”对应的操作指令。例如，处理语音数据的装置查找到处理语音数据的装置的通讯录中的“张小明”的联系方式，并向“张小明”拨打电话。

需要说明的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以保存预定义的用户对应的语音数据库，一个语音数据库包括一个预定义的用户历史输入的语音数据对应的语音特征。在预定义的用户输入待识别语音数据时，即使处理语音数据的装置获取的待识别语音数据的识别结果不准确，该装置也可以通过预定义的用户对应的语音数据库中的语音特征修正该识别结果，以获得符合该预定义的用户的识别结果。从而，可以提高待识别语音数据对应的识别结果的准确性，即提高该识别结果对应的操作指令的准确性，有利于提高用户使用语音识别功能时的用户体验。

在一种可能的实现方式中，服务器等网络设备中可以保存有大量用户的语音数据对应的语音特征。具体的，如图3所示，为本发明实施例提供的另一种处理语音数据的方法的流程示意图。结合图2，图3示出的处理语音数据的方法，上述S202可以包括S205和S206：

S205、响应于第一输入，处理语音数据的装置向服务器发送待识别语音数据。

其中，待识别语音数据用于服务器获得待识别语音数据对应的第一识别结果。

需要说明的是，服务器中可以保存大数据的语音数据对应的语音特征。具体的，服务器中保存有云端语音数据库，该云端语音数据库中包括的语音特征可以为大量用户的语音数据对应的语音频谱的特征。也就是说，云端语音数据库中的包括的语音特征用于反映任意用户的发音和内容的关系。

S206、处理语音数据的装置接收服务器发送的待识别语音对应的第一识别结果。

具体的，服务器可以根据服务器中保存的云端语音数据库中包括的语音特征确定待识别语音数据的第一识别结果。

可以理解的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以从服务器获取待识别语音数据对应的第一识别结果。如此，该装置可以采用第一语音数据库对第一识别结果进行修正即可，而不需要对待识别语音数据直接进行识别。从而，有利于减少获取待识别语音数据的准确识别结果过程中的操作。

在一种可能的实现方式中，本发明实施例提供的处理语音数据的方法，处理语音数据的装置在根据第一语音数据库修正待识别语音数据对应的第一识别结果之前，可以先获取第一语音数据库。本发明实施例提供的处理语音数据的方法，在S203之前，如S201之前还可以包括S207和S208：

S207、处理语音数据的装置获取第一语音数据集，第一语音数据集中的语音特征为用户在第一时间段内输入的语音数据的特征。

需要说明的是，上述用户在第一时间段内输入的语音数据可以为用户使用处理语音数据的装置通话过程中的语音数据、用户使用处理语音数据的装置的社交软件输入的语音数据、以及用户使用处理语音数据的装置的语音识别功能时输入的语音数据中的至少一种。

其中，上述第一语音数据库中包括的至少一个语音特征中的每个语音特征包括一个语音频率值和一个语音响度值。

需要说明的是，语音数据中的语音特征包括的语音频率值可以用于表示该语音数据的音调，语音响度值可以用于表示该语音数据的响度。

示例性的，处理语音数据的装置可以在第一时间段内以一定的采样频率采集用户输入的语音数据中的语音特征，第一时间段的时长可以为1000小时。其中，本发明实施例这里对上述采样频率的取值不作具体限定，如10赫兹每小时(Hz/t)，对本发明实施例提供的处理语音数据的方法的实施不造成影响。

具体的，处理语音数据的装置可以在第一时间段内以一定的采样频率分别采集用户输入的语音数据中语音频率值相同的语音特征的语音响度值。

S208、处理语音数据的装置将第一语音数据集作为第一语音数据库。

其中，第一语音数据库(包括第一语音数据集)中的语音特征为符合第一用户的语音特征。

需要说明的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以获取符合预定义的用户的第一语音数据库，以对该预定义的用户输入的待识别语音数据对应的第一识别结果进行修正。从而，可以提高待识别语音数据的识别结果的准确性，并提高了用户使用语音识别功能时的用户体验。

在一种可能的实现方式中，本发明实施例提供的处理语音数据的方法，为了全面的体现出一个用户的语音特征，处理语音数据的装置可以获取包括的较多数量的语音特征的第一语音数据库。具体的，本发明实施例提供的处理语音数据的方法，在S203之前，如S201之前还可以包括S207-S210。示例性的，如图4所示，为本发明实施例提供的另一种处理语音数据的方法的流程示意图。结合图2，图4示出的处理语音数据的方法中，在S201之前还可以包括S207、S209、S210和S208a：

S209、处理语音数据的装置根据第一语音数据集，确定至少一个第一数值范围。

一般而言，不同用户对应的语音数据中语音频率值相同的语音特征的响度值范围不同。另外，一个用户对应的语音数据中语音频率值不同的语音特征的数值范围不同。

其中，针对第一用户对应的语音数据中多个相同语音频率值的语音特征，处理语音数据的装置可以获取多个相同语音频率值的语音特征的语音响度值，并得到该语音频率值对应的多个语音响度值的第一数值范围。其中，一个第一数值范围包括多个语音响度值，一个第一数值范围对应一个语音频率值。

示例性的，处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为200赫兹(Hz)的语音特征的第一数值范围[72，80]分贝(Decibel，dB)；处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为800Hz的语音特征的第一数值范围[82，85]dB。

类似的，处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为1024Hz、1300Hz、2000Hz和5000Hz等的语音特征的第一数值范围，本发明实施例对此不再赘述。

S210、处理语音数据的装置获取第二语音数据集，第二语音数据集中的语音特征为用户在第二时间段输入的语音数据的特征。

其中，上述第二时间段在第一时间段之后。例如，第二时间段的时长可以为500小时。

具体的，处理语音数据的装置可以在第二时间段内以一定的采样频率分别采集用户输入的语音数据中语音频率值相同的语音特征的语音响度值，并确定语音响度值处于该语音频率值对应的第一数值范围内的语音特征；在语音响度值处于该语音频率值对应的第一数值范围内的语音特征的个数达到一定条件时，处理语音数据的装置便可以得到上述第二语音数据集。

具体的，第二语音数据集中的语音特征满足第一预设条件；第一预设条件包括下述的至少一种：语音响度值位于第一数值范围内的语音特征的个数大于或等于第一预设阈值(如400)，以及在第一预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第二预设阈值。如此，第一语音数据和第二语音数据集中的语音特征为第一用户较为完备的语音特征。

需要说明的是，本发明实施例提供的处理语音数据的方法，在处理语音数据的装置获取第二语音数据集之后(如上述第二时间段之后)，若处理语音数据的装置采集到语音响度值位于语音频率值对应的第一数值范围内的语音特征，则不会将该语音特征保存至第二语音数据集中，而是丢弃该语音特征。

可以理解的是，用户的情绪等因素可能影响用户的语音的响度，例如用户在情绪过激的情况下输入的语音数据的语音响度值，与该用户在正常情绪下输入的处于相同语音频率值的语音数据的响度值差异可能较大。如此，用户在情绪过激的情况下输入的语音数据(称为异常语音数据)不能反映该用户正常情绪输入的语音数据的响度。其中，上述基于第一语音数据集获取的第二语音数据集的过程中，丢弃的语音特征可以是异常语音数据。

S208a、处理语音数据的装置将第一语音数据集和第二语音数据集作为第一语音数据库。

需要说明的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以获取较为完备第一语音数据库。如此，有利于进一步提高根据第一语音数据库，修正得到的待识别语音数据的识别结果的准确性。

在一种可能的实现方式中，本发明实施例提供的处理语音数据的方法，随着用户年龄的增长或者用户身体状况的变化，用户在不同时期对应的语音特征可能不同。具体的，本发明实施例提供的处理语音数据的方法，在上述S208或者S208a之后还可以包括S211-S214：

S211、处理语音数据的装置获取第三语音数据集，第三语音数据集中的语音特征为用户在第三时间段内输入的语音数据的特征。

其中，第三时间段在第二时间段之后。例如，第一时间段的时长可以为2000小时。

具体的，本发明实施对处理语音数据的装置获取第三语音数据集的描述可以参照上述实施例中对处理语音数据的装置获取第一语音数据集的相关描述，这里不再赘述。

S212、处理语音数据的装置根据第三语音数据集，确定至少一个第二数值范围。

其中，一个第二数值范围包括多个语音响度值，一个第二数值范围对应一个语音频率值，第三语音数据集中的语音特征满足第二预设条件；其中，第二预设条件包括下述的至少一种：语音响度值位于第二数值范围内的语音特征的个数大于或等于第三预设阈值，以及在第二预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第四预设阈值。

示例性的，处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为200Hz的语音特征的第二数值范围[75，83]dB；处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为800Hz的语音特征的第二数值范围[85，88]dB。

类似的，处理语音数据的装置可以确定出第一用户对应的语音数据中语音频率值为1024Hz、1300Hz、2000Hz和5000Hz等的语音特征的第二数值范围，本发明实施例对此不再赘述。

S213、处理语音数据的装置获取第四语音数据集，第四语音数据集中的语音特征为用户在第四时间段输入的语音数据的特征。

其中，第四语音数据集中的语音特征满足第三预设条件；第三预设条件包括下述的至少一种：语音响度值位于第三数值范围内的语音特征的个数大于或等于第五预设阈值(如900)，以及在第三预设时间段内语音响度值位于第三数值范围内的语音特征的个数大于或等于第六预设阈值。第四时间段在第三时间段之后，例如，第一时间段的时长可以为1000小时。

类似的，本发明实施对处理语音数据的装置获取第四语音数据集的描述可以参照上述实施例中对获取第二语音数据集的相关描述，这里不再赘述。

S214、处理语音数据的装置将第三语音数据集和第四语音数据集更新至第一语音数据库。

可以理解的是，更新后的第一语音数据库中的语音特征为当前符合第一用户的较为完备的语音特征。

可选的，处理语音数据的装置可以将第三语音数据集和第四语音数据集为第一语音数据库，并丢弃第一语音数据库中的第一语音数据集和第二语音数据集；或者，处理语音数据的装置可以将第三语音数据集和第四语音数据集为第一语音数据库，并保留第一语音数据库中的第一语音数据集和第二语音数据集。

可以理解的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以仅将第三语音数据集更新至第一语音数据库，以得到当前符合第一用户的语音特征，本发明实施例对此不再详细描述。

需要说明的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以更新符合预定义的用户的第一语音数据库。如此，即使该预定义的用户对应的符合该用户的语音特征发生变化，处理语音数据的装置也可以对该预定义的用户输入的待识别语音数据对应的第一识别结果进行修正。从而，进一步提高待识别语音数据的识别结果的准确性，并提高了用户使用语音识别功能时的用户体验。

在一种可能的实现方式中，本发明实施例提供的处理语音数据的方法，在上述S203之前还可以包括S215：

S215、处理语音数据的装置从至少一个语音数据库中确定第一语音数据库，至少一个语音数据库中一个语音数据库对应一个用户。

需要说明的是，处理语音数据的装置中可以保存多个用户(即多个预定义的用户)对应的语音数据库，多个用户的语音数据库中每个语音数据库对应一个用户。

可以理解的是，不同用户在一段时间内的语音数据对应的语音特征的语音频率值的最大值通常是不同的，不同用户在一段时间内的语音数据对应的语音频率值相同的语音特征的出现的频率不同。

可选的，处理语音数据的装置可以根据当前输入语音数据的用户的语音频率值的最大值确定第一用户，从而得到第一用户对应的第一语音数据库。例如，在用户当前输入语音数据的语音频率值的最大值处于一个预设阈值区间时，处理语音数据的装置可以确定该用户为第一用户，从而得到第一用户对应的第一语音数据库。

类似的，处理语音数据的装置获取多个预定义的用户中每个用户对应的语音数据库的方法，均可以参照上述实施例中对处理语音数据的装置获取第一用户对应的第一语音数据库的相关描述，这里不再赘述。

可选的，处理语音数据的装置中可以保存有一个或多个预定义的用户的生物特征信息，如人脸特征信息、指纹特征信息和人眼虹膜特征信息等。在处理语音数据的装置接收当前用户输入的语音数据时，可以识别该当前用户的生物特征信息是否与一个预定义的用户的生物特征信息匹配。如此，处理语音数据的装置可以获取和更新该预定义的用户对应的语音数据库，以实现处理语音数据的装置对该当前用户输入的待识别语音数据的识别结果的修正。

需要说明的是，本发明实施例提供的处理语音数据的方法，处理语音数据的装置可以获取多个预定义的用户中每个预定义的用户对应的语音数据库。如此，使用多个预定用户均可以在使用的语音识别功能时，控制处理语音数据的装置执行符合相应预定义的用户的待识别语音数据的识别结果。从而，进一步提高了用户使用语音识别功能时的用户体验。

在本发明的一种具体的实施例中，如图5所示，为本发明实施例提供的一种可能的处理语音数据的装置的结构示意图。图5示出的处理语音数据的装置50包括：接收模块501、获取模块502、修正模块503和执行模块504；接收模块501，用于接收用户的第一输入，第一输入为用户输入待识别语音数据的操作；获取模块502，用于响应于接收模块501接收的第一输入，获取待识别语音数据对应的第一识别结果；修正模块503，用于根据第一语音数据库修正获取模块502获取的第一识别结果，得到第二识别结果，第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征；执行模块504，用于执行修正模块503得到的第二识别结果对应的操作指令。

可选的，获取模块502，具体用于向服务器发送待识别语音数据；接收服务器发送的第一识别结果，第一识别结果由该服务器确定。

可选的，获取模块502，还用于在修正模块503根据第一语音数据库修正获取模块502获取的第一识别结果，得到第二识别结果之前，获取第一语音数据集，第一语音数据集中的语音特征为用户在第一时间段内输入的语音数据的特征；将第一语音数据集作为第一语音数据库。

可选的，至少一个语音特征中的每个语音特征包括一个语音频率值和一个语音响度值；获取模块502，还用于在获取模块502获取第一语音数据集之后，根据第一语音数据集，确定至少一个第一数值范围，一个第一数值范围包括多个语音响度值，一个第一数值范围对应一个语音频率值；获取第二语音数据集，第二语音数据集中的语音特征为用户在第二时间段输入的语音数据的特征，其中，第二语音数据集中的语音特征满足第一预设条件；第一预设条件包括下述的至少一种：语音响度值位于第一数值范围内的语音特征的个数大于或等于第一预设阈值，以及在第一预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第二预设阈值，第二时间段在第一时间段之后；将第一语音数据集和第二语音数据集作为第一语音数据库。

可选的，获取模块502，还用于在将第一语音数据集和第二语音数据集作为第一语音数据库之后，获取第三语音数据集，第三语音数据集中的语音特征为用户在第三时间段内输入的语音数据的特征，第三时间段在第二时间段之后；根据第三语音数据集，确定至少一个第二数值范围，一个第二数值范围包括多个语音响度值，一个第二数值范围对应一个语音频率值，第三语音数据集中的语音特征满足第二预设条件；其中，第二预设条件包括下述的至少一种：语音响度值位于第二数值范围内的语音特征的个数大于或等于第三预设阈值，以及在第二预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第四预设阈值；获取第四语音数据集，第四语音数据集中的语音特征为用户在第四时间段输入的语音数据的特征，其中，第四语音数据集中的语音特征满足第三预设条件；第三预设条件包括下述的至少一种：语音响度值位于第三数值范围内的语音特征的个数大于或等于第五预设阈值，以及在第三预设时间段内语音响度值位于第三数值范围内的语音特征的个数大于或等于第六预设阈值，第四时间段在第三时间段之后；将第三语音数据集和第四语音数据集更新至第一语音数据库。

可选的，如图6所示，为本发明实施例提供的另一种可能的处理语音数据的装置的结构示意图。图6示出的处理语音数据的装置50还包括：确定模块505；确定模块505，用于在在修正模块503根据第一语音数据库修正获取模块502获取的第一识别结果，得到第二识别结果之前，从至少一个语音数据库中确定第一语音数据库，至少一个语音数据库中一个语音数据库对应一个用户。

本发明实施例提供的处理语音数据的装置50能够实现上述方法实施例中处理语音数据的装置实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的处理语音数据的装置，可以保存预定义的用户对应的语音数据库，一个语音数据库包括一个预定义的用户历史输入的语音数据对应的语音特征。在预定义的用户输入待识别语音数据时，即使获取的待识别语音数据的识别结果不准确，也可以通过预定义的用户对应的语音数据库中的语音特征修正该识别结果，以获得符合该预定义的用户的识别结果。从而，可以提高待识别语音数据对应的识别结果的准确性，即提高该识别结果对应的操作指令的准确性，有利于提高用户使用语音识别功能时的用户体验。

图7为实现本发明实施例提供的一种终端的硬件结构示意图，该终端100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，用户输入单元107，用于接收用户的第一输入，第一输入为用户输入待识别语音数据的操作；处理器110，用于响应于用户输入单元107接收的第一输入，获取待识别语音数据对应的第一识别结果；根据第一语音数据库修正第一识别结果，得到第二识别结果，第一语音数据库中包括至少一个语音特征，至少一个语音特征为用户历史输入的语音数据对应的语音频谱的特征；执行第二识别结果对应的操作指令。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

终端通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图7中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端100内的一个或多个元件或者可以用于在终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端100包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端，包括处理器110，存储器109，存储在存储器109上并可在所述处理器110上运行的计算机程序，该计算机程序被处理器110执行时实现上述处理语音数据的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述处理语音数据的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种处理语音数据的方法，其特征在于，包括：

接收用户的第一输入，所述第一输入为所述用户输入待识别语音数据的操作；

响应于所述第一输入，获取所述待识别语音数据对应的第一识别结果；

根据第一语音数据库修正所述第一识别结果，得到第二识别结果，所述第一语音数据库中包括至少一个语音特征，所述至少一个语音特征为所述用户历史输入的语音数据对应的语音频谱的特征；

执行所述第二识别结果对应的操作指令。

2.根据权利要求1所述的方法，其特征在于，所述获取所述待识别语音数据的第一识别结果，包括：

向服务器发送所述待识别语音数据；

接收所述服务器发送的所述第一识别结果，所述第一识别结果由所述服务器确定。

3.根据权利要求1或2所述的方法，其特征在于，所述根据第一语音数据库修正所述第一识别结果，得到第二识别结果之前，还包括：

获取第一语音数据集，所述第一语音数据集中的语音特征为用户在第一时间段内输入的语音数据的特征；

将所述第一语音数据集作为所述第一语音数据库。

4.根据权利要求3所述的方法，其特征在于，所述至少一个语音特征中的每个语音特征包括一个语音频率值和一个语音响度值；

所述获取第一语音数据集之后，还包括：

根据所述第一语音数据集，确定至少一个第一数值范围，一个第一数值范围包括多个语音响度值，一个第一数值范围对应一个语音频率值；

获取第二语音数据集，所述第二语音数据集中的语音特征为用户在第二时间段输入的语音数据的特征，其中，所述第二语音数据集中的语音特征满足第一预设条件；所述第一预设条件包括下述的至少一种：语音响度值位于第一数值范围内的语音特征的个数大于或等于第一预设阈值，以及在第一预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第二预设阈值，所述第二时间段在所述第一时间段之后；

所述将所述第一语音数据集作为所述第一语音数据库，包括：

将所述第一语音数据集和所述第二语音数据集作为所述第一语音数据库。

5.根据权利要求1所述的方法，其特征在于，在所述终端根据第一语音数据库修正所述第一识别结果，得到第二识别结果之前，还包括：

从至少一个语音数据库中确定所述第一语音数据库，所述至少一个语音数据库中一个语音数据库对应一个用户。

6.一种处理语音数据的装置，其特征在于，包括：接收模块、获取模块、修正模块和执行模块；

所述接收模块，用于接收用户的第一输入，所述第一输入为所述用户输入待识别语音数据的操作；

所述获取模块，用于响应于所述接收模块接收的所述第一输入，获取所述待识别语音数据对应的第一识别结果；

所述修正模块，用于根据第一语音数据库修正所述获取模块获取的所述第一识别结果，得到第二识别结果，所述第一语音数据库中包括至少一个语音特征，所述至少一个语音特征为所述用户历史输入的语音数据对应的语音频谱的特征；

所述执行模块，用于执行所述修正模块得到的所述第二识别结果对应的操作指令。

7.根据权利要求6所述的装置，其特征在于，

所述获取模块，具体用于向服务器发送所述待识别语音数据；接收所述服务器发送的所述第一识别结果，所述第一识别结果由所述服务器确定。

8.根据权利要求6或7所述的装置，其特征在于，

所述获取模块，还用于在所述修正模块根据第一语音数据库修正所述获取模块获取的所述第一识别结果，得到第二识别结果之前，获取第一语音数据集，所述第一语音数据集中的语音特征为用户在第一时间段内输入的语音数据的特征；将所述第一语音数据集作为所述第一语音数据库。

9.根据权利要求8所述的装置，其特征在于，所述至少一个语音特征中的每个语音特征包括一个语音频率值和一个语音响度值；

所述获取模块，还用于在所述获取第一语音数据集之后，根据所述第一语音数据集，确定至少一个第一数值范围，一个第一数值范围包括多个语音响度值，一个第一数值范围对应一个语音频率值；

获取第二语音数据集，所述第二语音数据集中的语音特征为用户在第二时间段输入的语音数据的特征，其中，所述第二语音数据集中的语音特征满足第一预设条件；所述第一预设条件包括下述的至少一种：语音响度值位于第一数值范围内的语音特征的个数大于或等于第一预设阈值，以及在第一预设时间段内语音响度值位于第一数值范围内的语音特征的个数大于或等于第二预设阈值，所述第二时间段在所述第一时间段之后；将所述第一语音数据集和所述第二语音数据集作为所述第一语音数据库。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：确定模块；

所述确定模块，用于在在所述修正模块根据第一语音数据库修正所述获取模块获取的所述第一识别结果，得到第二识别结果之前，从至少一个语音数据库中确定所述第一语音数据库，所述至少一个语音数据库中一个语音数据库对应一个用户。

11.一种终端，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的处理语音数据的方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的处理语音数据的方法的步骤。