CN108074574A

CN108074574A - 音频处理方法、装置及移动终端

Info

Publication number: CN108074574A
Application number: CN201711225993.2A
Authority: CN
Inventors: 王亚运
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-25

Abstract

本发明实施例公开了一种音频处理方法、装置及移动终端，该方法包括：识别待处理音频数据中的每个发言人；根据所述待处理音频数据的语音参数，将所述待处理音频数据拆分成多个子音频数据，其中，所述子音频数据对应于单位语句；标记每个所述子音频数据对应的发言人和发言时间信息。本发明中，方便用户在待处理音频数据中查找某个发言人发表的言论，并且，避免了语音重叠对语音识别的准确性的影响，提高了语音识别的准确性。

Description

音频处理方法、装置及移动终端

技术领域

本发明涉及信息处理技术领域，尤其涉及一种音频处理方法、装置及移动终端。

背景技术

随着移动终端的快速发展，移动终端的录音或者语音聊天等音频应用得到了广泛的发展，并且，与音频相关的功能也得到了完善和发展。例如，语音转文本、声纹识别等。

在使用移动终端进行录音或者语音聊天时，经常在一段音频中会出现多人在讲话。这时，如果想要从该音频中找到某个人的说话内容，需要播放该音频内容或者快进查找的方式找到该人说话的位置，这样查找比较麻烦；另外，存在多人说话的音频中可能有由于有人插话而导致音频中存在语音重叠，而重叠部分的语音识别比较困难，并且容易出错，识别的准确性较低。

综上，现有技术中，在存在多人讲话的音频中查找某人说话内容比较麻烦，并且，进行识别时的准确性较低。

发明内容

本发明实施例提供一种音频处理方法、装置及移动终端，以解决现有技术中在多人讲话的音频中查找某人说话内容比较麻烦，且识别的准确性较低的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，提供了一种音频处理方法，该方法包括：

识别待处理音频数据中的每个发言人；

根据所述待处理音频数据的语音参数，将所述待处理音频数据拆分成多个子音频数据，其中，所述子音频数据对应于单位语句；

标记每个所述子音频数据对应的发言人和发言时间信息。

第二方面，提供了一种音频处理装置，该装置包括：

识别模块，用于识别待处理音频数据中的每个发言人；

拆分模块，用于根据所述待处理音频数据的语音参数，将所述待处理音频数据拆分成多个子音频数据，其中，所述子音频数据对应于单位语句；

标记模块，用于标记每个所述子音频数据对应的发言人和发言时间信息。

第三方面，还提供了一种移动终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面所述的音频处理方法的步骤。

在本发明实施例中，通过将待处理音频数据中每个发言人对应的子音频数据拆分出来，方便用户在待处理音频数据中查找某个发言人发表的言论，并且，这样避免了语音重叠对语音识别的准确性的影响，提高了语音识别的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的一个实施例中音频处理方法的第一种方法流程图。

图2是本发明的一个实施例中音频处理方法中，将待处理音频数据拆分成多个子音频数据的流程图；

图3是本发明的一个实施例中呈现给用户的一种界面示意图。

图4是本发明的一个实施例中呈现给用户的第二种界面示意图。

图5是本发明的一个实施例中音频处理方法的第二种流程示意图。

图6是本发明的一个实施例中音频处理方法的第三种流程示意图。

图7是本发明的一个实施例中音频处理装置的结构示意图。

图8是本发明的一个实施例中移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音频处理方法，该音频可以是通过录音得到的录音音频，也可以是从微信、QQ等聊天软件中获取的聊天记录音频，并且，上述音频中有多个人在讲话。本发明实施例的执行主体可以是移动终端，当然，也可以是服务器。

在具体实施方式中，如果待处理音频为通过移动终端录音得到的录音音频，本发明实施例提供的音频处理方法的执行主体可以为移动终端，如果待处理音频为通过微信、QQ等聊天软件获取的聊天记录音频，本发明实施例提供的音频处理方法的执行主体可以为服务器。

其中，上述移动终端可以是手机、平板电脑等。

图1示出了本发明实施例提供的音频处理方法的第一种方法流程图，在图1所示的方法中，包括如下步骤：

S102，识别待处理音频数据中的每个发言人。

由于不同的人，讲话时的发声是不同的，因此，不同的人的声纹也是不同的，即声纹具有唯一性。因此，在本发明实施例中，可以根据声纹特征识别待处理音频数据中的每个发言人，具体包括：提取待处理音频数据的声纹特征；并获取待处理音频数据中的声纹特征的种类数；根据声纹特征的种类数识别待处理音频数据中的发言人。

具体的，由于每个人讲话的声纹特征是不同的，因此，一个发言人所讲的所有音频数据对应一种声纹特征，因此，在本发明实施例中，待处理音频数据中存在的声纹特征的种类数与待处理音频数据中的发言人的个数相同。

其中，上述根据声纹特征的种类数识别所述待处理音频数据中的发言人，具体包括：根据声纹特征的种类数，确定出待处理音频数据中包括的发言人的个数，并分别标记每个发言人。

例如，如果待处理音频数据中的声纹特征的种类为两种，则确定出待处理音频数据中包括两个发言人，可以将两个发言人分别标记为人物1和人物2，或者还可以将两个发言人分别标记为“猪八戒”和“孙悟空”，或者，还可以将两个发言人分别标记为人物A和人物B等等，上述标记发言人是为了方便区分每个发言人，具体采用何种名称对上述发言人进行标记，用户可以根据自己的实际需求进行选择。

在一种具体实施方式中，当本发明实施例提供的音频处理方法的执行主体为移动终端时，在执行本发明实施例提供的方法之前，可以在移动终端上存储多个人物名称，例如猪八戒、孙悟空等，当移动终端确定出待处理音频数据中的发言人的个数后，自动选择与发言人的个数相同个数的名称，一一对应的标记发言人。或者，在另外一种实施方式中，当移动终端识别出待处理音频中的发言人的个数后，会自动将发言人依次标记为人物1、人物2、人物3等等。不管是上述哪种方式，用户均可以手动修改标记的每个发言人的名称。

例如，移动终端将识别出的发言人标记为人物1、人物2等，用户可以手动修改为猪八戒、孙悟空等。

在本发明实施例中，采用声纹特征识别待处理音频数据中的发言人，由于每个人的声纹特征具有唯一性，因此，识别的准确性较高。

S104，根据待处理音频数据的语音参数，将待处理音频数据拆分成多个子音频数据，其中，上述子音频数据对应于单位语句。

上述子音频数据对应于单位语句指的是一个子音频数据对应一个语句或者对应一个发言人在某个时间发言时所讲的语句。

其中，单位语句包括至少一个完整的语句。

上述语音参数指的是一些语音特点，例如：声纹、语气、语速、相邻字词间的停顿时间长度等。

在一种具体实施方式中，上述语音参数包括声纹特征和相邻字词间的停顿时间长度；

相应的，如图2所示，上述步骤S104中，将待处理音频数据拆分成多个子音频数据，包括如下步骤：

S202，根据声纹特征，确定声纹特征对应的发言人的音频数据；

S204，根据相邻字词间的停顿时间长度将上述确定的发言人的音频数据拆分成多个子音频数据。

本发明实施例中的待处理音频数据可以是录制的多人讲话时的音频数据，多人讲话可以是多人对话的形式。

由于每个人讲话时的声纹特征是不相同的，因此，在对待处理音频数据进行拆分时，可以是根据声纹特征定位出每个声纹特征对应的发言人的音频数据在整个待处理音频数据中的起始位置。具体的，确定出的每个发言人的音频数据可以有多个。

具体的，在确定声纹特征对应的发言人的音频数据时，如果存在第一个发言人还没讲完，第二个发言人插话的情况，则从第一个发言人开始讲话到第一个发言人结束讲话确定为第一个发言人的对应的音频数据，从第二个发言人开始讲话的音频内容确定为第二个发言人的音频内容。

在本发明实施例中，还可以确定发言人的发言顺序，具体包括如下几种情形：

如果第一个发言人讲完之后，第二个发言人才开始讲话，则将第一个发言人排在前面，将第二个发言人排在后面；如果在第一个发言人还没讲完，第二个发言人就开始插话，这时，也是将第一个发言人排在前面，将第二个发言人排在后面；如果存在多个发言人同时讲话的情况，则随机选取一个发言人排在前面。

具体的，在上述步骤S204中，可以按照发言人的发言顺序依次将确定的发言人的音频数据进行拆分。

其中，在上述步骤S204中，根据相邻字词间的停顿时间长度将确定的发言人的音频数据拆分成多个子音频数据，具体包括如下步骤(1)和(2)；

(1)、根据相邻字词间的停顿时间长度确定上述确定的发言人的音频数据的拆分位置；

(2)、按照拆分位置将确定的发言人的音频数据拆分为多个子音频数据。

在一种具体实施方式中，可以预先设置一个时间长度，将确定的各个相邻字词间的停顿时间长度分别与上述时间长度进行比较，确定拆分位置，具体如下：

将相邻字词间的停顿时间长度与预设时间长度进行比较；当相邻字词间的停顿时间长度大于或等于预设时间长度时，将该相邻字词间的间隔确定为拆分位置。

例如，上述待处理音频数据中的发言人音频数据中的一段音频为“今天是个天气晴朗的好日子。我们打算出去郊游”，可以分别获取“今”与“天”之间的停顿时间长度，“天”与“是”之间的停顿时间长度，“是”与“个”之间的停顿时间长度，“个”与“天”之间的停顿时间长度，“天”与“气”之间的停顿时间长度等等，之后将获取的所有的停顿时间长度分别与预设时间长度进行比较，当其中某个或者多个停顿时间长度大于或者等于预设时间长度时，则将该停顿时间长度对应的字词之间的间隔确定为拆分位置。例如，在上述例子中，加入“子”和“我”之间的停顿时间长度大于预设时间长度，则将“子”和“我”之间的位置确定为拆分位置。即“今天是个天气晴朗的好日子”是一个子音频数据，“我们打算出去郊游”为一个子音频数据。

S106，标记每个子音频数据对应的发言人和发言时间信息。

其中，上述发言时间信息可以是发言时间长度，即该子音频数据对应的时间长度。

上述标记每个子音频数据对应的发言人和发言时间信息，可以是设置发言人、子音频数据和发言时间长度的对应关系。

具体的，在该步骤中，还可以将各个子音频数据按照该子音频数据的发言先后顺序进行排序，并依次对每个子音频数据进行标记。

在一种具体实施方式中，在执行完上述步骤S106后，还需要将标记后的子音频数据呈现给用户，具体的，此处呈现给用户指的是显示在移动终端的显示屏上，具体包括：

将标记后的子音频数据按照发言人讲话的先后顺序以发言人对话的形式呈现给用户，在该种情况下，呈现给用户的界面示意图如图3所示。

在图3所示的情形中，上述待处理音频数据则为猪八戒和孙悟空的对话，呈现给用户的界面则是按照猪八戒与孙悟空实际对话的场景进行呈现的，还原了实际应用场景，方便用户直观的看到当时对话情形。

除了上述呈现方式之外，还可以，

按照发言人讲话先后顺序，将每个发言人对应的所有子音频数据依次呈现给用户，在该种情况下，呈现给用户的界面示意图如图4所示。

在图4所示的情形中，则是将猪八戒和孙悟空在整个待处理音频中的讲话内容区分开，分别呈现给用户，这样方便用户一次性查找每个发言人讲话的所有内容。

当然，在本发明实施例提供的音频处理方法的执行主体为移动终端时，则直接将上述内容呈现在移动终端的显示屏上即可；如果上述方法的执行主体为服务器，则首先需要服务器将需要呈现给用户的内容发送给移动终端，然后，再由移动终端呈现在显示屏上。

在一种具体实施方式中，当用户点击移动终端界面上的每个子音频数据时，移动终端会自动播放该子音频数据。

在另外一种实施方式中，将标记后的子音频数据呈现给用户之后，本发明实施例提供的方法还包括：

接收用户输入的第二操作，其中，第二操作用于指示将子音频数据转换成文本信息；并根据第二操作，将与第二操作对应的子音频数据转换成文本信息。

在一种具体实施方式中，上述第二操作可以是长按某个子音频数据，这样，在移动终端接收到用户输入的长按操作后，将用户长按的该子音频数据转换成文本信息，并显示在移动终端上。

当存在有人插话这种情况时，在待处理音频数据中会出现语音重叠的情况，从而导致语音识别不准确，而在本发明实施例中，将每个子音频数据拆分出来后，再进行语音识别，避免了存在有人插话而导致的语音重叠部分，转换成文本信息准确性较低的情况，提高了语音转文本的准确性。

下述将通过两个具体实施例，介绍本发明实施例提供的音频处理方法。

图5示出了本发明实施例提供的音频处理方法的第二种流程示意图，在图5所示的方法中，具体包括如下步骤：

S302，提取待处理音频数据的声纹特征；

S304，获取待处理音频数据中的声纹特征的种类数；

S306，根据声纹特征的种类数识别待处理音频数据中的发言人；

S308，根据上述声纹特征，确定声纹特征对应的发言人的音频数据；

S310，将待处理音频数据中相邻字词间的停顿时间长度与预设时间长度进行比较；

S312，当相邻字词间的停顿时间长度大于或等于预设时间长度时，将该相邻字词之间的间隔确定为发言人的音频数据的拆分位置；

S314，按照上述拆分位置将确定的发言人的音频数据拆分为多个子音频数据；

S316，标记每个子音频数据对应的发言人和发言时间信息；

S318，将标记后的子音频数据按照发言人讲话的先后顺序以发言人对话的形式呈现给用户。

图6示出了本发明实施例提供的音频处理方法的第三种流程示意图，在图6所示的方法中，具体包括如下步骤：

S402，提取待处理音频数据的声纹特征；

S404，获取待处理音频数据中的声纹特征的种类数；

S406，根据声纹特征的种类数识别待处理音频数据中的发言人；

S408，根据上述声纹特征，确定声纹特征对应的发言人的音频数据；

S410，将待处理音频数据中相邻字词间的停顿时间长度与预设时间长度进行比较；

S412，当相邻字词间的停顿时间长度大于或等于预设时间长度时，将该相邻字词之间的间隔确定为发言人的音频数据的拆分位置；

S414，按照上述拆分位置将确定的发言人的音频数据拆分为多个子音频数据；

S416，标记每个子音频数据对应的发言人和发言时间信息；

S418，查找出每个发言人对应的所有子音频数据，并按照子音频数据在待处理音频数据中的时间先后顺序将该每个发言人对应的所有子音频数据进行排列；

S420，将上述排列好的每个发言人对应的所有子音频数据，按照发言人发言先后的顺序呈现给用户。

本发明实施例提供的音频处理方法，通过将待处理音频数据中每个发言人对应的子音频数据拆分出来，方便用户在待处理音频数据中查找某个发言人发表的言论，并且，这样避免了语音重叠对语音识别的准确性的影响，提高了语音识别的准确性。

基于与上述音频处理方法相同的思路，本发明实施例还提供了一种音频处理装置，该装置可以应用于移动终端，也可以应用于服务器，图7示出了本发明实施例提供的音频处理装置的结构示意图，在图7所示的音频处理装置包括：

识别模块51，用于识别待处理音频数据中的每个发言人；

拆分模块52，用于根据待处理音频数据的语音参数，将待处理音频数据拆分成多个子音频数据，其中，上述子音频数据对应于单位语句；

标记模块53，用于标记每个子音频数据对应的发言人和发言时间信息。

可选地，本发明实施例提供的装置还包括：

第一呈现模块，用于将标记后的子音频数据按照发言人讲话的先后顺序以发言人对话的形式呈现给用户；或者，

第二呈现模块，用于按照发言人讲话的先后顺序，将每个发言人对应的所有子音频数据依次呈现给用户。

可选地，上述语音参数包括：声纹特征和相邻字词间的停顿时间长度；

相应的，上述拆分模块，包括：

确定单元，用于根据声纹特征，确定声纹特征对应的发言人的音频数据；

拆分单元，用于根据相邻字词间的停顿时间长度将确定的发言人的音频数据拆分成多个子音频数据。

可选地，上述拆分单元，包括：

确定子单元，用于根据相邻字词间的停顿时间长度确定上述确定的发言人的音频数据的拆分位置；

拆分子单元，用于按照拆分位置将确定的发言人的音频数据拆分为多个子音频数据。

可选地，上述确定子单元，具体用于，

将相邻字词间的停顿时间长度与预设时间长度进行比较；

当相邻字词间的停顿时间长度大于或等于预设时间长度时，将该相邻字词之间的间隔确定为拆分位置。

可选地，上述识别模块51，包括：

提取单元，用于提取待处理音频数据的声纹特征；

获取单元，用于获取待处理音频数据中的声纹特征的种类数；

识别单元，用于根据声纹特征的种类数识别待处理音频数据中的发言人。

可选地，本发明实施例提供的音频处理装置，还包括：

接收模块，用于接收用户输入的第二操作，其中，第二操作用于指示将子音频数据转换成文本信息；

转换模块，用于根据第二操作，将与第二操作对应的子音频数据转换成文本信息。

本发明实施例提供的音频处理装置，通过将待处理音频数据中每个发言人对应的子音频数据拆分出来，方便用户在待处理音频数据中查找某个发言人发表的言论，并且，这样避免了语音重叠对语音识别的准确性的影响，提高了语音识别的准确性。

图8是本发明各个实施例的一种移动终端的硬件结构示意图。图8所示的移动终端600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图8中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

在本发明实施例中，存储器609内存储有计算机程序，该计算机程序被处理器610执行时，能够实现如下步骤：

识别待处理音频数据中的每个发言人；

根据待处理音频数据的语音参数，将待处理音频数据拆分成多个子音频数据，其中，上述子音频数据对应于单位语句；

标记每个子音频数据对应的发言人和发言时间信息。

可选地，计算机程序被处理器610执行时，标记每个子音频数据对应的发言人和发言时间信息之后，上述方法还包括：

将标记后的子音频数据按照发言人讲话的先后顺序以发言人对话的形式呈现给用户；或者，

按照发言人讲话的先后顺序，将每个发言人对应的所有子音频数据依次呈现给用户。

可选地，计算机程序被处理器610执行时，上述语音参数包括：声纹特征和相邻字词间的停顿时间长度；

相应的，根据待处理音频数据的语音参数，将待处理音频数据拆分成多个子音频数据，包括：

根据声纹特征，确定声纹特征对应的发言人的音频数据；

根据相邻字词间的停顿时间长度将上述确定的发言人的音频数据拆分成多个子音频数据。

可选地，计算机程序被处理器610执行时，上述根据相邻字词间的停顿时间长度将上述确定的发言人的音频数据拆分成多个子音频数据，包括：

根据相邻字词间的停顿时间长度确定上述确定的发言人的音频数据的拆分位置；

按照拆分位置将确定的发言人的音频数据拆分为多个子音频数据。

可选地，计算机程序被处理器610执行时，上述根据相邻字词间的停顿时间长度确定上述确定的发言人的音频数据的拆分位置，包括：

将相邻字词间的停顿时间长度与预设时间长度进行比较；

当相邻字词间的停顿时间长度大于或等于预设时间长度时，将该相邻字词之间的间隔确定为所述拆分位置。

可选地，计算机程序被处理器610执行时，上述识别待处理音频数据中的每个发言人，包括：

提取待处理音频数据的声纹特征；并

获取待处理音频数据中的声纹特征的种类数；

根据声纹特征的种类数识别待处理音频数据中的发言人。

可选地，计算机程序被处理器610执行时，将子音频数据呈现给用户之后，上述方法还包括：

接收用户输入的第二操作，其中，第二操作用于指示将子音频数据转换成文本信息；并

根据第二操作，将与第二操作对应的子音频数据转换成文本信息。

本发明实施例提供的移动终端，通过将待处理音频数据中每个发言人对应的子音频数据拆分出来，方便用户在待处理音频数据中查找某个发言人发表的言论，并且，这样避免了语音重叠对语音识别的准确性的影响，提高了语音识别的准确性。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与移动终端600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

移动终端600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在移动终端600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图8中，触控面板6071与显示面板6061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与移动终端600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端600内的一个或多个元件或者可以用于在移动终端600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

移动终端600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

识别待处理音频数据中的每个发言人；

标记每个所述子音频数据对应的发言人和发言时间信息。

2.根据权利要求1所述的方法，其特征在于，所述标记每个所述子音频数据对应的发言人和发言时间信息之后，所述方法还包括：

将标记后的所述子音频数据按照所述发言人讲话的先后顺序以所述发言人对话的形式呈现给用户；或者，

按照所述发言人讲话的先后顺序，将每个所述发言人对应的所有子音频数据依次呈现给用户。

3.根据权利要求1所述的方法，其特征在于，所述语音参数包括：声纹特征和相邻字词间的停顿时间长度；

所述根据所述待处理音频数据的语音参数，将所述待处理音频数据拆分成多个子音频数据，包括：

根据所述声纹特征，确定所述声纹特征对应的发言人的音频数据；

根据所述相邻字词间的停顿时间长度将所述确定的发言人的音频数据拆分成多个子音频数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述相邻字词间的停顿时间长度将所述确定的发言人的音频数据拆分成多个子音频数据，包括：

根据所述相邻字词间的停顿时间长度确定所述确定的发言人的音频数据的拆分位置；

按照所述拆分位置将所述确定的发言人的音频数据拆分为多个子音频数据。

5.根据权利要求4所述的方法，其特征在于，所述根据所述相邻字词间的停顿时间长度确定所述确定的发言人的音频数据的拆分位置，包括：

将所述相邻字词间的停顿时间长度与预设时间长度进行比较；

当所述相邻字词间的停顿时间长度大于或等于所述预设时间长度时，将该相邻字词之间的间隔确定为所述拆分位置。

6.根据权利要求1所述的方法，其特征在于，所述识别所述待处理音频数据中的每个发言人，包括：

提取所述待处理音频数据的声纹特征；并

获取所述待处理音频数据中的声纹特征的种类数；

根据所述声纹特征的种类数识别所述待处理音频数据中的发言人。

7.根据权利要求2所述的方法，其特征在于，将子音频数据呈现给用户之后，所述方法还包括：

接收用户输入的第二操作，其中，所述第二操作用于指示将所述子音频数据转换成文本信息；并

根据所述第二操作，将与所述第二操作对应的子音频数据转换成文本信息。

8.一种音频处理装置，其特征在于，所述装置包括：

识别模块，用于识别待处理音频数据中的每个发言人；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第一呈现模块，用于将标记后的所述子音频数据按照所述发言人讲话的先后顺序以所述发言人对话的形式呈现给用户；或者，

第二呈现模块，用于按照所述发言人讲话的先后顺序，将每个所述发言人对应的所有子音频数据依次呈现给用户。

10.根据权利要求8所述的装置，其特征在于，所述语音参数包括：声纹特征和相邻字词间的停顿时间长度；

所述拆分模块，包括：

确定单元，用于根据所述声纹特征，确定所述声纹特征对应的发言人的音频数据；

拆分单元，用于根据所述相邻字词间的停顿时间长度将所述确定的发言人的音频数据拆分成多个子音频数据。

11.根据权利要求10所述的装置，其特征在于，所述拆分单元，包括：

确定子单元，用于根据所述相邻字词间的停顿时间长度确定所述确定的发言人的音频数据的拆分位置；

拆分子单元，用于按照所述拆分位置将所述确定的发言人的音频数据拆分为多个子音频数据。

12.根据权利要求11所述的装置，其特征在于，所述确定子单元具体用于，

13.根据权利要求8所述的装置，其特征在于，所述识别模块包括：

提取单元，用于提取所述待处理音频数据的声纹特征；

获取单元，用于获取所述待处理音频数据中的声纹特征的种类数；

识别单元，用于根据所述声纹特征的种类数识别所述待处理音频数据中的发言人。

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收用户输入的第二操作，其中，所述第二操作用于指示将所述子音频数据转换成文本信息；

转换模块，用于根据所述第二操作，将与所述第二操作对应的子音频数据转换成文本信息。

15.一种移动终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频处理方法的步骤。