CN111354356B

CN111354356B - 一种语音数据处理方法及装置

Info

Publication number: CN111354356B
Application number: CN201811584511.7A
Authority: CN
Inventors: 张鹏
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2024-04-30
Anticipated expiration: 2038-12-24
Also published as: CN111354356A

Abstract

本申请实施例公开了一种语音数据处理方法及装置，当与会者通过多人会议系统发言时，会议系统可以采集到至少一路语音数据。然后在至少一路语音数据中确定活动语音数据，即确定发言人的语音数据。最后，对该活动语音数据进行语音识别，获得该活动语音数据对应的语音文本。即，本申请实施例在采集到语音数据时，可以自动确定活动语音数据，并进行语音识别获得该活动语音数据的语音文本，从而实现自动获取活动语音数据对应的语音文本，无需人工进行记录整理，提高获取语音文本的效率。

Description

一种语音数据处理方法及装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种语音数据处理方法及装置。

背景技术

多人会议系统是办公、会议等场景下的一种重要设备。在现有技术中，多人会议系统可以获取各个会议麦克风采集到的语音数据，并对语音数据进行扩音播放，以保证会议的顺利进行。在一些场景下，会议内容需要记录整理，在现有技术中，通常需要人工对各个与会者的语音进行记录整理，该记录过程可能不完整、不够准确，且需要耗费较多的人工成本。

发明内容

有鉴于此，本申请实施例提供一种音频数据处理方法及装置，以解决现有技术中会议记录需要耗费较多人工成本的技术问题。

为解决上述问题，本申请实施例提供的技术方案如下：

一种语音数据处理方法，所述方法包括：

采集至少一路语音数据；

在所述至少一路语音数据中确定活动语音数据；

对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本。

在一种可能的实现方式中，所述在所述至少一路语音数据中确定活动语音数据，包括：

计算各路所述语音数据的声学特征参数；

根据各路所述语音数据的声学特征参数，在所述至少一路语音数据中确定活动语音数据。

在一种可能的实现方式中，所述计算各路所述语音数据的声学特征参数，包括：

计算各路所述语音数据的信噪比以及声学响度特征值。

在一种可能的实现方式中，所述根据各路所述语音数据的声学特征参数，在所述语音数据中确定活动语音数据，包括：

对各路所述语音数据的信噪比以及声学响度特征值加权求和，生成各路所述语音数据的活动概率值；

将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据。

在一种可能的实现方式中，所述根据各路所述语音数据的声学特征参数，在各路所述语音数据中确定活动语音数据，包括：

对各路所述语音数据的声学响度特征值进行排序生成第一排序结果，将所述第一排序结果符合第二预设条件的语音数据确定为待选语音数据；

对所述待选语音数据的信噪比进行排序生成第二排序结果，将所述第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。

在一种可能的实现方式中，在对所述活动语音数据进行语音识别之前，所述方法还包括：

计算各个所述活动语音数据之间的互相关性；

根据各个所述活动语音数据之间的互相关性判断是否存在属于同一音源的活动语音数据；

如果存在属于同一音源的活动语音数据，根据所述活动语音数据的声学特征参数，在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据；

在所述活动语音数据中剔除所述非主音源的活动语音数据。

在一种可能的实现方式中，所述对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本，包括：

将所述活动语音数据上传到语音识别服务器进行语音识别；

从所述语音识别服务器获取所述活动语音数据对应的语音文本。

在一种可能的实现方式中，所述方法还包括：

对所述活动语音数据对应的采集设备的标识进行突出显示。

获取输入的指定采集设备的标识，根据所述指定采集设备的标识确定指定采集设备；

将所述指定采集设备采集的语音数据确定为活动语音数据。

一种语音数据处理装置，所述装置包括：

采集单元，用于采集至少一路语音数据；

第一确定单元，在所述至少一路语音数据中确定活动语音数据；

获取单元，用于对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本。

在一种可能的实现方式中，所述第一确定单元，包括：

计算子单元，用于计算各路所述语音数据的声学特征参数；

第一确定子单元，用于根据各路所述语音数据的声学特征参数，在所述至少一路语音数据中确定活动语音数据。

在一种可能的实现方式中，所述计算子单元，具体用于计算各路所述语音数据的信噪比以及声学响度特征值。

在一种可能的实现方式中，所述第一确定子单元，包括：

生成子单元，用于对各路所述语音数据的信噪比以及声学响度特征值加权求和，生成各路所述语音数据的活动概率值；

第二确定子单元，用于将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据。

在一种可能的实现方式中，所述第一确定子单元，包括：

第三确定子单元，用于对各路所述语音数据的声学响度特征值进行排序生成第一排序结果，将所述第一排序结果符合第二预设条件的语音数据确定为待选语音数据；

第四确定子单元，用于对所述待选语音数据的信噪比进行排序生成第二排序结果，将所述第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。

在一种可能的实现方式中，所述装置还包括：

计算单元，用于在执行所述获取单元对所述活动语音数据进行语音识别之前，计算各个所述活动语音数据之间的互相关性；

判断单元，用于根据各个所述活动语音数据之间的互相关性判断是否存在属于同一音源的活动语音数据；

第二确定单元，用于如果存在属于同一音源的活动语音数据，根据所述活动语音数据的声学特征参数，在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据；

剔除单元，用于在所述活动语音数据中剔除所述非主音源的活动语音数据。

在一种可能的实现方式中，所述获取单元，包括：

发送子单元，用于将所述活动语音数据上传到语音识别服务器进行语音识别；

获取子单元，用于从所述语音识别服务器获取所述活动语音数据对应的语音文本。

在一种可能的实现方式中，所述装置还包括：

显示单元，用于对所述活动语音数据对应的采集设备的标识进行突出显示。

在一种可能的实现方式中，所述第一确定单元包括：

第五确定子单元，用于获取输入的指定采集设备的标识，根据所述指定采集设备的标识确定指定采集设备；

第六确定子单元，用于将所述指定采集设备采集的语音数据确定为活动语音数据。

一种测试对象识别装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集至少一路语音数据；

在所述至少一路语音数据中确定活动语音数据；

一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行上述的语音数据处理方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中，当与会者通过多人会议系统发言时，会议系统可以采集到至少一路语音数据。然后从获取的至少语音数据中确定活动语音数据，即确定发言人的语音数据。最后，对该活动语音数据进行语音识别，获得该活动语音数据对应的语音文本。即，本申请实施例在采集到语音数据时，可以确定活动语音数据，并对活动语音数据进行语音识别获得该活动语音数据的语音文本，从而实现自动获取活动语音数据对应的语音文本，无需人工进行记录整理，提高获取语音文本的效率。

附图说明

图1为本申请实施例提供的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种语音数据处理方法的流程图；

图3为本申请实施例提供的一种语音数据处理方法的流程图；

图4为本申请实施例提供的一种语音数据处理装置的结构图；

图5为本申请实施例提供的另一种语音数据处理装置的结构图；

图6为本申请实施例提供的一种服务器设备结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

基于背景技术所描述的现有技术中会议记录需要耗费较多人工成本的技术问题，本申请实施例提出了一种语音数据处理方法，当会议中的采集设备采集到语音数据时，会议系统也可以相应采集到至少一路语音数据，并从所采集的至少一路语音数据中确定活动语音数据，然后对活动语音数据进行语音识别，获得该活动语音数据对应的语音文本，从而实现自动获得每个与会者发言对应的语音文本，解决现有技术中会议记录需要耗费较多人工成本的技术问题，提高获取会议记录的效率。

参见图1，该图为本申请实施例提供的示例性应用场景的框架示意图。其中，本申请实施例提供的语音数据处理方法可以应用于本地会议系统10，该会议系统10可以与多个采集设备相连。每个采集设备均可以处于工作状态，当存在语音数据时，采集设备均可以采集语音数据。

当与会者通过对应的采集设备发言时，该采集设备以及邻近的采集设备均可以采集到与会者的语音数据，会议系统10获取采集设备采集的至少一路语音数据，其中，每个采集设备对应于一路语音数据。然后从获取的至少一路语音数据中确定活动语音数据，即发言人的语音数据，该活动语音数据可以为至少一路语音数据。最后对活动语音数据进行语音识别，获得活动语音数据的语音文本。

需要说明的是，对于活动语音数据进行语音识别，既可以在本地会议系统10中，也可以由会议系统10将活动语音数据发送至语音识别服务器20，由语音识别服务器20进行语音识别，然后从语音识别服务器20中获取语音文本。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

需要注意的是，会议系统10所包括的采集设备可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)进行交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的麦克风、智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是，本申请实施例中语音识别服务器20可以是现有的、正在研发的或将来研发的、能够提供语音识别服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。

为便于理解本申请实施例提供的语音数据处理方法，下面将结合附图对该方法进行说明。

参见图2，该图为本申请实施例提供的一种语音数据处理方法的流程图，如图2所示，该方法可以包括：

S201：采集至少一路语音数据。

本实施例中，当与会者通过采集设备发言时，会议系统所连接的多个采集设备可以采集语音数据，从而可以获取至少一路语音数据。

S202：在至少一路语音数据中确定活动语音数据。

当会议系统获取各个采集设备采集的语音数据时，从获取的至少一路语音数据中确定活动语音数据，即确定发言者的语音数据。

在具体实现时，本实施例提供了两种确定活动语音数据方式，具体实现将在后续实施例进行说明。

S203：对活动语音数据进行语音识别，获取活动语音数据对应的语音文本。

当确定活动语音数据后，对活动语音数据进行语音识别，以获得该活动语音数据对应的语音文本。

可以理解的是，对活动语音数据的识别操作既可以在本地系统进行，也可以在语音识别服务器中进行。当活动语音数据的识别在语音识别服务器中进行时，会议系统可以将活动语音数据上传到语音识别服务器进行语音识别，并从语音识别服务器获取活动语音数据对应的语音文本。即，会议系统可以仅将活动语音数据发送至语音识别服务器，不仅可以降低通信带宽，而且也可以降低语音识别服务器负载。

通过上述实施例可知，当与会者通过多人会议系统发言时，会议系统可以采集到至少一路语音数据。然后确定所采集的语音数据中活动语音数据，即确定发言人的语音数据。最后，对该活动语音数据进行语音识别，获得该活动语音数据对应的语音文本。即，本申请实施例在采集到语音数据时，可以自动确定活动语音数据，并进行语音识别获得该活动语音数据的语音文本，从而实现自动获取活动语音数据对应的语音文本，无需人工进行记录整理，提高获取语音文本的效率。

在本实施例中，提供了两种确定活动语音数据的实现方式，一种是根据语音数据的声学特征进行确定，另一种根据输入的采集设备的标识进行确定。其中，根据输入的采集设备的标识确定活动语音数据是指会议系统获取用户输入的指定采集设备的标识，该标识对应的采集设备采集的语音数据确定为活动语音数据。

而根据语音数据的声学特征确定活动语音数据，是指通过比较每路语音数据的声学特征进行确定，为便于理解根据声学特征确定活动语音数据，下面将结合附图进行说明。

参见图3，该图为本申请实施例提供的另一种语音数据处理方法的流程图，如图3所示，该方法可以包括：

S301：采集至少一路语音数据。

本实例中，当存在语音数据时，与会议系统相连的采集设备均可以采集语音数据，从而可以获得至少一个采集设备采集的语音数据。

可以理解的是，当与会者通过其对应的采集设备进行发言时，除了与会者对应的采集设备可以采集到语音数据之外，因其它采集设备也处于工作状态，也可以采集到相应的语音数据，因此，会议系统可以获取至少一路语音数据。

S302：计算各路语音数据的声学特征参数。

本实施例中，当系统获取多路语音数据时，可以计算每路语音数据的声学特征参数，以便根据每路语音数据的声学特征参数执行S203，确定活动语音数据。

其中，语音数据的声学特征参数可以包括信噪比以及声学响度特征值，会议系统可以计算每路语音数据的信噪比以及声学响度特征值。信噪比是指语音数据中语音信号与噪声的比例，通常情况下，信噪比越高，表明语音信号中混合的噪声越少。声学响度特征值表示采集的语音数据的响度，声学响度特征值越大表明语音数据所对应的音量越大。

S303：根据各路语音数据的声学特征参数，在至少一路语音数据中确定活动语音数据。

本实施例中，当计算获得每路语音数据的声学特征参数后，可以根据各路语音数据的声学特征参数，从所采集的多路语音数据中确定活动语音数据。

在具体实现时，本实施例提供两种根据声学特征参数确定活动语音数据的实现方式，下面将分别介绍两种确定方式。

一种是，对各路语音数据的信噪比以及声学响度特征值加权求和，生成各路语音数据的活动概率值；将活动概率值符合第一预设条件的语音数据确定为活动语音数据。

即，当获取每路语音数据的信噪比以及声学响度特征值时，将该路语音数据的信噪比以及声学响度特征值进行加权求和作为该路语音数据的活动概率值，从而获得每路语音数据的活动概率值。当计算获得每路语音数据的活动概率值时，将其中活动概率值符合第一预设条件的语音数据确定活动语音数据。

在具体实现时，可以将每路语音数据的活动概率值进行排序，既可以从大到小排序，也可以从小到大排序。通常情况下，将每路语音数据的活动概率值从大到小进行排序，然后将前预设数量个语音数据确定活动语音数据，例如，按照从大到小的顺序对每路语音数据的活动概率值进行排序，将前3个活动概率值对应语音数据确定为活动语音数据。另外，也可以预先设置概率阈值，将活动概率值大于预设概率阈值的语音数据确定为活动语音数据。例如，预设概率阈值为0.7，则将活动概率值大于0.7的语音数据确定为活动语音数据。

另一种是，对各路语音数据的声学响度特征值进行排序生成第一排序结果，将第一排序结果符合第二预设条件的语音数据确定为待选语音数据；将待选语音数据的信噪比进行排序生成第二排序结果，将第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。

即，分别根据语音数据的声学响度特征值以及信噪比进行排序，将最终满足预设条件的语音数据确定为活动语音数据。

在具体实现时，可以根据各路语音数据的声学响度特征值按照从大到小的顺序进行排序，得到第一排序结果；将第一排序结果中符合第二预设条件的语音数据确定为待选语音数据。其中，第二预设条件可以根据实际情况进行设定，可以将第一排序结果中前预设数量个语音数据确定为待选语音数据；也可以为将第一排序结果中声学响度特征值大于预设值的语音数据确定为待选语音数据。

当确定出待选语音数据时，再根据待选语音数据的信噪比进行排序生成第二排序结果。具体实现时，可以根据待选语音数据的信噪比按照从大到小的顺序进行排序，得到第二排序结果。将第二排序结果中符合第三预设条件的语音数据确定为活动语音数据。其中，第三预设条件可以根据实际情况进行设定，可以将第二排序结果中前预设个待选语音数据确定为活动语音数据；也可以为将第二排序结果中信噪比大于预设值的待选语音数据确定为活动语音数据。

需要说明的是，也可以根据语音数据的声学响度特征值按照从小到大的顺序进行排序，可以根据待选语音数据的信噪比按照从小到大的顺序进行排序，最终确定活动语音数据，本实施例在此不进行限定。

S304：对活动语音数据进行语音识别，获取活动语音数据对应的语音文本。

本实施例中，当确定出活动语音数据后，对活动语音数据进行语音识别，以获得该活动语音数据对应的语音文本。

在实际应用时，当获取到活动语音数据对应的语音文本后，还可以将该语音文本发送到终端进行显示。另外，为保证所获取的语音文本与活动语音数据一一对应，还可以预先为采集的每路语音数据设置序号，当对活动语音数据进行语音识别时，可以根据序号获得对应的语音识别文本。而且，当确定出的活动语音数据为多路语音数据时，还可以根据活动语音数据的序号区分各自对应的语音文本。

通过上述实施例可知，当与会者通过多人会议系统发言时，会议系统可以采集至少一路语音数据，并计算每路语音数据的声学特征参数。然后，根据每路语音数据的声学特征参数确定所采集的语音数据中活动语音数据，即确定发言人的语音数据。最后，对该活动语音数据进行语音识别，获得该活动语音数据对应的语音文本。即，本申请实施例在采集到语音数据时，可以根据每路语音数据的声学特征参数自动确定活动语音数据，并进行语音识别获得该活动语音数据的语音文本，从而实现自动获取活动语音数据对应的语音文本，无需人工进行记录整理，提高获取语音文本的效率。

可以理解的是，当系统的采集设备采集多路语音数据时，多个采集设备可能会采集同一音源的语音数据，为避免对同一音源的活动语音数据重复识别，在本申请实施例中还可以在对活动语音数据进行语音识别之前，进行去重操作。具体为，计算各个活动语音数据之间的互相关性；根据各个活动语音数据之间的互相关性判断是否存在属于同一音源的活动语音数据；如果存在属于同一音源的活动语音数据，根据活动语音数据的声学特征参数，在属于同一音源的活动语音数据中确定为非主音源的活动语音数据；在活动语音数据中剔除非主音源的活动语音数据。

在具体实现时，可以利用互相关函数计算任意两个活动语音数据之间的互相关性，即相关度，从而获得各个活动语音数据之间的相关度，并根据各个活动语音数据之间的相关度判断是否存在属于同一音源的活动语音数据。例如，将两个活动语音数据之间的相关度大于预设阈值的两个活动语音数据确定为属于同一音源的活动语音数据。当确定存在属于同一音源的活动语音数据时，可以根据活动语音数据的声学特征参数，在属于同一音源的活动语音数据中确定非主音源的活动语音数据。例如，可以将属于同一音源的活动语音数据的信噪比小于第一预设阈值的活动语音数据确定为非主音源的活动语音数据，也可以将属于同一音源的活动语音数据的声学响度特征值小于第二预设阈值的活动语音数据确定为非主音源的活动语音数据。当确定出非主音源的活动语音数据后，从活动语音数据中剔除非主音源的活动语音数据。

需要说明的是，在实际应用中，为减小系统的工作负载，还可以在确定活动语音数据之前剔除非主音源的语音数据。当系统获取到采集设备采集的至少一路语音数据后，计算各个语音数据之间的互相关性，根据各个语音数据之间的互相关性判断是否存在属于同一音源的语音数据；如果存在，则根据语音数据的声学特征参数，在属于同一音源的语音数据中确定非主音源的语音数据，将非主音源的语音数据剔除。

另外，为便于监测系统中各个采集设备的工作状态，可以将活动语音数据对应的采集设备的标识进行突出显示。例如，可以为每个采集设备配置LED指示灯，将活动语音数据对应的采集设备的LED指示灯进行上电显示，以表明当前活动的采集设备。

可以理解的是，在实际应用中，当前活动的采集设备采集的标识可以突出显示，当系统获取多个采集设备采集的多路语音数据时，可以获取用户输入的指定采集设备的标识，根据指定采集设备的标识确定指定采集设备，然后将指定采集设备采集的语音数据确定为活动语音数据，从而对活动语音数据进行语音识别，获得活动语音数据的语音文本。

基于上述方法实施例，本申请还提供了语音数据处理装置，下面将结合附图对该装置进行说明。

参见图4，该图为本申请实施例提供的一种语音数据处理装置结构图，如图4所示，该装置可以包括：

采集单元401，用于采集至少一路语音数据；

第一确定单元403，在所述语音数据中确定活动语音数据；

获取单元404，用于对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本。

在一种可能的实现方式中，所述第一确定单元，包括：

计算子单元，用于计算各路所述语音数据的声学特征参数；

在一种可能的实现方式中，所述第一确定子单元，包括：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述获取单元，包括：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述装置第一确定单元包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5示出了一种针对应用程序语音识别评测的装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理部件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

采集至少一路语音数据；

在所述至少一路语音数据中确定活动语音数据；

可选的，所述在所述至少一路语音数据中确定活动语音数据包括：

计算各路所述语音数据的声学特征参数；

可选的，所述计算各路所述语音数据的声学特征参数，包括：

计算各路所述语音数据的信噪比以及声学响度特征值。

可选的，所述根据各路所述语音数据的声学特征参数，在所述至少一路语音数据中确定活动语音数据，包括：

可选的，所述根据各路所述语音数据的声学特征参数，在各路所述语音数据中确定活动语音数据，包括：

可选的，在对所述活动语音数据进行语音识别之前，所述方法还包括：

计算各个所述活动语音数据之间的互相关性；

在所述活动语音数据中剔除所述非主音源的活动语音数据。

可选的，所述对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本，包括：

将所述活动语音数据上传到语音识别服务器进行语音识别；

可选的，所述方法还包括：

对所述活动语音数据对应的采集设备的标识进行突出显示。

可选的，所述在所述至少一路语音数据中确定活动语音数据，包括：

将所述指定采集设备采集的语音数据确定为活动语音数据。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行语音数据处理的方法，所述方法包括：

采集至少一路语音数据；

在所述至少一路语音数据中确定活动语音数据；

计算各路所述语音数据的声学特征参数；

根据各路所述语音数据的声学特征参数在所述语音数据中确定活动语音数据。

计算各路所述语音数据的信噪比以及声学响度特征值。

可选的，所述根据各路所述语音数据的声学特征参数，在所述语音数据中确定活动语音数据，包括：

计算各个所述活动语音数据之间的互相关性；

在所述活动语音数据中剔除所述非主音源的活动语音数据。

将所述活动语音数据上传到语音识别服务器进行语音识别；

可选的，所述方法还包括：

对所述活动语音数据对应的采集设备的标识进行突出显示。

将所述指定采集设备采集的语音数据确定为活动语音数据。

图6是本发明实施例中服务器的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，一个或一个以上键盘1056，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

采集至少一路语音数据；

计算各路所述语音数据的信噪比以及声学响度特征值；

将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据；

计算各个所述活动语音数据之间的互相关性；所述互相关性为相关度；

根据各个所述活动语音数据之间的相关度判断是否存在属于同一音源的活动语音数据；

将所述相关度大于预设阈值的活动语音数据确定为属于同一音源的活动数据；

根据所述活动语音数据的声学特征参数，在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据；其中，所述非主音源的活动语音数据为属于同一音源的活动语音数据且信噪比小于第一预设阈值的活动语音数据；

在所述活动语音数据中剔除所述非主音源的活动语音数据；

对已经剔除所述非主音源的活动语音数据进行语音识别，自动获取所述活动语音数据对应的语音文本。

2.根据权利要求1所述的方法，其特征在于，根据各路所述语音数据的声学特征参数，在各路所述语音数据中确定活动语音数据，包括：

3.根据权利要求1所述的方法，其特征在于，对所述活动语音数据进行语音识别，获取所述活动语音数据对应的语音文本，包括：

将所述活动语音数据上传到语音识别服务器进行语音识别；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述活动语音数据对应的采集设备的标识进行突出显示。

5.一种语音数据处理装置，其特征在于，所述装置包括：

采集单元，用于采集至少一路语音数据；

获取单元，用于对所述活动语音数据进行语音识别，自动获取所述活动语音数据对应的语音文本；

所述第一确定单元，包括：

计算子单元，用于计算各路所述语音数据的声学特征参数；

第一确定子单元，用于根据各路所述语音数据的声学特征参数，在所述至少一路语音数据中确定活动语音数据；

所述计算子单元，具体用于计算各路所述语音数据的信噪比以及声学响度特征值；

所述第一确定子单元，包括：

第二确定子单元，用于将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据；

计算单元，用于在执行所述获取单元对所述活动语音数据进行语音识别之前，计算各个所述活动语音数据之间的互相关性；所述互相关性为相关度；

判断单元，用于根据各个所述活动语音数据之间的相关度判断是否存在属于同一音源的活动语音数据；

第二确定单元，用于将所述相关度大于预设阈值的活动语音数据确定为属于同一音源的活动数据；根据所述活动语音数据的声学特征参数，在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据；

6.根据权利要求5所述的装置，其特征在于，所述第一确定子单元，包括：

7.根据权利要求5所述的装置，其特征在于，所述获取单元，包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种测试对象识别装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集至少一路语音数据；

计算各路所述语音数据的信噪比以及声学响度特征值；

在所述活动语音数据中剔除所述非主音源的活动语音数据；

10.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至4中一个或多个所述的语音数据处理方法。