CN102968991A

CN102968991A - 一种语音会议纪要的分类方法、设备和系统

Info

Publication number: CN102968991A
Application number: CN2012104992736A
Authority: CN
Inventors: 詹五洲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2013-03-13
Anticipated expiration: 2032-11-29
Also published as: CN102968991B; WO2014082445A1; US8838447B2; EP2922051A1; US20140163970A1; EP2922051A4

Abstract

本发明实施例提供一种语音会议纪要的分类方法、设备和系统，涉及通信领域，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。其方法为：根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，再将语音激活标志写入附加域信息，而后将音频数据打包成音频码流，并将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类，将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。本发明实施例用于对语音会议纪要进行分类。

Description

一种语音会议纪要的分类方法、设备和系统

技术领域

本发明涉及通信领域，尤其涉及一种语音会议纪要的分类方法、设备和系统。

背景技术

随着视频会议技术的飞速发展，类似于普通会议开会过程中人工产生会议记录，在多点视频会议中，也同样存在会议纪要的需求。现有产品已经可以实现在视频会议过程中自动记录整个会议的音视频、数据等内容，如果只是对音频数据单纯的记录下来，当对会议的重点内容或者特定内容进行回顾时，就无法达到普通会议那种可以按发言人进行分类的会议纪要整理需求。

在视频会议进行中，如果可以确定整个语音文件只有一个人在讲话，就可以直接将整个文件的语音数据发送至声纹识别系统进行识别。如果语音文件中有多个人的语音，则需要先对语音文件进行分段，然后对每段语音数据分别进行声纹识别。现有的声纹识别系统，通常需要10秒以上的语音数据，数据越长，准确度越高。因此，在对语音数据进行分段时，段不能太短。由于在视频会议中，自由交谈的场景较多，因此当对语音数据的分段较长时，一段语音可能包含多个人的语音，在将这多个人的语音数据段送到声纹识别系统进行识别时，识别结果将是不可靠的。

发明内容

本发明的实施例提供一种语音会议纪要的分类方法、设备和系统，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种语音会议纪要的分类方法，包括：

根据会场的音频数据进行声源定位，以获取所述音频数据所对应的声源的方位，并将所述声源的方位写入所述音频数据的附加域信息；

将所述音频数据打包成音频码流，将所述音频码流和所述音频码流的附加域信息发送至录播服务器，以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。

在一种可能实现的方式中，结合第一方面，在将所述音频数据打包成音频码流，将所述音频码流和所述音频码流的附加域信息发送至录播服务器之前，所述方法还包括：

将语音激活标志写入所述附加域信息，其中所述语音激活标志包括已激活或未激活，以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前，检测所述音频数据的附加域信息中的语音激活标志，并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。

在第二种可能实现的方式中，结合第一方面的第一种可能的实现方式，所述将语音激活标志写入所述附加域信息包括：

对所述音频数据进行语音活动侦测处理，以识别所述音频数据是否为语音数据，若所述音频数据为语音数据，则在附加域信息中将语音激活标志写为激活；若所述音频数据不是语音数据，则在附加域信息中将语音激活标志写为未激活。

第二方面，提供一种语音会议纪要的分类方法，包括：

从多点控制单元接收会场的音频码流和音频码流的附加域信息，所述音频码流的附加域信息包括所述音频码流所对应的声源的方位；

将所述音频码流所解码出的音频数据，存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中，并将所述码流文件中的音频数据发送至声纹识别系统；

从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份，并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。

在第一种可能实现的方式中，结合第二方面，在所述将所述音频码流所解码出的音频数据，存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中之后，所述方法还包括：

将所述音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将所述至少两个音频码流按照时间信息进行排序。

在第二种可能实现的方式中，结合第二方面或第二方面的第一种可能实现的方式，将所述码流文件中的音频数据发送至声纹识别系统；从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份，并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中包括：

将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统；

从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份，并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。

在第三种可能实现的方式中，结合第二方面的第二种可能实现的方式，从所述声纹识别系统接收声纹识别结果之前还包括：

将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统，所述第二单位时间为所述第一单位时间的上一个单位时间，以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时，将所述第二单位时间内的音频数据的声纹识别结果作为参考。

在第四种可能实现的方式中，结合第二方面或第二方面的第一种更可能实现的方式至第三种可能实现的方式，在将所述码流文件中的音频数据发送至声纹识别系统之前，还包括：

检测所述第一单位时间内的音频数据的附加域信息，若所述第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活，则不将所述第一单位时间内的音频数据发送至声纹识别系统。

在第五种可能实现的方式中，结合第二方面或第二方面的第一种可能实现的方式至第四种可能实现的方式，在将所述码流文件中的音频数据发送至声纹识别系统之前，还包括：

检测所述音频码流的附加域信息中的声源方位；

若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个，则将所述码流文件发送至声纹识别系统；

若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个，且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来，则将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。

第三方面，提供一种视频设备，包括：

方位获取单元，用于根据会场的音频数据进行声源定位，以获取所述音频数据所对应的声源的方位，并将所述声源的方位写入所述音频数据的附加域信息，再将所述音频数据以及所述音频数据的附加域信息发送至发送单元；

发送单元，用于从方位获取单元和标志写入单元接收所述音频数据以及所述音频数据的附加域信息，将所述音频数据打包成音频码流，将所述音频码流和所述音频码流的附加域信息发送至录播服务器，以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。

在一种可能实现的方式中，结合第三方面，所述视频设备还包括：

标志写入单元，用于将语音激活标志写入所述附加域信息，其中所述语音激活标志包括已激活或未激活，以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前，检测所述音频数据的附加域信息中的语音激活标志，并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。

在第二种可能实现的方式中，结合第三方面的第一种可能的实现方式，所述标志写入单元具体用于：

第四方面，提供一种录播服务器，包括：

接收单元，用于从多点控制单元接收会场的音频码流和音频码流的附加域信息，所述音频码流的附加域信息包括所述音频码流所对应的声源的方位，并将所述音频码流发送至分类识别单元；

分类识别单元，用于从所述接收单元接收所述音频码流，将所述音频码流所解码出的音频数据，存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中，并将所述码流文件中的音频数据发送至声纹识别系统；

身份匹配单元，用于从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份，并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。

在第一种可能实现的方式中，结合第四方面，所述录播服务器还包括：

排序单元，用于将所述音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将所述至少两个音频码流按照时间信息进行排序。

在第二种可能实现的方式中，结合第四方面或第四方面的第一种可能实现的方式，

所述分类识别单元具体用于将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统；

所述身份匹配单元具体用于从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份，并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。

在第三种可能实现的方式中，结合第四方面的第二种可能实现的方式中，包括：

所述分类识别单元还具体用于将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统，所述第二单位时间为所述第一单位时间的上一个单位时间，以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时，将所述第二单位时间内的音频数据的声纹识别结果作为参考。

在第四种可能实现的方式中，结合第四方面或第四方面的第一种可能实现的方式至第三种可能实现的方式，在将所述码流文件中的音频数据发送至声纹识别系统之前，所述分类识别单元还用于：

在第五种可能实现的方式中，结合第四方面或第四方面的第一种可能实现的方式至第四种可能实现的方式，在将码流文件中的音频数据发送至声纹识别系统之前，

所述分类识别单元还具体用于检测所述音频码流的附加域信息中的声源方位；

若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个，则所述分类识别单元还具体用于将所述码流文件发送至声纹识别系统；

若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个，且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来，则所述身份匹配单元还具体用于将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。

第五方面，提供一种视频会议，包括声纹识别系统和多点控制单元，还包括所述视频设备和所述录播服务器。

本发明实施例提供一种语音会议纪要的分类方法、设备和系统，通过根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，再将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，而后将音频数据打包成音频码流，并将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类，将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音会议纪要的分类方法流程示意图；

图2为本发明实施例提供的另一种语音会议纪要的分类方法流程示意图；

图3为本发明另一实施例提供的一种语音会议纪要的分类方法流程示意图；

图4为本发明又一实施例提供的一种视频设备结构示意图；

图5为本发明又一实施例提供的另一种视频设备结构示意图；

图6为本发明又一实施例提供的一种录播服务器结构示意图；

图7为本发明又一实施例提供的另一种录播服务器结构示意图；

图8为本发明又一实施例提供的又一种视频设备结构示意图；

图9为本发明又一实施例提供的又一种录播服务器结构示意图；

图10为本发明又一实施例提供的一种视频会议系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音会议纪要的分类方法，该方法应用于视频会议系统，该视频会议系统由会场、多点控制单元、录播服务器、声纹识别系统组成，其中会场中包括一个或多个视频设备和麦克风，基于视频设备侧的方法，如图1所示，包括：

S101、视频设备根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息。

S102、视频设备将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类。

进一步的，在执行S102之前还可以包括：视频设备将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，以便录播服务器在将解码出的音频数据发送至声纹识别系统之前，检测音频数据的附加域信息中的语音激活标志，并在语音激活标志为已激活时将音频数据发送至声纹识别系统。

示例性的，可以对音频数据进行语音活动侦测处理，以识别音频数据是否为语音数据，若音频数据为语音数据，则在附加域信息中将语音激活标志写为激活；若音频数据不是语音数据，则在附加域信息中将语音激活标志写为未激活。

需要说明的是，一般情况下视频设备需要将音频码流和音频码流的附加域信息先发送至多点控制单元(Multi-Control Unit，MCU)再由多点控制单元转发至发送至录播服务器。

本发明实施例提供另一种语音会议纪要的分类方法，基于录播服务器侧，如图2所示，包括：

S201、录播服务器从多点控制单元接收会场的音频码流和音频码流的附加域信息，音频码流的附加域信息包括音频码流所对应的声源的方位。

S202、录播服务器将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中，并将码流文件中的音频数据发送至声纹识别系统。

S203、录播服务器从声纹识别系统接收声纹识别结果，声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份，并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。

本发明实施例提供一种语音会议纪要的分类方法，通过根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，再将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，而后将音频数据打包成音频码流，并将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类，将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

本发明又一实施例提供一种语音会议纪要的分类方法，如图3所示，包括：

S301、视频设备根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息。

具体的，可以通过声源定位技术获取会场中声源的方位，该声源定位技术是通过麦克风阵列拾取语音信号，并用数字信号处理技术对其进行分析和处理来得到声源方位的。

S302、视频设备将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活。

可选的，视频设备在将语音激活标志写入附加域信息之前，要先识别音频数据是否为语音数据。具体的，可以通过VAD(VoiceActivation Detection，语音活动侦测)处理识别音频数据是否为语音数据，对音频数据进行语音活动侦测处理，以识别音频数据是否为语音数据，若音频数据为语音数据，则在附加域信息中将语音激活标志写为激活；若音频数据不是语音数据，则在附加域信息中将语音激活标志写为未激活。

这样做的目的是从音频数据的信号流里识别非语音数据，以便在进行声纹识别时不对非语音数据进行识别，以达到节省资源的目的。

S303、视频设备将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至多点控制单元。

具体的，在视频设备将会场的音频码流和音频码流的附加域信息发送至录播服务器之前，可以通过MCU从视频设备接收音频码流和音频码流的附加域信息，并将音频码流和音频码流的附加域信息转发至NRS(Net Record Server，录播服务器)其中，音频码流的附加域信息包括音频码流所对应的声源的方位。

其中，多点控制单元是视频会议系统的核心部分，可以为视频会议用户提供群组会议、多组会议的连接服务。视频设备在将打包后的音频码流和音频码流的附加域信息发送至多点控制单元时，音频码流和附加域信息是通过不同的信道进行传输的。

S304、多点控制单元从视频设备接收会场的音频码流和音频码流的附加域信息，并将接收的会场的音频码流和音频码流的附加域信息发送至录播服务器，音频码流的附加域信息包括音频码流所对应的声源的方位。

其中，由于多点控制单元接收到的音频码流和附加域信息是经过打包的，因此多点控制单元在接收到音频码流和附加域信息后，需要通过解码器对接收到的音频码流和音频码流的附加域信息进行解码，以恢复音频码流和附加域信息，其中，音频码流的附加域信息包括音频码流所对应的声源的方位。

进一步的，当有多个会场发送音频码流时，多点控制单元在接收到各个会场的音频码流和音频码流的附加域信息后，可以对各个会场的音频码流的增益大小进行排序，而后选取音频码流增益最大的前N个会场。例如，可以选取各个会场中的音频码流增益最大的前3个会场或者前4个会场。而后，多点控制单元将语音最大的前N个会场的音频码流和音频码流的附加域信息发送至录播服务器。

S305、录播服务器将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中。

示例性的，录播服务器在接收到由多点控制单元筛选出的最大的前N个会场的音频码流和音频码流的附加域信息时，可以根据这些音频码流所属会场的会场号以及这些音频码流的附加域信息中的声源方位创建对应的码流文件，并将音频码流存储在对应的码流文件中，这样通过将音频码流与会场及声源方位进行关联，实现了音频码流的精准分类，以便在进行声纹识别时能够准确的识别出该音频码流在该会场中所属声源方位的参会者身份。

S306、录播服务器将音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将至少两个音频码流按照时间信息进行排序。

其中，在录播服务器将解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中之后，录播服务器要将音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将至少两个音频码流按照时间信息进行排序。具体的，在做会议纪要记录的同时，需要对与会者的说话先后顺序进行排序，因此需要将接收到的各条音频码流的时间信息写入该音频码流的附加域信息中，以便将各个会场中的各个音频码流按照时间信息进行排序，做到会议纪要记录的清晰准确。

S307、录播服务器检测音频码流的附加域信息中的声源方位。

S308、录播服务器判断音频码流对应的附加域信息中是否只有一个声源方位，若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个，则执行S309；若音频码流的附加域信息中音频码流对应的声源方位只有一个，则执行S310。

S309、录播服务器判断至少两个声源方位对应的参会者身份是否已经在上一次进行声纹识别时识别出来，若至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来，则执行S311；若至少两个声源方位对应的参会者身份没有在上一次进行声纹识别时识别出来，则再次执行S307～S309。

S310、录播服务器将码流文件中的音频数据发送至声纹识别系统(The Voiceprint identification System，VPS)，而后执行S312。

其中，在录播服务器将码流文件中的音频数据发送至声纹识别系统之前，录播服务器要检测第一单位时间内的音频数据的附加域信息，若第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活，则不将第一单位时间内的音频数据发送至声纹识别系统。

具体的，录播服务器检测第n个单位时间内存储的属于某一会场的某一方位的音频码流的附加域信息中的语音激活标志，若这段音频码流的所有附加域信息中的语音激活标志都未激活，则不进行处理，这样，当该第n个单位时间内存储的属于某一会场的某一方位的音频码流的附加域信息中的语音激活标志都未激活时，表示这些音频数据不是语音，就不用将该音频数据发送至声纹识别系统进行检测了，节省了资源。

示例性的，上述的单位时间的时间长度可以根据实际情况来设置，例如，可以将单位时间的时间长度设置为1min。

声纹识别技术是一种生物特征识别技术，也称为说话人识别，具体的，声纹识别系统可以将需要识别的语音数据的声纹特征与声纹库中的所有声纹进行匹配，以识别说话人身份。一般为了进行可靠的识别，通常需要10秒以上的语音数据存储，数据越长，准确度越高。

S311、录播服务器将已识别出来的至少两个声源方位对应的参会者身份写入音频码流的附加域信息中。

具体的，由于当一段音频码流的附加域信息中出现至少两个声源方位时，若将该音频码流送入声纹识别系统可能会到导致识别错误，因此，当音频码流的附加域信息存在至少两个声源的方位时，由于之前已经检测出的该方位的姓名信息，就不再将音频码流进行声纹识别，而是将之前检测出的该方位对应的参会者身份即姓名信息直接写入该方位出现重叠的音频码流附加域的姓名信息上，从而实现了在多个人同时说话时识别声源方位的目的，也增加会议纪要分类的准确度。

S312、录播服务器从声纹识别系统接收声纹识别结果，声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份，并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。

示例性的，录播服务器可以将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件，并将码流文件中的第一单位时间内的音频数据发送至声纹识别系统；

而后录播服务器从声纹识别系统接收声纹识别结果，声纹识别结果包括在第一单位时间内的音频数据所对应的声源的方位对应的参会者身份，并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。

或者，优选的，在从声纹识别系统接收声纹识别结果之前还可以包括：将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统，第二单位时间为第一单位时间的上一个单位时间，以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时，将第二单位时间内的音频数据的声纹识别结果作为参考。这样，在有前一次识别结果作为参考的情况下进行识别，可以提高声纹识别速度。

本发明又一实施例提供一种视频设备01，如图4所示，包括：

方位获取单元011，用于根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，再将音频数据以及音频数据的附加域信息发送至发送单元013。

发送单元013，用于从方位获取单元011接收音频数据以及音频数据的附加域信息，将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类。

进一步的，如图5所示，视频设备01还可以包括：

标志写入单元012，用于在将音频数据以及音频数据的附加域信息发送至发送单元013之前，从方位获取单元011接收附加域信息，并将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，而后将附加域信息发送至发送单元013，以便录播服务器在将解码出的音频数据发送至声纹识别系统之前，检测音频数据的附加域信息中的语音激活标志，并在语音激活标志为已激活时将音频数据发送至声纹识别系统。

其中，标志写入单元012可以具体用于：

对音频数据进行语音活动侦测处理，以识别音频数据是否为语音数据，若音频数据为语音数据，则在附加域信息中将语音激活标志写为激活；若音频数据不是语音数据，则在附加域信息中将语音激活标志写为未激活。

本发明实施例提供一种视频设备，通过会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，将语音激活标志写入附加域信息，将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

本发明又一实施例提供一种录播服务器02，如图6所示，包括：

接收单元021，用于从多点控制单元接收会场的音频码流和音频码流的附加域信息，音频码流的附加域信息包括音频码流所对应的声源的方位，并将音频码流发送至分类识别单元022。

分类识别单元022，用于从接收单元021接收音频码流，将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中，并将码流文件中的音频数据发送至声纹识别系统。

身份匹配单元023，用于从分类识别单元022的声纹识别系统接收声纹识别结果，声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份，并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。

进一步的，如图7所示，录播服务器02还可以包括：

排序单元024，用于将音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将至少两个音频码流按照时间信息进行排序。

再进一步的，分类识别单元022可以具体用于将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件，并将码流文件中的第一单位时间内的音频数据发送至声纹识别系统。

身份匹配单元023可以具体用于从声纹识别系统接收声纹识别结果，声纹识别结果包括第一单位时间内的音频数据所对应的声源的方位对应的参会者身份，并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。

优选的，在从声纹识别系统接收声纹识别结果之前，分类识别单元022还可以具体用于将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统，第二单位时间为第一单位时间的上一个单位时间，以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时，将第二单位时间内的音频数据的声纹识别结果作为参考。

再进一步的，在将码流文件中的音频数据发送至声纹识别系统之前，分类识别单元还用于022还可以具体用于：

检测第一单位时间内的音频数据的附加域信息，若第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活，则不将第一单位时间内的音频数据发送至声纹识别系统。

更进一步的，在将码流文件中的音频数据发送至声纹识别系统之前，分类识别单元022还可以具体用于：

检测音频码流的附加域信息中的声源方位；

若音频码流的附加域信息中音频码流对应的声源方位只有一个，则分类识别单元022还可以用于将码流文件发送至声纹识别系统；

若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个，且至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来，则身份匹配单元023还可以用于将已识别出来的两个声源方位对应的参会者身份写入音频码流的附加域信息中。

本发明实施例提供一种录播服务器，通过从多点控制单元接收会场的音频码流和音频码流的附加域信息，音频码流的附加域信息包括音频码流所对应的声源的方位，将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中，并将码流文件发送至声纹识别系统，从声纹识别系统接收声纹识别结果，再将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

本发明又一实施例提供一种视频设备05，包括第一接收机051、第一存储器052和总线055，如图8所示，还包括：

第一处理器053，用于根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息。

第一发射机054，用于将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类。

进一步的，第一处理器053在将音频数据打包成音频码流，将音频码流和音频码流的附加域信息发送至第一发射机054之前，还用于将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，以便录播服务器在将解码出的音频数据发送至声纹识别系统之前，检测音频数据的附加域信息中的语音激活标志，并在语音激活标志为已激活时将音频数据发送至声纹识别系统。其中，第一处理器053还可以具体用于：

本发明又一实施例提供一种录播服务器06，包括第二存储器061、第二发射机063和总线065，如图9所示，还包括：

第二接收机062，用于从多点控制单元接收会场的音频码流和音频码流的附加域信息，音频码流的附加域信息包括音频码流所对应的声源的方位。

第二存储器061，用于将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中，并通过第二发射机063将码流文件中的音频数据发送至声纹识别系统。

第二处理器064，用于从声纹识别系统接收声纹识别结果，声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份，并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。

进一步的，在将音频码流所解码出的音频数据，存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中之后，第二处理器064还可以用于：

将音频码流的时间信息写入音频码流的附加域信息中，以便当接收到的音频码流为至少两个时，将至少两个音频码流按照时间信息进行排序。

再进一步的，第二存储器061可以具体用于将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件，并通过第二发射机063将码流文件中的音频数据发送至声纹识别系统；

第二接收机062可以具体用于从声纹识别系统接收声纹识别结果，声纹识别结果包括在第一单位时间内的音频数据所对应的声源的方位对应的参会者身份，并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。

再进一步的，在从声纹识别系统接收声纹识别结果之前，可以通过第二发射机063将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统，第二单位时间为第一单位时间的上一个单位时间，以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时，将第二单位时间内的音频数据的声纹识别结果作为参考。

再进一步的，在将码流文件中的音频数据发送至声纹识别系统之前，第二处理器064还可以用于：

更进一步的，在将码流文件中的音频数据发送至声纹识别系统之前，第二处理器064还可以用于：

检测音频码流的附加域信息中的声源方位；

若音频码流的附加域信息中音频码流对应的声源方位只有一个，则将码流文件发送至声纹识别系统；

若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个，且至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来，则通过第二发射机063将已识别出来的两个声源方位对应的参会者身份写入音频码流的附加域信息中。

本发明又一实施例提供一种视频会议系统1，包括多点控制单元03和声纹识别系统04，如图10所示，还包括：前述实施例提供的视频设备01和录播服务器02，或视频设备05和录播服务器06。

本发明实施例提供一种视频会议系统，通过根据会场的音频数据进行声源定位，以获取音频数据所对应的声源的方位，并将声源的方位写入音频数据的附加域信息，再将语音激活标志写入附加域信息，其中语音激活标志包括已激活或未激活，而后将音频数据打包成音频码流，并将音频码流和音频码流的附加域信息发送至录播服务器，以使得录播服务器根据附加域信息对音频数据进行分类，将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中，能够将会场中的语音数据按照说话人的方位分别进行声纹识别，提高了声纹识别准确率，进而提高了语音会议纪要分类的可靠性。

在本申请所提供的几个实施例中，应该理解到，所揭露方法、设备和系统，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中，各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音会议纪要的分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在将所述音频数据打包成音频码流，将所述音频码流和所述音频码流的附加域信息发送至录播服务器之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述将语音激活标志写入所述附加域信息包括：

4.一种语音会议纪要的分类方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述音频码流所解码出的音频数据，存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中之后，所述方法还包括：

6.根据权利要求4或5所述的方法，其特征在于，将所述码流文件中的音频数据发送至声纹识别系统；从所述声纹识别系统接收声纹识别结果，所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份，并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中包括：

7.根据权利要求6所述的方法，其特征在于，在从所述声纹识别系统接收声纹识别结果之前还包括：

8.根据权利要求6或7所述的方法，其特征在于，在将所述码流文件中的音频数据发送至声纹识别系统之前，还包括：

9.根据权利要求4至8任意一项所述的方法，其特征在于，在将所述码流文件中的音频数据发送至声纹识别系统之前，还包括：

检测所述音频码流的附加域信息中的声源方位；

10.一种视频设备，其特征在于，包括：

发送单元，用于从所述方位获取单元接收所述音频数据以及所述音频数据的附加域信息，将所述音频数据打包成音频码流，将所述音频码流和所述音频码流的附加域信息发送至录播服务器，以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。

11.根据权利要求9所述的视频设备，其特征在于，所述视频设备还包括：

12.根据权利要求11所述的视频设备，其特征在于，所述标志写入单元具体用于：

13.一种录播服务器，其特征在于，包括：

14.根据权利要求13所述的录播服务器，其特征在于，所述录播服务器还包括：

15.根据权利要求13或14所述的录播服务器，其特征在于，包括：

16.根据权利要求15所述的录播服务器，其特征在于，包括：

17.根据权利要求15或16所述的录播服务器，其特征在于，在将所述码流文件中的音频数据发送至声纹识别系统之前，所述分类识别单元还用于：

18.根据权利要求13至17任意一项所述的录播服务器，其特征在于，在将所述码流文件中的音频数据发送至声纹识别系统之前，

19.一种视频会议系统，包括声纹识别系统和多点控制单元，其特征在于，所述系统还包括：如权利要求10至12任意一项所述的视频设备；如权利要求13至18任意一项所述的录播服务器。