CN102968991A - 一种语音会议纪要的分类方法、设备和系统 - Google Patents

一种语音会议纪要的分类方法、设备和系统 Download PDF

Info

Publication number
CN102968991A
CN102968991A CN2012104992736A CN201210499273A CN102968991A CN 102968991 A CN102968991 A CN 102968991A CN 2012104992736 A CN2012104992736 A CN 2012104992736A CN 201210499273 A CN201210499273 A CN 201210499273A CN 102968991 A CN102968991 A CN 102968991A
Authority
CN
China
Prior art keywords
voice data
code stream
audio code
voiceprint recognition
field information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104992736A
Other languages
English (en)
Other versions
CN102968991B (zh
Inventor
詹五洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210499273.6A priority Critical patent/CN102968991B/zh
Publication of CN102968991A publication Critical patent/CN102968991A/zh
Priority to EP13859078.1A priority patent/EP2922051A4/en
Priority to PCT/CN2013/078598 priority patent/WO2014082445A1/zh
Priority to US14/093,127 priority patent/US8838447B2/en
Application granted granted Critical
Publication of CN102968991B publication Critical patent/CN102968991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/30Aspects of automatic or semi-automatic exchanges related to audio recordings in general
    • H04M2203/301Management of recordings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/30Determination of the location of a subscriber

Abstract

本发明实施例提供一种语音会议纪要的分类方法、设备和系统,涉及通信领域,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。其方法为:根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将语音激活标志写入附加域信息,而后将音频数据打包成音频码流,并将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。本发明实施例用于对语音会议纪要进行分类。

Description

一种语音会议纪要的分类方法、设备和系统
技术领域
本发明涉及通信领域,尤其涉及一种语音会议纪要的分类方法、设备和系统。
背景技术
随着视频会议技术的飞速发展,类似于普通会议开会过程中人工产生会议记录,在多点视频会议中,也同样存在会议纪要的需求。现有产品已经可以实现在视频会议过程中自动记录整个会议的音视频、数据等内容,如果只是对音频数据单纯的记录下来,当对会议的重点内容或者特定内容进行回顾时,就无法达到普通会议那种可以按发言人进行分类的会议纪要整理需求。
在视频会议进行中,如果可以确定整个语音文件只有一个人在讲话,就可以直接将整个文件的语音数据发送至声纹识别系统进行识别。如果语音文件中有多个人的语音,则需要先对语音文件进行分段,然后对每段语音数据分别进行声纹识别。现有的声纹识别系统,通常需要10秒以上的语音数据,数据越长,准确度越高。因此,在对语音数据进行分段时,段不能太短。由于在视频会议中,自由交谈的场景较多,因此当对语音数据的分段较长时,一段语音可能包含多个人的语音,在将这多个人的语音数据段送到声纹识别系统进行识别时,识别结果将是不可靠的。
发明内容
本发明的实施例提供一种语音会议纪要的分类方法、设备和系统,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种语音会议纪要的分类方法,包括:
根据会场的音频数据进行声源定位,以获取所述音频数据所对应的声源的方位,并将所述声源的方位写入所述音频数据的附加域信息;
将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器,以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。
在一种可能实现的方式中,结合第一方面,在将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器之前,所述方法还包括:
将语音激活标志写入所述附加域信息,其中所述语音激活标志包括已激活或未激活,以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测所述音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。
在第二种可能实现的方式中,结合第一方面的第一种可能的实现方式,所述将语音激活标志写入所述附加域信息包括:
对所述音频数据进行语音活动侦测处理,以识别所述音频数据是否为语音数据,若所述音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若所述音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
第二方面,提供一种语音会议纪要的分类方法,包括:
从多点控制单元接收会场的音频码流和音频码流的附加域信息,所述音频码流的附加域信息包括所述音频码流所对应的声源的方位;
将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中,并将所述码流文件中的音频数据发送至声纹识别系统;
从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。
在第一种可能实现的方式中,结合第二方面,在所述将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中之后,所述方法还包括:
将所述音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将所述至少两个音频码流按照时间信息进行排序。
在第二种可能实现的方式中,结合第二方面或第二方面的第一种可能实现的方式,将所述码流文件中的音频数据发送至声纹识别系统;从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中包括:
将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统;
从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。
在第三种可能实现的方式中,结合第二方面的第二种可能实现的方式,从所述声纹识别系统接收声纹识别结果之前还包括:
将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统,所述第二单位时间为所述第一单位时间的上一个单位时间,以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时,将所述第二单位时间内的音频数据的声纹识别结果作为参考。
在第四种可能实现的方式中,结合第二方面或第二方面的第一种更可能实现的方式至第三种可能实现的方式,在将所述码流文件中的音频数据发送至声纹识别系统之前,还包括:
检测所述第一单位时间内的音频数据的附加域信息,若所述第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将所述第一单位时间内的音频数据发送至声纹识别系统。
在第五种可能实现的方式中,结合第二方面或第二方面的第一种可能实现的方式至第四种可能实现的方式,在将所述码流文件中的音频数据发送至声纹识别系统之前,还包括:
检测所述音频码流的附加域信息中的声源方位;
若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个,则将所述码流文件发送至声纹识别系统;
若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个,且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。
第三方面,提供一种视频设备,包括:
方位获取单元,用于根据会场的音频数据进行声源定位,以获取所述音频数据所对应的声源的方位,并将所述声源的方位写入所述音频数据的附加域信息,再将所述音频数据以及所述音频数据的附加域信息发送至发送单元;
发送单元,用于从方位获取单元和标志写入单元接收所述音频数据以及所述音频数据的附加域信息,将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器,以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。
在一种可能实现的方式中,结合第三方面,所述视频设备还包括:
标志写入单元,用于将语音激活标志写入所述附加域信息,其中所述语音激活标志包括已激活或未激活,以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测所述音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。
在第二种可能实现的方式中,结合第三方面的第一种可能的实现方式,所述标志写入单元具体用于:
对所述音频数据进行语音活动侦测处理,以识别所述音频数据是否为语音数据,若所述音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若所述音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
第四方面,提供一种录播服务器,包括:
接收单元,用于从多点控制单元接收会场的音频码流和音频码流的附加域信息,所述音频码流的附加域信息包括所述音频码流所对应的声源的方位,并将所述音频码流发送至分类识别单元;
分类识别单元,用于从所述接收单元接收所述音频码流,将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中,并将所述码流文件中的音频数据发送至声纹识别系统;
身份匹配单元,用于从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。
在第一种可能实现的方式中,结合第四方面,所述录播服务器还包括:
排序单元,用于将所述音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将所述至少两个音频码流按照时间信息进行排序。
在第二种可能实现的方式中,结合第四方面或第四方面的第一种可能实现的方式,
所述分类识别单元具体用于将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统;
所述身份匹配单元具体用于从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。
在第三种可能实现的方式中,结合第四方面的第二种可能实现的方式中,包括:
所述分类识别单元还具体用于将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统,所述第二单位时间为所述第一单位时间的上一个单位时间,以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时,将所述第二单位时间内的音频数据的声纹识别结果作为参考。
在第四种可能实现的方式中,结合第四方面或第四方面的第一种可能实现的方式至第三种可能实现的方式,在将所述码流文件中的音频数据发送至声纹识别系统之前,所述分类识别单元还用于:
检测所述第一单位时间内的音频数据的附加域信息,若所述第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将所述第一单位时间内的音频数据发送至声纹识别系统。
在第五种可能实现的方式中,结合第四方面或第四方面的第一种可能实现的方式至第四种可能实现的方式,在将码流文件中的音频数据发送至声纹识别系统之前,
所述分类识别单元还具体用于检测所述音频码流的附加域信息中的声源方位;
若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个,则所述分类识别单元还具体用于将所述码流文件发送至声纹识别系统;
若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个,且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则所述身份匹配单元还具体用于将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。
第五方面,提供一种视频会议,包括声纹识别系统和多点控制单元,还包括所述视频设备和所述录播服务器。
本发明实施例提供一种语音会议纪要的分类方法、设备和系统,通过根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,而后将音频数据打包成音频码流,并将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音会议纪要的分类方法流程示意图;
图2为本发明实施例提供的另一种语音会议纪要的分类方法流程示意图;
图3为本发明另一实施例提供的一种语音会议纪要的分类方法流程示意图;
图4为本发明又一实施例提供的一种视频设备结构示意图;
图5为本发明又一实施例提供的另一种视频设备结构示意图;
图6为本发明又一实施例提供的一种录播服务器结构示意图;
图7为本发明又一实施例提供的另一种录播服务器结构示意图;
图8为本发明又一实施例提供的又一种视频设备结构示意图;
图9为本发明又一实施例提供的又一种录播服务器结构示意图;
图10为本发明又一实施例提供的一种视频会议系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音会议纪要的分类方法,该方法应用于视频会议系统,该视频会议系统由会场、多点控制单元、录播服务器、声纹识别系统组成,其中会场中包括一个或多个视频设备和麦克风,基于视频设备侧的方法,如图1所示,包括:
S101、视频设备根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息。
S102、视频设备将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类。
进一步的,在执行S102之前还可以包括:视频设备将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,以便录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将音频数据发送至声纹识别系统。
示例性的,可以对音频数据进行语音活动侦测处理,以识别音频数据是否为语音数据,若音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
需要说明的是,一般情况下视频设备需要将音频码流和音频码流的附加域信息先发送至多点控制单元(Multi-Control Unit,MCU)再由多点控制单元转发至发送至录播服务器。
本发明实施例提供另一种语音会议纪要的分类方法,基于录播服务器侧,如图2所示,包括:
S201、录播服务器从多点控制单元接收会场的音频码流和音频码流的附加域信息,音频码流的附加域信息包括音频码流所对应的声源的方位。
S202、录播服务器将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中,并将码流文件中的音频数据发送至声纹识别系统。
S203、录播服务器从声纹识别系统接收声纹识别结果,声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份,并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。
本发明实施例提供一种语音会议纪要的分类方法,通过根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,而后将音频数据打包成音频码流,并将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种语音会议纪要的分类方法,如图3所示,包括:
S301、视频设备根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息。
具体的,可以通过声源定位技术获取会场中声源的方位,该声源定位技术是通过麦克风阵列拾取语音信号,并用数字信号处理技术对其进行分析和处理来得到声源方位的。
S302、视频设备将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活。
可选的,视频设备在将语音激活标志写入附加域信息之前,要先识别音频数据是否为语音数据。具体的,可以通过VAD(VoiceActivation Detection,语音活动侦测)处理识别音频数据是否为语音数据,对音频数据进行语音活动侦测处理,以识别音频数据是否为语音数据,若音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
这样做的目的是从音频数据的信号流里识别非语音数据,以便在进行声纹识别时不对非语音数据进行识别,以达到节省资源的目的。
S303、视频设备将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至多点控制单元。
具体的,在视频设备将会场的音频码流和音频码流的附加域信息发送至录播服务器之前,可以通过MCU从视频设备接收音频码流和音频码流的附加域信息,并将音频码流和音频码流的附加域信息转发至NRS(Net Record Server,录播服务器)其中,音频码流的附加域信息包括音频码流所对应的声源的方位。
其中,多点控制单元是视频会议系统的核心部分,可以为视频会议用户提供群组会议、多组会议的连接服务。视频设备在将打包后的音频码流和音频码流的附加域信息发送至多点控制单元时,音频码流和附加域信息是通过不同的信道进行传输的。
S304、多点控制单元从视频设备接收会场的音频码流和音频码流的附加域信息,并将接收的会场的音频码流和音频码流的附加域信息发送至录播服务器,音频码流的附加域信息包括音频码流所对应的声源的方位。
其中,由于多点控制单元接收到的音频码流和附加域信息是经过打包的,因此多点控制单元在接收到音频码流和附加域信息后,需要通过解码器对接收到的音频码流和音频码流的附加域信息进行解码,以恢复音频码流和附加域信息,其中,音频码流的附加域信息包括音频码流所对应的声源的方位。
进一步的,当有多个会场发送音频码流时,多点控制单元在接收到各个会场的音频码流和音频码流的附加域信息后,可以对各个会场的音频码流的增益大小进行排序,而后选取音频码流增益最大的前N个会场。例如,可以选取各个会场中的音频码流增益最大的前3个会场或者前4个会场。而后,多点控制单元将语音最大的前N个会场的音频码流和音频码流的附加域信息发送至录播服务器。
S305、录播服务器将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中。
示例性的,录播服务器在接收到由多点控制单元筛选出的最大的前N个会场的音频码流和音频码流的附加域信息时,可以根据这些音频码流所属会场的会场号以及这些音频码流的附加域信息中的声源方位创建对应的码流文件,并将音频码流存储在对应的码流文件中,这样通过将音频码流与会场及声源方位进行关联,实现了音频码流的精准分类,以便在进行声纹识别时能够准确的识别出该音频码流在该会场中所属声源方位的参会者身份。
S306、录播服务器将音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将至少两个音频码流按照时间信息进行排序。
其中,在录播服务器将解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中之后,录播服务器要将音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将至少两个音频码流按照时间信息进行排序。具体的,在做会议纪要记录的同时,需要对与会者的说话先后顺序进行排序,因此需要将接收到的各条音频码流的时间信息写入该音频码流的附加域信息中,以便将各个会场中的各个音频码流按照时间信息进行排序,做到会议纪要记录的清晰准确。
S307、录播服务器检测音频码流的附加域信息中的声源方位。
S308、录播服务器判断音频码流对应的附加域信息中是否只有一个声源方位,若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个,则执行S309;若音频码流的附加域信息中音频码流对应的声源方位只有一个,则执行S310。
S309、录播服务器判断至少两个声源方位对应的参会者身份是否已经在上一次进行声纹识别时识别出来,若至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则执行S311;若至少两个声源方位对应的参会者身份没有在上一次进行声纹识别时识别出来,则再次执行S307~S309。
S310、录播服务器将码流文件中的音频数据发送至声纹识别系统(The Voiceprint identification System,VPS),而后执行S312。
其中,在录播服务器将码流文件中的音频数据发送至声纹识别系统之前,录播服务器要检测第一单位时间内的音频数据的附加域信息,若第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将第一单位时间内的音频数据发送至声纹识别系统。
具体的,录播服务器检测第n个单位时间内存储的属于某一会场的某一方位的音频码流的附加域信息中的语音激活标志,若这段音频码流的所有附加域信息中的语音激活标志都未激活,则不进行处理,这样,当该第n个单位时间内存储的属于某一会场的某一方位的音频码流的附加域信息中的语音激活标志都未激活时,表示这些音频数据不是语音,就不用将该音频数据发送至声纹识别系统进行检测了,节省了资源。
示例性的,上述的单位时间的时间长度可以根据实际情况来设置,例如,可以将单位时间的时间长度设置为1min。
声纹识别技术是一种生物特征识别技术,也称为说话人识别,具体的,声纹识别系统可以将需要识别的语音数据的声纹特征与声纹库中的所有声纹进行匹配,以识别说话人身份。一般为了进行可靠的识别,通常需要10秒以上的语音数据存储,数据越长,准确度越高。
S311、录播服务器将已识别出来的至少两个声源方位对应的参会者身份写入音频码流的附加域信息中。
具体的,由于当一段音频码流的附加域信息中出现至少两个声源方位时,若将该音频码流送入声纹识别系统可能会到导致识别错误,因此,当音频码流的附加域信息存在至少两个声源的方位时,由于之前已经检测出的该方位的姓名信息,就不再将音频码流进行声纹识别,而是将之前检测出的该方位对应的参会者身份即姓名信息直接写入该方位出现重叠的音频码流附加域的姓名信息上,从而实现了在多个人同时说话时识别声源方位的目的,也增加会议纪要分类的准确度。
S312、录播服务器从声纹识别系统接收声纹识别结果,声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份,并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。
示例性的,录播服务器可以将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件,并将码流文件中的第一单位时间内的音频数据发送至声纹识别系统;
而后录播服务器从声纹识别系统接收声纹识别结果,声纹识别结果包括在第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。
或者,优选的,在从声纹识别系统接收声纹识别结果之前还可以包括:将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统,第二单位时间为第一单位时间的上一个单位时间,以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时,将第二单位时间内的音频数据的声纹识别结果作为参考。这样,在有前一次识别结果作为参考的情况下进行识别,可以提高声纹识别速度。
本发明实施例提供一种语音会议纪要的分类方法,通过根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,而后将音频数据打包成音频码流,并将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种视频设备01,如图4所示,包括:
方位获取单元011,用于根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将音频数据以及音频数据的附加域信息发送至发送单元013。
发送单元013,用于从方位获取单元011接收音频数据以及音频数据的附加域信息,将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类。
进一步的,如图5所示,视频设备01还可以包括:
标志写入单元012,用于在将音频数据以及音频数据的附加域信息发送至发送单元013之前,从方位获取单元011接收附加域信息,并将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,而后将附加域信息发送至发送单元013,以便录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将音频数据发送至声纹识别系统。
其中,标志写入单元012可以具体用于:
对音频数据进行语音活动侦测处理,以识别音频数据是否为语音数据,若音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
本发明实施例提供一种视频设备,通过会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,将语音激活标志写入附加域信息,将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种录播服务器02,如图6所示,包括:
接收单元021,用于从多点控制单元接收会场的音频码流和音频码流的附加域信息,音频码流的附加域信息包括音频码流所对应的声源的方位,并将音频码流发送至分类识别单元022。
分类识别单元022,用于从接收单元021接收音频码流,将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中,并将码流文件中的音频数据发送至声纹识别系统。
身份匹配单元023,用于从分类识别单元022的声纹识别系统接收声纹识别结果,声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份,并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。
进一步的,如图7所示,录播服务器02还可以包括:
排序单元024,用于将音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将至少两个音频码流按照时间信息进行排序。
再进一步的,分类识别单元022可以具体用于将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件,并将码流文件中的第一单位时间内的音频数据发送至声纹识别系统。
身份匹配单元023可以具体用于从声纹识别系统接收声纹识别结果,声纹识别结果包括第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。
优选的,在从声纹识别系统接收声纹识别结果之前,分类识别单元022还可以具体用于将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统,第二单位时间为第一单位时间的上一个单位时间,以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时,将第二单位时间内的音频数据的声纹识别结果作为参考。
再进一步的,在将码流文件中的音频数据发送至声纹识别系统之前,分类识别单元还用于022还可以具体用于:
检测第一单位时间内的音频数据的附加域信息,若第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将第一单位时间内的音频数据发送至声纹识别系统。
更进一步的,在将码流文件中的音频数据发送至声纹识别系统之前,分类识别单元022还可以具体用于:
检测音频码流的附加域信息中的声源方位;
若音频码流的附加域信息中音频码流对应的声源方位只有一个,则分类识别单元022还可以用于将码流文件发送至声纹识别系统;
若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个,且至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则身份匹配单元023还可以用于将已识别出来的两个声源方位对应的参会者身份写入音频码流的附加域信息中。
本发明实施例提供一种录播服务器,通过从多点控制单元接收会场的音频码流和音频码流的附加域信息,音频码流的附加域信息包括音频码流所对应的声源的方位,将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中,并将码流文件发送至声纹识别系统,从声纹识别系统接收声纹识别结果,再将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种视频设备05,包括第一接收机051、第一存储器052和总线055,如图8所示,还包括:
第一处理器053,用于根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息。
第一发射机054,用于将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类。
进一步的,第一处理器053在将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至第一发射机054之前,还用于将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,以便录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将音频数据发送至声纹识别系统。其中,第一处理器053还可以具体用于:
对音频数据进行语音活动侦测处理,以识别音频数据是否为语音数据,若音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
本发明实施例提供一种视频设备,通过会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,将语音激活标志写入附加域信息,将音频数据打包成音频码流,将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种录播服务器06,包括第二存储器061、第二发射机063和总线065,如图9所示,还包括:
第二接收机062,用于从多点控制单元接收会场的音频码流和音频码流的附加域信息,音频码流的附加域信息包括音频码流所对应的声源的方位。
第二存储器061,用于将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中,并通过第二发射机063将码流文件中的音频数据发送至声纹识别系统。
第二处理器064,用于从声纹识别系统接收声纹识别结果,声纹识别结果包括音频数据所对应的声源的方位对应的参会者身份,并将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中。
进一步的,在将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中之后,第二处理器064还可以用于:
将音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将至少两个音频码流按照时间信息进行排序。
再进一步的,第二存储器061可以具体用于将在第一单位时间内的音频码流所解码出的音频数据存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件,并通过第二发射机063将码流文件中的音频数据发送至声纹识别系统;
第二接收机062可以具体用于从声纹识别系统接收声纹识别结果,声纹识别结果包括在第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入第一单位时间内的音频数据的附加域信息中。
再进一步的,在从声纹识别系统接收声纹识别结果之前,可以通过第二发射机063将码流文件中的第二单位时间内的音频数据的声纹识别结果发送至声纹识别系统,第二单位时间为第一单位时间的上一个单位时间,以便在声纹识别系统对第一单位时间内的音频数据进行声纹识别时,将第二单位时间内的音频数据的声纹识别结果作为参考。
再进一步的,在将码流文件中的音频数据发送至声纹识别系统之前,第二处理器064还可以用于:
检测第一单位时间内的音频数据的附加域信息,若第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将第一单位时间内的音频数据发送至声纹识别系统。
更进一步的,在将码流文件中的音频数据发送至声纹识别系统之前,第二处理器064还可以用于:
检测音频码流的附加域信息中的声源方位;
若音频码流的附加域信息中音频码流对应的声源方位只有一个,则将码流文件发送至声纹识别系统;
若音频码流的附加域信息包括的音频码流对应的声源方位至少有两个,且至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则通过第二发射机063将已识别出来的两个声源方位对应的参会者身份写入音频码流的附加域信息中。
本发明实施例提供一种录播服务器,通过从多点控制单元接收会场的音频码流和音频码流的附加域信息,音频码流的附加域信息包括音频码流所对应的声源的方位,将音频码流所解码出的音频数据,存储到与音频码流所属的会场号以及音频码流所对应的声源的方位对应的码流文件中,并将码流文件发送至声纹识别系统,从声纹识别系统接收声纹识别结果,再将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
本发明又一实施例提供一种视频会议系统1,包括多点控制单元03和声纹识别系统04,如图10所示,还包括:前述实施例提供的视频设备01和录播服务器02,或视频设备05和录播服务器06。
本发明实施例提供一种视频会议系统,通过根据会场的音频数据进行声源定位,以获取音频数据所对应的声源的方位,并将声源的方位写入音频数据的附加域信息,再将语音激活标志写入附加域信息,其中语音激活标志包括已激活或未激活,而后将音频数据打包成音频码流,并将音频码流和音频码流的附加域信息发送至录播服务器,以使得录播服务器根据附加域信息对音频数据进行分类,将音频数据所对应的声源的方位对应的参会者身份写入音频码流的附加域信息中,能够将会场中的语音数据按照说话人的方位分别进行声纹识别,提高了声纹识别准确率,进而提高了语音会议纪要分类的可靠性。
在本申请所提供的几个实施例中,应该理解到,所揭露方法、设备和系统,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中,各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (19)

1.一种语音会议纪要的分类方法,其特征在于,包括:
根据会场的音频数据进行声源定位,以获取所述音频数据所对应的声源的方位,并将所述声源的方位写入所述音频数据的附加域信息;
将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器,以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。
2.根据权利要求1所述的方法,其特征在于,在将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器之前,所述方法还包括:
将语音激活标志写入所述附加域信息,其中所述语音激活标志包括已激活或未激活,以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测所述音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。
3.根据权利要求2所述的方法,其特征在于,所述将语音激活标志写入所述附加域信息包括:
对所述音频数据进行语音活动侦测处理,以识别所述音频数据是否为语音数据,若所述音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若所述音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
4.一种语音会议纪要的分类方法,其特征在于,包括:
从多点控制单元接收会场的音频码流和音频码流的附加域信息,所述音频码流的附加域信息包括所述音频码流所对应的声源的方位;
将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中,并将所述码流文件中的音频数据发送至声纹识别系统;
从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。
5.根据权利要求4所述的方法,其特征在于,在所述将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中之后,所述方法还包括:
将所述音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将所述至少两个音频码流按照时间信息进行排序。
6.根据权利要求4或5所述的方法,其特征在于,将所述码流文件中的音频数据发送至声纹识别系统;从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中包括:
将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统;
从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。
7.根据权利要求6所述的方法,其特征在于,在从所述声纹识别系统接收声纹识别结果之前还包括:
将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统,所述第二单位时间为所述第一单位时间的上一个单位时间,以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时,将所述第二单位时间内的音频数据的声纹识别结果作为参考。
8.根据权利要求6或7所述的方法,其特征在于,在将所述码流文件中的音频数据发送至声纹识别系统之前,还包括:
检测所述第一单位时间内的音频数据的附加域信息,若所述第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将所述第一单位时间内的音频数据发送至声纹识别系统。
9.根据权利要求4至8任意一项所述的方法,其特征在于,在将所述码流文件中的音频数据发送至声纹识别系统之前,还包括:
检测所述音频码流的附加域信息中的声源方位;
若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个,则将所述码流文件发送至声纹识别系统;
若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个,且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。
10.一种视频设备,其特征在于,包括:
方位获取单元,用于根据会场的音频数据进行声源定位,以获取所述音频数据所对应的声源的方位,并将所述声源的方位写入所述音频数据的附加域信息,再将所述音频数据以及所述音频数据的附加域信息发送至发送单元;
发送单元,用于从所述方位获取单元接收所述音频数据以及所述音频数据的附加域信息,将所述音频数据打包成音频码流,将所述音频码流和所述音频码流的附加域信息发送至录播服务器,以使得所述录播服务器根据所述附加域信息对所述音频数据进行分类。
11.根据权利要求9所述的视频设备,其特征在于,所述视频设备还包括:
标志写入单元,用于将语音激活标志写入所述附加域信息,其中所述语音激活标志包括已激活或未激活,以便所述录播服务器在将解码出的音频数据发送至声纹识别系统之前,检测所述音频数据的附加域信息中的语音激活标志,并在语音激活标志为已激活时将所述音频数据发送至声纹识别系统。
12.根据权利要求11所述的视频设备,其特征在于,所述标志写入单元具体用于:
对所述音频数据进行语音活动侦测处理,以识别所述音频数据是否为语音数据,若所述音频数据为语音数据,则在附加域信息中将语音激活标志写为激活;若所述音频数据不是语音数据,则在附加域信息中将语音激活标志写为未激活。
13.一种录播服务器,其特征在于,包括:
接收单元,用于从多点控制单元接收会场的音频码流和音频码流的附加域信息,所述音频码流的附加域信息包括所述音频码流所对应的声源的方位,并将所述音频码流发送至分类识别单元;
分类识别单元,用于从所述接收单元接收所述音频码流,将所述音频码流所解码出的音频数据,存储到与所述音频码流所属的会场号以及所述音频码流所对应的声源的方位对应的码流文件中,并将所述码流文件中的音频数据发送至声纹识别系统;
身份匹配单元,用于从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述音频数据所对应的声源的方位对应的参会者身份,并将所述音频数据所对应的声源的方位对应的参会者身份写入所述音频码流的附加域信息中。
14.根据权利要求13所述的录播服务器,其特征在于,所述录播服务器还包括:
排序单元,用于将所述音频码流的时间信息写入音频码流的附加域信息中,以便当接收到的音频码流为至少两个时,将所述至少两个音频码流按照时间信息进行排序。
15.根据权利要求13或14所述的录播服务器,其特征在于,包括:
所述分类识别单元具体用于将所述码流文件中的第一单位时间内的音频数据发送至声纹识别系统;
所述身份匹配单元具体用于从所述声纹识别系统接收声纹识别结果,所述声纹识别结果包括所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份,并将所述第一单位时间内的音频数据所对应的声源的方位对应的参会者身份写入所述第一单位时间内的音频数据的附加域信息中。
16.根据权利要求15所述的录播服务器,其特征在于,包括:
所述分类识别单元还具体用于将所述码流文件中的第二单位时间内的音频数据的声纹识别结果发送至所述声纹识别系统,所述第二单位时间为所述第一单位时间的上一个单位时间,以便在所述声纹识别系统对所述第一单位时间内的音频数据进行声纹识别时,将所述第二单位时间内的音频数据的声纹识别结果作为参考。
17.根据权利要求15或16所述的录播服务器,其特征在于,在将所述码流文件中的音频数据发送至声纹识别系统之前,所述分类识别单元还用于:
检测所述第一单位时间内的音频数据的附加域信息,若所述第一单位时间内的音频数据的所有附加域信息中的语音激活标志都为未激活,则不将所述第一单位时间内的音频数据发送至声纹识别系统。
18.根据权利要求13至17任意一项所述的录播服务器,其特征在于,在将所述码流文件中的音频数据发送至声纹识别系统之前,
所述分类识别单元还具体用于检测所述音频码流的附加域信息中的声源方位;
若所述音频码流的附加域信息中所述音频码流对应的声源方位只有一个,则所述分类识别单元还具体用于将所述码流文件发送至声纹识别系统;
若所述音频码流的附加域信息包括的所述音频码流对应的声源方位至少有两个,且所述至少两个声源方位对应的参会者身份已经在上一次进行声纹识别时识别出来,则所述身份匹配单元还具体用于将已识别出来的所述至少两个声源方位对应的参会者身份写入所述音频码流的附加域信息中。
19.一种视频会议系统,包括声纹识别系统和多点控制单元,其特征在于,所述系统还包括:如权利要求10至12任意一项所述的视频设备;如权利要求13至18任意一项所述的录播服务器。
CN201210499273.6A 2012-11-29 2012-11-29 一种语音会议纪要的分类方法、设备和系统 Active CN102968991B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210499273.6A CN102968991B (zh) 2012-11-29 2012-11-29 一种语音会议纪要的分类方法、设备和系统
EP13859078.1A EP2922051A4 (en) 2012-11-29 2013-07-01 METHOD, DEVICE, AND SYSTEM FOR CLASSIFYING MINUTES OF AUDIO CONFERENCE
PCT/CN2013/078598 WO2014082445A1 (zh) 2012-11-29 2013-07-01 一种语音会议纪要的分类方法、设备和系统
US14/093,127 US8838447B2 (en) 2012-11-29 2013-11-29 Method for classifying voice conference minutes, device, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210499273.6A CN102968991B (zh) 2012-11-29 2012-11-29 一种语音会议纪要的分类方法、设备和系统

Publications (2)

Publication Number Publication Date
CN102968991A true CN102968991A (zh) 2013-03-13
CN102968991B CN102968991B (zh) 2015-01-21

Family

ID=47799098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210499273.6A Active CN102968991B (zh) 2012-11-29 2012-11-29 一种语音会议纪要的分类方法、设备和系统

Country Status (4)

Country Link
US (1) US8838447B2 (zh)
EP (1) EP2922051A4 (zh)
CN (1) CN102968991B (zh)
WO (1) WO2014082445A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
WO2014173370A1 (zh) * 2013-08-22 2014-10-30 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104333686A (zh) * 2014-11-27 2015-02-04 天津天地伟业数码科技有限公司 基于人脸和声纹识别的智能监控摄像机及其控制方法
CN104575575A (zh) * 2013-10-10 2015-04-29 王景弘 语音管理装置及其操作方法
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN107171816A (zh) * 2017-06-21 2017-09-15 歌尔科技有限公司 电话会议中的数据处理方法及装置
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN107918771A (zh) * 2017-12-07 2018-04-17 河北工业大学 人物识别方法和佩戴式人物识别系统
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN109525799A (zh) * 2018-09-28 2019-03-26 威锋电子股份有限公司 移动通信装置的座体及其操作方法
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN110349581A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 语音和文字转换传输方法、系统、计算机设备和存储介质
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质
CN110491385A (zh) * 2019-07-24 2019-11-22 深圳市合言信息科技有限公司 同声传译方法、装置、电子装置及计算机可读存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN111429934A (zh) * 2020-03-13 2020-07-17 北京松果电子有限公司 音频信号处理方法及装置、存储介质
WO2020258976A1 (zh) * 2019-06-28 2020-12-30 华为技术有限公司 一种会议录制方法、装置及会议录制系统
WO2021134720A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种会议数据处理方法及相关设备
CN113139392A (zh) * 2020-01-17 2021-07-20 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
WO2022062471A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 一种音频数据的处理方法、设备和系统
WO2023212879A1 (zh) * 2022-05-05 2023-11-09 北京小米移动软件有限公司 对象音频数据的生成方法、装置、电子设备和存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6242773B2 (ja) * 2014-09-16 2017-12-06 株式会社東芝 会議情報蓄積装置、方法およびプログラム
CN106656353B (zh) * 2016-12-28 2021-03-12 北京光年无限科技有限公司 应用于智能机器人的信息传输方法和装置
US10650813B2 (en) * 2017-05-25 2020-05-12 International Business Machines Corporation Analysis of content written on a board
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
CN112151041B (zh) * 2019-06-26 2024-03-29 北京小米移动软件有限公司 基于录音机程序的录音方法、装置、设备及存储介质
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
JP2022126454A (ja) * 2021-02-18 2022-08-30 富士通株式会社 表示制御プログラム、表示制御装置および表示制御方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004023661A (ja) * 2002-06-19 2004-01-22 Ricoh Co Ltd 記録情報処理方法、記録媒体及び記録情報処理装置
CN101398475A (zh) * 2007-09-27 2009-04-01 索尼株式会社 声源方向检测装置和方法以及声源方向检测相机
CN1479525B (zh) * 2002-06-27 2010-05-12 微软公司 捕获音视频数据的系统和方法
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN102625077A (zh) * 2011-01-27 2012-08-01 深圳市合智创盈电子有限公司 一种会议记录方法、会议摄像装置、客户机及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2351628B (en) * 1999-04-14 2003-10-01 Canon Kk Image and sound processing apparatus
US7266189B1 (en) * 2003-01-27 2007-09-04 Cisco Technology, Inc. Who said that? teleconference speaker identification apparatus and method
CN100484231C (zh) 2004-08-18 2009-04-29 华为技术有限公司 视讯会议结束提醒方法
JP4565162B2 (ja) * 2006-03-03 2010-10-20 独立行政法人産業技術総合研究所 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
JP2007256498A (ja) * 2006-03-22 2007-10-04 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP5045670B2 (ja) * 2006-05-17 2012-10-10 日本電気株式会社 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8050917B2 (en) * 2007-09-27 2011-11-01 Siemens Enterprise Communications, Inc. Method and apparatus for identification of conference call participants
US8243902B2 (en) * 2007-09-27 2012-08-14 Siemens Enterprise Communications, Inc. Method and apparatus for mapping of conference call participants using positional presence
US7995732B2 (en) * 2007-10-04 2011-08-09 At&T Intellectual Property I, Lp Managing audio in a multi-source audio environment
CN101582951A (zh) * 2008-05-14 2009-11-18 北京帮助在线信息技术有限公司 一种运用语音识别技术的会议记录的实现方法和设备
CN102509548B (zh) * 2011-10-09 2013-06-12 清华大学 一种基于多距离声传感器的音频索引方法
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102968991B (zh) * 2012-11-29 2015-01-21 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004023661A (ja) * 2002-06-19 2004-01-22 Ricoh Co Ltd 記録情報処理方法、記録媒体及び記録情報処理装置
CN1479525B (zh) * 2002-06-27 2010-05-12 微软公司 捕获音视频数据的系统和方法
CN101398475A (zh) * 2007-09-27 2009-04-01 索尼株式会社 声源方向检测装置和方法以及声源方向检测相机
CN102625077A (zh) * 2011-01-27 2012-08-01 深圳市合智创盈电子有限公司 一种会议记录方法、会议摄像装置、客户机及系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
US8838447B2 (en) 2012-11-29 2014-09-16 Huawei Technologies Co., Ltd. Method for classifying voice conference minutes, device, and system
WO2014173370A1 (zh) * 2013-08-22 2014-10-30 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104575575A (zh) * 2013-10-10 2015-04-29 王景弘 语音管理装置及其操作方法
CN104333686A (zh) * 2014-11-27 2015-02-04 天津天地伟业数码科技有限公司 基于人脸和声纹识别的智能监控摄像机及其控制方法
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN107171816A (zh) * 2017-06-21 2017-09-15 歌尔科技有限公司 电话会议中的数据处理方法及装置
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN107749313B (zh) * 2017-11-23 2019-03-01 郑州大学第一附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN107918771A (zh) * 2017-12-07 2018-04-17 河北工业大学 人物识别方法和佩戴式人物识别系统
CN107918771B (zh) * 2017-12-07 2023-11-24 河北工业大学 人物识别方法和佩戴式人物识别系统
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
US10915142B2 (en) 2018-09-28 2021-02-09 Via Labs, Inc. Dock of mobile communication device and operation method therefor
CN109525799A (zh) * 2018-09-28 2019-03-26 威锋电子股份有限公司 移动通信装置的座体及其操作方法
CN109525800A (zh) * 2018-11-08 2019-03-26 江西国泰利民信息科技有限公司 一种远程会议语音识别数据传输方法
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质
CN110349581A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 语音和文字转换传输方法、系统、计算机设备和存储介质
US11974067B2 (en) 2019-06-28 2024-04-30 Huawei Technologies Co., Ltd. Conference recording method and apparatus, and conference recording system
WO2020258976A1 (zh) * 2019-06-28 2020-12-30 华为技术有限公司 一种会议录制方法、装置及会议录制系统
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN110491385A (zh) * 2019-07-24 2019-11-22 深圳市合言信息科技有限公司 同声传译方法、装置、电子装置及计算机可读存储介质
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
WO2021134720A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种会议数据处理方法及相关设备
CN113139392B (zh) * 2020-01-17 2023-08-15 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN113139392A (zh) * 2020-01-17 2021-07-20 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN111429934B (zh) * 2020-03-13 2023-02-28 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN111429934A (zh) * 2020-03-13 2020-07-17 北京松果电子有限公司 音频信号处理方法及装置、存储介质
WO2022062471A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 一种音频数据的处理方法、设备和系统
WO2023212879A1 (zh) * 2022-05-05 2023-11-09 北京小米移动软件有限公司 对象音频数据的生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102968991B (zh) 2015-01-21
WO2014082445A1 (zh) 2014-06-05
US8838447B2 (en) 2014-09-16
EP2922051A1 (en) 2015-09-23
US20140163970A1 (en) 2014-06-12
EP2922051A4 (en) 2015-12-09

Similar Documents

Publication Publication Date Title
CN102968991B (zh) 一种语音会议纪要的分类方法、设备和系统
US8204759B2 (en) Social analysis in multi-participant meetings
CN102572356B (zh) 记录会议的方法和会议系统
CN102842306B (zh) 语音控制方法及装置、语音响应方法及装置
US6477491B1 (en) System and method for providing speaker-specific records of statements of speakers
US8538753B2 (en) Generating representations of group interactions
CN102843543A (zh) 视频会议提醒方法、装置和视频会议系统
CN105975569A (zh) 一种语音处理的方法及终端
CN106356067A (zh) 录音方法、装置及终端
CN105245355A (zh) 智能语音速记会议系统
CN105390136A (zh) 用于用户适配型服务的车辆设备控制装置及方法
CN102339193A (zh) 一种声控会议演讲的方法及系统
KR102462219B1 (ko) 화자 분리 기술을 이용한 회의록 자동 생성 방법
KR20160108874A (ko) 대화록 자동 생성 방법 및 장치
CN106528715A (zh) 一种音频内容校核方法及装置
CN103778917A (zh) 一种在电话满意度调查中检测身份冒充的系统与方法
Ohishi et al. Conceptbeam: Concept driven target speech extraction
CN106023990A (zh) 一种基于投影设备的语音控制方法及装置
CN103137124A (zh) 一种语音合成方法
CN102625164A (zh) 多媒体数据处理平台及多媒体读物、系统和方法
CN103888861A (zh) 麦克风阵列指向性调节方法、装置及电子设备
CN101674452A (zh) 一种会场提示方法及装置
CN108886551B (zh) 用于控制内部通讯系统的方法和装置
Basu et al. An overview of speaker diarization: Approaches, resources and challenges
Venkatesh et al. Audio-visual privacy protection for video conference

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant