CN114333853A - 一种音频数据的处理方法、设备和系统 - Google Patents
一种音频数据的处理方法、设备和系统 Download PDFInfo
- Publication number
- CN114333853A CN114333853A CN202011027427.2A CN202011027427A CN114333853A CN 114333853 A CN114333853 A CN 114333853A CN 202011027427 A CN202011027427 A CN 202011027427A CN 114333853 A CN114333853 A CN 114333853A
- Authority
- CN
- China
- Prior art keywords
- audio data
- speaker
- conference
- voiceprint feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 9
- 238000012545 processing Methods 0.000 claims abstract description 195
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 230000015654 memory Effects 0.000 claims description 53
- 230000007774 longterm Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000003068 static effect Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000004807 localization Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 239000005022 packaging material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例提供了一种音频数据的处理方法、设备和系统,用于对会议音频数据按照发言人身份进行分类。本申请实施例具体包括:该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果,其中该附加域信息包括该音频数据对应的声源方位信息,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;然后该会议记录处理装置对该音频数据进行语音分段,以获得该音频数据的第一分段音频数据;最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
Description
技术领域
本申请涉及通信领域,尤其涉及一种音频数据的处理方法、设备和系统。
背景技术
随着视频会议技术的飞速发展,类似于普通会议开会过程中人工产生会议记录,在多点视频会议中,也同样存在会议纪要的需求。现有产品已经可以实现在视频会议过程中自动记录整个会议的音视频、数据等内容,如果只是对音频数据单纯的记录下来,当对会议的重点内容或者特定内容进行回顾时,就无法达到普通会议那种可以按发言人进行分类的会议纪要整理需求。
在视频会议进行中,如果可以确定整个语音文件只有一个人在讲话,就可以直接将整个文件的音频数据发送至声纹识别系统进行识别。如果语音文件中有多个人的语音,则需要先对语音文件进行分段,然后对每段音频数据分别进行声纹识别。现有的声纹识别系统,通常需要10秒以上的音频数据,数据越长,准确度越高。因此,在对音频数据进行分段时,段不能太短。由于在视频会议中,自由交谈的场景较多,因此当对音频数据的分段较长时,一段语音可能包含多个人的语音,在将这多个人的音频数据段送到声纹识别系统进行识别时,识别结果将是不可靠的。
而实现上述方案的前提是会议参与人需要在声纹识别系统进行声纹注册,但是声音采集时的信道对声纹特征影响较大,预先注册声纹时一般采用单一信道,而识别时的信道多种多样,难以保证不同声音信道采集的声音的声纹识别准确性。
发明内容
本申请实施例提供了一种音频数据的处理方法、设备和系统,用于对会议音频数据实现精确分类。
第一方面,本申请实施例提供一种音频数据的处理方法,其具体包括:该会议记录处理装置获取第一会场的音频数据、该音频数据对应的声源方位信息和身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;然后该会议记录处理装置对该音频数据进行语音分段,以获得该音频数据的第一分段音频数据;最后该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
本实施例中,该音频数据和该音频数据对应声源方位信息可以打包生成音频码流,然后该音频码流包含该音频数据的附加域信息,该附加域信息包括该音频数据对应的声源方位信息。该音频数据的处理方法可以应用于本地会议或远程会议场景下,其中,参与会议的会场可以包括至少一个。基于上述方案,该附加域信息中还可以包括该音频数据的时间信息以及该第一会场的会场标识信息其他信息。人像识别方法包括人脸识别以及对于人体属性识别。比如通过人脸识别得到面部特征对应的发言人,而人体属性识别包括对于用户整体衣着或者身体特征进行识别得到身体特征或用户衣着外观对应的发言人。该发言人身份信息可以为用户身份标识信息(比如发言人在公司内的工号或者发言人在公司内部数据库已登记的身份证号码或者电话号码)或者用户身体属性标识信息(比如当前会议中该用户上衣穿着白色衣服,下身为黑色长裤或者该用户的手臂上有个明显的记号等等)。而该发言时间信息可以是一段时间或者两个时间点。比如该发言时间信息为当前会议开始后的00:00:15至00:00:45这一段30秒时间;或者该发言时间信息仅包括“00:00:15”和“00:00:45”这两个时间点。可以理解的是,本申请实施例中,该“00:00:00”形式指示的计时规则为“时:分:秒”,即“00:00:15”指示的时间点为会议开始之后的第15秒。
本实施例提供的技术方案中,该会议记录处理装置获取了用于指示发言人身份信息和发言时间信息的对应关系的身份识别结果,然后将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
可选的,该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人的操作可以如下:
一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应唯一发言人身份信息,则该会议记录处理装置根据该发言人身份信息确定该第一分段音频数据对应的发言人。即该会议记录处理装置获取了该第一分段音频数据的身份识别结果指示该第一段音频数据对应的发言人只有user01,且对应的声纹特征为VP01,则该会议记录处理装置将该第一分段音频数据的发言人确定为该user01。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该会议记录处理装置对比该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,该第二分段音频数据对应唯一发言人身份信息;若该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则该会议记录处理装置根据该第二分段音频数据对应的发言人身份信息确定该第一分段音频数据对应的发言人。比如第二分段音频数据已确定发言人身份信息为user02,对应的声纹特征为VP02,该第一分段音频数据的声纹特征为VP02,对应的发言人身份信息包括user03和user02;由上述分析可知,该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征同为VP02,而由第二分段音频数据的结果可知,声纹特征为VP02对应的发言人为user02,则可以确定该第一分段音频数据的发言人也为user02。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该会议记录处理装置根据该第一分段音频数据对应的发言人身份信息和声纹特征,以及该第二分段音频数据对应的发言人身份信息和声纹特征确定该第一分段音频数据对应的发言人,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,该第二分段音频数据对应至少两个发言人身份信息。即该会议记录处理装置可以根据多个分段音频数据的声纹特征以及对应的发言人身份信息进行综合判断各个分段音频数据对应的发言人。比如第二分段音频数据已确定发言人身份信息为user02和user03,对应的声纹特征为VP02,该第一分段音频数据的声纹特征为VP03,对应的发言人身份信息包括user03和user02,第三分段音频数据的声纹特征为VP03,对应的发言人身份信息为user03和user01。由上述分析可知,该第一分段音频数据的声纹特征与第三分段音频数据的声纹特征同为VP03,而第一分段音频数据对应的发言人身份信息与第三分段音频数据对应的发言人身份存在唯一交集,即user03,这时可以确定声纹特征同VP03对应的发言人为user03。这时可以继续判断该第二分段音频数据对应的发言人为user02,即声纹特征为VP02对应的发言人为user02。
另一种可能实现方式中,该会议记录处理装置根据该第一分段音频数据对应的声纹特征、该身份识别结果和该第一会场的长时声纹特征纪录确定该第一分段音频数据对应的发言人,所述长时声纹特征纪录包括所述第一会场的历史声纹特征纪录,所述第一会场的历史声纹特征纪录用于指示声纹特征、发言人以及信道标识之间的对应关系。
可选的,在该会议记录处理装置根据该第一分段音频数据的声纹特征、该身份识别结果和长时声纹特征纪录确定该第一分段音频数据对应的发言人时,其具体操作可以如下:该会议记录处理装置将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对,该第一发言人为该第一会场的当前会议中已确定的发言人;若该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征一致,则该会议记录处理装置确定该长时声纹特征纪录可用,此时该会议记录处理装置将该第一分段音频数据对应的声纹特征、该身份识别结果与该第一会场的长时声纹特征纪录进行比对确定该第一分段音频数据对应的发言人。
在音频数据分类过程中,将短时处理与长时处理相结合可以尽量提高音频数据分类的准确度。
可选的,该会议记录处理装置将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对,该第一发言人为该第一会场的当前会议中已确定的发言人;若该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征不一致,则该会议记录处理装置将该第一会场的当前会议中的声纹特征、信道标识以及该声纹特征对应的发言人进行注册,并更新该长时声纹特征纪录。这样可以根据实际情况对于会场的声纹特征、发言人以及信道标识进行更新,从而使得该长时声纹特征纪录可用。同时每次会议之后都对相应的声纹特征以及发言人进行注册,从而实现声纹特征与发言人的动态注册,不再局限于固定信道标识的声纹特征注册,可以有效的实现音频数据的分类准确。
可选的,该会议记录处理装置在获取到该第一分段音频数据的声纹特征以及对应的发言人之后,该会议记录处理装置可以获取该第一分段音频数据的声纹特征的声纹标识信息;然后该会议记录处理装置将该声纹标识信息与该第一分段音频数据对应的发言人建立对应关系。这样可以将声纹特征与发言人一一对应,方便后续音频数据分类处理。
可选的,在申请实施例提供的技术方案应用于远程多会场会议场景下时,该会议记录处理装置可以是录播服务器也可以是集成于多点控制单元中的功能模块。因此该音频码流可以由多点控制单元转发至该会议记录处理装置,该身份识别结果由视频会议终端发送至该会议记录处理装置。
可选的,该音频码流由该多点控制单元通过会场选通之后转发至该会议记录处理装置。这样可以减少不必要的数据传输,减轻网络负担。
可选的,该会议记录处理装置对该音频数据进行语音分段的具体操作可以如下:该会议记录处理装置根据该声源方位信息和人声检测技术对该音频数据进行语音分段。这样可以对音频数据进行更精确的分段。
第二方面,本申请实施例中提供一种音频数据的处理方法,其包括:视频会议终端对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;该视频会议终端根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;该视频会议终端将该身份识别结果、该音频数据和该音频数据对应的声源方位信息发送给会议记录处理装置。
本实施例中,该视频会议终端通过对音频数据进行声源定位从而实现对发言人的图像信息采集,并通过对图像信息的人像识别得到用于指示发言人身份信息与发言时间信息的对应关系的身份识别结果,然后将该身份识别结果发送至会议记录处理装置,使得该会议记录处理装置将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
可选的,该视频会议终端在进行人像识别的具体过程可以如下:该视频会议终端获取该声源方位对应的人像信息;该视频会议终端对该人像信息进行图像识别得到人脸信息和/或身体属性信息;该视频会议终端根据该人脸信息和/或该身体属性信息确定该发言人身份信息;该视频会议终端将发言人时间信息与该发言人身份信息建立对应关系得到该身份识别结果。
本实施例中,该发言人身份信息可以为用户身份标识信息(比如发言人在公司内的工号或者发言人在公司内部数据库已登记的身份证号码或者电话号码)或者用户身体属性标识信息(比如当前会议中该用户上衣穿着白色衣服,下身为黑色长裤或者该用户的手臂上有个明显的记号等等)。而该发言时间信息可以是一段时间或者两个时间点。比如该发言时间信息为当前会议开始后的00:00:15至00:00:45这一段30秒时间;或者该发言时间信息仅包括“00:00:15”和“00:00:45”这两个时间点。可以理解的是,本申请实施例中,该“00:00:00”形式指示的计时规则为“时:分:秒”,即“00:00:15”指示的时间点为会议开始之后的第15秒。
可选的,在本申请实施例提供的技术方案应用于本地会议或者远程会议的单用户场景时,该视频会议终端也可以作为该会议记录处理装置实现上述第一方面的方法,具体如下:
该视频会议终端获取当前会场的音频数据,并对该音频数据根据声源方位和人声检测得到分段音频数据;然后获取该分段音频数据的声纹特征,将该声纹特征与该身份识别结果确定该分段音频数据对应的发言人。
本实施例提供的技术方案中,该视频会议终端获取用于指示发言人身份信息和发言时间信息的对应关系的身份识别结果,然后将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
可选的,该视频会议终端根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人的操作可以如下:
一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应唯一发言人身份信息,则该视频会议终端根据该发言人身份信息确定该第一分段音频数据对应的发言人。即该视频会议终端获取了该第一分段音频数据的身份识别结果指示该第一段音频数据对应的发言人只有user01,且对应的声纹特征为VP01,则该视频会议终端将该第一分段音频数据的发言人确定为该user01。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该视频会议终端对比该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,该第二分段音频数据由该视频会议终端对该音频数据进行语音分段得到,该第二分段音频数据对应唯一发言人身份信息;若该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则该视频会议终端根据该第二分段音频数据对应的发言人身份信息确定该第一分段音频数据对应的发言人。比如第二分段音频数据已确定发言人身份信息为user02,对应的声纹特征为VP02,该第一分段音频数据的声纹特征为VP02,对应的发言人身份信息包括user03和user02;由上述分析可知,该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征同为VP02,而由第二分段音频数据的结果可知,声纹特征为VP02对应的发言人为user02,则可以确定该第一分段音频数据的发言人也为user02。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该视频会议终端根据该第一分段音频数据对应的发言人身份信息和声纹特征,以及该第二分段音频数据对应的发言人身份信息和声纹特征确定该第一分段音频数据对应的发言人,该第二分段音频数据由该视频会议终端对该音频数据进行语音分段得到,该第二分段音频数据对应至少两个发言人身份信息。即该视频会议终端可以根据多个分段音频数据的声纹特征以及对应的发言人身份信息进行综合判断各个分段音频数据对应的发言人。比如第二分段音频数据已确定发言人身份信息为user02和user03,对应的声纹特征为VP02,该第一分段音频数据的声纹特征为VP03,对应的发言人身份信息包括user03和user02,第三分段音频数据的声纹特征为VP03,对应的发言人身份信息为user03和user01。由上述分析可知,该第一分段音频数据的声纹特征与第三分段音频数据的声纹特征同为VP03,而第一分段音频数据对应的发言人身份信息与第三分段音频数据对应的发言人身份存在唯一交集,即user03,这时可以确定声纹特征同VP03对应的发言人为user03。这时可以继续判断该第二分段音频数据对应的发言人为user02,即声纹特征为VP02对应的发言人为user02。
另一种可能实现方式中,该视频会议终端根据该第一分段音频数据对应的声纹特征、该身份识别结果和该第一会场的长时声纹特征纪录确定该第一分段音频数据对应的发言人,所述长时声纹特征纪录包括所述第一会场的历史声纹特征纪录,所述第一会场的历史声纹特征纪录用于指示声纹特征、发言人以及信道标识之间的对应关系。
可选的,在该视频会议终端根据该第一分段音频数据的声纹特征、该身份识别结果和长时声纹特征纪录确定该第一分段音频数据对应的发言人时,其具体操作可以如下:该视频会议终端将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对,该第一发言人为该第一会场的当前会议中已确定的发言人;若该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征一致,则该视频会议终端确定该长时声纹特征纪录可用,此时该视频会议终端将该第一分段音频数据对应的声纹特征、该身份识别结果与该第一会场的长时声纹特征纪录进行比对确定该第一分段音频数据对应的发言人。
在音频数据分类过程中,将短时处理与长时处理相结合可以尽量提高音频数据分类的准确度。
可选的,该视频会议终端将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对,该第一发言人为该第一会场的当前会议中已确定的发言人;若该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征不一致,则该视频会议终端将该第一会场的当前会议中的声纹特征、信道标识以及该声纹特征对应的发言人进行注册,并更新该长时声纹特征纪录。这样可以根据实际情况对于会场的声纹特征、发言人以及信道标识进行更新,从而使得该长时声纹特征纪录可用。同时每次会议之后都对相应的声纹特征以及发言人进行注册,从而实现声纹特征与发言人的动态注册,不再局限于固定信道标识的声纹特征注册,可以有效的实现音频数据的分类准确。
可选的,该视频会议终端在获取到该第一分段音频数据的声纹特征以及对应的发言人之后,该视频会议终端可以获取该第一分段音频数据的声纹特征的声纹标识信息;然后该视频会议终端将该声纹标识信息与该第一分段音频数据对应的发言人建立对应关系。这样可以将声纹特征与发言人一一对应,方便后续音频数据分类处理。
第三方面,本申请提供一种会议记录处理装置,该装置具有实现上述第一方面中会议记录处理装置行为的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的实现方式中,该装置包括用于执行以上第一方面各个步骤的单元或模块。例如,该装置包括:获取模块,用于获取第一会场的音频数据,该音频数据对应的声源方位信息和身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;处理模块,用于对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据;根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
可选的,还包括存储模块,用于保存会议记录处理装置必要的程序指令和数据。
在一种可能的实现方式中,该装置包括:处理器和收发器,该处理器被配置为支持会议记录处理装置执行上述第一方面提供的方法中相应的功能。收发器用于指示会议记录处理装置和会议系统中其他设备之间的通信,比如接收视频会议终端发送上述方法中所涉及的音频数据和身份识别结果。可选的,此装置还可以包括存储器,该存储器用于与处理器耦合,其保存会议记录处理装置必要的程序指令和数据。
在一种可能的实现方式中,当该装置为会议记录处理装置内的芯片时,该芯片包括:处理模块和收发模块。该收发模块例如可以是该芯片上的输入/输出接口、管脚或电路等,将接收到的第一会场的音频数据和身份识别结果传送给与此芯片耦合的其他芯片或模块中。该处理模块例如可以是处理器,此处理器用于对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据;根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。该处理模块可执行存储单元存储的计算机执行指令,以支持会议记录处理装置执行上述第一方面提供的方法。可选地,该存储单元可以为该芯片内的存储单元,如寄存器、缓存等,该存储单元还可以是位于该芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
在一种可能的实现方式中,该装置包括:处理器,射频电路和天线。其中处理器用于实现对各个电路部分功能的控制并确定该第一分段音频数据对应的发言人,然后经由射频电路进行模拟转换、滤波、放大和上变频等处理后,再经由天线发送给自动语音识别服务器。可选的,该装置还包括存储器,其保存会议记录处理装置必要的程序指令和数据。
在一种可能实现方式中,该装置包括通信接口和逻辑电路,该通信接口用于获取第一会场的音频码流和身份识别结果,该音频码流包括音频数据和附加域信息,该附加域信息包括该音频数据对应的声源方位信息,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;该逻辑电路,用于对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据;根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
其中,上述任一处提到的处理器,可以是一个通用中央处理器(CentralProcessing Unit,CPU),微处理器,特定应用集成电路(application-specificintegrated circuit,ASIC),或一个或多个用于控制上述各方面音频数据的处理方法的程序执行的集成电路。
第四方面,本申请实施例提供了一种视频会议装置,该装置具有实现上述第二方面中视频会议终端行为的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的实现方式中,该装置包括用于执行以上第二方面各个步骤的单元或模块。例如,该装置包括:处理模块,用于对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;
发送模块,用于将该身份识别结果、音频数据以及音频数据对应的声源方位信息发送给会议记录处理装置。
可选的,还包括存储模块,用于保存视频会议装置必要的程序指令和数据。
在一种可能的实现方式中,该装置包括:处理器和收发器,该处理器被配置为支持视频会议装置执行上述第二方面提供的方法中相应的功能。收发器用于指示视频会议装置和会议系统中各个设备之间的通信,向会议记录处理装置发送音频码流和身份识别结果。可选的,此装置还可以包括存储器,该存储器用于与处理器耦合,其保存视频会议装置必要的程序指令和数据。
在一种可能的实现方式中,当该装置为视频会议装置内的芯片时,该芯片包括:处理模块和收发模块,该处理模块例如可以是处理器,此处理器用于对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;该收发模块例如可以是该芯片上的输入/输出接口、管脚或电路等,配置信息传送给与此芯片耦合的其他芯片或模块中。该处理模块可执行存储单元存储的计算机执行指令,以支持视频会议装置执行上述第二方面提供的方法。可选地,该存储单元可以为该芯片内的存储单元,如寄存器、缓存等,该存储单元还可以是位于该芯片外部的存储单元,如只ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM等。
在一种可能的实现方式中,该装置包括:处理器,基带电路,射频电路和天线。其中处理器用于实现对各个电路部分功能的控制,基带电路用于生成包含音频码流和身份识别结果的数据包,经由射频电路进行模拟转换、滤波、放大和上变频等处理后,再经由天线发送给会议记录处理装置。可选的,该装置还包括存储器,其保存视频会议装置必要的程序指令和数据。
在一种可能实现方式中,该装置包括:通信接口和逻辑电路。其中,逻辑电路,用于对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;通信接口,用于将该身份识别结果发送给会议记录处理装置,并将该音频数据发送给多点控制单元。
其中,上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述各方面音频数据处理方法的程序执行的集成电路。
第五方面,本申请实施例提供一种计算机可读存储介质,该计算机存储介质存储有计算机指令,该计算机指令用于执行上述各方面中任意一方面任意可能的实施方式该的方法。
第六方面,本申请实施例提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面中任意一方面该的方法。
第七方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持会议记录处理装置或视频会议装置实现上述方面中所涉及的功能,例如生成或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,该芯片系统还包括存储器,该存储器,用于保存会议记录处理装置或视频会议装置必要的程序指令和数据,以实现上述各方面中任意一方面的功能。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第八方面,本申请实施例提供一种会议系统,该系统包括上述方面该的会议记录处理装置和视频会议装置。
附图说明
图1A为本申请实施例中会议系统架构的一个实施例示意图;
图1B为本申请实施例中会议系统架构的另一个实施例示意图;
图2为本申请实施例中音频数据的处理方法的一个实施例示意图;
图3为本申请实施例中视频会议终端采集图像信息的一个场景示意图;
图4为本申请实施例中音频数据的处理方法的另一个实施例示意图;
图5为本申请实施例中音频数据的处理方法的另一个实施例示意图;
图6为本申请实施例中音频数据的处理方法的另一个实施例示意图;
图7为本申请实施例中会议记录处理装置的一个实施例示意图;
图8为本申请实施例中会议记录处理装置的另一个实施例示意图;
图9为本申请实施例中视频会议终端的一个实施例示意图;
图10为本申请实施例中视频会议终端的另一个实施例示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所出现的单元的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个单元可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的单元或子单元可以是也可以不是物理上的分离,可以是也可以不是物理单元,或者可以分布到多个电路单元中,可以根据实际的需要选择其中的部分或全部单元来实现本申请方案的目的。
本发明实施例的技术方案可以应用于本地会议或远程会议场景中。本发明实施例的具体系统架构可以包括多个视频会议终端、多点控制单元、录播服务器以及自动语音识别(Automatic Speech Recognition,ASR)服务器。以图1A所示的实施例为例,其中,多个视频会议终端(如图1A中所示的视频会议终端01至视频会议终端03)中的每一个采集会议音频数据以及与会人员的图像信息,并通过该图像信息对与会人员中的发言人进行身份识别得到身份识别结果。然后,该视频会议终端将音频数据和该身份识别结果发送给录播服务器。该录播服务器根据该身份识别结果以及声源方位对音频数据进行分类之后发送给ASR服务器。ASR服务器通过语音转写功能将会议记录输出。如图1B所示的实施例相比图1A的实施例,录播服务器的功能集成在该多点控制单元(相当于图1B中的会议记录处理模块)。多个视频会议终端(如图1B中所示的视频会议终端01至视频会议终端03)中的每一个采集会议音频数据以及与会人员的图像信息,并通过该图像信息对与会人员中的发言人进行身份识别得到身份识别结果。然后,该视频会议终端将音频数据和该身份识别结果发送给多点控制单元,则该多点控制单元中的会议记录处理模块对音频数据进行分类之后发送给ASR服务器。最后,ASR服务器通过语音转写功能将会议记录输出。
具体请参阅图2所示,本申请实施例中音频数据的处理方法的一个实施例包括:
201、视频会议终端采集音频数据。
在远程会议场景下,一场会议可能包括多个会场,每个会场对应至少一个视频会议终端,且每个会场中有至少一个与会人员。本实施例中,以会场中的其中一个视频会议终端进行说明。在会议过程中,该视频会议终端利用麦克风实时拾取各个发言人的音频数据。
202、该视频会议终端获取该音频数据的声源方位。
该视频会议终端在采集到音频数据的同时,可以获取该音频数据对应的声源方位,并将该音频数据与声源方位建立对应关系。比如该视频会议终端在会议开始时间00:00:15至00:00:30内采集到的音频数据的声源方位为相对于该视频会议终端的偏东30度左右。可以理解的是,声源定位允许存在误差,因此该声源方位可以是一个范围值,比如定位到偏东30度,则具体范围可能是偏东28度至偏东32度。
本实施例中,该视频会议终端获取该音频数据的声源方位可以采用如下几种可能实现方式:
一种可能实现方式中,该视频会议终端上部署阵列麦克风,通过阵列麦克风拾音的声音波束信息确定该音频数据的声源方位。
另一种可能实现方式中,该会场另外部署专用于声源定位的装置或者系统,然后以该声源定位装置或系统为标定参考点确定该音频数据的声源方位,然后将该声源方位发送给该视频会议终端。
可以理解的是,该声源定位可以采用上述方案也可以采用其他任一可能实现方式,只要可以获取该音频数据的声源方位即可,具体方案此处不做限定。
203、该视频会议终端通过人声检测对该音频数据进行语音分段,以得到分段音频数据。
该视频会议终端根据人声检测对于接收到的音频数据进行语音分段得到不同的分段音频数据。
本实施例中,该视频会议终端可以根据静音段间隔区分前面一段语音片段和后面一段语音片段;或者通过算法判断语音片段是人声还是非人声,根据非人声将前后的人声语音段分割开来。比如该视频会议终端在会议开始时间00:00:15至00:00:30内采集到音频数据,然后在00:00:30至00:00:32期间静音,在00:00:32至00:00:45期间采集至音频数据,在00:00:45至00:00:50期间静音。则该视频会议终端可以将在会议开始时间00:00:15至00:00:30内采集到音频数据作为一个分段音频数据,将在会议开始时间00:00:32至00:00:45内采集至的音频数据作为下一个分段音频数据。
可以理解的是,本申请实施例中,该“00:00:00”形式指示的计时规则为“时:分:秒”,即“00:00:15”指示的时间点为会议开始之后的第15秒。
204、该视频会议终端根据声源方位采集该声源方位范围内的图像信息。
该视频会议终端根据步骤202中获取到的音频数据对应的声源方位确定该视频会议终端的图像信息采集区域,然后在该图像信息采集区域采集图像信息。
本实施例中,该视频会议终端可以是通过抓拍照片的形式采集该图像信息也可以是抓取视频数据中的该音频数据对应的图片帧作为该图像信息,具体形式此处不做限定。同时该视频会议终端的摄像头可固定也可部署为可转动,具体情况此处不做限定。当该视频会议终端的摄像头固定(即该摄像头的拍摄范围固定)时,该视频会议终端获取固定拍摄范围内的图像,然后根据声源方位计算提取该音频数据对应的图像信息。当该视频会议终端的摄像头可移动时,该视频会议终端可以根据该声源方位调整该摄像头的拍摄范围,从而获取该音频数据对应的图像信息。如图3所示,该视频会议终端位于会议屏幕上方,而与会人员位于会议桌的两边,当与会人员中存在发言人时,该视频会议终端可以根据声源方位获取一定角度范围内的图像信息。而由于角度问题,该图像信息可能会出现多个与会人员,也可以只有一个与会人员。如在根据发言人1的声源定位采集该发言人1的图像信息时,该图像信息区域仅有发言人1;而在根据发言人2的声源定位采集该发言人2的图像信息时,该图像信息区域包括发言人1和另一位与会人员。
205、该视频会议终端对该图像信息进行人像识别得到身份识别结果。
该视频会议终端对该图像信息进行人脸识别和人体属性识别得到身份识别结果,该身份识别结果用于指示发言人身份信息和发言时间信息的对应关系。比如通过人脸识别得到面部特征对应的发言人,而人体属性识别包括对于用户整体衣着或者身体特征进行识别得到身体特征或用户衣着外观对应的发言人。该发言人身份信息可以为用户身份标识信息(比如发言人在公司内的工号或者发言人在公司内部数据库已登记的身份证号码或者电话号码)或者用户身体属性标识信息(比如当前会议中该用户上衣穿着白色衣服,下身为黑色长裤或者该用户的手臂上有个明显的记号等等)。而该发言时间信息可以是一段时间或者两个时间点。比如该发言时间信息为当前会议开始后的00:00:15至00:00:45这一段30秒时间;或者该发言时间信息仅包括“00:00:15”和“00:00:45”这两个时间点。
本实施例中,该视频会议终端获取该发言人身份信息的具体操作可以如下:若该图像信息中包含清晰可辩的人脸信息,则该视频会议终端将利用人脸识别技术识别图像信息中的人脸,并将该人脸与已存储的人脸数据库进行比对确定该人脸对应的用户身份标识信息;若该图像信息中人脸信息达不到识别要求(比如面部特征无法满足人脸识别要求或者无面部图像),则该视频会议终端可以进行人体属性识别得到身体属性信息,并根据该身体属性信息确定用户身体属性标识信息。
206、该视频会议终端将音频数据和对应的声源方位打包为音频码流发送给多点控制单元,并将该身份识别结果发送给录播服务器。
该视频会议终端将该音频数据与该音频数据对应的声源方位打包为音频码流发送给该多点控制单元。一种示例性方案中,该视频会议终端将该音频数据编码为音频码流,然后在对应的音频码流中添加附加域信息,用该附加域信息指示该音频数据对应的声源方位信息。而该视频会议终端自身进行人像识别得到的身份识别结果可以直接发送给该录播服务器。
207、该多点控制单元将该视频会议终端发送的音频码流发送该录播服务器。
该多点控制单元在接收到该视频会议终端发送的音频码流之后,根据分配给该视频会议终端的会议标识确定该视频会议终端所属的会场,然后在该音频码流中添加该会场标识,并将该音频码流发送给该录播服务器。
一种可能实现方式中,该多点控制单元可以对各个会场的音频数据进行筛选,然后选择一个或多个会场的音频数据发送给该录播服务器。该多点控制单元可以将各个会场的音频数据的音量大小进行比较,选择音量大小大于预设阈值的音频数据进行转发;或者,该多点控制单元可以通过算法确定人声时长超过预设阈值的音频数据进行转发。具体筛选条件,此处不作限定。这样可以减少处理量,从而加快处理速度。
208、该录播服务器将该音频码流解码得到音频数据,并对该音频数据进行语音分段,以得到该分段音频数据。
该录播服务器获取到该音频码流之后可以将该音频码流解码得到音频数据和会场标识,然后将该音频数据按照该会场标识进行存储。同时该录播服务器根据该音频数据的声源方位和人声检测技术对该音频数据进行语音分段,从而得到分段音频数据。可以理解的是,本实施例中,该录播服务器根据声源方位和人检测技术对该音频数据进行语音分段可以对视频会议终端上报的音频数据进行进一步分类。比如视频会议终端根据人声检测检测到00:00:15至00:00:30内一直存在人声,则该视频会议终端将该00:00:15至00:00:30内采集到音频数据划分为一个分段音频数据,实际上在00:00:15至00:00:25内声源方位1内存在一个发言人在发言,而在00:00:25至00:00:30内声源方位2内也存在一个发言人在发言。因此在录播服务器重新根据声源方位和人声检测进行语音分段时,可以分为两个分段音频数据。
209、在该分段音频数据符合声纹识别最小长度时,该录播服务器提取该分段音频数据的声纹特征。
在该分段音频数据符合声纹识别最小长度时,该录播服务器根据声纹聚类等技术对该分段音频数据提取声纹特征,并标注声纹标识。一种示例性方案中,假设该录播服务器将该音频数据划分出10个分段音频数据,其中有8个分段音频数据的时长满足声纹识别的最小长度,则该录播服务器分别对这8个分段音频数据提取声纹特征,并分别标注声纹标识(声纹1至声纹8)。
210、该录播服务器根据该身份识别结果和该分段音频数据的声纹特征确定该分段音频数据的发言人身份。
该录播服务器将接收到的身份识别结果和该分段音频数据的声纹特征进行整合分析确定该分段音频数据的发言人身份。
具体可以采用如下方式:
一种可能实现方式中,若该身份识别结果指示第一分段音频数据对应唯一发言人信息,则该会议记录处理装置根据该身份识别结果指示的唯一发言人信息确定该第一分段音频数据对应的发言人。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该会议记录处理装置对比第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,其中,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,且该第二分段音频数据对应唯一发言人;若该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则该会议记录处理装置根据该第二分段音频数据对应的发言人身份信息确定该第一分段音频数据对应的发言人。
另一种可能实现方式中,若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则该会议记录处理装置根据该第一分段音频数据对应的发言人身份信息和声纹特征,以及该第二分段音频数据对应的发言人身份信息和声纹特征确定该第一分段音频数据对应的发言人,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,该第二分段音频数据对应至少两个发言人身份信息。即该会议记录处理装置可以根据多个分段音频数据的声纹特征以及对应的发言人身份信息进行综合判断各个分段音频数据对应的发言人。本实施例中,该第一分段音频数据与该第二分段音频数据均由该会议记录处理装置通过语音分段得到。具体请参阅表1所示的一个当前会议的会议记录:
表1
根据上表第1行至第3行所示的内容可知,声纹特征与发言人存在唯一对应关系,因此可以确定该第1行至第3行所示的音频数据对应的发言人;而对于身份识别结果产生了多个发言人的情况下,该录播服务器可以将该分段音频数据对应的声纹特征与其他已确定发言人的分段音频数据的声纹特征以及身份识别结果进行整合分析得到该分段音频数据对应的发言人。如第4行所示的内容,该身份识别结果显示包括用户身份ID为User03,用户身体属性ID为body04,声纹特征为VP04。这种情况下,可能是body04所指示的发言人在低头念稿,而User03正好正面朝向了视频会议终端的摄像头,且body04和User03在采集图像信息时无法分开。根据第3行所示的内容可知,User03对应的声纹特征为VP03,因此在声纹特征为VP04的情况下,该第4行所示内容的发言人可以确定不是User03,而是body04,且该body04对应的声纹特征为VP04。同理,对于第5行和第8行所示的内容也可以相应的确定出唯一的发言人。而对于第6行、第7行以及第9行的内容来说,User05和User06一直无法区分出来,且声纹特征也无法进行区别,因此发言人无法唯一确定。而对于第10行以及第11行的内容来说,其声纹特征均为VP07,但是对应的发言人身份存在唯一交集User07。这种情况下,可能是User07所指示的发言人在第10行和第11行所指示的时间段内均有发言,而User08在第10行所示的时间段内正好正面朝向了视频会议终端的摄像头,在第11行所示的时间段内与User07在采集图像信息时分开了;User06在第11行所示的时间段内正好正面朝向了视频会议终端的摄像头,在第10行所示的时间段内与User07在采集图像信息时分开了。因此结合第10行和第11行的内容可以推断得到声纹特征VP07对应的发言人为User07。
如果经过上述方式还是无法确定唯一发言人,则该录播服务器可以将该当前会议的声纹特征以及身份识别结果与该会场的长时声纹特征纪录进行比对,进行进一步的判断。即该录播服务器将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对,该第一发言人为该第一会场的当前会议中已与分段音频数据确定对应关系的发言人;若该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征一致,则该录播服务器将该第一分段音频数据对应的声纹特征与该第一会场的长时声纹特征纪录中的声纹特征进行比对确定该第一分段音频数据对应的发言人。具体请参阅表2所示的一个示例性长时声纹特征纪录:
表2
假设Conf02为上述表1所示的分析结果,则该录播服务器可以将User01在会议室Site01中最近的声纹特征进行对比。如将Conf01和Conf02在会议室Site01中的User01的声纹特征进行比对,若比对结果显示在两次会议中该User01的声纹特征差值满足阈值要求,则该录播服务器可以确定在会议室Site01中的这两次会议的信道是一致的,从而确定该长时声纹特征纪录可用于参考。比如表2中第7行显示声纹特征为VP05时,候选发言人为User05和User08,而在表2的第3行显示声纹特征为VP05时,候选发言人为User05、User06和User07,因此可以统计该信道标志中的发言人出现的次数,取次数出现最多的单一发言人User05作为该声纹特征VP05对应的发言人。在确定声纹特征VP05的发言人之后,就可以确定表1中声纹特征VP06对应的发言人则为User06。
假设存在另一场会议Conf03,且Conf03也存在User01以及User01对应的声纹特征,此时该录播服务器将Conf01和Conf03中User01的声纹特征进行比对,若比对结果显示在两次会议中该User01的声纹特征差值不满足阈值要求,则该录播服务器可以将该Conf03中的声纹特征以及发言人信息进行注册,同时更新长时声纹特征纪录。其具体形式可以如表2的第8行至第10行所示。可以理解的是,会议对应的信道产生变化可以是会议室发生了变化,也可以是会议中涉及到的设备产生了变化。如表2所示,Conf03和Conf02在同一会议室(会议室Site01),而信道标识发生了变化,因此可以认为Conf03的视频会议终端和Conf02的视频会议终端发生了变化;也可以认为Conf03的多点控制单元和Conf02的多点控制单元发生了变化。
可以理解的是,该会议记录处理装置可以在短时会议分析(即表1所示的分析方式)之后再进行长时会议分析(即表2所示的分析),也可以在长时会议分析之后再进行短时会议分析,只要最终可以实现音频数据的区分,具体的操作方式此处不做限定。
211、该录播服务器将音频数据和音频数据的分类结果发送至ASR服务器。
在该录播服务器完成音频数据与发言人的匹配之后,将分类结果和该音频数据发送到该ASR服务器。
212、该ASR服务器将该音频数据输出为文字。
本实施例中,该视频会议终端根据声源定位采集相应的图像信息,并对该图像信息进行初步的人像识别得到身份识别结果,然后该录播服务器在获取了该身份识别结果后,将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
可以理解的是,该录播服务器的功能也可以集成在该多点控制单元,具体请参阅图4所示,本申请实施例中音频数据的处理方法的一个实施例包括:
401-405跟上述实施例中的201-205一致,在此不再赘述。
406、该视频会议终端将音频码流和身份识别结果发送给多点控制单元。
发送音频码流的方式可以参考上述206。不同的是,本步骤还将身份识别结果也发送给了多点控制单元。
407、该多点控制单元将该音频码流解码得到音频数据,并对该音频数据进行语音分段,以得到该分段音频数据。
该多点控制单元获取到该音频码流之后,根据分配给该视频会议终端的会议标识确定该视频会议终端所属的会场。将该音频码流解码得到音频数据,然后将该音频数据按照该会场标识进行存储。同时该多点控制单元根据该音频数据的声源方位和人声检测技术对该音频数据进行语音分段,具体的分段方式可以跟上述实施例中的308相同,此处不再赘述。408-410具体的实现方式参考209-211,所不同的是,408-411是由多点控制单元实现的,而209-211则是由录播服务器实现。
可以理解的是,该录播服务器的功能也可以在视频会议终端实现,具体请参阅图5所示,本申请实施例中音频数据的处理方法的一个实施例包括:
501-502跟上述实施例中的201-202一致,在此不再赘述。503、该视频会议终端通过人声检测和声源定位对该音频数据进行语音分段,以得到分段音频数据。
该视频会议终端进行语音分段的方式可以参考上述208,具体此处不再赘述。
504-505跟上述实施例中的204-205一致,在此不再赘述。
506-508跟209-211的实现方式相似,在不同之处在于,步骤506-508是由视频会议终端执行,而步骤209-211则是由录播服务器执行。
509、该ASR服务器将该音频数据输出为文字。
本实施例中,该视频会议终端根据声源定位采集相应的图像信息,并对该图像信息进行初步的人像识别得到身份识别结果,然后视频会议终端将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
具体请参阅图6所示,本申请实施例中音频数据的处理方法的一个实施例包括:
601、会议记录处理装置获取第一会场的音频数据,该音频数据对应的声源方位信息和身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系。
该会议记录处理装置可以是上述图2所示方法实施例中的录播服务器、上述图4所示方法实施例中的多点控制单元或者上述图5所示方法实施例中的视频会议终端。
一种应用场景中,该会议记录处理装置为上述图2所示方法实施例中的录播服务器时,该会议记录处理装置接收该多点控制单元发送的音频数据和该音频数据对应的声源方位信息。其中,该音频数据和该音频数据对应的声源方位信息可以打包生成音频码流和附加域信息,其中,该附加域信息包括该音频数据对应的声源方位信息。一种示例性方案中,该视频会议终端将该音频数据编码为音频码流,然后在对应的音频码流中添加附加域信息,用该附加域信息指示该音频数据对应的声源方位信息。然后该视频会议终端将该音频码流发送给该多点控制单元,而该多点控制单元在接收到该音频码流之后,根据分配给该视频会议终端的会议标识确定该视频会议终端所属的会场,然后在该音频码流中添加该会场标识,并将该音频码流发送给该录播服务器。一种可能实现方式中,该多点控制单元可以对各个会场的音频数据进行筛选,然后选择一个或多个会场的音频数据发送给该录播服务器。该多点控制单元可以将各个会场的音频数据的音量大小进行比较,选择音量大小大于预设阈值的音频数据进行转发;或者,该多点控制单元可以通过算法确定人声时长超过预设阈值的音频数据进行转发。具体筛选条件,此处不作限定。这样可以减少处理量,从而加快处理速度。而该身份识别结果由该视频会议终端根据声源定位和人像识别得到,并由该视频会议终端直接发送给该录播服务器。
另一个应用场景中,该会议记录处理装置为上述图4所示方法实施例中的多点控制单元时,该会议记录处理装置接收该视频会议终端发送的音频数据和该音频数据对应的声源方位信息。其中,该音频数据和该音频数据对应的声源方位信息可以打包生成音频码流和附加域信息,其中,该附加域信息包括该音频数据对应的声源方位信息。一种示例性方案中,该视频会议终端将该音频数据编码为音频码流,然后在对应的音频码流中添加附加域信息,用该附加域信息指示该音频数据对应的声源方位信息。然后该视频会议终端将该音频码流发送给该多点控制单元。而该身份识别结果由该视频会议终端根据声源定位和人像识别得到,并由该视频会议终端发送给该多点控制单元。
另一个应用场景中,该会议记录处理装置为上述图5所示方法实施例中的视频会议终端时,该会议记录处理装置直接通过麦克风采集当前会议中的音频数据,并根据声源定位技术获取该音频数据对应的声源方位信息。而该身份识别结果由该视频会议终端根据声源定位和人像识别得到。
602、该会议记录处理装置对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据。
该会议记录处理装置根据声源方位信息和人声检测方法对该音频数据进行分段,得到该音频数据的多个分段音频数据。
603、该会议记录处理装置根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
该会议记录处理装置在可以执行上述图2中步骤210或者上述图4中步骤409或者上述图5中步骤507所示的方法得到音频数据对应的发言人,具体此处不再赘述。
本实施例中,该会议记录处理装置获取用于指示发言人身份信息与发言人时间信息对应关系的身份识别结果,然后会议记录处理装置将该身份识别结果与声纹特征相结合对音频数据进行进一步识别,这样可以不需要对用户的声纹特征进行预先注册就可以实现语音数据的精确分类。
上面描述了本申请实施例中音频数据的处理方法,下面对本申请实施例中会议记录处理装置和视频会议终端进行描述。
具体请参阅图7所示,本申请实施例中会议记录处理装置700包括:获取模块701和处理模块702,其中获取模块701和处理模块702通过总线连接。会议记录处理装置700可以是上述图2所示方法实施例中的录播服务器、上述图4所示方法实施例中的多点控制单元或者上述图5所示方法实施例中的视频会议终端,也可以配置为上述设备内的一个或多个芯片。会议记录处理装置700可以用于执行上述设备的部分或全部功能。
例如,获取模块701获取第一会场的音频数据,该音频数据对应的声源方位信息和身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;该处理模块702对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据;根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
可选的,该音频数据被包含在音频码流中,该音频码流还包括附加域信息,该附加域信息包括该音频数据对应的声源方位信息。
可选的,该处理模块702,具体用于若该身份识别结果指示该第一分段音频数据对应唯一发言人身份信息,则根据该发言人身份信息确定该第一分段音频数据对应的发言人。
可选的,该处理模块702,具体用于若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则对比该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,该第二分段音频数据对应唯一发言人身份信息;若该第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则根据该第二分段音频数据对应的发言人身份信息确定该第一分段音频数据对应的发言人。
可选的,该处理模块702,具体用于若该身份识别结果指示该第一分段音频数据对应至少两个发言人身份信息,则根据该第一分段音频数据对应的发言人身份信息和声纹特征,以及该第二分段音频数据对应的发言人身份信息和声纹特征确定该第一分段音频数据对应的发言人,该第二分段音频数据由该会议记录处理装置对该音频数据进行语音分段得到,该第二分段音频数据对应至少两个发言人身份信息。
可选的,该处理模块702,具体用于根据该第一分段音频数据对应的声纹特征、该身份识别结果和该第一会场的长时声纹特征纪录确定该第一分段音频数据对应的发言人,所述长时声纹特征纪录包括所述第一会场的历史声纹特征纪录,所述第一会场的历史声纹特征纪录用于指示声纹特征、发言人以及信道标识之间的对应关系。
可选的,该处理模块702,具体用于将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对得到对比结果,该第一发言人为该第一会场的当前会议中已确定的发言人;若该比对结果指示该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征一致,则将该第一分段音频数据对应的声纹特征、该身份识别结果与该第一会场的长时声纹特征纪录进行比对确定该第一分段音频数据对应的发言人。
可选的,该处理模块702,还用于将第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征进行比对得到对比结果,该第一发言人为该第一会场的当前会议中已确定的发言人;若该比对结果指示该第一发言人在该第一会场的当前会议中的声纹特征与该第一发言人在该长时声纹特征纪录中的声纹特征不一致,则将该第一会场的当前会议中的声纹特征、信道标识以及该声纹特征对应的发言人进行注册,并更新该长时声纹特征纪录。
可选的,会议记录处理装置700还包括存储模块,此存储模块与处理模块耦合,使得处理模块可执行存储模块中存储的计算机执行指令以实现上述方法实施例中会议记录处理装置的功能。在一个示例中,会议记录处理装置700中可选的包括的存储模块可以为芯片内的存储单元,如寄存器、缓存等,该存储模块还可以是位于芯片外部的存储单元,如ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM等。
应理解,上述图7对应实施例中会议记录处理装置的各模块之间所执行的流程与前述图2至图6中对应方法实施例中的会议记录处理装置执行的流程类似,具体此处不再赘述。
图8示出了上述实施例中一种会议记录处理装置800可能的结构示意图,该会议记录处理装置800可以配置成是前述图2所示方法实施例中的录播服务器、上述图4所示方法实施例中的多点控制单元或者上述图5所示方法实施例中的视频会议终端。该会议记录处理装置800可以包括:处理器802、计算机可读存储介质/存储器803、收发器804、输入设备805和输出设备806,以及总线801。其中,处理器,收发器,计算机可读存储介质等通过总线连接。本申请实施例不限定上述部件之间的具体连接介质。
一个示例中,该收发器804获取第一会场的音频数据、该音频数据对应的声源方位信息身份识别结果,该身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;
该处理器802对该音频数据进行语音分段,以获取该音频数据的第一分段音频数据;根据该第一分段音频数据的声纹特征和该身份识别结果确定该第一分段音频数据对应的发言人。
一个示例中,处理器802可以包括基带电路,例如,可以对音频数据调制处理,并生成音频码流。收发器804可以包括射频电路,以对音频码流进行调制放大等处理后发送给会议系统中相应的设备。
又一个示例中,处理器802可以运行操作系统,控制各个设备和器件之间的功能。收发器804可以包括基带电路和射频电路,例如,可以对音频码流或身份识别结果经由基带电路,射频电路进行处理后发送给会议系统中相应的设备。
该收发器804与该处理器802可以实现上述图2至图6中任一实施例中相应的步骤,具体此处不做赘述。
可以理解的是,图8仅仅示出了会议记录处理装置的简化设计,在实际应用中,会议记录处理装置可以包含任意数量的收发器,处理器,存储器等,而所有的可以实现本申请的会议记录处理装置都在本申请的保护范围之内。
上述装置800中涉及的处理器802可以是通用处理器,例如CPU、网络处理器(network processor,NP)、微处理器等,也可以是ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器(digital signal processor,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。控制器/处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。处理器通常是基于存储器内存储的程序指令来执行逻辑和算术运算。
上述涉及的总线801可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
上述涉及的计算机可读存储介质/存储器803还可以保存有操作系统和其他应用程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,上述存储器可以是ROM、可存储静态信息和指令的其他类型的静态存储设备、RAM、可存储信息和指令的其他类型的动态存储设备、磁盘存储器等等。存储器803可以是上述存储类型的组合。并且上述计算机可读存储介质/存储器可以在处理器中,还可以在处理器的外部,或在包括处理器或处理电路的多个实体上分布。上述计算机可读存储介质/存储器可以具体体现在计算机程序产品中。举例而言,计算机程序产品可以包括封装材料中的计算机可读介质。
可以替换的,本申请实施例还提供一种通用处理系统,例如通称为芯片,该通用处理系统包括:提供处理器功能的一个或多个微处理器;以及提供存储介质的至少一部分的外部存储器,所有这些都通过外部总线体系结构与其它支持电路连接在一起。当存储器存储的指令被处理器执行时,使得处理器执行第一通信装置在图2至图6该实施例中的数据传输方法中的部分或全部步骤,和/或用于本申请所描述的技术的其它过程。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于会议记录处理装置中。当然,处理器和存储介质也可以作为分立组件存在于会议记录处理装置中。
具体请参阅图9所示,本申请实施例中视频会议终端900包括:处理模块901和发送模块902,其中处理模块901和发送模块902通过总线连接。视频会议终端900可以是上述方法实施例中的视频会议终端,也可以配置为上述视频会议终端内的一个或多个芯片。视频会议终端900可以用于执行上述视频会议终端的部分或全部功能。
例如,处理模块901对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;该发送模块902将该身份识别结果、音频数据和该音频数据对应的声源方法信息发送给会议记录处理装置。
可选的,该处理模块901,具体用于获取该声源方位对应的人像信息;对该人像信息进行图像识别得到人脸信息和/或身体属性信息;根据该人脸信息和/或该身体属性信息确定该发言人身份信息;将发言人时间信息与该发言人身份信息建立对应关系得到该身份识别结果。
可选的,视频会议终端900还包括存储模块,此存储模块与处理模块耦合,使得处理模块可执行存储模块中存储的计算机执行指令以实现上述方法实施例中视频会议终端的功能。在一个示例中,视频会议终端900中可选的包括的存储模块可以为芯片内的存储单元,如寄存器、缓存等,该存储模块还可以是位于芯片外部的存储单元,如ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM等。
应理解,上述图9对应实施例中视频会议终端的各模块之间所执行的流程与前述图2至图6中对应方法实施例中的视频会议终端执行的流程类似,具体此处不再赘述。
图10示出了上述实施例中一种视频会议终端1000可能的结构示意图,该视频会议终端1000可以配置成是前述视频会议终端。该视频会议终端1000可以包括:处理器1002、计算机可读存储介质/存储器1003、收发器1004、输入设备1005和输出设备1006,以及总线1001。其中,处理器,收发器,计算机可读存储介质等通过总线连接。本申请实施例不限定上述部件之间的具体连接介质。
一个示例中,该处理器1002对第一会场的音频数据进行声源定位,以获取该音频数据所对应的声源方位信息;根据该声源方位和人像识别方法获取身份识别结果,该身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;
该收发器1004将该身份识别结果和该音频数据发送给会议记录处理装置。
一个示例中,处理器1002可以包括基带电路,例如,可以对音频数据调制处理,并生成音频码流。收发器1004可以包括射频电路,以对音频码流进行调制放大等处理后发送给会议系统中相应的设备。
又一个示例中,处理器1002可以运行操作系统,控制各个设备和器件之间的功能。收发器1004可以包括基带电路和射频电路,例如,可以对音频码流或身份识别结果经由基带电路,射频电路进行处理后发送给会议系统中相应的设备。
该收发器1004与该处理器1002可以实现上述图3至图7中任一实施例中相应的步骤,具体此处不做赘述。
可以理解的是,图10仅仅示出了视频会议终端的简化设计,在实际应用中,视频会议终端可以包含任意数量的收发器,处理器,存储器等,而所有的可以实现本申请的视频会议终端都在本申请的保护范围之内。
上述装置1000中涉及的处理器1002可以是通用处理器,例如CPU、网络处理器(network processor,NP)、微处理器等,也可以是ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器(digital signal processor,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。控制器/处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。处理器通常是基于存储器内存储的程序指令来执行逻辑和算术运算。
上述涉及的总线1001可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
上述涉及的计算机可读存储介质/存储器1003还可以保存有操作系统和其他应用程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,上述存储器可以是ROM、可存储静态信息和指令的其他类型的静态存储设备、RAM、可存储信息和指令的其他类型的动态存储设备、磁盘存储器等等。存储器1003可以是上述存储类型的组合。并且上述计算机可读存储介质/存储器可以在处理器中,还可以在处理器的外部,或在包括处理器或处理电路的多个实体上分布。上述计算机可读存储介质/存储器可以具体体现在计算机程序产品中。举例而言,计算机程序产品可以包括封装材料中的计算机可读介质。
可以替换的,本申请实施例还提供一种通用处理系统,例如通称为芯片,该通用处理系统包括:提供处理器功能的一个或多个微处理器;以及提供存储介质的至少一部分的外部存储器,所有这些都通过外部总线体系结构与其它支持电路连接在一起。当存储器存储的指令被处理器执行时,使得处理器执行第一通信装置在图2至图6该实施例中的数据传输方法中的部分或全部步骤,和/或用于本申请所描述的技术的其它过程。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于视频会议终端中。当然,处理器和存储介质也可以作为分立组件存在于视频会议终端中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上该,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (25)
1.一种音频数据的处理方法,其特征在于,包括:
会议记录处理装置获取第一会场在当前会议的音频数据、所述音频数据对应的声源方位信息和身份识别结果,所述身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;
所述会议记录处理装置对所述音频数据进行语音分段,以获取所述音频数据的第一分段音频数据;
所述会议记录处理装置根据所述第一分段音频数据的声纹特征和所述身份识别结果确定所述第一分段音频数据对应的发言人。
2.根据权利要求1所述的方法,其特征在于,所述音频数据被包含在音频码流中,所述音频码流还包括附加域信息,所述附加域信息包括所述音频数据对应的声源方位信息。
3.根据权利要求1或2所述的方法,其特征在于,所述会议记录处理装置根据所述第一分段音频数据的声纹特征和所述身份识别结果确定所述第一分段音频数据对应的发言人包括:
若所述身份识别结果指示所述第一分段音频数据对应唯一发言人身份信息,则所述会议记录处理装置根据所述发言人身份信息确定所述第一分段音频数据对应的发言人。
4.根据权利要求1或2所述的方法,其特征在于,所述会议记录处理装置根据所述第一分段音频数据的声纹特征和所述身份识别结果确定所述第一分段音频数据对应的发言人包括:
若所述身份识别结果指示所述第一分段音频数据对应至少两个发言人身份信息,则所述会议记录处理装置对比所述第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,所述第二分段音频数据由所述会议记录处理装置对所述音频数据进行语音分段得到,所述第二分段音频数据对应唯一发言人身份信息;
若所述第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则所述会议记录处理装置根据所述第二分段音频数据对应的发言人身份信息确定所述第一分段音频数据对应的发言人。
5.根据权利要求1或2所述的方法,其特征在于,所述会议记录处理装置根据所述第一分段音频数据的声纹特征和所述身份识别结果确定所述第一分段音频数据对应的发言人包括:
若所述身份识别结果指示所述第一分段音频数据对应至少两个发言人身份信息,则所述会议记录处理装置根据所述第一分段音频数据对应的发言人身份信息和声纹特征,以及所述第二分段音频数据对应的发言人身份信息和声纹特征确定所述第一分段音频数据对应的发言人,所述第二分段音频数据由所述会议记录处理装置对所述音频数据进行语音分段得到,所述第二分段音频数据对应至少两个发言人身份信息。
6.根据权利要求1至4中任一项所述的方法,其特征在于,若所述会议记录处理装置根据所述第一分段音频数据的声纹特征和所述身份识别结果未确定出所述第一分段音频数据对应的唯一发言人,则所述方法还包括:
所述会议记录处理装置根据所述第一分段音频数据对应的声纹特征、所述身份识别结果和所述第一会场的长时声纹特征纪录确定所述第一分段音频数据对应的发言人,所述长时声纹特征纪录包括所述第一会场的历史声纹特征纪录,所述第一会场的历史声纹特征纪录用于指示声纹特征、发言人以及信道标识之间的对应关系。
7.根据权利要求6所述的方法,其特征在于,所述会议记录处理装置根据所述第一分段音频数据对应的声纹特征、所述身份识别结果和所述第一会场的长时声纹特征纪录确定所述第一分段音频数据对应的发言人包括:
所述会议记录处理装置将第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征进行比对,所述第一发言人为所述第一会场的当前会议中已确定的发言人;
若所述第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征一致,则所述会议记录处理装置将所述第一分段音频数据对应的声纹特征、所述身份识别结果与所述第一会场的长时声纹特征纪录确定所述第一分段音频数据对应的发言人。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
所述会议记录处理装置将第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征进行比对,所述第一发言人为所述第一会场的当前会议中已确定的发言人;
若所述比对结果指示所述第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征不一致,则所述会议记录处理装置将所述第一会场的当前会议中的声纹特征、信道标识以及所述声纹特征对应的发言人进行注册,并更新所述长时声纹特征纪录。
9.一种音频数据的处理方法,其特征在于,包括:
视频会议终端对第一会场的音频数据进行声源定位,以获取所述音频数据所对应的声源方位信息;
所述视频会议终端根据所述声源方位和人像识别方法获取身份识别结果,所述身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;
所述视频会议终端将所述身份识别结果、所述音频数据和所述音频数据对应的声源方位信息发送给会议记录处理装置。
10.根据权利要求9所述的方法,其特征在于,所述视频会议终端根据所述声源方位和人像识别方法获取身份识别结果包括:
所述视频会议终端获取所述声源方位对应的人像信息;
所述视频会议终端对所述人像信息进行图像识别得到人脸信息和/或身体属性信息;
所述视频会议终端根据所述人脸信息和/或所述身体属性信息确定所述发言人身份信息;
所述视频会议终端将发言人时间信息与所述发言人身份信息建立对应关系得到所述身份识别结果。
11.一种会议记录处理装置,其特征在于,包括:
获取模块,用于获取第一会场的音频数据,所述音频数据对应的声源方位信息和身份识别结果,所述身份识别结果用于指示通过人像识别方法得到的发言人身份信息与发言人的发言时间信息的对应关系;
处理模块,用于对所述音频数据进行语音分段,以获取所述音频数据的第一分段音频数据;根据所述第一分段音频数据的声纹特征和所述身份识别结果确定所述第一分段音频数据对应的发言人。
12.根据权利要求11所述的装置,其特征在于,所述音频数据被包含在音频码流中,所述音频码流还包括附加域信息,所述附加域信息包括所述音频数据对应的声源方位信息。
13.根据权利要求11或12所述的装置,其特征在于,所述处理模块,具体用于若所述身份识别结果指示所述第一分段音频数据对应唯一发言人身份信息,则根据所述发言人身份信息确定所述第一分段音频数据对应的发言人。
14.根据权利要求11或12所述的装置,其特征在于,所述处理模块,具体用于若所述身份识别结果指示所述第一分段音频数据对应至少两个发言人身份信息,则对比所述第一分段音频数据的声纹特征与第二分段音频数据的声纹特征,所述第二分段音频数据由所述会议记录处理装置对所述音频数据进行语音分段得到,所述第二分段音频数据对应唯一发言人身份信息;
若所述第一分段音频数据的声纹特征与第二分段音频数据的声纹特征一致,则根据所述第二分段音频数据对应的发言人身份信息确定所述第一分段音频数据对应的发言人。
15.根据权利要求11或12所述的装置,其特征在于,所述处理模块,具体用于若所述身份识别结果指示所述第一分段音频数据对应至少两个发言人身份信息,则根据所述第一分段音频数据对应的发言人身份信息和声纹特征,以及所述第二分段音频数据对应的发言人身份信息和声纹特征确定所述第一分段音频数据对应的发言人,所述第二分段音频数据由所述会议记录处理装置对所述音频数据进行语音分段得到,所述第二分段音频数据对应至少两个发言人身份信息。
16.根据权利要求11至15中任一项所述的装置,其特征在于,所述处理模块,还用于根据所述第一分段音频数据对应的声纹特征、所述身份识别结果和所述第一会场的长时声纹特征纪录确定所述第一分段音频数据对应的发言人,所述长时声纹特征纪录包括所述第一会场的历史声纹特征纪录,所述第一会场的历史声纹特征纪录用于指示声纹特征、发言人以及信道标识之间的对应关系。
17.根据权利要求16所述的装置,其特征在于,所述处理模块,具体用于将第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征进行比对得到对比结果,所述第一发言人为所述第一会场的当前会议中已确定的发言人;
若所述比对结果指示所述第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征一致,则将所述第一分段音频数据对应的声纹特征、所述身份识别结果与所述第一会场的长时声纹特征纪录进行比对确定所述第一分段音频数据对应的发言人。
18.根据权利要求16所述的装置,其特征在于,所述处理模块,还用于将第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征进行比对得到对比结果,所述第一发言人为所述第一会场的当前会议中已确定的发言人;
若所述比对结果指示所述第一发言人在所述第一会场的当前会议中的声纹特征与所述第一发言人在所述长时声纹特征纪录中的声纹特征不一致,则将所述第一会场的当前会议中的声纹特征、信道标识以及所述声纹特征对应的发言人进行注册,并更新所述长时声纹特征纪录。
19.一种视频会议终端,其特征在于,包括:
处理模块,用于对第一会场的音频数据进行声源定位,以获取所述音频数据所对应的声源方位信息;根据所述声源方位和人像识别方法获取身份识别结果,所述身份识别结果用于指示发言人身份信息与发言时间信息的对应关系;
发送模块,用于将所述身份识别结果、所述音频数据和所述音频数据对应的声源方位信息发送给会议记录处理装置。
20.根据权利要求19所述的视频会议终端,其特征在于,所述处理模块,具体用于获取所述声源方位对应的人像信息;对所述人像信息进行图像识别得到人脸信息和/或身体属性信息;根据所述人脸信息和/或所述身体属性信息确定所述发言人身份信息;将发言人时间信息与所述发言人身份信息建立对应关系得到所述身份识别结果。
21.一种会议记录处理装置,其特征在于,包括至少一个处理器和存储器,所述处理器用于与所述存储器耦合,所述处理器调用所述存储器中存储的指令以控制所述终端执行权利要求1至8中任一项所述的方法。
22.一种视频会议终端,其特征在于,包括至少一个处理器和存储器,所述处理器用于与所述存储器耦合,所述处理器调用所述存储器中存储的指令以控制所述终端执行权利要求9至10中任一项所述的方法。
23.一种会议记录处理系统,其特征在于,包括如权利要求11至18中任一项所述的会议记录处理装置和如权利要求19至20中任一项所述的视频会议终端以及多点控制单元和自动语音识别ASR服务器。
24.一种计算机存储介质所述计算机存储介质存储有计算机指令,所述计算机指令用于执行上述权利要求1至权利要求10中任意任一项所述的方法。
25.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述权利要求1至权利要求10中任意任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027427.2A CN114333853A (zh) | 2020-09-25 | 2020-09-25 | 一种音频数据的处理方法、设备和系统 |
PCT/CN2021/098297 WO2022062471A1 (zh) | 2020-09-25 | 2021-06-04 | 一种音频数据的处理方法、设备和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027427.2A CN114333853A (zh) | 2020-09-25 | 2020-09-25 | 一种音频数据的处理方法、设备和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333853A true CN114333853A (zh) | 2022-04-12 |
Family
ID=80844861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027427.2A Pending CN114333853A (zh) | 2020-09-25 | 2020-09-25 | 一种音频数据的处理方法、设备和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114333853A (zh) |
WO (1) | WO2022062471A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019809A (zh) * | 2022-05-17 | 2022-09-06 | 中国南方电网有限责任公司超高压输电公司广州局 | 防误入间隔的监测方法、装置、设备、介质和程序产品 |
WO2023212879A1 (zh) * | 2022-05-05 | 2023-11-09 | 北京小米移动软件有限公司 | 对象音频数据的生成方法、装置、电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117059092A (zh) * | 2023-10-11 | 2023-11-14 | 北京吉道尔科技有限公司 | 基于区块链的智慧医疗交互式智能分诊方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053750B2 (en) * | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
CN102968991B (zh) * | 2012-11-29 | 2015-01-21 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN106657865B (zh) * | 2016-12-16 | 2020-08-25 | 联想(北京)有限公司 | 会议纪要的生成方法、装置及视频会议系统 |
CN106782545B (zh) * | 2016-12-16 | 2019-07-16 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN110022454B (zh) * | 2018-01-10 | 2021-02-23 | 华为技术有限公司 | 一种在视频会议中识别身份的方法及相关设备 |
US11276407B2 (en) * | 2018-04-17 | 2022-03-15 | Gong.Io Ltd. | Metadata-based diarization of teleconferences |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
ES2965042T3 (es) * | 2018-09-21 | 2024-04-10 | Televic Conference Nv | Identificación en tiempo real de un orador con diarización |
CN109560941A (zh) * | 2018-12-12 | 2019-04-02 | 深圳市沃特沃德股份有限公司 | 会议记录方法、装置、智能终端及存储介质 |
CN110232925A (zh) * | 2019-06-28 | 2019-09-13 | 百度在线网络技术(北京)有限公司 | 生成会议记录的方法、装置和会议终端 |
CN111402892A (zh) * | 2020-03-23 | 2020-07-10 | 郑州智利信信息技术有限公司 | 一种基于语音识别的会议记录模板生成方法 |
-
2020
- 2020-09-25 CN CN202011027427.2A patent/CN114333853A/zh active Pending
-
2021
- 2021-06-04 WO PCT/CN2021/098297 patent/WO2022062471A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023212879A1 (zh) * | 2022-05-05 | 2023-11-09 | 北京小米移动软件有限公司 | 对象音频数据的生成方法、装置、电子设备和存储介质 |
CN115019809A (zh) * | 2022-05-17 | 2022-09-06 | 中国南方电网有限责任公司超高压输电公司广州局 | 防误入间隔的监测方法、装置、设备、介质和程序产品 |
CN115019809B (zh) * | 2022-05-17 | 2024-04-02 | 中国南方电网有限责任公司超高压输电公司广州局 | 防误入间隔的监测方法、装置、设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2022062471A1 (zh) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114333853A (zh) | 一种音频数据的处理方法、设备和系统 | |
US10917577B2 (en) | Method and device for controlling camera shooting, smart device, and storage medium | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
US11343446B2 (en) | Systems and methods for implementing personal camera that adapts to its surroundings, both co-located and remote | |
WO2019140161A1 (en) | Systems and methods for decomposing a video stream into face streams | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN110691204B (zh) | 一种音视频处理方法、装置、电子设备及存储介质 | |
CN107221324B (zh) | 语音处理方法及装置 | |
US20130107028A1 (en) | Microphone Device, Microphone System and Method for Controlling a Microphone Device | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
CN109560941A (zh) | 会议记录方法、装置、智能终端及存储介质 | |
US20210124912A1 (en) | Face recognition method and apparatus | |
WO2021120190A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US6959095B2 (en) | Method and apparatus for providing multiple output channels in a microphone | |
TW200804852A (en) | Method for tracking vocal target | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
CN112908336A (zh) | 一种用于语音处理装置的角色分离方法及其语音处理装置 | |
CN113301291B (zh) | 网络视频会议中防干扰方法、系统、设备及存储介质 | |
CN112543302B (zh) | 一种多人远程会议中智能降噪的方法和设备 | |
US11783837B2 (en) | Transcription generation technique selection | |
CN113542466A (zh) | 音频处理方法、电子设备及存储介质 | |
CN113259734A (zh) | 针对交互场景的智能导播方法、装置、终端和存储介质 | |
CN111182256A (zh) | 一种信息处理方法及服务器 | |
US20190333517A1 (en) | Transcription of communications | |
TWI798867B (zh) | 視訊處理方法與相關的系統晶片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |