CN115298704A - 用于说话者分割聚类系统的基于上下文的说话者计数器 - Google Patents

用于说话者分割聚类系统的基于上下文的说话者计数器 Download PDF

Info

Publication number
CN115298704A
CN115298704A CN202080098483.7A CN202080098483A CN115298704A CN 115298704 A CN115298704 A CN 115298704A CN 202080098483 A CN202080098483 A CN 202080098483A CN 115298704 A CN115298704 A CN 115298704A
Authority
CN
China
Prior art keywords
unique
video
cardinality
bounding box
detected person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080098483.7A
Other languages
English (en)
Inventor
S.乔杜里
L.芬克尔斯坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN115298704A publication Critical patent/CN115298704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

公开了使用视觉上下文来确定视频和对应音频中的说话者的数量的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,方法包括:在视频内检测多个说话者;对于每个所检测到的说话者,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框;部分地基于描绘边界框内的对象的图像信息来确定该人的独特描述符;确定视频中的独特说话者的基数;向说话者分割聚类系统提供独特说话者的基数。

Description

用于说话者分割聚类系统的基于上下文的说话者计数器
背景技术
本说明书涉及说话者分割聚类(diarization)的领域。说话者分割聚类是将具有多个说话者的音频流分割成与每个个体相关联的片段的过程。分割聚类对于诸如转录音频、字幕等许多应用是有用的。
当前的说话者分割聚类系统的性能和准确性在很大程度上依赖于确定视频或音频中的独特说话者的数量。一些说话者分割聚类系统依赖于试探法来确定说话者的数量,而其他系统需要人工输入来确定说话者的数量。后者实现方式容易受到规模的影响,因为人工策展需要人审查音频或视频并且准确地计数说话者。策展人可能不熟悉说话者,或者甚至可能说与音频或视频中的口语不同的语言。使用试探法来确定说话者的阈值数量在时间和资源方面可能更有效,但是背景上下文的多样性(尤其是在视频中)可能导致计数变化很大,导致易错的估计。
发明内容
随着现在越来越多的音频数据具有相关联的视频,视觉上下文可以提供可用于生成关于独特说话者的数量的先验的重要信息。具体地,本申请的主题涉及使用来自视频的视觉上下文来确定说话者的基数,作为提供给说话者分割聚类系统的先验。本说明书描述了一种向说话者分割聚类系统提供在视频和对应音频中存在的独特说话者的基数的新颖的系统和方法。
总的来说,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:获得包括多个图像帧和对应音频的视频;在视频内检测视频中描绘的多个人;对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框;从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符,该独特描述符部分地基于描绘边界框内的对象的图像信息;确定为视频确定的独特描述符的基数;向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数。该方面的其他实施例包括对应的系统、装置,以及被配置为执行该方法的动作并被编码在计算机存储设备上的计算机程序。
可以实现在本说明书中描述的主题的具体实施例,以实现以下优点中的一个或多个。系统使用视觉上下文来确定说话的人,但是视觉上下文不私人地标识说话的人。上下文至少是对诸如面部周围的区域的附加信息事实的检测、对人(例如,头部和躯干)的检测以及活跃说话者检测。对这些特征的检测得到比仅依赖于活跃说话者检测而无人工策展的系统和/或基于仅音频处理的系统更鲁棒的过程。因此,能够在不私人地标识视频中的人且无需人工策展的情况下实现可接受的准确性。
更具体地,与仅音频处理相反,视觉提示显著地增加了基础技术的鲁棒性。例如,同一个人在室内环境中的声音在室外环境中,或者更一般地当环境具有彼此不同的声学属性时,将听起来非常不同。这些差异使得仅音频处理难以在不使用生物统计信息的情况下准确地确定说话者分割聚类。然而,当考虑诸如服装的变化不太频繁的视觉特征时,该过程可以利用对环境变化可能相当鲁棒的基于像素的描述符并且无需依赖于生物统计信息。
在本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据描述、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1A是确定说话者分割聚类系统的先验的基于上下文的说话者计数系统的框图。
图1B是例示宽边界框的示例图像帧的框图。
图2是例示更大的边界框的示例图像帧的框图。
图3是例示同时使用多个视频信号的示例图像帧的框图。
图4是确定说话者的基数的示例过程的流程图。
具体实施方式
概述
说话者分割聚类系统包括三步序列:语音检测、分割成单个说话者片段、单个说话者片段的聚类。最后的步骤尤其成问题,其中,自动系统必须依靠于试探法来确定何时停止聚类,或者依靠于外部输入来提供说话者的数量。如上所述,后一过程包括人工策展,其需要人处理大量数据,同时准确地对说话者进行计数。其他过程可能包括使用标识信息,例如面部识别过程。然而,隐私需求可能阻止使用可用于标识人的过程。
本申请的主题克服在不使用私人地标识说话者的过程的情况下准确地估计视频中说话者的数量的技术问题,从而消除引起隐私问题的基于生物统计的数据的使用。本主题可以使用以下特征的组合:
(1)在没有任何相关联的明确身份的情况下检测面部:对于每个所检测到的面部,系统考虑更宽的边界框(面部边界框的尺寸的倍数)并使用关于在更大的边界框中所检测到的对象的分布的信息,并且将其视为独特描述符。因此,可以检测潜在的说话者的存在,而不使用生物统计数据。
(2)在没有任何相关联的明确身份的情况下检测人:对于每个所检测到的人,系统使用像素激活的直方图作为描述符,将这样的分布在很大程度上受诸如服装、照明等局部因素影响并将保持相对不变的直觉进行编码。
(3)用更大的上下文边界框检测人:类似于上述的(1),但是这次使用围绕人框的更宽的边界框。
(4)活跃说话者检测:该系统使用预训练的模型来检测说话的面部,并对说话者在合理的持续时间内继续说话的直觉进行编码。
说话者分割聚类系统的任务是,当音频中的说话者的数量未知时,根据说话者来分离会话。由于生成的越来越多的音频内容也具有对应的视频,如上所述地处理视频可以用于基于视觉上下文来预测独特说话者的基数。说话者分割聚类系统在确定说话者的数量时,使用说话者的数量的计数作为先验。
遍及本文档,术语视频将指视频和视频的对应音频,其中,视频包括图像帧的序列。而且,如在本文档中所使用的,面部检测或人检测不意味着说话者的个人标识;代替地,这些检测仅指示人类说话者的存在或不存在。这可以在不使用生物统计数据的情况下完成。
对于每个视频,使用这些信号中的一个或多个来检测视频中的说话者,其中,每个所检测到的说话者被给予通过特定信号确定的独特描述符。当使用特定信号确定独特描述符时,说话者的数量被直接确定,或者通过作为输入提供给机器学习模型并通过接收视频中说话者的预测数量作为输出来确定。如在本说明书中所使用的,“独特描述符”是从视频确定的描述符(或足够相似的描述符的集合),其指示对于描述的每个实例检测到相同的人。描述符不是用于私人地标识人的生物统计数据,而是从上述的视觉特征得出的。例如,对于视频的每个帧,可以生成基于包括人的头部和躯干的区域的描述符。
下面将更详细地描述这些特征和附加特征。
图1A是确定说话者分割聚类系统40的先验的基于上下文的说话者计数系统30的框图10。系统30接收视频20作为输入。视频20包括多个图像帧和对应音频。人检测器32在视频内检测视频中描绘的多个人。人检测器32可以是被训练为检测面部而没有任何与该面部相关联的明确身份的过程或模型。对于每个所检测到的面部,检测器32还可以选择比面部更宽的边界框(例如,面部边界框的尺寸的倍数),并使用关于在更大的边界框中所检测到的对象的分布的信息。检测器32也可以检测人而没有任何与该人相关联的明确身份。例如,对于每个所检测到的人,系统30使用像素激活的直方图作为描述符,并对这样的分布在很大程度上受诸如服装、照明等局部因素影响并将保持相对不变的直觉进行编码。在又一示例中,检测器32可以用更大的上下文边界框检测人。因此,如在本说明书中使用的,所检测到的人可以是具有如由边界框确定的附加上下文的所检测到的面部、如由边界框确定的人的检测或者具有如由边界框确定的附加上下文的人的检测。换句话说,对于每个所检测到的人,系统确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框。
然后,基数估计器模型36从每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符。独特描述符部分地基于描绘边界框内的对象的图像信息。例如,基数估计器模型36将像素激活的直方图确定为描述符。
活跃说话者检测器34也可以用于确定活跃说话者。所确定的活跃说话者可以被匹配到对应的独特描述符。例如,可以在帧的一部分中的面部中检测嘴唇运动,并且该帧的该部分在边界框内,在该边界框内检测到人。这被用作附加信息来确定该人是视频中至少某个部分的活跃说话者。
然后,基数估计器模型36确定为视频确定的独特描述符的基数。基数是对视频中的独特说话者的数量的预测或估计。在一些实现方式中,确定单个基数值。在其他实现方式中,基数估计模型可以向说话者分割聚类系统提供独特说话者的可能基数的分布。在这样的实现方式中,确定独特描述符的多个基数,并且对于每个独特描述符,确定该独特描述符的置信度值。例如,系统可以确定80%的可能性是在视频中有四个独特描述符(例如,四个说话者),20%的可能性是在视频中有三个独特描述符(例如,三个说话者)。然后,将这些估计提供给说话者分割聚类系统40,该说话者分割聚类系统40执行语音检测,使用估计来确定说话者的数量,并将音频的部分与对应数量的说话者相关联。
图1B是示出包括多个图像帧111-116的示例视频110的环境100的高级框图。视频110具有对应音频信号,该音频信号包括在视频110中存在的说话者的语音。在一些实现方式中,视频110可以具有单个说话者,而在其他实现方式中,视频110可以具有多个说话者。例如,视频110在图像帧116中示出两个人类120和130,其每个都是潜在的说话者。
并非所有的说话者都在视频中在每一帧中示出。例如,图像帧116示出两个说话者120和130,然而图像帧115可以仅描绘说话者120或130中的一个。
在一些实现方式中,视频中的说话者的数量通过使用计算机视觉或图像处理技术的面部检测方法来确定。在这样的实现方式中,处理图像帧的序列以标识特征,并从所标识的特征确定视频内的所检测到的面部。例如,使用如上所述的面部检测技术或人检测技术来检测说话者120和130。例如,边界框122和132表示帧116中的所检测到的面部和附加上下文(例如,每个边界框大于相应地检测到的面部)。
在这样的实现方式中,确定每个说话者的独特描述符基于在所检测到的面部的阈值距离内所检测到的对象。例如,面部检测技术检测边界框122内的面部,以确定潜在的说话者120的存在。当检测到说话者120时,使用更宽的边界框124将特定说话者的面部和其他可检测的对象封装在更宽的边界框124内。在该示例中,其他可检测的对象包括桌子140和窗户145的部分。
在一些实现方式中,确定所检测到的面部和所检测到的对象之间的最大分隔的阈值距离由系统的设计者确定,并且可以作为用户输入对系统可用。在某些实现方式中,阈值距离可以由系统自动确定,以通过调整阈值的值来捕捉说话者的独特性。这样的实现方式可以通过迭代过程或者通过将图像帧作为输入并基于图像帧的属性来确定阈值的机器学习模型来确定阈值距离。例如,迭代过程可以在每次迭代增加或减少阈值的值,并且基于在阈值距离内所检测到的对象来确定阈值的最终值。
在一些实现方式中,可以使用更宽的边界框内的所有可检测的特征来确定特定说话者的独特描述符。在这样的实现方式中,可以使用如卷积和池化的技术来标识特征,而未必是特定的对象。继续该示例,图像帧116示出另一个潜在的说话者130。面部检测技术检测边界框132内的面部。然后,通过将说话者130的面部和可检测的对象封装在包括灯150的部分的边界框134内,使用更宽的边界框134来确定潜在的说话者130的独特描述符。
在一些实现方式中,可以使用除面部检测之外的技术来检测视频中的潜在的说话者。例如,通过检测人类形体或人类运动模式,可以检测潜在的说话者的存在。在这样的实现方式中,通过封装所检测到的人形(例如,头部和躯干)的更大的边界框封装视频(具体地,图像帧的序列)中的每个说话者。类似于用于面部的更宽的边界框,对于每个潜在的说话者,使用在更大的边界框中所检测到的对象来确定独特描述符。图2是例示围绕人形的更大的边界框的示例环境200。当检测到潜在的说话者220时,确定更大的边界框220来封装潜在的说话者220,并且包括如桌子250的部分、窗户230和灯240的部分的其他对象。替代地,可以改变更大的边界框220的大小,以主要封装所检测到的人形并省略其他对象,因为所检测到的人形可能具有足够的视觉特征(例如,服装、照明)以将其与无法用于独特个人标识的其他所检测到的人形区分。
在一些实现方式中,确定更大的边界框220的尺寸以及所检测到的潜在的说话者和所检测到的对象之间的最大分隔的阈值距离由系统的设计者确定,并且可以作为用户输入对系统可用。在某些实现方式中,确定更大的边界框的尺寸的阈值可以由系统自动确定,以通过调整阈值的值来捕捉所检测到的说话者的独特性。这样的实现方式可以通过迭代过程或者通过将图像帧作为输入并基于图像帧的属性来确定阈值的预测值的机器学习模型来确定阈值距离。一些实现方式可以包括某些措施以通过至少允许说话者的头部和躯干作为更大的边界框的需求,来允许在检测独特说话者方面的最大性能。例如,如果由于说话者相对于图像帧的位置而仅说话者的头部是可见的,则更大的边界框不适于为特定用户生成独特描述符。
在一些实现方式中,基于对应的说话者的局部因素,使用像素激活的直方图来确定视频中的每个潜在的说话者的独特描述符。例如,特定图像帧中在特定照明条件下穿着蓝色衬衫坐在棕色椅子上的说话者将生成遍及视频的多个帧的大致相似的像素激活的直方图,并且将不同于具有不同局部因素的其他说话者的像素激活的直方图。其他实现方式可以包括从说话者的服装、图像帧中的多个边界框内的对象和说话者的颜色和深度分析获得的信息。
在一些实现方式中,为所有可检测的潜在的说话者生成的像素激活的直方图可以聚类以形成相似直方图的组。这样做的直觉是,具有其相应局部因素的说话者将生成遍及视频中的所有图像帧的相似的直方图,并且将它们分组到相似的聚类中将表示独特说话者。在这样的实现方式中,可以基于由离所检测到的说话者的阈值距离确定的图像帧的部分,为说话者生成像素激活的直方图。在一些实现方式中,可以通过迭代过程或者通过将图像帧作为输入并基于图像帧的属性来确定阈值的预测值的机器学习模型来确定阈值。
在一些实现方式中,可以在使用活跃说话者检测系统检测活跃说话者时确定说话者的独特描述符。活跃说话者检测系统是检测视频中的(多个)活跃说话者的系统。例如,对于描绘在交谈的三个人的视频,活跃说话者检测系统可以检测三个人中的哪个在给定时间正在说话。支持该方法的假设是,说话期间的嘴部的视觉运动和说话期间产生的对应的声音高度相关。活跃说话者检测系统即使由于某种原因而无法检测到说话者的面部的其他特征,也可以同时处理视频和对应音频两者以跟踪说话者嘴部的运动。例如,音频中有两个说话者,而对应的视频只示出一个说话者。假设在音频中,视频中看不到的说话者正在说话。在这样的场景下,活跃说话者检测系统可以跟踪没有在说话并且在视频中可见的说话者的嘴部的运动,并且确定另一说话者的存在。
在一些实现方式中,可以使用多个信号来确定每个说话者的独特描述符。这样的情况的示例场景是当在图像帧内所检测到的多个说话者的位置重叠时。图3是示出图像帧310的示例环境300。图像帧320示出两个潜在的说话者330和340,由边界框332和342表示的其面部已使用任何面部检测技术检测到。在该情况下,对于说话者330和340中的每个如上所讨论的宽边界框将使得两个宽边界框都包括说话者330和340两者的面部。在这样的实现方式中,每个说话者的更大的边界框将通过利用在更大的边界框内标识的对象的相对位置来捕捉两个说话者的独特性。例如,说话者340的更大的边界框344包括说话者330的边界框332和不同于说话者340的说话者330的其他部分,该边界框332包括所检测到的说话者330的面部。在该示例中,使用具有边界框332和334的信息来确定说话者330的独特描述符,该信息包括所检测到的用户330的面部、说话者340和窗户350的部分,而使用所检测到的用户340的面部、用户330和桌子360的部分来确定用户340的独特描述符。
在一些实现方式中,可以使用基数估计模型从独特描述符确定独特说话者的数量。在一些实现方式中,基数估计模型可以是被训练为被给定独特描述符而预测独特说话者的数量的机器学习模型。在其他实现方式中,基数估计模型可以是算法过程。例如,一种可能的实现方式是逐步消除过程,其使用用户定义的试探法来消除每个说话者的冗余描述符,直至确定独特说话者的基数。
在一些实现方式中,基数估计模型可以向说话者分割聚类系统提供独特说话者的可能基数的分布。在这样的实现方式中,提供独特描述符的多个基数,并且对于每个独特描述符,提供该独特描述符的置信度值。所有的基数和它们的置信度可以提供给说话者分割聚类系统;或者,替代地,可以仅提供具有最高置信度的基数。例如,上述特征可以用于训练机器学习模型以预测说话者的基数。
图4是用于确定独特说话者的基数的过程400的流程图。过程400在包括一个或多个计算机的计算机系统中实现。过程400接收包括多个图像帧和对应音频的视频(410)。过程400检测视频中的多个人(420)。例如,对于视频中的每个图像帧,如上所述地检测潜在的说话者。检测说话者的其他方法包括跟踪人类运动模式和人类形体。在一些情况下,活跃说话者检测系统(例如,嘴唇运动)也可以用于检测视频中的说话者的存在。
在检测到图像帧中的潜在的说话者之后,过程400确定用于封装说话者和在阈值距离内的对象的边界框(430)。在一些场景中,对于图像帧中的每个所检测到的面部,基于包括特定说话者的面部和更宽的边界框内的对象的阈值距离来确定更宽的边界框。例如,当检测到说话者120和130时,基于离说话者120和130的所检测到的面部的阈值距离来确定更宽的边界框124和134。在其他场景中,当标识出图像帧中的说话者时,确定更大的边界框来封装每个特定说话者和阈值距离内的对象。例如,当标识出说话者220时,确定更大的边界框260以封装说话者和阈值距离内的对象。
当确定出图像帧中的所检测到的说话者的边界框时,过程400生成为每个所检测到的说话者生成的独特描述符(440)。例如,当确定出由阈值距离确定的更宽的边界框124时,在更宽的边界框内检测到如桌子140的部分和窗户145的部分的对象。然后,基于所检测到的面部122以及对象140和145,为说话者120生成独特描述符。在另一示例中,基于说话者和具有包括桌子250、窗户230和灯240的更大的边界框260的所检测到的对象生成独特描述符。当为视频中的每个所检测到的说话者生成了独特描述符时,过程400确定视频中的独特说话者的基数(450)。例如,可以将独特描述符提供给基数估计模型,以从独特描述符预测视频中的独特说话者的基数。当确定出独特说话者的基数时,过程400向说话者分割聚类系统提供基数(460)。在一些实现方式中,可以确定视频中的独特说话者的多个基数。在这样的实现方式中,将所有所确定的基数以及所确定的基数的分布提供给说话者分割聚类系统,或者在一些情况下提供具有最高置信度的基数。
在本说明书中描述的主题和操作的实施例可以实现在数字电子电路中,或者实现在计算机软件、固件或硬件中,包括在本说明书中公开的结构及其结构等同物,或者实现在它们中的一个或多个的组合中。在本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即计算机程序指令的一个或多个模块,其被编码在计算机存储介质上,用于由数据处理装置执行或控制数据处理装置的操作。
计算机存储介质可以是计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或器件、或者它们中的一个或多个的组合,或者被包括于计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或器件、或者它们中的一个或多个的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的物理组件或介质(例如,多个CD、盘或其他存储设备)或者被包括于一个或多个单独的物理组件或介质(例如,多个CD、盘或其他存储设备)中。
在本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上的或者从其他源接收的数据执行的操作。
术语“数据处理装置”包含用于处理数据的所有种类的装置、设置和机器,例如包括可编程处理器、计算机、片上系统或前述的多个或组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施,诸如web(网络)服务、分布式计算和网格计算基础设施。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言、声明或过程语言,并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程、对象或适于在计算环境中使用的其他单元。计算机程序可以但未必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如,存储在标记语言文档中的一个或多个脚本)中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协作文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一个计算机上或者位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器来执行,以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路来执行,并且装置也可以被实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例来说,适于执行计算机程序的处理器包括通用和专用的微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者可操作地耦合到用于存储数据的一个或多个海量存储设备,例如磁盘、磁光盘或光盘,以从该海量存储设备接收数据或向其传输数据或两者兼有。然而,计算机不需要有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器),仅举几例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,例如包括:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入其中。
为了提供与用户的交互,在本说明书中描述的主题的实施例可以在具有例如CRT(阴极射线管)或LCD(液晶显示器)监视器的用于向用户显示信息的显示设备以及用户可以用以向计算机提供输入的键盘和定点设备(例如鼠标或轨迹球)的计算机上实现。也可以使用其他种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互,例如,通过响应于从用户的用户设备上的网络浏览器接收的请求,向该网络浏览器发送网页。
在本说明书中描述的主题的实施例可以在如下计算系统中实现,该计算系统包括后端组件例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面或Web浏览器的用户计算机,通过其用户可以与在本说明书中描述的主题的实现方式交互,或者一个或多个这样的后端、中间件或前端组件的任何组合。该系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网(例如因特网)和对等网络(例如自组织对等网络)。
计算系统可以包括用户和服务器。用户和服务器通常彼此远离,并且典型地通常通过通信网络进行交互。用户和服务器的关系是由于在相应的计算机上运行并且彼此具有用户-服务器关系的计算机程序而产生的。在一些实施例中,服务器向用户设备传送数据(例如,HTML页面)(例如,为了向与用户设备交互的用户显示数据并从该用户接收用户输入的目的)。可以在服务器处从用户设备接收在用户设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多具体的实现方式细节,但是这些不应当被解释为对任何特征或可能要求保护的内容的范围的限制,而是作为对具体实施例的具体特征的描述。在本说明书中在独立的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实现。此外,尽管特征可能在上面被描述为在某些组合中起作用,并且甚至最初被如此要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除,并且所要求保护的组合可以针对子组合或子组合的变型。
类似地,虽然在附图中以特定的次序描绘了操作,但是这不应当被理解为要求这些操作以所示的特定次序或顺序次序执行,或者要求所有所例示的操作都被执行,以获得期望的结果。在某些情况下,多任务和并行处理可以是有利的。此外,上述实施例中的各种系统组件的分离不应当被理解为在所有实施例中都需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装成多个软件产品。
因此,已经描述了主题的具体实施例。其他实施例在以下权利要求的范围内。在一些情况下,在权利要求中所述的动作可以以不同的次序执行,并且仍能获得期望的结果。此外,在附图中所描绘的过程未必需要所示的特定次序或顺序次序来获得期望的结果。在某些实现方式中,多任务和并行处理可以是有利的。

Claims (20)

1.一种由数据处理装置执行的方法,该方法包括:
获得包括多个图像帧和对应音频的视频;
在视频内检测视频中描绘的多个人;
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框;
从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符,该独特描述符部分地基于描绘边界框内的对象的图像信息;
确定为视频确定的独特描述符的基数;以及
向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数。
2.根据权利要求1所述的方法,其中:
在视频内检测视频中描绘的多个人包括:检测视频内的面部;以及
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框包括:确定边界框,该边界框是面部检测边界框的倍数,该面部检测边界框包括检测所检测到的人的面部所需的图像帧的最小部分。
3.根据权利要求1所述的方法,其中:
在视频内检测视频中描绘的多个人包括:检测身体,包括检测每个人的头部和躯干的位置;以及
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框包括:确定边界框,该边界框是身体检测边界框的倍数,该身体检测边界框包括检测所检测到的人的至少头部和躯干所需的图像帧的最小部分。
4.根据权利要求1所述的方法,其中,从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符包括:
从在边界框内所包括的图像信息确定像素激活的直方图。
5.根据权利要求4所述的方法,其中,确定独特描述符的基数包括:
生成直方图聚类,其中,每个直方图聚类包括在彼此的阈值距离内的直方图聚类;以及
将独特描述符的基数确定为直方图聚类的数量。
6.根据权利要求4所述的方法,其中,确定独特描述符的基数包括:
向基数估计模型提供独特描述符;以及
从基数估计模型接收基数独特描述符的估计。
7.根据权利要求1所述的方法,其中,确定为视频确定的独特描述符的基数包括:
确定独特描述符的多个基数;以及
对于多个基数中的每个基数,确定指示基数正确的置信度的置信度值。
8.根据权利要求1所述的方法,其中,向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数包括:提供独特描述符的多个基数,以及对于每个独特描述符,提供该独特描述符的置信度值。
9.根据权利要求1所述的方法,其中,向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数包括:提供具有相对于所有其他独特描述符的置信度值的最高置信度值的独特描述符的基数。
10.一种系统,包括:
数据处理装置;以及
非暂时性计算机可读介质,其存储可由数据处理装置执行的指令,并且所述指令在被这样执行时使数据处理装置执行操作,所述操作包括:
获得包括多个图像帧和对应音频的视频;
在视频内检测视频中描绘的多个人;
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框;
从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符,该独特描述符部分地基于描绘边界框内的对象的图像信息;
确定为视频确定的独特描述符的基数;
向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数。
11.根据权利要求10所述的系统,其中:
在视频内检测视频中描绘的多个人包括:检测视频内的面部;以及
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框包括:确定边界框,该边界框是面部检测边界框的倍数,该面部检测边界框包括检测所检测到的人的面部所需的图像帧的最小部分。
12.根据权利要求10所述的系统,其中:
在视频内检测视频中描绘的多个人包括:检测身体,包括检测每个人的头部和躯干的位置;以及
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框包括:确定边界框,该边界框是身体检测边界框的倍数,该身体检测边界框包括检测所检测到的人的至少头部和躯干所需的图像帧的最小部分。
13.根据权利要求10所述的系统,其中,从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符包括:
从在边界框内所包括的图像信息确定像素激活的直方图。
14.根据权利要求13所述的系统,其中,确定独特描述符的基数包括:
生成直方图聚类,其中,每个直方图聚类包括在彼此的阈值距离内的直方图聚类;以及
将独特描述符的基数确定为直方图聚类的数量。
15.根据权利要求13所述的系统,其中,确定独特描述符的基数包括:
向基数估计模型提供独特描述符;以及
从基数估计模型接收基数独特描述符的估计。
16.根据权利要求10所述的系统,其中,确定为视频确定的独特描述符的基数包括:
确定独特描述符的多个基数;以及
对于多个基数中的每个基数,确定指示基数正确的置信度的置信度值。
17.如权利要求10所述的系统,其中,向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数包括:提供独特描述符的多个基数,以及对于每个独特描述符,提供该独特描述符的置信度值。
18.根据权利要求10所述的系统,其中,向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数包括:提供具有相对于所有其他独特描述符的置信度值的最高置信度值的独特描述符的基数。
19.如权利要求10所述的系统,其中,说话者分割聚类系统执行语音检测,使用独特的基数来确定说话者的数量,并且将音频的多个部分与对应基数的说话者相关联。
20.一种非暂时性计算机可读介质,其存储可由数据处理装置执行的指令,并且所述指令在被这样执行时使数据处理装置执行操作,所述操作包括:
获得包括多个图像帧和对应音频的视频;
在视频内检测视频中描绘的多个人;
对于每个所检测到的人,确定包括图像帧中的所检测到的人和在所检测到的人的阈值距离内的对象的边界框;
从在对于每个所检测到的人的每个边界框内所包括的图像信息确定该人的独特描述符,该独特描述符部分地基于描绘边界框内的对象的图像信息;
确定为视频确定的独特描述符的基数;以及
向确定视频的对应音频的独特说话者的说话者分割聚类系统至少提供独特描述符的基数。
CN202080098483.7A 2020-03-13 2020-03-13 用于说话者分割聚类系统的基于上下文的说话者计数器 Pending CN115298704A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2020/022723 WO2021183142A1 (en) 2020-03-13 2020-03-13 Context-based speaker counter for a speaker diarization system

Publications (1)

Publication Number Publication Date
CN115298704A true CN115298704A (zh) 2022-11-04

Family

ID=70277479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080098483.7A Pending CN115298704A (zh) 2020-03-13 2020-03-13 用于说话者分割聚类系统的基于上下文的说话者计数器

Country Status (4)

Country Link
US (1) US20230103060A1 (zh)
EP (1) EP4100865A1 (zh)
CN (1) CN115298704A (zh)
WO (1) WO2021183142A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189501A1 (en) * 2020-12-16 2022-06-16 Truleo, Inc. Audio analysis of body worn camera

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8938116B2 (en) * 2011-12-08 2015-01-20 Yahoo! Inc. Image cropping using supervised learning
US9946952B2 (en) * 2013-06-25 2018-04-17 University Of Central Florida Research Foundation, Inc. Multi-source, multi-scale counting in dense crowd images
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
WO2019118089A1 (en) * 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
US10628667B2 (en) * 2018-01-11 2020-04-21 Futurewei Technologies, Inc. Activity recognition method using videotubes

Also Published As

Publication number Publication date
WO2021183142A1 (en) 2021-09-16
EP4100865A1 (en) 2022-12-14
US20230103060A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
US10198823B1 (en) Segmentation of object image data from background image data
WO2021017606A1 (zh) 视频处理方法、装置、电子设备及存储介质
US9965865B1 (en) Image data segmentation using depth data
US9128528B2 (en) Image-based real-time gesture recognition
Yuan et al. Mid-level features and spatio-temporal context for activity recognition
Motiian et al. Online human interaction detection and recognition with multiple cameras
JP2011134114A (ja) パターン認識方法およびパターン認識装置
US10614312B2 (en) Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor
WO2021196648A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
Alameda-Pineda et al. Finding audio-visual events in informal social gatherings
Liu et al. Hand Gesture Recognition Based on Single‐Shot Multibox Detector Deep Learning
AU2021203821B2 (en) Methods, devices, apparatuses and storage media of detecting correlated objects involved in images
US20240104744A1 (en) Real-time multi-view detection of objects in multi-camera environments
US20150104082A1 (en) Image processing apparatus and control method thereof
TW202113685A (zh) 人臉辨識的方法及裝置
US20230103060A1 (en) Context-based speaker counter for a speaker diarization system
Butko et al. Acoustic event detection based on feature-level fusion of audio and video modalities
Hoque et al. Computer vision based gesture recognition for desktop object manipulation
US11961249B2 (en) Generating stereo-based dense depth images
Kratz et al. Gestureseg: developing a gesture segmentation system using gesture execution phase labeling by crowd workers
Zerrouki et al. Exploiting deep learning-based LSTM classification for improving hand gesture recognition to enhance visitors’ museum experiences
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质
KR20130117624A (ko) 비주얼 큐를 이용하여 비디오 시퀀스에서 토킹 세그먼트를 검출하는 방법 및 장치
Uddin et al. Human activity recognition using spatiotemporal 3-D body joint features with hidden Markov models
KR20210149336A (ko) 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination