CN112714362B

CN112714362B - 确定属性的方法、装置、电子设备和介质

Info

Publication number: CN112714362B
Application number: CN202011560948.4A
Authority: CN
Inventors: 庞磊; 聂卫国; 李晨曦; 王珊; 张塘昆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-06-27
Anticipated expiration: 2040-12-25
Also published as: CN112714362A

Abstract

本公开提供了一种确定人物的属性的方法、装置、电子设备、计算机可读存储介质和计算机程序产品，可以用于视频分类领域、人物识别领域和视频推荐领域中。该方法包括：针对包括人物的视频段，通过人物的行为来确定人物的行为分类信息；从视频段确定包括人物的声音的音频段；针对音频段，通过声音来确定人物的声音分类信息；以及基于行为分类信息和声音分类信息来确定人物的属性。利用上述方法，能够准确并且高效地确定视频中的人物的属性，从而能够对视频中的人物进行准确地描述并且对视频进行准确的分类，因而能够提高视频推荐的准确度以及提升用户体验。

Description

确定属性的方法、装置、电子设备和介质

技术领域

本公开涉及计算机技术，并且更具体地，涉及确定人物的属性的方法、装置、电子设备、计算机可读存储介质和计算机程序产品，可以用于视频分类领域、人物识别领域和视频推荐领域中。

背景技术

使用视频观看应用的用户通常希望能够在观看视频之前了解到视频的风格，尤其是在观看由诸如真实的人、虚拟的人、动画的人或者动画的动物之类的人物主播的视频时，希望能够提前了解到主播的属性，从而使得可以按照个人喜好来选择喜爱的视频。人物风格的判别可以由多种因素组合而成，在通常情况下判别人物风格可以由说话谈吐、行为举止、穿衣风格、身材样貌等因素而形成他人的主观印象。为了满足用户的上述需求，视频观看应用通常可以针对视频来向用户提供针对主播风格或者视频分类的描述。

针对主播风格或者视频分类的描述可以由视频的提供方或者上传方提供，但很可能会存在正确性、准确性以及规范性方面的问题。因此，视频观看应用可以针对由提供方或者上传方提供视频进行主动的识别，以确定主播风格或者视频分类。通过这种方式，可以向视频观看应用的用户提供更为准确和规范的主播风格或者视频分类描述，从而有助于视频观看应用的用户选择更为喜爱的视频来观看。

然而，传统的用于识别视频的技术不能够全方位地准确描述主播风格或者视频分类。

发明内容

根据本公开的实施例，提供了一种确定人物的属性的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

在本公开的第一方面中，提供了一种确定人物的属性的方法，包括：基于包括人物的视频段，通过人物的行为确定人物的行为分类信息；从视频段确定包括人物的声音的音频段；基于音频段，通过声音确定人物的声音分类信息；以及基于行为分类信息和声音分类信息来确定人物的属性。

在本公开的第二方面中，提供了一种确定人物的属性的装置，包括：行为分类信息确定模块，被配置为基于包括人物的视频段，通过人物的行为来确定人物的行为分类信息；音频段确定模块，被配置为从视频段确定包括人物的声音的音频段；声音分类信息确定模块，被配置为基于音频段，通过声音来确定人物的声音分类信息；以及属性确定模块，被配置为基于行为分类信息和声音分类信息来确定人物的属性。

在本公开的第三方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，执行根据本公开的第一方面的方法。

利用根据本申请的技术，提供了一种多模态人物属性确定方法，其可以通过组合视频识别方式、音频识别方式和图像识别方式，并且进一步采用向量组合的方式来确定人物的属性。利用上述方法，能够准确并且高效地确定视频中的人物的属性，从而能够对视频中的人物进行准确地描述并且对视频进行准确的分类，因而能够提高视频推荐的准确度以及提升用户体验。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。应当理解，附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以在其中实现本公开的某些实施例中的确定人物的属性的方法的确定人物的属性的环境100的示意性框图；

图2示出了根据本公开实施例的确定人物的属性的方法200的流程图；

图3示出了根据本公开实施例的确定人物的属性的方法300的流程图；

图4示出了根据本公开实施例的从视频段到属性的各阶段数据400的示意图；

图5示出了根据本公开实施例的特征向量拓扑500的示意图；

图6示出了根据本公开的实施例的确定人物的属性的装置600的示意性框图；以及

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，尽管视频观看应用可以针对由提供方或者上传方提供视频进行主动的识别，以确定主播属性或者视频分类，但是传统的用于识别视频的技术不能够全方位地准确描述主播属性或者视频分类。

具体而言在传统方案中，存在的人物风格识别方式包括：(1)图像风格识别，主要是对图像级别的人物风格进行类别定义，利用图像分类技术进行相应的风格识别；以及(2)音频风格分类，主要是对声音的风格进行类别定义，利用音频分类技术对音色进行相应的风格识别。

然而，传统方案中所采取的上述方式存在以下不足：在方式(1)中，只能对一些图像级别的人物风格进行类别定义，利用现有的深度学习技术进行图像级别的风格分类，但是客观上，人物风格由多种因素组合而形成，如身材样貌、说话谈吐、行为举止、穿衣风格等，基于单模态的图像风格分类无法全方位的描述人物风格。在方式(2)中，音频分类是利用说话人的声音的音色进行的分类技术，每个人的声音都有独特的特点，随着年龄的增加也具有相应的改变，但这也不是完全符合自然规律的一项人物属性，仅利用声音判断的单模态声音风格也无法全面的刻画人物风格。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种确定人物的属性的方案。这种方案提供了一种多模态人物属性确定方法，其可以通过组合视频识别方式、音频识别方式和图像识别方式，并且进一步采用向量组合的方式来确定人物的属性。

图1示出了可以在其中实现本公开的某些实施例中的确定人物的属性的方法的确定人物的属性的环境100的示意性框图。根据本公开的一个或多个实施例，确定人物的属性的环境100可以是云环境。如图1中所示，确定人物的属性的环境100包括计算设备110。在确定人物的属性的环境100中，包括人物的视频段120作为计算设备110的输入被提供给计算设备110，人物的属性130作为输出由计算设备110输出。根据本公开的一个或多个实施例，属性130可以包括视频段120中所包括的例如主播的人物的例如外观、语言和行为的风格，例如，稳重，激情、严肃、可爱、骨感、健壮、消瘦等。

应当理解，确定人物的属性的环境100仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备110，并且可以向计算设备110提供更多的包括人物的视频段120作为输入，计算设备110也可以输出更多的人物的属性130作为输出，从而使得可以满足更多用户同时利用更多的计算设备110，甚至利用更多的包括人物的视频段120来同时或者非同时地获取人物的属性130的需求。此外，计算设备110也可以并不实际输出人物的属性130，而是仅通过处理而获得人物的属性130。

根据本公开的一个或多个实施例，在确定人物的属性的环境100中，当计算设备110获取到包括人物视频段120之后，计算设备110可以利用视频段120来生成包括人物的声音的音频段以及包括人物的图像，并且可以分别针对视频段120、音频段和图像进行相应的识别，来确定人物的行为分类信息、声音分类信息和静态分类信息，而后可以基于这些分类信息来确定将作为输出的人物的属性130，并且进而可以输出人物的属性130。

在图1所示的确定人物的属性的环境100中，向计算设备110输入视频段120以及从计算设备110输出人物的属性130可以通过网络来进行。

图2示出了根据本公开的实施例的确定人物的属性的方法200的流程图。具体而言，确定人物的属性的方法200可以由图1中所示的确定人物的属性的环境100中的计算设备110来执行。应当理解的是，确定人物的属性的方法200还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框202，计算设备110针对包括人物的视频段120，通过人物的行为来确定人物的行为分类信息。根据本公开的一个或多个实施例，针对视频段120，计算设备110利用帧之间的变化来确定人物的行为，并且通过人物的行为来确定行为分类信息。人物的行为可以包括人物的动作变化的幅度和做出特定动作等。例如，如果人物在不同帧之间的动作变化较小，则可以确定行为分类信息包括稳重；如果人物在不同帧之间的动作变化较大，则可以确定行为分类信息包括激情。又例如，如果人物在不同帧之间的动作变化指示人物做出了类似比心之类的动作，则可以确定行为分类信息包括可爱；如果人物在不同帧之间的动作变化指示人物做出了类似握拳之类的动作，则可以确定行为分类信息包括激昂或者激情。

根据本公开的一个或多个实施例，计算设备110利用帧之间的变化所确定人物的行为还可以包括人物的口型的变化。利用人物的口型的变化，可以采取例如唇语识别之类的方法来识别人物发出的诸如语音之类的声音。应当理解，当利用人物的口型的变化来确定人物发出的声音时，由于这种确定并不是基于实际的声音录制而被做出的，因为可能无法提供关于人物所发出的声音的诸如音量和音色之类的信息。

根据本公开的一个或多个实施例，被提供给计算设备110的可以并不是视频段120，而是原始的诸如直播的或者录制完成的视频。在这种情况中，计算设备110可以通过视频来生成视频段120。例如，计算设备110可以将视频分割成诸如45秒的长度相等的多个视频段，并且在这多个视频段中，将人物出现时间最长的视频段确定为视频段120。又例如，如果人物在视频中持续出现，则计算设备110可以在视频中任意截取诸如45秒的一定长度的视频段作为视频段120。又例如，计算设备110可以在视频中截取人物的动作变化较大的诸如45秒的一定长度的视频段作为视频段120。

在框204，计算设备110从视频段120确定包括人物的声音的音频段。根据本公开的一个或多个实施例，为了使得计算设备而后可以从音频段更容易并且准确地确定人物的声音分类信息，优选地需要使得音频段中仅包括人物的声音。因此，计算设备110可以首先从视频段120提取出全部音频段，并且而后执行两个操作来确定包括人物的声音的音频段。这两个操作包括去除诸如背景音之类的杂音，以及去除音频段中的不包括人物的声音的部分。应当理解，这两个操作可以按照任意的步骤执行，或者可以被并行地执行。

根据本公开的一个或多个实施例，人物的声音可以包括人物的语音声音以及由人物发出的诸如吹口哨和鼓掌、打响指之类的非语音声音。

根据本公开的一个或多个实施例，计算设备110可以通过获取视频段120中包括人物的声音的多个音频片段的组合来确定音频段。为了使计算设备110能够更准确地通过包括人物的声音的音频段来确定人物的声音分类信息，音频段可以被设置为具有诸如20秒的一定时间长度。因此，可以设定诸如20秒的阈值时间长度，如果音频片段的组合的时间长度大于20秒，则从音频片段的组合截取20秒的音频作为音频段；如果音频片段的组合的时间长度等于20秒，则将音频片段的组合确定为音频段。特别地，如果音频片段的组合的时间长度小于阈值时间长度，那么可以通过向音频片段的组合添加一部分空白音频的方式来得到诸如20秒的一定时间长度的音频段。需要指出的是，为了使计算设备110能够更准确地通过包括人物的声音的音频段来确定人物的声音分类信息，音频段需要达到一个最低时间长度，例如16秒的第二阈值时间长度。此时，如果音频片段的组合的时间长度为小于20秒并且大于16秒的17秒，则可以向音频片段的组合添加3秒的空白音频，以使得添加后的音频片段的组合的时间长度为20秒，并且将添加后的音频片段的组合确定为音频段。

在框206，计算设备110针对音频段，通过声音来确定人物的声音分类信息。根据本公开的一个或多个实施例，人物的声音可以包括人物的语调、语速、音量或者是否说出一些特定语言等。例如，如果人物的声音语速较为平缓并且声音字正腔圆，则可以确定声音分类信息包括严肃；如果人物的声音语速较快、语调抑扬顿挫并且音量较大，则可以确定声音分类信息包括激情。又例如，如果人物的声音中经常包括诸如“人家”、“酱紫”这样的语言，则可以确定声音分类信息包括活泼或者可爱；如果人物的声音中经常包括诸如“奥利给”这样的语言，则可以确定声音分类信息包括激情或者励志。

根据本公开的一个或多个实施例，声音分类信息可以包括通过人物的声音的语调、音色之类的属性而划分的分类，诸如少女音分类、老人音分类等。这些分类的划分可以根据实际的需求而被定义，本公开的保护范围在此方面不受限制。

根据本公开的一个或多个实施例，当人物的声音包括由人物发出的诸如吹口哨和鼓掌、打响指之类的非语音声音时，计算设备110可以通过这些非语音声音来例如确定声音分类信息包括激情或者励志。

结合框204和框206，根据本公开的一个或多个实施例，计算设备110可以使用诸如多模态视频分类算法的多模态视频分类方法，针对包括人物的声音的音频段识别出例如聊天、说话的片段，而后提取音频，并且采用例如音源分离算法的音源分离方法。这是因为在视频段120中会因为环境等原因二产生各类声音混叠的音效问题，为了解决此类视频及直播场景下才会产生的声音混叠问题，引入的音源分离方法可以有效的提取并且分离人物的声音与背景音。此后，计算设备110可以利用提取出的声音，采用例如音频分类算法的音频分类方法。例如，计算设备110可以将音频段转变为可输入卷积神经网络的矩阵特征，并且对音频段进行分类，从而实现人物的声音的音色识别，最后提取出人物的声音的属性。

在框208，计算设备110基于在框202中确定的人物的行为分类信息和在框206中确定的人物的声音分类信息来确定人物的属性。根据本公开的一个或多个实施例，人物的属性可以包括行为分类信息和声音分类信息中的例如严肃、励志等的组合，或者可以是其中的一个描述，或者也可以是基于几个描述而归纳出的更为上位的描述。

根据本公开的一些实施例，行为分类信息包括行为分类多维向量，声音分类信息包括声音分类多维向量，并且确定人物的属性可以包括基于行为分类多维向量和声音分类多维向量来确定人物的属性多维向量，并且基于属性多维向量来确定人物的属性，其中属性多维向量中的每一维可以包括例如前述的严肃、励志等中的一项。

根据本公开的另一些实施例，行为分类信息和声音分类信息各自包括至少一个候选分类以及与至少一个候选分类相关联的至少一个分类概率，并且确定人物的属性可以包括基于针对行为分类信息和声音分类信息的候选分类以及与候选分类相关联的分类概率来确定至少一个候选属性以及与该至少一个候选属性相关联的至少一个属性概率，并且基于该至少一个候选属性和该至少一个属性概率来确定人物的属性。例如，如果行为分类信息包括两个候选分类，分别是概率为60％的严肃和概率为40％的活泼，声音分类信息同样包括两个候选分类，分别是概率为70％的严肃和概率为30％的活泼，此时可以将对应的概率相加再除以二，从而得到两个候选属性，分别是概率为65％的严肃和概率为35％的活泼，并且可以进一步确定人物的属性为概率为65％的严肃和概率为35％的活泼，或者通过单纯地取概率较大者而确定人物的属性为严肃。

根据本公开的又一些实施例，行为分类信息和声音分类信息各自包括至少一个候选分类，并且确定人物的属性可以包括从针对行为分类信息和声音分类信息的候选分类排除互斥的候选分类，并且基于排除了互斥的候选分类之后的候选分类来确定人物的属性。例如，如果针对行为分类信息和声音分类信息的候选分类包括严肃、悲伤和开心，此时，由于悲伤和开心，则可以从这两个候选分类中去除至少一个互斥的候选分类，从而确定人物的属性包括严肃，或者严肃和悲伤，或者严肃和开心。

根据本公开的一个或多个实施例，当获取了在框202中确定的人物的行为分类信息和在框206中确定的人物的声音分类信息之后，计算设备110也可以基于行为分类信息和声音分类信息，使用诸如多模态融合算法之类的多模态融合方法来确定人物的属性。

图3示出了根据本公开的实施例的确定人物的属性的方法300的流程图。具体而言，确定人物的属性的方法300同样可以由图1中所示的确定人物的属性的环境100中的计算设备110来执行。应当理解的是，确定人物的属性的方法300还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。在确定人物的属性的方法300中，附加地考虑了通过视频段120中的个别的图像而确定的静态分类信息。

在框302，计算设备110基于包括人物的视频段120，通过人物的行为确定人物的行为分类信息。框302所涉及的步骤的具体内容与框202中所涉及的步骤的具体内容相同，在此不再赘述。

在框304，计算设备110从视频段120确定包括人物的声音的音频段。框304所涉及的步骤的具体内容与框204中所涉及的步骤的具体内容相同，在此不再赘述。

在框306，计算设备110基于音频段，通过声音确定人物的声音分类信息。框306所涉及的步骤的具体内容与框206中所涉及的步骤的具体内容相同，在此不再赘述。

在框308，计算设备110从视频段120确定包括人物的图像。根据本公开的一个或多个实施例，视频段120中所包括的、不考虑相互关系的图像也可以用来确定人物的属性。因此，首先需要从视频段120中截取包括人物的图像。

在框310，计算设备110通过在框308确定的包括人物的图像来确定人物的静态分类信息。根据本公开的一个或多个实施例，人物的图像可以包括人物的性别、身高、身材、颜值、表情等。例如，如果人物的图像显示人物身高较高，则可以确定人物的静态分类信息包括高挑；如果人物的图像显示人物的肌肉发达，则可以确定人物的静态分类信息包括健壮。又例如，如果人物的图像显示人物正在哭泣，则可以确定人物的静态分类信息包括悲伤；如果人物的图像显示人物正在大笑，则可以确定人物的静态分类信息包括开心。

根据本公开的一个或多个实施例，计算设备110可以在框308确定包括人物的多个图像。例如，计算设备110可以在视频段120中每隔1秒截取一张图像。又例如，计算设备110可以选择在视频段120中截取至少20张间隔时间大于0.5秒的、包括人物的图像。此时，计算设备110可以通过这多个图像来确定人物的多个静态分类信息。而后，计算设备110可以基于这多个静态分类信息，通过例如投票算法的投票方法来确定人物的静态分类信息。

根据本公开的一个或多个实施例，当计算设备110在框308确定包括人物的多个图像之后，计算设备110可以基于在框310中确定的多个静态分类信息中的至少一个静态分类信息来确定人物的性别信息，并且利用性别信息来验证多个静态分类信息中是否存在错误。例如，由于男人通常不能具有诸如妩媚的静态分类信息，因此如果确定人物的性别信息为男性并且静态分类信息包括妩媚，则这个静态分类信息可以被验证为错误。此时，可以通过降低妩媚这一静态分类信息的投票权重或者直接丢弃这一静态分类信息来避免这一错误的静态分类信息对最终确定的人物的属性的消极影响。又例如，由于男人通常不能具有诸如娇小的静态分类信息，因此如果确定人物的性别信息为男性并且静态分类信息包括娇小，则这个静态分类信息可以被验证为错误。此时，可以通过降低娇小这一静态分类信息的投票权重或者直接丢弃这一静态分类信息来避免这一错误的静态分类信息对最终确定的人物的属性的消极影响。上述验证可以被理解为利用性别类别来对长相类别和身材类别进行约束。

在框312，计算设备110基于在框302中确定的人物的行为分类信息、在框306中确定的人物的声音分类信息和在框310中确定的人物的静态分类信息来确定人物的属性。根据本公开的一个或多个实施例，人物的属性可以包括行为分类信息和声音分类信息中的例如严肃、励志等的组合，或者可以是其中的一个描述，或者也可以是基于几个描述而归纳出的更为上位的描述。

此外，根据本公开的一个或多个实施例，计算设备110也可以采取以上针对框208所描述的例如基于多维向量的方法、基于概率的方法、基于排除互斥候选分类的方法和诸如多模态融合算法之类的多模态融合方法来确定人物的属性。例如，计算设备110可以使用诸如多模态视频分类算法的多模态视频分类方法，利用视频段120中的由声音分类信息体现的音频特征、由行为分类信息体现的时序信息以及由静态分类信息体现的图像特征进行特征拼接。计算设备110也可以使用诸如行为识别算法的行为识别方法，通过采用针对多模态视频分类的视频段结构，输入视频段，通过对从视频段120提取的音频段应用2D卷积来学习声音分类信息、对视频段120直接应用双流网络模型来学习行为分类信息以及对从视频段120提取的图像应用3D卷积来学习静态分类信息，从而最终获得人物的属性。

图4示出了根据本公开实施例的从视频段到属性的各阶段数据400的示意图。根据本公开的一个或多个实施例，各阶段数据400对应于图3示出了根据本公开的实施例的确定人物的属性的方法300中所获取或者确定的数据。

如图4中所述，在最顶部的是包括人物的视频段120。而后，如由从视频段120引出的箭头所示，可以针对视频段120来获得人物的行为分类信息440，并且可以从视频段120确定包括人物的音频段410和包括人物的图像420。在这之后，如由从音频段410和图像420引出的箭头所示，可以针对音频段410和图像420，分别确定人物的声音分类信息430和人物的静态分类信息450。最后，如由从的声音分类信息430、行为分类信息440和人物的静态分类信息450引出的箭头所示，可以基于声音分类信息430、行为分类信息440和人物的静态分类信息450来确定人物的属性130。图4中的视频段120、音频段410、图像420、声音分类信息430、行为分类信息440、人物的静态分类信息450以及属性130的具体内容与参照图1至图3所描述的视频段120、音频段、图像、声音分类信息、行为分类信息、人物的静态分类信息以及属性的具体内容相同，在此不再赘述。

图5示出了根据本公开实施例的特征向量拓扑500的示意图。根据本公开的一个或多个实施例，特征向量拓扑500可以作为参照图2和图3所描述的多模态向量融合方法的输入。例如，多模态向量融合方法通过将例如行为、性别、年龄、颜值、身材、长相风格、声音风格的多模态特征向量作为输入来确定人物的诸如风格的属性。

如图5中所示，特征向量拓扑500中包括七个节点，分别是属性130、行为510、声音520、长相530、年龄540、颜值550和身材560。通过特征向量拓扑500可以看到，行为510与属性130相关联，声音520分别与属性130和年龄540相关联，并且长相530分别与属性130、年龄540、颜值550和身材560相关联。而属性130则与行为510、声音520和长相530直接相关联，并且可以与年龄540、颜值550和身材560间接相关联。根据本公开的一个或多个实施例，行为510、声音520、长相530可以分别对应于参照图2和图3所描述的行为分类信息、声音分类信息和静态分类信息。应当理解，上述节点的具体内容仅用于对特征向量拓扑进行示例性说明，而不是用于对本公开的保护范围的限制。

根据本公开的一个或多个实施例，当将包括上述节点中的至少一部分节点的特征向量拓扑500的完全形式或者部分形式作为输入后，可以通过图神经网络来聚合每个节点及其周围节点的信息，从而使得可以利用图神经网络的浅层结构优势，在不破坏各模态的特征向量的基础上，学习各模态的潜在的空间拓扑结构联系，从而确定针对人物的属性130的属性多维向量。

以上参考图1至图5描述了可以在其中实现本公开的实施例中的确定人物的属性的方法的确定人物的属性的环境100、根据本公开的实施例的确定人物的属性的方法200、根据本公开的实施例的确定人物的属性的方法300、根据本公开的实施例的从视频段到属性的各阶段数据400以及根据本公开的实施例的特征向量拓扑500的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

上文已经参见图1至图5描述了根据本公开的实施方式的确定人物的属性的方法200和确定人物的属性的方法300的细节。在下文中，将参见图6描述确定人物的属性的装置中的各个模块。

图6是根据本公开实施例的确定人物的属性的装置600的示意性框图。如图6所示，确定人物的属性的装置600可以包括：行为分类信息确定模块610，被配置为基于包括人物的视频段，通过人物的行为确定人物的行为分类信息；音频段确定模块620，被配置为从视频段确定包括人物的声音的音频段；声音分类信息确定模块630，被配置为基于音频段，通过声音确定人物的声音分类信息；以及属性确定模块640，被配置为基于行为分类信息和声音分类信息来确定人物的属性。

在一个或多个实施例中，确定人物的属性的装置600还包括：分割模块(未示出)，被配置为将视频分割成长度相等的多个视频段；以及视频段确定模块(未示出)，被配置为在多个视频段中，将人物出现时间最长的视频段确定为人物的视频段。

在一个或多个实施例中，其中音频段确定模块620包括：组合获取模块(未示出)，被配置为获取视频段中包括人物的声音的多个音频片段的组合；第一音频段确定模块(未示出)，被配置为如果组合的时间长度大于阈值时间长度，则从组合截取阈值时间长度的音频作为音频段；第二音频段确定模块(未示出)，被配置为如果组合的时间长度等于阈值时间长度，则将组合确定为音频段；以及第三音频段确定模块(未示出)，被配置为如果组合的时间长度小于阈值时间长度并且大于第二阈值时间长度，则向组合添加空白音频以使得添加后的组合的时间长度等于阈值时间长度，并且将添加后的组合确定为音频段。

在一个或多个实施例中，其中行为分类信息包括行为分类多维向量，声音分类信息包括声音分类多维向量，并且属性确定模块640包括：属性多维向量确定模块(未示出)，被配置为基于行为分类多维向量和声音分类多维向量来确定人物的属性多维向量；以及第一属性确定模块(未示出)，被配置为基于属性多维向量来确定属性。

在一个或多个实施例中，其中行为分类信息和声音分类信息各自包括至少一个候选分类以及与至少一个候选分类相关联的至少一个分类概率，并且属性确定模块640包括：候选属性和属性概率确定模块(未示出)，被配置为基于针对行为分类信息和声音分类信息的候选分类以及与候选分类相关联的分类概率来确定至少一个候选属性以及与至少一个候选属性相关联的至少一个属性概率；以及第二属性确定模块(未示出)，被配置为基于至少一个候选属性和至少一个属性概率来确定属性。

在一个或多个实施例中，其中行为分类信息和声音分类信息各自包括至少一个候选分类，并且属性确定模块640包括：候选分类排除模块(未示出)，被配置为从针对行为分类信息和声音分类信息的候选分类排除互斥的候选分类；以及第三属性确定模块(未示出)，被配置为基于排除了互斥的候选分类之后的候选分类来确定属性。

在一个或多个实施例中，其中属性确定模块640包括：第四属性确定模块(未示出)，被配置为基于行为分类信息和声音分类信息，使用多模态融合方法来确定人物的属性。

在一个或多个实施例中，确定人物的属性的装置600还包括：图像确定模块(未示出)，被配置为从视频段确定包括人物的图像；静态分类信息确定模块(未示出)，被配置为通过图像来确定人物的静态分类信息；并且属性确定模块640包括：第五属性确定模块(未示出)，被配置为基于行为分类信息、声音分类信息和静态分类信息来确定人物的属性。

在一个或多个实施例中，其中确定图像包括确定包括人物的多个图像，并且静态分类信息确定模块包括：第一静态分类信息确定模块(未示出)，被配置为通过多个图像来确定人物的多个静态分类信息；以及第二静态分类信息确定模块(未示出)，被配置为基于多个静态分类信息，通过投票方法来确定静态分类信息。

在一个或多个实施例中，其中第二静态分类信息确定模块包括：性别信息确定模块(未示出)，被配置为基于多个静态分类信息中的至少一个静态分类信息来确定人物的性别信息；静态分类信息验证模块(未示出)，被配置为利用性别信息来验证多个静态分类信息；以及错误静态信息处理模块(未示出)，被配置为针对被验证为错误的静态分类信息，执行以下之一：降低投票权重，以及丢弃。

通过以上参考图1至图6的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用上述技术方案，能够准确并且高效地确定视频中的人物的属性，从而能够对视频中的人物进行准确地描述并且对视频进行准确的分类，因而能够提高视频推荐的准确度以及提升用户体验。在应用层面上，根据本公开的实施方式的技术方案作为内容理解侧的底层技术方案，可以直接应用于各类直播及小视频平台和应用，从而作为平台和应用的用户与视频或主播之间的关联桥梁。与传统的人物属性的静态识别或声音识别方法相比，通过多模态隐式向量融合来确定人物的属性可以更好的刻画动态视频中的主播的属性，可以帮助推荐侧针对平台和应用的用户进行精准推荐，因而可以增强用户粘性，从而增加产品的核心竞争力。

根据本公开的实施例，本公开还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。例如，如图1所示的计算设备110和如图6所示的确定人物的属性的装置600可以由电子设备700来实施。电子设备700旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200和300。例如，在一些实施例中，方法200和300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200和300的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200和300。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定人物的属性的方法，包括：

基于包括所述人物的视频段，通过所述人物的行为确定所述人物的行为分类信息；

从所述视频段确定包括所述人物的声音的音频段，其中确定所述音频段包括：

获取所述视频段中包括所述人物的所述声音的多个音频片段的组合；

如果所述组合的时间长度大于阈值时间长度，则从所述组合截取所述阈值时间长度的音频作为所述音频段；

如果所述组合的时间长度等于所述阈值时间长度，则将所述组合确定为所述音频段；以及

如果所述组合的时间长度小于所述阈值时间长度并且大于第二阈值时间长度，则向所述组合添加空白音频以使得添加后的所述组合的时间长度等于所述阈值时间长度，并且将添加后的所述组合确定为所述音频段；

基于所述音频段，通过所述声音确定所述人物的声音分类信息，其中所述声音包括由所述人物发出的非语音声音，并且其中确定所述声音分类信息包括通过所述非语音声音确定所述声音分类信息；以及

基于所述行为分类信息和所述声音分类信息来确定所述人物的所述属性。

2.根据权利要求1所述的方法，还包括：

将视频分割成长度相等的多个视频段；以及

在所述多个视频段中，将所述人物出现时间最长的视频段确定为所述人物的所述视频段。

3.根据权利要求1所述的方法，其中所述行为分类信息包括行为分类多维向量，所述声音分类信息包括声音分类多维向量，并且确定所述属性包括：

基于所述行为分类多维向量和所述声音分类多维向量来确定所述人物的属性多维向量；以及

基于所述属性多维向量来确定所述属性。

4.根据权利要求1所述的方法，其中所述行为分类信息和所述声音分类信息各自包括至少一个候选分类以及与所述至少一个候选分类相关联的至少一个分类概率，并且确定所述属性包括：

基于针对所述行为分类信息和所述声音分类信息的候选分类以及与所述候选分类相关联的分类概率来确定至少一个候选属性以及与所述至少一个候选属性相关联的至少一个属性概率；以及

基于所述至少一个候选属性和所述至少一个属性概率来确定所述属性。

5.根据权利要求1所述的方法，其中所述行为分类信息和所述声音分类信息各自包括至少一个候选分类，并且确定所述属性包括：

从针对所述行为分类信息和所述声音分类信息的候选分类排除互斥的候选分类；以及

基于排除了所述互斥的候选分类之后的候选分类来确定所述属性。

6.根据权利要求1所述的方法，其中确定所述属性包括：

基于所述行为分类信息和所述声音分类信息，使用多模态融合方法来确定所述人物的所述属性。

7.根据权利要求1所述的方法，还包括：

从所述视频段确定包括所述人物的图像；

通过所述图像来确定所述人物的静态分类信息；并且

确定所述人物的所述属性包括：

基于所述行为分类信息、所述声音分类信息和所述静态分类信息来确定所述人物的所述属性。

8.根据权利要求7所述的方法，其中确定所述图像包括确定包括所述人物的多个图像，并且确定所述静态分类信息包括：

通过所述多个图像来确定所述人物的多个静态分类信息；以及

基于所述多个静态分类信息，通过投票方法来确定所述静态分类信息。

9.根据权利要求8所述的方法，其中确定所述静态分类信息包括：

基于所述多个静态分类信息中的至少一个静态分类信息来确定所述人物的性别信息；

利用所述性别信息来验证所述多个静态分类信息；以及

针对被验证为错误的静态分类信息，执行以下之一：

降低投票权重，以及

丢弃。

10.一种确定人物的属性的装置，包括：

行为分类信息确定模块，被配置为基于包括所述人物的视频段，通过所述人物的行为确定所述人物的行为分类信息；

音频段确定模块，被配置为从所述视频段确定包括所述人物的声音的音频段，其中所述音频段确定模块包括：

组合获取模块，被配置为获取所述视频段中包括所述人物的所述声音的多个音频片段的组合；

第一音频段确定模块，被配置为如果所述组合的时间长度大于阈值时间长度，则从所述组合截取所述阈值时间长度的音频作为所述音频段；

第二音频段确定模块，被配置为如果所述组合的时间长度等于所述阈值时间长度，则将所述组合确定为所述音频段；以及

第三音频段确定模块，被配置为如果所述组合的时间长度小于所述阈值时间长度并且大于第二阈值时间长度，则向所述组合添加空白音频以使得添加后的所述组合的时间长度等于所述阈值时间长度，并且将添加后的所述组合确定为所述音频段；

声音分类信息确定模块，被配置为基于所述音频段，通过所述声音确定所述人物的声音分类信息，其中所述声音包括由所述人物发出的非语音声音，并且其中确定所述声音分类信息包括通过所述非语音声音确定所述声音分类信息；以及

属性确定模块，被配置为基于所述行为分类信息和所述声音分类信息来确定所述人物的所述属性。

11.根据权利要求10所述的装置，还包括：

分割模块，被配置为将视频分割成长度相等的多个视频段；以及

视频段确定模块，被配置为在所述多个视频段中，将所述人物出现时间最长的视频段确定为所述人物的所述视频段。

12.根据权利要求10所述的装置，其中所述行为分类信息包括行为分类多维向量，所述声音分类信息包括声音分类多维向量，并且所述属性确定模块包括：

属性多维向量确定模块，被配置为基于所述行为分类多维向量和所述声音分类多维向量来确定所述人物的属性多维向量；以及

第一属性确定模块，被配置为基于所述属性多维向量来确定所述属性。

13.根据权利要求10所述的装置，其中所述行为分类信息和所述声音分类信息各自包括至少一个候选分类以及与所述至少一个候选分类相关联的至少一个分类概率，并且所述属性确定模块包括：

候选属性和属性概率确定模块，被配置为基于针对所述行为分类信息和所述声音分类信息的候选分类以及与所述候选分类相关联的分类概率来确定至少一个候选属性以及与所述至少一个候选属性相关联的至少一个属性概率；以及

第二属性确定模块，被配置为基于所述至少一个候选属性和所述至少一个属性概率来确定所述属性。

14.根据权利要求10所述的装置，其中所述行为分类信息和所述声音分类信息各自包括至少一个候选分类，并且所述属性确定模块包括：

候选分类排除模块，被配置为从针对所述行为分类信息和所述声音分类信息的候选分类排除互斥的候选分类；以及

第三属性确定模块，被配置为基于排除了所述互斥的候选分类之后的候选分类来确定所述属性。

15.根据权利要求10所述的装置，其中所述属性确定模块包括：

第四属性确定模块，被配置为基于所述行为分类信息和所述声音分类信息，使用多模态融合方法来确定所述人物的所述属性。

16.根据权利要求10所述的装置，还包括：

图像确定模块，被配置为从所述视频段确定包括所述人物的图像；

静态分类信息确定模块，被配置为通过所述图像来确定所述人物的静态分类信息；并且

所述属性确定模块包括：

第五属性确定模块，被配置为基于所述行为分类信息、所述声音分类信息和所述静态分类信息来确定所述人物的所述属性。

17.根据权利要求16所述的装置，其中确定所述图像包括确定包括所述人物的多个图像，并且所述静态分类信息确定模块包括：

第一静态分类信息确定模块，被配置为通过所述多个图像来确定所述人物的多个静态分类信息；以及

第二静态分类信息确定模块，被配置为基于所述多个静态分类信息，通过投票方法来确定所述静态分类信息。

18.根据权利要求17所述的装置，其中所述第二静态分类信息确定模块包括：

性别信息确定模块，被配置为基于所述多个静态分类信息中的至少一个静态分类信息来确定所述人物的性别信息；

静态分类信息验证模块，被配置为利用所述性别信息来验证所述多个静态分类信息；以及

错误静态信息处理模块，被配置为针对被验证为错误的静态分类信息，执行以下之一：

降低投票权重，以及

丢弃。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。