CN112703495A

CN112703495A - 利用实体链接和本体数据推断主题

Info

Publication number: CN112703495A
Application number: CN201980060346.1A
Authority: CN
Inventors: R·罗南; O·尼尔; 林钦佑; O·贾辛; D·努里利; E·亚米; A·勒维
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-09-13
Filing date: 2019-06-28
Publication date: 2021-04-23
Also published as: US20200089802A1; WO2020055497A1; US10936630B2; EP3850500A1

Abstract

公开了用于从包含音频和视频两者的文件(例如，多模态文件或多媒体文件)推断主题以便促进视频索引的系统和方法。一组实体从文件中被提取，并且被链接以生成图；以及还获取该一组实体的参考信息。例如，可以从Wikipedia类别或其他大型本体数据源中抽取实体。使用无监督学习对图进行分析准许确定图中的簇。可以使用有监督学习从簇中提取特征提供了对主题标识符的选择。然后，主题标识符被用于对文件进行索引。

Description

利用实体链接和本体数据推断主题

背景技术

在包含音频和视频两者的多模态文件中搜索特定内容可能具有挑战性。搜索者可能需要观看视频通道的整个长度，以标识诸如重要人物的图像之类的某些对象的外观，并且可能还需要收听整个音轨以选出对某些重要主题的提及。即使多模态文件被标记为指示一些内容，该标签也不会指示多模态文件内可以找到该内容的位置(例如，视频通道和/或音轨内的时间索引)。附加地，如果在大型多模态文件库已经被标记之后，某个实体变得更加突出，则手动搜索整个库所需的工作可能令人望而却步。

发明内容

下文参考下文所列出的附图对所公开的示例进行详细描述。提供以下发明内容以说明本文中所公开的一些示例。然而，这并不意味着将所有示例限制为任何特定配置或操作顺序。

本文中所公开的一些方面和示例旨在通过以下各项从多模态文件推断主题：接收多模态文件，该多模态文件包括视频部分(视觉通道)和音频部分(音频通道)；从多模态文件中提取一组实体；链接该一组实体以产生一组经链接的实体；获得该一组实体的参考信息；至少基于参考信息来生成该一组经链接的实体的图，该图包括节点和边；至少基于图的节点和边来确定图中的簇；至少基于图中的簇来标识主题候选；从图中的簇中提取特征；至少基于所提取的特征来从主题候选中选择至少一个主题标识以表示至少一个簇；以及用至少一个主题标识对多模态文件进行索引。

附图说明

下文参考下文所列出的附图对所公开的示例进行详细描述：

图1图示了用于从多模态文件推断主题的示例性布置；

图2图示了图1的布置可以使用的示例性图；

图3是图示了可以与图2的布置一起使用的从多模态文件推断主题时所包括的示例性操作的流程图；

图4是图示了可以与图3的布置一起使用的从多模态文件推断主题时所包括的示例性操作的另一流程图；

图5是图示了适于实现本公开的各个方面的计算设备的操作环境的示例性框图；以及

图6是适合于实现本文中所公开的各个示例中的一些示例的示例云计算基础设施的框图。

在整个附图中，对应的附图标记指示对应的部分。

具体实施方式

参考附图对各个实施例进行详细描述。在所有附图中，只要可能，相同的附图标记将用于指代相同或相似的组件。仅出于说明性目的，提供了整个本公开中与具体示例和实现方式有关的参考，但是除非相反指出，否则并不意味着限制所有示例。

在包含音频和视频两者的多模态文件中搜索特定内容可能具有挑战性。搜索者可能需要观看视频通道的整个长度，以标识诸如重要人物的图像之类的某些对象的外观，并且可能还需要收听整个音轨以选取对某些重要主题的提及。即使多模态文件被标记以指示一些内容，该标签也可能不指示可以在多模态文件内找到该内容的位置(例如，视频通道和/或音轨内的时间索引)。附加地，如果在大型多模态文件库已经被标记之后，某个实体变得更加突出，则手动搜索整个库所需的工作可能令人望而却步。

公开了用于从包含音频和视频两者的文件(例如，多模态文件或多媒体文件)推断主题以便促进视频索引的系统和方法。一组实体从文件中被提取，并且被链接以生成图；以及还针对该一组实体的参考信息被获取。例如，可以从维基百科(Wikipedia)类别或其他大型本体数据源中抽取实体。使用无监督学习对图进行分析以准许确定图中的簇。可以使用有监督学习从簇中提取特征，提供了对主题标识符的选择。然后，主题标识符被用于对文件进行索引。

本公开提供了一种从视频文件推断主题的方法，这些视频文件包括具有伴随音轨的视频文件。被推断的主题具有可解释性，因此它们可以捆绑回到音轨的转录本的文本，以提供说明和/或索引。诸如Wikipedia、Bing和实体链接情报服务(ELIS)之类的大型本体提供了可用于推断的多种多样的实体。大型可用实体库具有可扩展性，并且可以通过利用那些其他数据源的自然增长来更新。一些示例提供了多语言能力。

图1图示了用于从多模态文件推断主题(例如，利用实体链接和本体数据推断主题)的示例性布置100。布置100的一些示例可以至少部分地在图5的计算设备500或用于使用图6的实体链接和本体数据推断主题的云视频索引服务612上实现。布置100操作接收的多模态文件102，该接收的多模态文件102具有视频部分104和音频部分106。在一些示例中，多模态文件102可以具有视频部分104或音频部分106之一。视频部分104是视觉通道，而音频部分106是音频通道。在文件库108中示出了接收的多模态文件102，该文件库108可以包含附加多模态文件和其他文件。实体提取组件110摄取接收的多模态文件102以提取将被用于生成带索引的文件192的实体。

实体提取组件110包括对象检测组件112和语音到文本组件124，它们一起操作以从接收的多模态文件102中提取一组实体。对象检测组件112的一些示例操作以使用查阅对象库116的面部识别组件114来执行面部识别。如所图示的，为支持面部识别操作，对象库116包括面部图像集合118和与面部图像集合118相关联的名称集合120。如果面部识别组件114在接收的多模态文件102的视频部分104中识别出面部图像集合118中的面部图像中的一个面部图像，则来自名称集合120的名称(与该面部图像相对应)将成为一组检测对象122中的一个检测对象。在一些场景下，面部识别组件114可能会在接收的多模态文件102的视频部分104中找出一组检测对象122中的多个检测对象。在一些示例中，可以在一组检测对象122中检测并指示图标的图像。

语音到文本组件124操作以从接收多模态文件102的音频部分106中提取实体信息，从而生成音频部分106的转录本132。语音到文本组件124的一些示例可以具有多语言能力，因此操作以提取至少两种不同语言的实体信息。备选语言组件126标识在接收的多模态文件102的音频部分106中使用的语言，并且执行所标识的语言的语音到文本过程。然后，文本翻译组件128能够使用语言翻译库130翻译转录本132的文本部分。

实体标识组件134包括命名实体识别(NER)组件136，其识别实体提取组件110所提取的实体的名称，并且将其写入到一组提取的实体142中。实体名称库138可以从Wikipedia、Bing、ELIS和其他数据源中抽取。例如，实体名称可以与特定Wikipedia页面相对应。消歧组件140操作以对一组检测名称进行消歧。例如，基于单词的使用方式的上下文，可以消除检测名称Apple的歧义以标识为大型知名公司或特定类型的水果。在对象检测、语音到文本、名称识别和消岐之后，实体存储在所提取的一组实体142中。

实体链接组件144摄取所提取的一组实体142，并且操作以链接所提取的一组实体142以产生一组经链接的实体146。在一些示例中，ELIS用于实体链接组件144。信息取回组件148操作以从实体库150(例如，从Wikipedia页面、Bing或其他本体数据源)获得用于所提取的一组实体142的实体参考信息152。在一些示例中，可以下载Wikipedia页面并且将其存储在本地档案中，以便在没有网络延迟的情况下进行快速搜索。在这样的系统中，可以周期性地对档案(例如，实体库150)进行更新。实体库150中的命中与从实体参考信息152中提取的一组实体142相对应。通过例如提供一组经链接的实体146之间的相似性确定的基础，该实体参考信息152可以被用于绘图。

类别组件154通过从实体参考信息152中提取类别来产生类别数据156。在一些数据集合中，类别旨在将相似话题分组在一起。例如，在Wikipedia中，类别通过MediaWiki特征来实现，该MediaWiki特征将带有其wikimarkup中的诸如[[Category:XYZ]]之类的文本的任何页面添加到名称为XYZ的类别的自动列表中。当名称初始时可能未知时，这有助于定位实体。

绘图和分析组件158(其包括多个组件160至172)操作以生成一组经链接的实体的图，该图包括节点和边。参见图2，以图200为例。节点表示一组经链接的实体146中的实体，而边表示实体之间的相似性，其在图2的图200中被描绘为距离。然而，应当理解，图是数据构造，可以不被显示为图像。例如，当图建模组件160对一组经链接的实体146上操作以产生图数据162时，绘图和分析组件158生成图。在一些示例中，词频-逆文档频(TFIDF)和余弦相似性被用于确定(估计)实体之间的距离和相似性。TFIDF是一种自然语言处理统计数据，其旨在反映单词对文档的重要性，并且经常用作信息检索搜索、文本挖掘和建模时的加权因子。

划分和聚类组件164至少基于可以在图数据162内找到的图的节点和边来确定图中的簇。在一些示例中，可以使用模块度算法。簇分析组件166产生簇数据168，并且还可以可选地确定所确定的簇中的显著簇和非显著簇。显著簇是具有显著高聚类系数的簇，其是图中的节点趋于簇在一起的程度的度量。簇数据168可以用于标识主题候选，主题候选中的一个主题候选可以最终成为表示簇的主题标识(TopicID)。也就是说，至少基于图中的簇，簇分析组件166标识主题候选。

特征提取组件170使用簇数据168从图中的簇中提取特征，以产生特征数据172。所提取的特征标识每个主题候选的显著性，从而准许估计该主题候选良好地表示簇的概率(可能性)。在一些示例中，从图中的簇中提取特征包括：从图中的显著簇中提取特征。在一些示例中，从图中的簇中提取特征包括选自如下列表的至少一个过程，该列表由以下各项组成：确定图直径，以及确定边的Jaccard系数。图直径是簇被布置的分散程度或集中程度的度量。Jaccard系数是用于比较样本集合的相似性和多样性的统计数据。Jaccard系数度量有限样本集合之间的相似性，并且被定义为样本集合的交集的大小除以并集的大小。Jaccard距离度量样本集合之间的差异性，其与Jaccard系数互补，可以通过从1减去Jaccard系数、或等同通过两个集合的并集和交集的大小之差除以并集的大小来获得。

尽管图建模和聚类是无监督学习，但是可以使用有监督学习来实现特征提取和排名。训练组件174可以使用训练数据176来训练用于对主题候选进行排名的神经网络分类器。在一些示例中，训练数据176可以包括用作真实模型的带标记文件。主题标识(TopicID)选择组件178操作以对至少一个簇内的主题候选进行排名，并且至少基于该排名来从主题候选中选择至少一个主题标识以表示至少一个簇。排名组件180可以执行排名操作以产生排名数据182。作为选择至少一个主题标识以表示至少一个簇的一部分，排名组件180可以至少基于所提取的特征来将主题候选映射到概率区间中。在一些示例中，这可以包括使用逻辑回归和/或支持向量机(SVM)。SVM是一种基于有监督学习的算法，其分析用于分类和回归分析的数据。在一些示例中，可以使用中心性、出现次数和L2范数(可能由簇大小加权)。

排名组件180将主题候选映射到概率区间中，在一些示例中，该概率区间可以是(0,1)。至少基于该映射，排名组件180然后通过对主题候选进行排序以在排名数据182中找出最高概率值来对至少一个簇内的主题候选进行排名。至少基于该排名，排名组件180从主题候选中选择至少一个主题标识以表示至少一个簇。这被录入到选定主题标识184中。在一些示例中，每个显著簇将具有其自己的主题标识。因此，单个接收的多模态文件102可以产生多个主题标识来作为选定主题标识184。

在一些示例中，如果接收的多模态文件102是另一种语言或存在某种其他翻译需要，则翻译组件186提供使用语言库188翻译来自选定主题标识184的主题标识的多语言能力。因此，即使接收的多模态文件102的语言与布置100操作所采用的语言不同，主题标识也可以被定位并翻译回以进行视频索引。视频索引器组件190操作以用至少一个主题标识为接收的多模态文件102进行索引，以产生带索引的文件192。带索引的文件192包括视频部分104、音频部分106、以及索引数据194。索引数据194包括来自选定主题标识184的至少一个主题标识、以及时间索引信息。以这种方式，利用视频索引，主题标识可以被链接到带索引的文件192的时间线。在一些示例中，用至少一个主题标识对接收的多模态文件102进行索引包括：用至少一个经翻译的主题标识对接收的多模态文件102进行索引。

图2图示了图1的布置100可以使用的示例性图200。该图200具有两个簇202和214，但是应当理解，这是个示例并且其他图可以具有不同数目的簇。簇202包括11个节点，例如，节点204和206。在图200中，节点表示实体，并且连接节点的线是边，其表示实体之间的相似性。例如，边208是节点204表示的实体与节点206表示的实体之间的相似性(或图200中的距离)。

簇202和212通过划分算法找到，并且是一些节点在相似性更大(距离较小)的情况下更紧密地簇成组的结果。例如，与节点210与节点214之间的边218或节点210与节点216之间的边220相比，节点204和节点206之间的边208指示更高的相似性。因此，节点204和节点206都在同一簇(簇202)内，而节点210位于与节点214和节点216不同的簇中。

图3是图示了与图1的布置一起使用的从多模态文件推断主题时所包括的示例性操作的流程图300。图3中所图示的操作可以由诸如图5的计算设备500之类的任何合适处理单元执行。流程图300在操作302中从接收多模态文件开始，并且操作304包括从多模态文件中提取一组实体。从多模态文件中提取实体集合包括，例如，检测多模态文件的视频部分中的对象并且检测多模态文件的音频部分中的文本。操作304包括进一步的操作306至314。在操作306中，检测对象的一些示例包括执行面部识别。对于多语言能力，操作308包括标识在多模态文件的音频部分中使用的一种语言(或可能多种语言)。然后，操作310包括通过执行语音到文本过程来检测文本，并且对于多语言操作，执行语音到文本过程包括执行所标识的一种语言(或多种语言)的语音到文本过程。如果需要，则通过翻译检测到的文本的操作312启用附加多语言操作。在操作314中，例如，使用NER，和/或ELIS、Wikipedia、Bing和其他实体名称源中的实体来识别实体。然后，操作316包括，在检测的实体名称中进行消歧，并且所提取的一组实体可用于绘图。

操作318包括：链接一组实体以产生一组经链接的实体，并且操作320包括获得该一组实体的参考信息。例如，可以使用Wikipedia，也可以是本地档案版本或其他本体数据源。操作322包括从一组实体的参考信息中提取类别。在一些数据集中，类别旨在将相似话题分组在一起。例如，在Wikipedia中，类别通过MediaWiki特征实现，该MediaWiki特征将其wikimarkup中带有诸如[[Category:XYZ]]之类的文本的任何页面添加到名称为XYZ的类别的自动列表中。当名称在初始时可能未知时，这有助于定位实体。例如，尽管特定页面可能处于多个类别中，但是每个Wikipedia页面都属于至少一个类别。

在操作324中，至少基于参考信息来生成包括节点和边的一组经链接的实体的图。操作326包括至少基于图的节点和边来确定图中的簇。参见例如图2的簇202和212。操作328包括确定所确定的簇中的显著簇和非显著簇，并且操作330包括至少基于图中的簇来标识主题候选。然后，操作332包括从图中的簇中提取特征，并且在一些示例中，从图中的簇中提取特征包括从图中的显著簇中提取特征。在一些示例中，从图中的簇中提取特征包括选自如下列表的至少一个过程，该列表由以下各项组成：确定图直径以及确定Jaccard系数。在操作334中，对分类器进行训练，以用于与特征提取有关的过程中的有监督学习。训练可以使用带标签的文件作为真实模型。

至少基于所提取的特征，操作336从主题候选中选择至少一个主题ID以表示至少一个簇。例如，特定图可能具有多个簇，并且每个簇将具有表示该簇的主题标识。选定主题标识应当良好地表示同一簇内其他实体的实体。操作336包括其他操作338和340。操作338包括将主题候选映射到概率区间中，并且至少基于该映射，操作340对至少一个簇内的候选进行排名。至少基于排名来选择主题标识。例如，概率最高的候选可以是被选为主题标识的候选。在一些示例中，对主题候选进行排名包括选自由逻辑回归和SVM组成的列表的至少一个过程。

对于多语言场景，操作342包括翻译至少一个主题标识。然后，操作344包括用至少一个主题标识对多模态文件进行索引。对于多语言场景，操作344可以包括用至少一个经翻译的主题标识来对多模态文件进行索引。

图4是图示了可以与图1的布置一起使用的从多模态文件推断主题时所包括的示例性操作的流程图400。图4中所图示的操作可以由诸如图5的计算设备500之类的任何合适处理单元执行。操作402包括接收多模态文件。在一些示例中，多模态文件可以包括视频部分或音频部分。在一些示例中，多模态文件可以包括视频部分和音频部分两者。操作404包括从多模态文件中提取一组实体。操作406包括链接一组实体以产生一组经链接的实体，并且操作408包括获取针对一组实体的参考信息。操作410包括至少基于参考信息来生成一组经链接的实体的图，该图包括节点和边。操作412包括至少基于图的节点和边来确定图中的簇。操作414包括至少基于图中的簇来标识主题候选，并且操作416包括从图中的簇中提取特征。操作418包括至少基于所提取的特征来从主题候选中选择至少一个主题标识以表示至少一个簇；并且操作420包括用至少一个主题标识对多模态文件进行索引。

附加示例

一些示例涉及一种用于从多模态文件推断主题的系统，该系统包括实体提取组件，其包括对象检测组件和语音到文本组件，该实体提取组件操作以从多模态文件中提取一组实体，该多模态文件包括视频部分和音频部分；实体链接组件，操作以链接所提取的一组实体以产生一组经链接的实体；信息取回组件，操作以获取针对一组实体的参考信息；绘图和分析组件，操作以生成一组经链接的实体的图，该图包括节点和边；至少基于图的节点和边来确定图中的簇；至少基于图中的簇来标识主题候选；以及从图中的簇中提取特征；主题标识选择组件，操作以对至少一个簇内主题候选进行排名；以及至少基于排名来从主题候选中选择至少一个主题标识以表示至少一个簇；以及视频索引器，操作以用至少一个主题标识对多模态文件进行索引。

一些示例涉及一种从多模态文件推断主题的方法，该方法包括：接收多模态文件；从多模态文件中提取一组实体；链接一组实体以产生一组经链接的实体；获取针对一组实体的参考信息；至少基于参考信息来生成一组经链接的实体的图，该图包括节点和边；至少基于图的节点和边来确定图中的簇；至少基于图中的簇来标识主题候选；从图中的簇中提取特征；至少基于所提取的特征来从主题候选中选择至少一个主题标识以表示至少一个簇；以及用至少一个主题标识对多模态文件进行索引。

一些示例涉及一个或多个其上存储有用于从多模态文件推断主题的计算机可执行指令的计算机存储设备，这些计算机可执行指令当由计算机执行时，使计算机执行操作，这些操作包括：接收多模态文件，该多模态文件包括视频部分和音频部分；从多模态文件中提取一组实体，其中从多模态文件中提取一组实体包括：通过面部识别检测多模态文件的视频部分中的对象；通过语音到文本过程检测多模态文件的音频部分中的文本；以及对一组所检测的实体名称进行歧义；链接一组实体以产生一组经链接的实体；获得针对一组实体的参考信息；至少基于参考信息来生成一组经链接的实体的图，该图包括节点和边；至少基于图的节点和边来确定图中的簇；确定所确定的簇中的显著簇和非显著簇；至少基于图中的显著簇来确定主题候选；从图中的显著簇中提取特征；至少基于所提取的特征来将主题候选映射到概率区间；至少基于映射来对至少一个簇内的主题候选进行排名；基于排名来从主题候选中选择至少一个主题标识以表示至少一个簇；以及用至少一个主题标识对多模态文件进行索引。

可替代地、或除本文中所描述的其他示例之外，一些示例包括以下各项的任何组合：多模态文件包括视频部分和音频部分，并且其中从多模态文件中提取一组实体包括检测多模态文件的视频部分中的对象并且检测多模态文件的音频部分中的文本；对象检测组件操作以执行面部识别；检测对象包括执行面部识别；语音到文本组件操作以提取至少两种不同语言的实体信息；检测文本包括：执行语音到文本过程；标识在多模态文件的音频部分中使用的语言，其中执行语音到文本过程包括：执行所标识的语言的语音到文本过程；使用语音到文本过程检测多模态文件的音频部分中的文本包括：使用执行所标识的语言的语音到文本过程；翻译检测到的文本；消岐组件，对所检测的实体名称进行消歧；从多模态文件中提取一组实体还包括：对一组所检测的实体名称进行消歧；从一组实体的参考信息中提取类别；确定所确定的簇中的显著簇和非显著簇，其中从图中的簇中提取特征包括：从图中的显著簇中提取特征；从图中的簇中提取特征包括选自如下列表的至少一个过程，该列表包括：确定图直径和确定Jaccard系数；选择至少一个主题标识以表示至少一个簇包括，至少基于所提取的特征来将主题候选映射到概率区间中，以及至少基于该映射来对至少一个簇内的主题候选进行排名，并且至少基于排名来选择至少一个主题标识；对主题候选进行排名包括选自由逻辑回归和SVM组成的列表的至少一个过程；训练组件，用于训练分类器，该分类器于对主题候选进行排名；以及翻译至少一个主题标识，其中用所述至少一个主题标识对多模态文件进行索引包括：用至少一个经翻译的主题标识对多模态文件进行索引。

虽然已经根据各种示例及其相关操作对本公开的各方面进行了描述，但是本领域技术人员应当领会，来自任何数目的不同示例的操作的组合也在本公开的各方面的范围内。

示例操作环境

图5是用于实现本文中所公开的各方面的示例计算设备500的框图，并且通常被指定为计算设备500。计算设备500是合适计算环境的一个示例，并不旨在暗示对本发明的使用范围或功能性的任何限制。计算设备500也不应被解释为具有与所图示的组件/模块中的任一个或组合有关的任何依赖性或要求。

本文中所公开的示例和实施例可以在计算机代码或机器可用指令的一般背景中进行描述，这些计算机代码或机器可用指令包括计算机或诸如个人数据助手或其他手持式设备之类的其他机器所正在执行的计算机可执行指令，诸如程序组件。通常，包括例程、程序、对象、组件、数据结构等的程序组件指代执行特定任务或实现特定抽象数据类型的代码可以在多种系统配置中实践所公开的示例，这些系统配置包括个人计算机、膝上型计算机、智能电话、移动平板电脑、手持式设备、消费者电子产品、专用计算设备等。所公开的示例还可以在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。例如，分布式计算环境可以托管云合成服务。合成服务的一些实施例可以提供合成3D环境以及在合成场景中渲染表面。

计算设备500包括总线510，其直接或间接耦合以下设备：存储器512、一个或多个处理器514、一个或多个呈现组件516、输入/输出(I/O)端口518、I/O组件520、电源522、以及网络组件524。计算设备500不应被解释为具有与其中所说明的任何单个组件或组件组合具有任何依赖性或要求。虽然计算设备500被描述为看似单个设备，但是许多计算设备500可以一起工作并且共享所描绘的设备资源。例如，存储器512可以分布在许多设备上，一个或多个处理器514可以提供容纳在不同设备上等。

总线510表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)的总线。尽管为了清楚起见，图5的各个框使用线条示出，但是实际上，描绘各个组件并非很清楚，打个比方，线条更准确地可能是灰色和模糊的。例如，可以认为诸如显示设备之类的呈现组件为I/O组件。此外，处理器具有存储器。这就是现有技术的本质，并且图5的图仅是能够结合本发明的一个或多个实施例使用的示例性计算设备的图示。在诸如“工作站”、“服务器”、“笔记本电脑”、“手持式设备”等之类的类别之间并未进行区分，因为所有这些都预期在图1的范围内并且在本文中都被称为“计算设备”。

存储器512可以包括本文中所讨论的计算机可读介质中的任何计算机可读介质。存储器512可以用于存储并访问被配置为执行本文中所公开的各种操作的指令。在一些示例中，存储器512包括形式为易失性存储器和/或非易失性存储器、可移除存储器或不可移除存储器、虚拟环境中的数据盘、或其组合的计算机存储介质。

一个或多个处理器514可以包括任何数量的处理单元，其从诸如存储器512或I/O组件520之类的各种实体中读取数据。具体地，一个或多个处理器514被编程为执行用于实现本公开的各方面的计算机可执行指令。指令可以由处理器、计算设备500内的多个处理器、或客户端计算设备500外部的处理器来执行。在一些示例中，一个或多个处理器514被编程为执行诸如下文所讨论的并且在附图中描绘的流程图中所图示的指令之类的指令。而且，在一些示例中，一个或多个处理器514表示用于执行本文中所描述的操作的模拟技术的实现方式。例如，该操作可以由模拟客户端计算设备500和/或数字客户端计算设备500执行。

一个或多个呈现组件516向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。本领域技术人员应当理解并领会，可以以若干种方式(诸如在图形用户界面(GUI)中以可视方式、通过扬声器以可听方式、在计算设备500之间以无线方式、跨过有线连接或其他方式)呈现计算机数据。

端口518允许计算设备500逻辑耦合到包括I/O组件520在内的其他设备，I/O组件520中的一些I/O组件可以内置。示例I/O组件520包括但不限于麦克风、键盘、鼠标、操纵杆、游戏垫、碟形卫星天线、扫描仪、打印机、无线设备等。

在一些示例中，网络组件524包括网络接口卡和/或用于操作网络接口卡的计算机可执行指令(例如，驱动器)。计算设备500与其他设备之间的通信可以通过任何有线连接或无线连接使用任何协议或机构发生。在一些示例中，网络组件524可操作以在无线使用短程通信技术(例如，近场通信(NFC)、蓝牙

品牌通信等)或其组合的设备之间使用传送协议通过公共、私有或混合(公共和私有)传达数据。

尽管结合示例计算设备500进行了描述，但是本公开的示例能够使用许多其他通用或专用计算系统环境、配置或设备来实现。可能适合与本公开的各方面一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于智能电话、移动平板电脑、移动计算设备、个人计算机、服务器计算机、手持式设备或膝上型计算机设备、多处理器系统、游戏控制台、基于微处理器的系统、机顶盒、可编程消费者电子产品、移动电话、可穿戴式或配件形状因子(例如，手表、眼镜、耳机、或听筒)中的移动计算和/或通信设备、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一系统或设备的分布式计算环境、虚拟现实(VR)设备、全息设备等。这样的系统或设备可以经由手势输入、接近输入(诸如通过悬停)和/或经由话音输入以任何方式接受来自用户(包括来自诸如键盘或指向设备之类的输入设备)的输入。

现在，转向图6，示例性框图图示了用于提供合成服务的云计算环境。架构600图示了适用于实现本公开的各方面的示例性云计算基础设施。架构600不应被解释为具有与其中所说明的任何单个组件或组件的组合有关的任何依赖性或要求。另外，在本公开的实施例的范围内，可以采用任何数目的节点、虚拟机、数据中心、角色实例或其组合来实现期望功能性。

图6的分布式计算环境图6包括公共网络602、私有网络604、以及专用网络606。例如，公共网络602可以是基于公共云的计算资源网络。私有网络604可以是私有企业网络或基于私有云的计算资源网络。并且专用网络606可以是第三方网络或基于专用云的计算资源网络。在一些示例中，专用网络604可以托管客户数据中心610，并且专用网络606可以每个托管云视频索引服务612，用于使用实体链接和本体数据推断主题。

混合云608可以包括公共网络602、私有网络604和专用网络606的任何组合。例如，专用网络606可以是可选的，其中混合云608包括公共网络602和私有网络604。按照这种方式，一些客户可以选择只在公共网络602和/或专用网络606中托管他们的客户数据中心610的一部分，从而在私有网络604中保留客户数据中的一些客户数据或托管客户服务。例如，管理医疗保健数据或股票经纪账户的客户可以会推选或被要求维持对存储在其数据中心或处理这种数据的应用(例如，用于读取放射扫描、交易股票等的软件)中的保健数据或账户数据的传播进行控制。还有许多其他场景，客户可能期望或需要将数据中心的某些部分置于客户自己的管理之下。因此，在一些示例中，客户数据中心可以使用混合云608，在该混合云608中，在公共网络602中执行一些数据存储和处理，而在专用网络606中执行其他数据存储和处理。

公共网络602可以包括数据中心，该数据中心被配置为根据结构控制器618托管和支持包括分布式应用的任务在内的操作。应当理解并领会，图6所示的数据中心614和数据中心616仅是用于容纳一个或多个分布式应用的合适实现方式的示例，并不旨在暗示对本文中所公开的示例的使用范围或功能的任何限制。数据中心614和数据中心616都不应该被解释为具有与任何单个资源、资源的组合、服务器(例如，服务器620和624)的组合、节点(例如，节点632和634)的组合、或用于访问资源、服务器和/或节点的应用编程接口(API)集合有关的任何依赖性或要求。

数据中心614图示了包括诸如服务器620和624之类的多个服务器的数据中心。结构控制器618负责自动管理服务器620和624并且在数据中心614内分布任务和其他资源。通过示例，结构控制器618可以依赖服务模型(例如，由拥有分布式应用的客户设计)来提供关于服务器622的配置方式、配置位置和配置时间以及应用626和应用628在其上的放置方式、放置位置和放置时间的指导。分布式应用的一个或多个角色实例可以放置在数据中心614的服务器620和624中的一个或多个服务器，其中一个或多个角色实例可以表示软件的各部分、组件程序、或参与分布式应用的角色实例。在其他示例中，角色实例中的一个或多个角色实例可以表示分布式应用可访问的所存储的数据。

数据中心616图示了包括诸如节点632和节点634之类的多个节点的数据中心。一个或多个虚拟机可以在数据中心616的节点(诸如例如，节点634的虚拟机636)上运行。图6描绘了数据中心616的单个节点上的单个虚拟节点，根据本公开的说明性实施例，可以在数据中心的任何数目的节点上实现任何数目的虚拟节点。通常，基于放置在分布式应用上的需求(例如，处理负载量)，虚拟机636分配给分布式应用或服务应用的角色实例。如本文中所使用的，短语“虚拟机”并不意味着是限制性的，并且可以是指处理单元所执行以作为为其分配的角色实例的功能基础的任何软件、应用、操作系统或程序。进一步地，一个或多个虚拟机636可以包括处理能力、存储位置、以及数据中心616内的其他资产，以适当支持所分配的角色实例。

在操作中，在数据中心的第一节点和第二节点上为虚拟机动态指派资源，并且端点(例如，角色实例)动态放置在虚拟机上以满足当前处理负荷。在一个实例中，结构控制器630负责自动管理在数据中心616的节点上运行的虚拟机，并且负责将角色实例和其他资源(例如，软件组件)放置在数据中心616内。通过示例，结构控制器630可以依靠服务模型(例如，由拥有服务应用的客户设计)来提供关于诸如虚拟机636之类的虚拟机的配置方式、配置位置和配置时间以及角色实例在其上的放置方式、放置位置和放置事件的指导。

如上文所描述的，可以在数据中心的一个或多个节点内动态建立和配置虚拟机。如本文中所图示的，节点632和节点634可以是任何形式的计算设备，诸如例如，个人计算机、台式计算机、膝上型计算机、移动设备、消费者电子设备、服务器、图5的计算设备等。在一个实例中，节点632和634托管并支持一个或多个虚拟机636的操作，同时托管留出用于支持数据中心616的其他租户的其他虚拟机，诸如内部服务638、被托管的服务640、以及存储642。通常，角色实例可以包括不同客户所拥有的不同服务应用的端点。

通常，节点中的每个节点包括或链接到某个形式的计算单元(例如，中央处理单元、微处理器等)，以支持在其上运行的一个或多个组件的操作。如本文中所利用的，短语“计算单元”通常是指具有处理能力和存储存储器的专用计算设备，其支持作为其上的软件、应用和计算机程序的执行基础的操作软件。在一个实例中，计算单元配置有有形硬件元件或机器，该有形硬件元件或机器与节点一体或可操作地耦合到该节点，以使得每个设备能够执行多种过程和操作。在另一实例中，计算单元可以涵盖处理器(未示出)，其耦合到节点中的每个节点所容纳的计算机可读介质(例如，计算机存储介质和通信介质)。

驻留在节点上的实例的作用可能是支持服务应用的操作，因此它们可以经由API互连。在一个实例中，可以经由诸如公共网络602之类的网络云来建立这些互连中的一个或多个互连。网络云用于互连诸如角色实例之类的资源，这些资源可以分布在诸如节点632和634之类的各种物理主机上。另外，网络云便于通过连接在数据中心616中运行的服务应用的角色实例的信道进行通信。通过示例，网络云可以包括但不限于一个或多个通信网络，诸如局域网(LAN)和/或广域网(WAN)。这样的通信网络在办公室、企业范围的计算机网络、内联网、以及互联网中司空见惯，因此本文中无需进行详细讨论。

本公开的各示例可以在诸如由一个或多个计算机或其他设备以软件、固件、硬件或其组合执行的程序模块之类的计算机可执行指令的一般背景中进行描述。计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。通常，程序模块包括但不限于执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构。本公开的各方面可以使用任何数目和组织的这种组件或模块来实现。例如，本公开的各方面不限于图中所图示并在本文中所描述的特定计算机可执行指令或特定组件或模块。本公开的其他示例可以包括功能性比本文中所图示和描述的功能性多或少的不同的计算机可执行指令或组件。在包括通用计算机的示例中，当被配置为执行本文中所描述的指令时，本公开的各方面将通用计算机变换为专用计算设备。

通过示例而非限制，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性存储器和非易失性存储器、可移除存储器和不可移除存储器，用于存储诸如计算机可读指令、数据结构、程序模块等之类的信息。计算机存储介质是有形介质，并且与通信介质互斥。计算机存储介质以硬件实现，并且把载波和所传播的信号排除在外。为了本公开的目的，计算机存储介质本身不是信号。示例性计算机存储介质包括硬盘、闪存驱动器、固态存储器、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD-ROM)、数字通用磁盘(DVD)或其他光学存储、盒式磁带、磁带、磁盘存储设备或其他磁性存储设备、或能够用来存储信息以供计算设备访问的任何其他非传输介质。相比之下，通信介质通常在诸如载波或其他传输机制之类的经调制数据信号中体现计算机可读指令、数据结构、程序模块等，并且包括任何信息递送介质。

本文中说明并描述的本公开的示例中的操作的进行次序或执行次序并非必不可少，并且在各个示例中，这些操作可以以不同顺序方式执行。例如，预期在另一操作之前、同时或之后进行或执行特定操作在本公开的方面的范围之内。

当介绍本公开的各方面的元件或其示例时，冠词“一”、“一个”、“该”和“所述”旨在意指存在元件中的一个或多个元件。术语“包括(comprising)”、“包含(including)”和“具有(having)”旨在是包括性的，并且意指除所列元件之外可能还存在其他元件。术语“示例性”旨在意指“……的示例”。短语“以下各项中的一项或多项：A、B和C”意指“A中的至少一个和/或B中的至少一个和/或C中的至少一个”。

已经对本公开的各方面进行了详细描述，显而易见的是，在没有背离如由所附权利要求书限定的本公开的各方面的范围的情况下，可以做出修改和变化。由于可以在没有背离本公开的方面的范围的情况下对上述构造、产品和方法做出各种改变，所以意图是上述描述中包含的以及附图中示出的所有内容应被解释为说明性的，而并没有限制意义。

Claims

1.一种从多模态文件推断主题的方法，所述方法包括：

接收多模态文件；

从所述多模态文件中提取一组实体；

链接所述一组实体以产生一组经链接的实体；

获取针对所述一组实体的参考信息；

至少基于所述参考信息来生成所述一组经链接的实体的图，所述图包括节点和边；

至少基于所述图的所述节点和所述边来确定所述图中的簇；

至少基于所述图中的所述簇来标识主题候选；

从所述图中的所述簇中提取特征；

至少基于所提取的所述特征，从所述主题候选中选择至少一个主题标识以表示至少一个簇；以及

用所述至少一个主题标识对所述多模态文件进行索引。

2.根据权利要求1所述的方法，其中所述多模态文件包括视频部分和音频部分，并且其中从所述多模态文件中提取一组实体包括：

检测所述多模态文件的所述视频部分中的对象；以及

检测所述多模态文件的所述音频部分中的文本。

3.根据权利要求2所述的方法，其中检测对象包括：执行面部识别。

4.根据权利要求2所述的方法，其中检测文本包括：执行语音到文本过程。

5.根据权利要求4所述的方法，还包括：

标识所述多模态文件的所述音频部分中使用的语言，以及

其中执行语音到文本过程包括：执行所标识的所述语言的语音到文本过程。

6.根据权利要求4所述的方法，还包括：

翻译所检测到的所述文本。

7.根据权利要求1所述的方法，还包括：

确定所确定的所述簇中的显著簇和非显著簇，以及

其中从所述图中的所述簇中提取特征包括：从所述图中的所述显著簇中提取特征。

8.根据权利要求1所述的方法，其中从所述图中的所述簇中提取特征包括选自由以下项组成的列表的至少一个过程：

确定图直径和确定Jaccard系数。

9.根据权利要求1所述的方法，其中选择至少一个主题标识以表示至少一个簇包括：

至少基于所提取的所述特征来将主题候选映射到概率区间；以及

至少基于所述映射来对所述至少一个簇内的主题候选进行排名，以及

至少基于所述排名来选择所述至少一个主题标识。

10.根据权利要求1所述的方法，还包括：

翻译所述至少一个主题标识，以及

其中用所述至少一个主题标识来对所述多模态文件进行索引包括：用至少一个经翻译的所述主题标识来对所述多模态文件进行索引。

11.一种用于从多模态文件推断主题的系统，所述系统包括：

实体提取组件，包括对象检测组件和语音到文本组件，所述实体提取组件操作以从包括视频部分和音频部分的多模态文件中提取一组实体；

实体链接组件，操作以链接所提取的所述一组实体以产生一组经链接的实体；

信息取回组件，操作以获取针对所提取的所述一组实体的参考信息；

绘图和分析组件，操作以：

生成所述一组经链接的实体的图，所述图包括节点和边；

至少基于所述图的所述节点和所述边来确定所述图中的簇；

至少基于所述图中的所述簇来标识主题候选；以及

从所述图中的所述簇中提取特征；

主题标识选择组件，操作以：

对至少一个簇内的所述主题候选进行排名；以及

至少基于所述排名来从所述主题候选中选择至少一个主题标识以表示至少一个簇；以及

视频索引器，操作以用所述至少一个主题标识对所述多模态文件进行索引。

12.根据权利要求11所述的系统，其中所述对象检测组件操作以执行面部识别。

13.根据权利要求11所述的系统，其中所述语音到文本组件操作以提取至少两种不同语言的实体信息。

14.一种或多种计算机存储设备，所述一种或多种计算机存储设备上存储有用于从多模态文件推断主题的计算机可执行指令，所述计算机可执行指令当由计算机执行时，使所述计算机执行包括以下项的操作：

接收包括视频部分和音频部分的多模态文件；

从所述多模态文件中提取一组实体，其中从所述多模态文件中提取一组实体包括：

利用面部识别检测所述多模态文件的所述视频部分中的对象；

利用语音到文本过程检测所述多模态文件的所述音频部分中的文本；以及

对一组检测到的实体名称进行消歧；

链接所述一组实体以产生一组经链接的实体；

获得针对所述一组实体的参考信息；

至少基于所述图的所述节点和所述边来确定所述图中的簇；

确定所确定的所述簇中的显著簇和非显著簇；

至少基于所述图中的所述显著簇来标识主题候选；

从所述图中的所述显著簇中提取特征；

至少基于所提取的所述特征来将所述主题候选映射到概率区间；至少基于所述映射来对至少一个显著簇内的所述主题候选进行排名，

基于所述排名来从所述主题候选中选择至少一个主题标识，以表示所述至少一个显著簇；以及

用所述至少一个主题标识来对所述多模态文件进行索引。

15.根据权利要求14所述的一种或多种计算机存储设备，其中所述操作还包括：

标识所述多模态文件的所述音频部分中使用的语言，以及

利用语音到文本过程检测所述多模态文件的所述音频部分中的文本包括：执行所标识的所述语言的语音到文本过程。