CN106844410A

CN106844410A - 确定多媒体内容的摘要的质量

Info

Publication number: CN106844410A
Application number: CN201610877283.7A
Authority: CN
Inventors: N·莫达尼; V·苏布拉马尼安; S·古普塔; P·R·马内里克; G·希拉南达尼; A·R·辛哈; 尤特帕尔
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2015-12-04
Filing date: 2016-09-30
Publication date: 2017-06-13
Anticipated expiration: 2036-09-30
Also published as: US9454524B1; DE102016011905A1; CN106844410B; AU2016238832A1; AU2016238832B2; GB201616833D0; GB2545051A

Abstract

本公开内容涉及确定多媒体内容的摘要的质量。多媒体内容项目的多媒体摘要的质量度量部分基于摘要和内容项目的语义相似性而不是仅基于词频来确定。这在一些实施例中通过使用向量分析标识摘要和多媒体内容项目的语义含义来实现。比较摘要的向量和多媒体内容项目的向量以确定语义相似性。在其他示例中，部分基于用于确定多媒体摘要的质量度量的摘要的图像部分与摘要的文本部分之间的相干性确定多媒体摘要的质量度量。

Description

确定多媒体内容的摘要的质量

技术领域

本公开内容主要地涉及表征多媒体内容。具体而言，本公开内容涉及确定多媒体内容的摘要的质量，其中摘要和多媒体内容二者包括文本和图像。

背景技术

多媒体内容主要地是指包括不同内容形式的某个组合的数字内容，这些内容形式包括文本和图像(视频、动画、图形等)。这样的多媒体内容如此普遍和廉价以至于用户经常被选择多媒体内容项目进行消费的过程所淹没。由于这一点，多媒体内容的用户经常依赖于多媒体内容项目的摘要。这些摘要可以作为替代用于消费多媒体内容项目或者用来有助于选择待消费的多媒体内容项目。因此，多媒体摘要的质量可能对预期的读者决策消费给定的内容项目具有显著影响。然而，目前没有用于评估多媒体摘要的质量的适当方法。

附图说明

图1是图示根据本公开内容的一个实施例的用于确定与多媒体内容项目对应的摘要的质量度量的方法的高级流程图。

图2是图示根据本公开内容的一个实施例的用于确定与多媒体内容项目对应的摘要的质量度量的方法的具体流程图。

图3是根据本公开内容的一个实施例的包括质量度量确定系统的分布式处理环境的框图，该质量度量确定系统由通信网络远程地耦合到给定的用户的计算设备。

图4是根据本公开内容的一个实施例的用于确定多媒体内容项目的多媒体摘要的质量的质量度量确定系统的框图。

各图仅出于示例的目的而描绘本公开内容的各种实施例。许多变化、配置和其他实施例将从以下具体讨论中清楚。

具体实施方式

如先前指出的那样，没有用于评估给定的多媒体摘要的质量的技术。然而，这样的摘要可能对预期的用户、包括是否消费摘要化的数字内容项目的完全版本的用户决策具有显著影响。因此，从市场开发观点来看，希望有用于评估多媒体内容项目的摘要的质量的技术。例如考虑具有图像和文本部分二者的数字文章。如将按照本公开内容认识的那样，在图像部分与文本部分之间具有高相干性程度的、该文章的摘要可能帮助读者比假如在图像部分与文本部分之间缺乏相干性的摘要更快地具有对文章的更佳理解。在更一般意义上，摘要代表对应多媒体内容项目的程度可以被量化为质量度量。摘要的质量度量然后例如可以用来计量摘要将在引起对内容项目本身的消费时有效的可能性。尽管一些可用算法可能可用来评估多媒体内容项目的给定的多媒体摘要(或者为了简洁而这里简称为“摘要”)的文本部分，但是这样的算法将无法考虑该摘要的非文本部分。具体而言，用于评估内容的算法将很可能通过比较多媒体内容的文本部分中的词频与对应摘要中的词频来操作。摘要的词频与多媒体内容项目中的词频越相似，质量分数就越高。这一类算法的示例包括保留率(该算法可以例如通过将摘要中的独特的词的数目除以多媒体内容项目中的独特的词的数目来操作)、KL散度(该算法可以例如通过测量内容和对应摘要中的词频的分布来操作)、双语评估替代(“BLEU”)(该算法确定从一门语言到另一门语言的机器翻译文本的质量)和用于要点评估的面向召回率的替代(“ROUGE”)(该算法使用人类生成的摘要作为参考来确定摘要的质量)。

然而，如将按照本公开内容认识的那样，以上算法和类似算法如果用来确定多媒体内容项目的摘要的质量则是不够的。一个原因是因为这些算法主要地依赖于词频，所以没有比较摘要的语义含义与多媒体(非文本)内容项目的语义含义。这一词频方式因此可能即使对于具有与对应多媒体内容项目很不相同的语义含义的摘要仍然有问题地生成高的质量度量值。例如考虑多媒体内容项目的文本部分的简单示例，该多媒体内容项目陈述“这个女孩不喜欢奶酪”。具有陈述“这个女孩喜欢奶酪”的文本部分的对应摘要将使用词频算法具有良好的打分，但是鉴于在该摘要中不存在“不”而不准确。在另一示例场景中，包括文本部分——该文本部分使用代词来引用附带图像部分——的多媒体内容项目可能具有没有信息的高打分摘要。例如考虑多媒体内容项目，该多媒体内容项目包括伴随有文本标题“这很好”的衬衫的图片。假如没有对衬衫的图像部分的分析，可能向陈述“这很好”的摘要给予高的质量度量值，因为它确切地符合多媒体内容项目的文本部分(即在摘要的文本与全文的文本之间有高的相关性程度)。然而，如果实际上考虑了图像，则摘要可能已经是“这件衬衫很好”，这是相对地准确得多的摘要，因此应当比仅基于文本的分数打分更高。因此，使用当前可用算法，摘要可以被误导地确定为具有高质量分数，但是没有准确地反映多媒体内容项目的语义含义。

为此，这里提供用于通过考虑多媒体内容项目的多媒体摘要的文本和非文本组成二者来确定该摘要的质量度量的技术。在一些实施例中，质量度量部分基于摘要和内容项目的语义相似性而不是仅基于词频。这在一些实施例中通过使用向量分析标识摘要和多媒体内容的语义含义来实现。比较摘要的向量和多媒体内容项目的向量以确定语义相似性。注意文本和非文本项目二者可以容易地由向量代表，由此有助于基于向量的比较。

除了评定在给定的多媒体内容项目与它的多媒体摘要之间的语义含义相似性之外，本技术还可以包括确定在摘要本身的文本与非文本部分之间的相关性程度。如将按照本公开内容认识的那样，在摘要的文本与非文本部分之间的高相关性或者“相干性”程度往往指示更高质量的摘要。因此，本公开内容的一些实施例提供用于部分基于确定在用于确定多媒体摘要的质量度量的、摘要的图像部分与摘要的文本部分之间的相干性来确定多媒体内容项目的多媒体摘要的质量度量的方法。“相干性”是指在多媒体摘要的文本部分与多媒体摘要的图像部分之间的语义含义相似性并且根据以下描述的方法来确定。在高级别，确定相干性通过从文本部分的片段和图像部分的片段二者生成向量并且将向量投影到公共单位空间上来实现。然后比较投影的向量。在公共单位空间中相互邻近的向量对应于跨摘要的文本部分和图像部分二者的语义相似信息，因此对应于在那些部分之间的高相干性程度。注意如果给定的多媒体摘要包括视频而不是静止图像(或者除了静止图像之外还包括视频)，则视频可以视为静止图像(或者帧)的汇集，其中以与静止图像相同的方式比对摘要的文本部分分离地评估每个图像。然后，可以计算个别比较的平均值或者其他适当统计表示以便提供在文本部分与视频之间的总相干性程度。为此，这里引用“图像”旨在于包括视频内容帧。

本公开内容的一些实施例的一个益处是质量度量的提高的准确性。提高的准确性有若干原因。一个原因是本公开内容的一些实施例分析多媒体内容项目和对应摘要的文本部分和图像部分二者。这提高质量度量的准确性，因为质量度量因此反映在多媒体内容项目和对应摘要的文本部分和图像部分之间传达的语义含义。提高的准确性的另一原因是一些实施例分析和并入在摘要的文本部分与摘要的图像部分之间的相干性。这提高准确性，因为语义相似的具有文本部分和图像部分的摘要将在使用本公开内容的实施例时产生高质量度量。

本公开内容的一些实施例的另一益处是有能力定制对多媒体质量度量的三个不同贡献的权值。具体而言，通过用户可选择的系数，根据一些实施例，可以根据用户偏好对以下信息内容的个别贡献进行加权：(1)摘要的文本部分相对于多媒体内容的文本部分的信息内容(“文本覆盖”)；(2)摘要的图像部分相对于多媒体内容项目的图像部分的信息内容(“图像覆盖”)；以及(3)在摘要的文本与图像之间的相干性。定制一些实施例以做出对与话题集合一致或者与用户选择的话题和兴趣一致的摘要的评估。可以定制一些实施例以提高在图像部分、文本部分或者二者的语义含义之间比较的准确性。

如这里所用，术语多媒体内容项目是指包括文本部分和图像部分的内容项目。图像部分可以是任何类型的数字资源(例如电子书、网页、移动应用、数字相片)中的任何格式的静止图像或者如先前说明的视频的帧。文本部分和图像部分中的每个部分分别包括文本片段和图像片段。文本片段是句子、句子的子句、句子中的词或者字符(即数、符号、字母)。图像片段是图像的帧或者帧的部分或者在图像的帧内的对象。文本部分或者文本片段的信息内容是指与本身一般地未传达含义的词(例如，连词和冠词)对照的在文本部分或者文本片段中的可以传达含义的词(例如名词、动词和形容词)数目。图像部分或者图像片段的信息内容是指可以传达含义的帧、帧的部分或者在帧内的对象(例如与未聚焦的背景比较的脸部的图像)。如以上指示的那样，“相关性”是指在摘要的文本部分与摘要的图像部分之间的语义含义相似性。术语“质量”如这里所用是指在摘要的语义含义与对应多媒体内容项目的语义含义比较之间的相似性程度。质量度量的值越高，摘要和对应多媒体内容项目在语义含义上就越接近。

确定质量度量的方法

图1是图示根据本公开内容的一个实施例的用于确定与多媒体内容项目对应的多媒体摘要的质量度量的方法100的高级流程图。方法100通过接收104多媒体内容项目并且也接收108与多媒体内容项目对应的多媒体摘要来开始。如以上呈现的那样，将方法100应用于多媒体内容项目和多媒体摘要仅为一个实施例。本公开内容的其他实施例适用于包含文本部分和图像部分中的仅一个部分或者另一部分的内容项目和摘要。

本公开内容的一些实施例然后分析112多媒体内容项目和多媒体摘要二者。以下在图2的上下文中更具体描述分析112。基于分析112，确定116多媒体摘要的质量度量。以下也在图2的上下文中更具体描述质量度量及其确定116。

图2是图示根据本公开内容的一个实施例的用于确定与多媒体内容项目对应的多媒体摘要的质量度量的方法200的具体流程图。为了便于说明，该方法被图示为包括三个元步骤(未按特定顺序呈现)：(1)分析204在多媒体内容项目的文本部分的句子与摘要的文本部分的句子之间的语义相似性；(2)分析208在摘要的文本部分的句子与摘要的图像部分的图像之间的语义相似性；以及(3)分析212在多媒体内容项目的图像部分的图像与摘要的图像部分的图像之间的语义相似性。为了便于说明，从图2省略方法100的关于接受多媒体内容项目和多媒体摘要的要素。

方法200的元步骤204图示用于分析在多媒体内容项目的文本部分的句子(或者句子片段)与摘要的文本部分的句子(或者句子片段)之间的相似性的操作。这一分析204操作的功能和益处是确定在多媒体内容项目的文本部分与对应摘要的文本部分之间的语义含义可比较的程度。这一分析204通过首先生成216用于多媒体内容项目和摘要各自的文本部分中的句子的向量以确定摘要的文本部分是否传达与多媒体内容项目的文本部分传达的语义含义相同(或者相似)的语义含义来实现。传达的语义含义越相似，对摘要的文本部分的质量度量的贡献就越高。

通过首先使用递归自动编码器处理多媒体内容项目和摘要二者的文本部分来生成216向量。首先训练编码矩阵W_e。W_e一旦被训练就被用来分析多媒体内容项目和对应摘要的句子以提取相应语义含义并且在公共单位空间中比较它们(以下更具体描述)。

为了训练编码矩阵W_e，递归自动编码器首先生成用于至少一个训练句子的语法解析树。生成用于在每个训练句子内的每个词和子句的语义向量。根据以下等式1生成解析树的每个非端子(即非叶)节点。

s＝f(W_e[c₁，c₂]+b) 等式1

在等式1中，s代表非叶节点，W_e是训练的编码矩阵，并且c₁和c₂(更一般地，c_i)是词到向量表示。具体而言，c_i包括句子片段，这些句子片段是解析树的要素。这些句子片段是训练序列中的一个或者多个训练序列的子集。等式1中的项b是常数。函数f在一个示例中是在它对函数的变量运算时产生在0与1之间的结果的sigmoid函数。

对矩阵W_e的训练继续递归自动编码器根据以下等式2对于多媒体内容项目和对应摘要的每个句子重建在解析树中的每个节点之下的要素。

[x₁′∶y₁′]＝f(W_dy₂+b) 等式2

等式2描述基于矩阵W_d对句子y₂的运算输出多个向量(从向量x₁’到y₁’)，该输出后续地用sigmoid函数f来处理。

在完成对矩阵W_e的训练时，然后使用训练的矩阵W_e来生成和使用解析树的根的向量表示作为句子的表示向量。针对每个句子生成的向量然后用于计算在多媒体内容项目的句子与摘要的对应句子之间的余弦相似性。根据以下等式3基于余弦相似性确定在多媒体内容项目的文本部分和摘要的文本部分的句子之间的相似性S_T(u，v)。

等式3

在等式3中，和分别是摘要(u)的文本部分和多媒体内容项目(v)的文本部分的文本片段的向量表示。余弦相似性量化在多媒体内容项目和摘要的句子的文本部分之间的语义含义相似性，该相似性如以下更具体描述的那样然后以后用作对多媒体摘要质量度量的贡献。

方法200的元步骤208图示用于分析在摘要的文本部分和摘要的附带图像部分的句子之间的相似性的操作。这一分析204操作的功能和益处是确定在摘要的文本部分和摘要的附带图像部分之间的语义含义彼此对应的程度。在文本与附带图像之间有越多语义相似性，多媒体摘要的质量就越高。

在与以上描述的过程类似的过程中，以与通过引用整体合并于此的Karpathy等人描述的方法(Deep Fragment Embeddings for Bidirectional Image Sentence Mapping,Neural Information Processing Systems,2014,pp.1889-1897.)相似的方法来生成224与摘要的图像内容和文本内容对应的向量。首先描述用于生成摘要的图像部分的向量的过程。

用于生成224与摘要的图像部分对应的向量的过程包括首先标识图像部分的可能与摘要相关的片段。通过训练深度神经网络自动编码器来标识片段，该深度神经网络自动编码器然后应用于图像以提取相关图像部分。在高级别，这一过程通过从图像提取像素值并且个别地或者在关联组中使用像素值以标识在图像内的与图像中的对象对应的更高组织级别来实现。

一旦标识图像片段，区域卷积神经网络(RCNN)用来生成与标识的图像片段中的每个图像片段对应的向量。在一个实施例中，RCNN如通过引用整体合并于此的Girshick等人描述(参见Rich Feature Hierarchies for Accurate Object Detection and Semanticsegmentation,Computer Vision and Pattern Recognition,2014)的那样生成与每个标识的片段对应的4096维向量。4096维向量代表在计算资源的消耗与输出质量之间的方便折衷。由于4096等于2¹²，因此它被方便地应用于二进制数据位。可以使用更低维空间，但是在特征之间有更少判别。也可以使用更高维空间，但是计算资源的消耗增加。

标识在任何两个向量之间的交点。基于与图像的与摘要语义相关的部分对应的图像片段之一的可能性选择为其生成向量的片段的子集。在一些实施例中，基于使用向量确定的分类进一步限制标识的片段以减少任何图像片段在分析的后续步骤中的过度表示风险。

使用以上在元步骤204的要素216的内容中描述的过程来生成224与摘要的文本部分对应的向量。

然后通过矩阵变换将图像向量和句子向量投影到公共单位空间上。已经训练用来将向量变换到公共单位空间上的矩阵，从而语义相似要素，无论在图像部分还是在文本部分中，都被对应地投影在公共单位空间的反映语义相似性的区域上。

将向量投影到公共单位空间上的一个益处是减少无关信息对于确定语义相似性的影响。例如，如生成的向量可以包括与图像或者文本部分的语义含义不相关的外部信息(例如颜色、纹理、形状)。通过将向量映射到公共单位空间，减少这种外部信息的影响。

然后根据以下等式4确定向量与摘要的图像和文本部分的余弦相似性。

等式4

在这一等式中，和是使用以上描述的方法获得的、摘要的文本部分u的文本片段和摘要的图像部分p的图像片段的向量表示。

方法200的元步骤212图示在一个实施例中用于分析在摘要的图像部分与多媒体内容项目的图像部分之间的相似性的操作。如以上在元步骤208的上下文中说明的那样，针对图像确定向量并且将向量投影到公共单位空间上。根据以下等式5确定基于生成的向量在图像之间的余弦相似性。

等式5

在等式5中，和分别是摘要和多媒体内容项目的图像部分的图像片段p和q的向量表示。

已经如以上在方法200中描述的那样生成用于多媒体内容项目和对应摘要的各种要素的相似性分数，如图1中所示和如以下更具体描述的那样确定116多媒体质量度量。

确定多媒体摘要度量

再次参照图1，以下描述用于使用在分析112(和对应方法200)中确定的信息来确定116质量度量的过程，该质量度量量化在摘要与多媒体内容项目的语义含义之间的相似性程度。

根据以下等式6确定多媒体摘要质量度量。

MuSQ＝f(IC_text，IC_image，Coh_total) 等式6

其中MuSQ是多媒体质量摘要度量，IC_text是描述摘要的文本部分中的相对于多媒体内容项目的文本部分的比例信息量的度量，IC_image是摘要的图像部分中的相对于多媒体内容项目的图像部分的比例信息量。等式6中和如在本公开内容中的别处使用的项“f”代表通用函数而不是具体函数。Coh_total是在摘要的文本部分与摘要的图像部分之间的“相干性”。相干性反映在摘要的文本部分与摘要的图像部分之间的语义相似性程度而更高的数反映在摘要的文本与图像之间的更多语义相似性。在一个实施例中，如以下在等式7中所示，等式6是其变量的非递减求和。

MuSQ＝A·IC_text+B·IC_image+C·Coh_total 等式7

在等式7中，A、B和C是用来改变每个变量对MuSQ的相对贡献的正的常数。

以下在等式8中定义IC_text。

MuSQ＝A·IC_text+B·IC_image+C·Coh_total 等式8

在等式8中，S_T是以上在等式3中定义的，并且R_v是可能对多媒体内容项目的文本部分的语义含义(以上称为“信息内容”)有贡献的项或者词的数目。也就是说，R_v是文本部分的文本片段中的名词、动词、形容词、副词和代词的词计数。在确定R_v时省略冠词、连词等。

对于多媒体内容项目的给定的文本片段v对在摘要的文本部分中存在的文本片段u取“max”函数。“max”函数的结果是在摘要S中存在的文本片段v的最大表示。“max”函数也防止摘要中的冗余句子增加质量度量分数，因为仅与多媒体内容项目最相关的摘要句子或者片段对度量有贡献。换而言之，使用这一函数有助于关于特定语义从多媒体内容项目中的多个句子之中选择有最多信息内容的句子。这提高包括多媒体内容的更多样覆盖的摘要的分数，因为重复句子对分数无贡献(或者贡献更少)，其中代表多样话题的句子和图像被打分为贡献更多信息内容。

“max”函数的结果与句子的信息内容R_v相乘。在等式8中包括信息内容R_v辅助选择与具有标识的类型的“信息”词的更低计数的更少信息的句子比较而言传达更多信息(在名词、形容词等数目方面)的片段。这一量对在多媒体内容项目中存在的所有文本片段v的求和是摘要的文本部分相对于作为整体的多媒体内容项目而言的质量指示符。

以下在等式9中定义IC_image。

等式9

如以上在等式5中定义的S_I(p，q)表示关于图像q(在多媒体内容项目中)而言的图像片段p(在摘要中)的信息内容。在一个实施例中，S_I量化在摘要p中的图像片段与多媒体内容项目q中的对应图像片段之间的相似性。基于如以上描述的那样可选地投影到公共单位空间上的如递归卷积神经网络(RCNN)分析的图像片段的表示来确定对S_I的量化。项是多媒体内容项目的图像q的信息内容。在一个实施例中，通过如以上在元步骤208的上下文中描述的那样将图像片段q转换成文本(并且具体地为生成224的向量)，然后使用以上描述的方法测量该文本的信息内容来确定项的函数与以上描述的项R_v的函数相似。

在等式9中，对于多媒体内容项目的给定的图像片段q对于在摘要的图像部分中存在的图像片段p取最大函数。结果是在摘要S的图像部分中存在的图像片段q的最大表示。对在多媒体内容项目中存在的所有图像片段q求和这一量提供摘要的图像部分如何代表多媒体内容项目的指示。

以下在等式10中定义Coh_total。

等式10

在等式10中，C_T，I(u，p)表示在来自摘要S的文本部分的句子(或者文本片段)u与摘要的图像部分I的图像片段p之间的相干性。如以上在等式4的上下文中描述的那样，可以将C_T，I投影到公共单位空间上以比较摘要的提取的文本部分和图像部分的向量。R_u和是如以上定义的文本部分和图像部分的信息内容。

示例系统

图3是根据本公开内容的一个实施例的包括质量度量确定系统的分布式处理环境的框图，该质量度量确定系统由通信网络远程地耦合到给定的用户的计算设备。图3中所示分布式处理环境300包括用户设备304、网络308和摘要质量确定系统312。在其他实施例中，系统环境300包括与图3中所示部件不同的部件和/或附加部件。

用户设备304是能够接收用户输入以及经由网络308传输和/或接收数据的计算设备。在一个实施例中，用户设备304是计算机系统，比如桌面型或者膝上型计算机。在另一实施例中，用户设备304可以是具有计算机功能的设备，比如个人数字助理(PDA)、移动电话、平板计算机、智能电话或者相似设备。在一些实施例中，用户设备304是用于消费多媒体内容项目、与多媒体内容项目对应的摘要和这里描述的用于确定与多媒体内容项目对应的摘要的摘要质量度量的方法的移动计算设备。用户设备304被配置为经由网络308与摘要质量确定系统312通信。在一个实施例中，用户设备304执行应用，该应用允许用户设备304的用户与摘要质量确定系统312交互，因此成为专门化的计算机器。例如，用户设备304执行浏览器应用以实现经由网络308在用户设备304与摘要质量确定系统312之间的交互。在另一实施例中，用户设备304通过在用户设备304的原生操作系统(比如或者ANDROID^TM)上运行的应用编程接口(API)与摘要质量确定系统312交互。

用户设备304被配置为使用有线和无线通信系统经由网络308通信，该网络可以包括局域网和/或广域网的任何组合。在一个实施例中，网络308使用标准通信技术和/或协议。因此，网络308可以包括使用比如因特网、802.11、全球微波接入可互操作性(WiMAX)、3G、4G、CDMA、数字用户线(DSL)等技术的链路。相似地，在网络308上使用的联网协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。可以使用包括超文本标记语言(HTML)或者可扩展标记语言(XML)的技术和/或格式来表示通过网络308交换的数据。此外，可以使用比如安全套接字层(SSL)、传输层安全性(TLS)和互联网协议安全性(IPsec)的加密技术来加密链路中的所有或者一些链路。

图4是如图3中所示的摘要质量确定系统312的系统架构的框图。摘要质量系统312被配置为在接收到多媒体内容和对应摘要时执行以上描述的实施例中的一些或者所有实施例以确定质量度量，该质量度量指示在摘要的总体语义含义与对应多媒体内容项目的语义含义之间的相似性程度。摘要质量确定系统312包括非瞬态存储器416和质量度量确定模块432，以下描述其子部件。

非瞬态存储器416被描绘为包括两个不同存储器元件：多媒体内容项目存储库420和摘要存储库524。多媒体内容项目存储库420存储多媒体内容项目和(可选地存储包括文本部分或者图像部分中的仅一个部分的内容项目)用于分析和可选地用于显示或者传输。摘要存储库424存储与多媒体内容项目对应的摘要。与多媒体内容项目存储库420一样，摘要存储库424可以存储文本摘要、图像摘要以及包括文本部分和图像部分二者的多媒体摘要中的任何一项或者多项。无论存储的内容和摘要的性质如何，多媒体内容项目存储库420和摘要存储库424与质量度量确定模块432通信。

非瞬态存储器416可以包括用于存储实施如在本公开内容中教导的各种实施例的数据和计算机可读指令和/或软件的计算机系统存储器或者随机存取存储器，比如持久盘存储装置(该持久盘存储装置可以包括任何适当光或者磁持久存储设备，例如RAM、ROM、闪存、USB设备或者其他基于半导体的存储介质)、硬盘驱动器、CD-ROM或者其他计算机可读介质。非瞬态存储器416也可以包括其他类型的存储器或者其组合。可以提供非瞬态存储器416作为系统312的物理元件或者与系统312分离地或者远程地提供非瞬态存储器416。系统312的非瞬态存储器416可以存储用于实施各种实施例的计算机可读和计算机可执行指令或者软件，包括多媒体内容项目存储库420和摘要存储库424。

在使用时，质量度量确定模块432与包括多媒体内容项目存储库420和摘要存储库424的非瞬态存储器416通信以便接收并且后续地分析多媒体内容项目和对应摘要。质量度量确定模块432包括句子到句子分析器432、句子到图像分析器436和图像到图像分析器440。句子到句子分析器如以上在图1和2的内容中描述的那样相对于多媒体内容项目的文本部分中的句子分析摘要的文本部分中的句子(或句子片段)的质量。句子到图像分析器如以上在图1和2的上下文中描述的那样相对于摘要的附带图像部分分析摘要的文本部分中的句子的质量。图像到图像分析器如以上在图1和2的上下文中描述的那样相对于对应多媒体内容项目的图像部分分析摘要的图像部分的图像部分的质量。一旦这些分析器432、436和440中的每个分析器完成分析，质量度量确定模块接收相应分析的输出以如以上描述的那样确定摘要质量度量。

Web服务器444经由网络308将摘要质量确定系统312链接到用户设备304。Web服务器344供应网页以及其他web有关内容，比如XML等。Web服务器344可以提供从和向用户设备304接收或者传输内容项目和摘要，从和向用户设备接收和传输摘要质量度量以及以别的方式有助于消费内容项目的功能。附加地，web服务器344可以提供用于向原生客户端设备操作系统(比如ANDROID^TM、或者RIM)直接地发送数据的应用编程接口(API)功能。Web服务器344也提供用于与用户设备304交换数据的API功能。

摘要质量确定系统312也包括用于执行在非瞬态存储器416中存储的计算机可读和计算机可执行指令或者软件和用于控制系统硬件的其他程序的至少一个处理器448。可以运用虚拟化，从而可以动态地共享摘要质量确定系统312中的基础结构和资源。例如可以提供虚拟机以操控在多个处理器上运行的过程，从而该过程看来使用仅一个计算资源而不是多个计算资源。也可以与一个处理器使用多个虚拟机。

示例应用

以下两个示例定性地描述这里描述的实施例的应用。在第一示例中，多媒体内容项目包含两个独特的句子。第一句子Str₁包括独特的词的集合w₁。在多媒体内容项目中Str₁重复n₁次。第二句子Str₂包括独特的词的集合w₂。在多媒体内容项目中Str₂重复n₂次。为了便于说明，假设w₁和w₂没有任何共同词。最后这一假设数学表达为w₁∩w₂＝φ。此外，对于这一示例假设词计数|w₁|＝5，|w₂|＝6。在多媒体内容项目中Str₁重复的次数是n₁＝10，并且在多媒体内容项目中Str₂重复的次数是n₂＝2。

如果请求仅单个句子的摘要，则两个选项是可能的：仅包含Str₁的摘要S₁或者仅包含Str₂的摘要S₂。由于Str₁重复10次，比Str₂更频繁地五次，所以摘要S₁是优选的，因为它捕获在原有多媒体内容项目中为主的信息。由于w₁和w₂没有任何公共词，所以多媒体内容项目中的独特的词的总数是w₁+w₂。与多媒体内容项目比较的摘要S₁和S₂中的每个摘要中的词的保留率遵循等式11和12：

保留率等式11

保留率等式12

保留率算法、比如以上呈现的保留率算法将优先地选择S₂，因为它具有分析的摘要的最高数目的独特的词。保留率算法使这一选择准则基于包括更多独特的词的摘要描述多媒体内容项目中的更多内容这样的假设。然而，由于这些方法仅关注词计数，所以忽视显著语义差异。在这一示例中，保留率会选择具有更多独特的词的摘要S₂，即使它更少代表多媒体内容项目的全部内容。

根据本公开内容的实施例，优选如下摘要，该摘要具有作为整体的多媒体内容项目的更多信息内容和更广覆盖(即反应贯穿多媒体内容项目的不同话题)。与以上保留率示例对照，考虑应用于在摘要1(S₁)与摘要2(S₂)之间选择的本公开内容的实施例。等式13和14将本公开内容的实施例应用于以上场景。

MuSQ(S₁)＝n1*w1＝10*5＝50 等式13

MuSQ(S₂)＝n2*w2＝2*6＝12 等式14

在以上示例中，将等式7约化为等式13和14的形式，因为该例仅包括文本部分，因此将等式7的分析图像部分(即IC_image和Coh_total)的变量减少至零。因此，从等式7剩余的仅有项是IC_text项。在这一情况下，IC_text减少至句子中的对语义含义(R_v)有贡献的词的数目，因为“max”项是1。基于上述，本公开内容的实施例会选择S₁，因为它更代表多媒体内容项目(即选择包括比Str₂更频繁地重复五次的句子Str₁的S₁)。

在另一示例中，考虑本公开内容的实施例较KL散度而言的优点。适应前例，定义摘要S₁和S₂为S₁＝{Str₁，Str₂}和S₂＝{Str₁，Str₁}，并且|w₁|＝5，|w₂|＝6和w₁∩w₂＝φ。由于S₁与仅包括重复两次的Str₁的S₂对照包括更多信息(即Str₁和Str₂二者)，所以S₁是优选的摘要。

回顾在以下等式15中定义KL散度。

等式15

在等式13中，q_i是摘要中的第i个词的出现概率，并且p是原始文档中的第i个词的出现概率。如果KL(S₂)＜KL(S₁)，则按照KL散度将选择摘要S₂。基于数学的已知应用，等式16的比率确定选择准则。

等式16

在这一示例中，n₁＝10并且n₂＝2，因此n₁＞4.3*n₂。出于这一原因，即使S₂具有比S₁更少的信息，在这一情况下按照KL散度仍然将选择S₂作为优选的摘要。

对照而言，应用本公开内容的实施例，MuSQ(S₁)＝n₁*w₁+n₂*w₂＝10*5+2*6＝62和MuSQ(S₂)＝n₁*w₁＝10*5＝50。应用这一模型，由于信息的多样性而恰当地选择S₁作为优选的摘要。

更多考虑

如将按照本公开内容认识的那样，可以在任何计算机可读介质或者计算机程序产品(例如，硬盘驱动器、服务器、盘或者其他适当非瞬态存储器或者存储器集合)上编码的软件、比如指令集(例如HTML、XML、C、C++、面向对象的C、JavaScript、Java、BASIC等)中实施图3和4中所示系统的各种模块和部件、比如句子到句子分析器432、句子到图像分析器436和图像到图像分析器440，该软件在由一个或者多个处理器执行时使在本公开内容中提供的各种方法被执行。将认识在一些实施例中，如在本公开内容中描述的由用户计算系统执行的各种功能可以由在不同配置和布置中的相似处理器和/或数据库执行，并且描绘的实施例未旨在于限制。这一示例实施例的各种部件、包括计算设备1000可以被集成到例如一个或者多个桌面型或者膝上型计算机、工作站、平板、智能电话、游戏控制台、机顶盒或者其他这样的计算设备中。计算系统的其他典型部件和模块、比如处理器(例如中央处理单元和协处理器、图形处理器等)、输入设备(例如键盘、鼠标、触摸板、触摸屏等)和操作系统未被示出但是将是显而易见的。

已经出于示例的目的而呈现公开内容的实施例的前文描述；它未旨在于穷举或者使权利要求限于公开的精确形式。相关领域技术人员可以认识许多修改和变化按照以上公开内容是可能的。

本描述的一些部分在对信息的操作的算法和符号表示方面描述实施例。这些算法描述和表示由数据处理领域技术人员常用来向本领域其他技术人员有效地传达他们的工作的实质。这些操作在功能上、计算上或者逻辑上描述时被理解为由计算机程序或者等效电路、微代码等实施。可以在软件、固件、硬件或者其任何组合中体现描述的操作。

这里描述的步骤、操作或者过程中的任何步骤、操作或者过程可以单独或者与其他设备组合用一个或者多个硬件或者软件模块来执行或者实施。在一个实施例中，软件模块用包括非瞬态计算机可读介质的计算机程序产品来实施，该非瞬态计算机可读介质包含可以由计算机处理器执行的用于执行描述的步骤、操作或者过程中的任何或者所有步骤、操作或者过程的计算机程序代码。

示例实施例

在一个示例中，一种用于评估数字多媒体内容项目的摘要的、计算机实施的方法包括接收包括文本部分和图像部分的多媒体内容项目，接收多媒体内容的摘要，该摘要包括文本部分和图像部分，以及确定摘要相对于多媒体内容项目的质量度量。该确定包括确定以下内容度量中的至少两个度量：确定第一内容度量，该第一内容度量量化摘要的文本部分中的与多媒体内容项目的文本部分公共的信息内容的量，确定第二内容度量，该第二内容度量量化摘要的图像部分中的与多媒体内容项目的图像部分公共的信息内容的量，以及确定第三内容度量，该第三内容度量量化在摘要的文本部分与摘要的图像部分之间的信息相干性。质量度量至少部分基于至少两个确定的内容度量。在这一示例的一个实施例中，确定质量度量还包括确定第一内容度量、第二内容度量和第三内容度量的乘积。在这一示例的一个实施例中，确定第一内容度量包括确定在多媒体摘要的文本部分的至少一个文本片段和多媒体内容项目的至少一个文本片段的向量表示之间的余弦相似性。可以将max函数应用于余弦相似性确定。在这一示例的一个实施例中，确定第二内容度量包括从摘要的图像部分生成第一图像向量和从多媒体内容项目的图像部分生成第二图像向量。在这一示例的一个实施例中，确定第三内容度量包括将来自摘要的文本部分的第一文本内容向量和来自摘要的图像部分的第二文本内容向量投影到公共单位空间上。在这一示例的一个实施例中，确定第三内容度量包括确定摘要的文本部分的第一内容和摘要的图像部分的第二内容的乘积。

在另一示例中，在包括指令的至少一个非瞬态计算机可读介质上存储计算机程序产品，这些指令在由一个或者多个处理器执行时使以上计算机实施的方法被执行。

在另一示例中，一种用于评估数字多媒体内容项目的摘要的系统包括各种模块、至少一个处理器和用于根据以上描述的示例方法确定质量度量的至少一个非瞬态存储介质。

Claims

1.一种用于评估数字多媒体内容项目的摘要的计算机实施的方法，所述方法包括：

接收包括文本部分和图像部分的所述多媒体内容项目；

接收所述多媒体内容项目的所述摘要，所述摘要包括文本部分和图像部分；

确定所述摘要相对于所述多媒体内容项目的质量度量，所述确定包括以下各项中的至少两项：

确定第一内容度量，所述第一内容度量量化所述摘要的所述文本部分中的与所述多媒体内容项目的所述文本部分公共的信息内容的量；

确定第二内容度量，所述第二内容度量量化所述摘要的所述图像部分中的与所述多媒体内容项目的所述图像部分公共的信息内容的量；以及

确定第三内容度量，所述第三内容度量量化在所述摘要的所述文本部分与所述摘要的所述图像部分之间的信息相干性；

其中所述质量度量至少部分基于所确定的内容度量中的所述至少两项。

2.根据权利要求1所述的方法，其中确定所述质量度量还包括确定所述第一内容度量、所述第二内容度量和所述第三内容度量的乘积。

3.根据权利要求1所述的方法，其中确定所述第一内容度量包括确定在所述多媒体摘要的所述文本部分的至少一个文本片段的向量表示和所述多媒体内容项目的至少一个文本片段的向量表示之间的余弦相似性。

4.根据权利要求3所述的方法，还包括将max函数应用于所述余弦相似性。

5.根据权利要求1所述的方法，其中确定所述第二内容度量包括从所述摘要的所述图像部分生成第一图像向量和从所述多媒体内容项目的所述图像部分生成第二图像向量。

6.根据权利要求1所述的方法，其中确定所述第三内容度量包括将来自所述摘要的所述文本部分的第一文本内容向量和来自所述摘要的所述图像部分的第二文本内容向量投影到公共单位空间上。

7.根据权利要求1所述的方法，其中确定所述第三内容度量包括确定所述摘要的所述文本部分的第一内容和所述摘要的所述图像部分的第二内容的乘积。

8.一种计算机程序产品，其中所述计算机程序产品被存储在包括指令的至少一个非瞬态计算机可读介质上，所述指令在由一个或者多个处理器执行时使过程被执行，所述过程包括：

接收包括文本部分和图像部分的多媒体内容项目；

接收所述多媒体内容项目的摘要，所述摘要包括文本部分和图像部分；

其中所述质量度量至少部分基于所确定的至少两个内容度量。

9.根据权利要求8所述的计算机程序产品，其中确定所述质量度量还包括确定所述第一内容度量、所述第二内容度量和所述第三内容度量的乘积。

10.根据权利要求8所述的计算机程序产品，其中确定所述第一内容度量包括确定在所述多媒体摘要的所述文本部分的至少一个文本片段的向量表示和所述多媒体内容项目的至少一个文本片段的向量表示之间的余弦相似性。

11.根据权利要求10所述的计算机程序产品，还包括将max函数应用于所述余弦相似性。

12.根据权利要求8所述的计算机程序产品，其中确定所述第二内容度量包括从所述摘要的所述图像部分生成第一图像向量和从所述多媒体内容项目的所述图像部分生成第二图像向量。

13.根据权利要求8所述的计算机程序产品，其中确定所述第三内容度量包括将来自所述摘要的所述文本部分的第一文本内容向量和来自所述摘要的所述图像部分的第二文本内容向量投影到公共单位空间上。

14.根据权利要求8所述的计算机程序产品，其中确定所述第三内容度量包括确定所述摘要的所述文本部分的第一内容和所述摘要的所述图像部分的第二内容的乘积。

15.一种用于评估数字多媒体内容项目的摘要的系统，所述系统包括：

多媒体内容项目存储库，被配置为接收包括文本部分和图像部分的多媒体内容项目；

摘要存储库，被配置为接收包括文本部分和图像部分的摘要；

质量度量确定模块，被配置为确定所述摘要相对于所述多媒体内容项目的质量度量，所述确定包括以下各项中的至少两项：

16.根据权利要求15所述的系统，其中所述质量度量确定模块还被配置为通过确定所述第一内容度量、所述第二内容度量和所述第三内容度量的乘积来确定所述质量度量。

17.根据权利要求15所述的系统，其中所述质量度量确定模块还被配置为通过确定在所述多媒体摘要的所述文本部分的至少一个文本片段的向量表示和所述多媒体内容项目的至少一个文本片段的向量表示之间的余弦相似性来确定所述第一内容度量。

18.根据权利要求17所述的系统，其中所述质量度量确定模块还被配置为通过将max函数应用于所述余弦相似性来确定所述第一内容度量。

19.根据权利要求15所述的系统，其中所述质量度量确定模块还被配置为通过从所述摘要的所述图像部分生成第一图像向量和从所述多媒体内容项目的所述图像部分生成第二图像向量来确定所述第二内容度量。

20.根据权利要求15所述的系统，其中所述质量度量确定模块还被配置为通过将来自所述摘要的所述文本部分的第一文本内容向量和来自所述摘要的所述图像部分的第二文本内容向量投影到公共单位空间上来确定所述第三内容度量。