CN1786966A

CN1786966A - 信息处理

Info

Publication number: CN1786966A
Application number: CNA2005101370469A
Authority: CN
Inventors: M·C·朗; J·R·托尔普; P·E·普雷尔
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe Ltd
Priority date: 2004-12-09
Filing date: 2005-12-09
Publication date: 2006-06-14
Also published as: US8311100B2; JP4937578B2; US20060143230A1; JP2006236311A; EP1669897A3; GB0427041D0; EP1669897A2; GB2421094A

Abstract

一种信息处理方法，其中，信息项通过所述信息项的互相似性映射到节点阵列中的相应节点，以便相似的信息项映射到所述节点阵列中相似位置上的节点；在涉及信息项的特征数据与所述节点阵列中的节点之间定义了映射关系；所述方法包括以下步骤：(a)对于一组信息项中的每个信息项：检测表示该信息项属性集中每个属性的特征数据；(b)对于与所述信息项组对应的全体特征数据：检测所述全体特征数据内更重要和较不重要的属性；丢弃与较不重要属性相关的特征数据，剩余的未被丢弃特征数据被关联，以便生成每个信息项的简化特征向量；(c)定义所述简化特征向量与所述节点阵列中节点之间的映射。

Description

信息处理

技术领域

本发明涉及信息处理。

背景技术

有许多已设立的系统用于通过根据关键字搜索来定位信息(例如，文档、图像、电子邮件、专利、诸如音频/视频内容等因特网内容或介质内容)。示例包括有因特网引擎，如由“Google”^TM或“Yahoo”^TM等提供的因特网引擎，在这些引擎中，按关键字执行的搜索产生了由搜索引擎以理解的相关性排列的结果列表。

然而，在经常称为大量内容集合，包括大量内容的系统中，可能难以明确表达有效的搜索查询以提供相对短的搜索“查询结果”列表。例如，在准备本申请时，使用关键字“massive documentcollection”的Google搜索获得了1470000个查询结果。由于在因特网上存储的内容量通常与时俱增，因此，如果搜索在以后重复进行，则此查询结果的数量预计将会增多。检索此类查询结果列表会极其耗时。

通常，未很好利用大量内容集的一些原因如下：

·用户不知道相关内容存在

·用户知道相关内容存在但不知道它们所处的位置

·用户知道内容存在但不知道它相关

·用户知道相关内容及如何找到它，但找到该内容要很长时间

论文“大量文档集合的自组织”(“Self Organisation of a MassiveDocument Collection”，Kohonen et al，IEEE Transactions on NeutralNetworks，Vol 11，No.3，May 2000)第574-585页公开了一种使用所谓“自组织映射图”(SOM)的技术。这些映射图使用了所谓的无人管理自学习神经网络算法，这些算法中，表示每个文档属性的“特征向量”被映射到SOM的节点上。在一种形式中，这可能是显示大的字词典中每个字发生频率的直方图。直方图中每个数据值(即，相应词典字发生的每个频率)成了n值向量中的一个值，其中，n是词典中候选字的总数(在此文所述示例中为43222)。加权可应用到n个向量值，可能用以强调某些字提高的相关性或改进的区别。

随后，n值向量被映射到更小的维向量(即，具有多个值m[在此文示例中为500]的向量，m比n小很多)。这可通过将向量乘以由任意数字阵列组成的(n×m)“投影矩阵”而实现。此技术已显示为生成更小维的向量，其中，任意两个降维向量具有与两个相应输入向量相同的向量点积。

随后，通过将每个向量乘以“模型”(另一向量)的过程，降维向量被映射到SOM上的节点(或称为神经元)。模型由学习过程生成，该过程自动按互相似性将模型排序到SOM上，而SOM通常被表示为二维的节点网格。这是一个重要的过程，Kohonen等人在具有800MB内存的6处理器计算机上花费了6星期的时间才形成不到7百万个文档的文档数据库。最后，形成SOM的节点网络会显示，并且用户能够缩放图的区域并选择了个节点，这使用户界面提供了到因特网页面的链接，该页面包含链接到该节点的文档。

发明内容

一个不变的要求是提供改进的信息处理技术。

本发明提供一种信息处理方法，其中，信息项通过所述信息项的互相似性映射到节点阵列中的相应节点，以便相似的信息项映射到所述节点阵列中相似位置上的节点；在涉及信息项的特征数据与所述节点阵列中的节点之间定义了映射关系；所述方法包括以下步骤：

(a)对于一组信息项中的每个信息项：

检测表示该信息项属性集中每个属性的特征数据；

(b)对于与所述信息项组对应的全体特征数据：

检测所述全体特征数据内更重要和较不重要的属性；

关联涉及更重要属性的特征数据以便生成每个信息项的简化特征向量；

(c)定义所述简化特征向量与所述节点阵列中节点之间的映射。

本发明以有利的方式解决了特征数据(例如，以所谓“特征向量”的形式)的生成和映射，这不但适用于Kohonen论文中典型的极少填充的向量，而且适用于例如通过分析音频/视频信息项的音频或视频属性而获得的典型向量等更加完全填充的特征数据。此处，要注意的是，本发明包含的认识是上述特征向量减少技术在向量填充不是很少的情况下不可用。

一种检测技术(例如，如主成分分析)用于检测哪些检测到的特征在统计上更重要。定义较不重要属性的特征数据在信息项整个组内被丢弃。这本身使得为实现有用映射而要执行的计算量减少。

但在优选实施例中，存储了为该组定义被丢弃特征数据的数据。这意味着新信息项要添加到组中时，或应用新搜索查询时，减少的特征向量可直接生成，从而进一步节省处理资源。

本发明的其它各个方面和持性在随附权利要求书中定义。

附图说明

下面将参照附图，通过仅示例的方式描述本发明的实施例，其中：

图1示意性地显示了信息存储和检索系统；

图2是示意流程图，显示自组织映射图(SOM)的生成；

图3以示意图方式显示SOM；

图4以示意图方式显示抖动过程；

图5到图7以示意图方式显示提供用户界面以访问SOM表示的信息的显示屏幕；

图8以示意图方式显示作为视频采集和/或处理设备示例的可携式摄像机；

图9以示意图方式显示作为便携式数据处理设备示例的个人数字助理；以及

图10到图14显示已丢弃较不重要变量的特征向量的经验结果。

具体实施方式

图1是基于通用计算机10的信息存储和检索系统的示意图，所述计算机具有：处理器单元20，其包括用于程序和数据的盘存储器30、连接到诸如以太网或因特网等网络50的网络接口卡40；诸如阴极射线管装置的显示装置60；键盘70；以及诸如鼠标的用户输入装置80。所述系统在程序控制下操作，所述程序存储在所述盘存储器30上，并且通过例如网络50、可移动盘(未显示)或所述盘存储器30上的预安装提供。

所述存储系统以两种普通的操作模式操作。在第一模式中，一组信息项(例如，文本信息项)汇集在所述盘存储器30上或经所述网络50连接的网络盘驱动器上，并已排序和加索引，可用于搜索操作。第二操作模式是针对所述已加索引并排序的数据的实际搜索。

实施例适用于许多类型的信息项。适当类型信息的非穷尽列表包括专利、视频资料、电子邮件、演示文稿、因特网内容、广播内容、业务报告、音频资料、图形和图库、照片及诸如此类，或这些的任一组合或混合。在本说明中，将引用音频/视频信息项或至少具有音频和/或视频内容或关联的信息项。例如，诸如音频和/或视频资料等一段广播内容可具有以文本术语定义该资料的相关联“元数据”。

信息项以常规方式载入到盘存储器30上。它们最好作为数据库结构的一部分存储，以便于对项目进行更轻松的检索和加索引，但这不是必需的。一旦信息和项目已这样存储，则用于排列它们以便搜索的过程便将如图2所示。

可以理解，索引信息数据无需存储在本地盘驱动器30中。数据可存储在经网络50连接到系统10的远程驱动器上。或者，信息可以分布方式存储，例如，存储在因特网上的不同站点。如果信息存储在不同的因特网或网络站点，则第二级信息存储器可用于在本地存储到所述远程信息的“链接”(例如，URL)，可能带有相关概述、与该链接相关联的摘要或元数据。因此，除非用户选择相关链接(例如，从下面要描述的结果列表260中选择)，否则远程保持的信息将不可访问，但为便于理解下面的技术说明，远程保持的信息或摘要/概述/元数据或链接/URL可视为“信息项”。

换而言之，“信息项”的正式定义是可从中获得并加以处理(参阅下述内容)的特征向量，以提供到SOM的映射的项目。结果列表260(参阅下述内容)中所示的数据可能是信息项本身(如果它在本地保持并且很短，足以方便显示)，或可能是表示和/或指向信息项，如元数据、URL、摘要、一组关键字、一个代表键戳图像等之一或多个的数据。这是操作“列表”中固有的，它通常但不始终涉及列出表示一组项目的数据。

在又一示例中，信息项可存储在连网的工作组如研究小组或合法公司处。混合方案可涉及在本地存储的一些信息项和/或在局域网中存储的一些信息项和/或在广域网中存储的一些信息项。在这种情况下，系统可能在由例如大型跨国研究和开发组织中的其它人查找相似工作中有用，相似的研究工作将倾向于映射到SOM中相似的输出节点(参阅下述内容)。或者，如果要规划新的电视节目，本技术可通过检测具有相似内容的以前节目而用于检查其独创性。

可以理解，图1的系统10只是可使用有索引信息项的可能系统的一个示例。虽然可设想最初(加索引)阶段会由功能相当强大的计算机执行(极可能由非便携式计算机执行)，访问信息的以后阶段可在便携式机器如“个人数字助理”(具有显示屏和用户输入装置的数据处理装置，通常适合手持)上执行，可在便携式计算机如膝上型计算机上执行或甚至可在诸如移动电话、视频编辑设备或摄像机等装置上执行。一般地，几乎具有显示屏的任一装置可用于信息访问操作阶段。

过程不限于特定数量的信息项。

下面将参照图2到图4描述生成信息项自组织映射图(SOM)表示的过程。图2是示意流程图，显示在SOM映射过程后的所谓“特征提取”过程。

特征提取是将原始数据转换成抽象表示的过程。这些抽象表示随后可用于诸如模式分类、群集和识别等过程。在此过程中，会生成所谓的“特征向量”，它是文档内使用的术语频率的抽象表示。

图2的基本步骤是针对包括音频和/或视频资料的一组信息项中的信息项100来执行的，如下所述：

在步骤110依次检测每个信息项的音频和/或视频属性。在步骤120和130，执行检测更重要和较不重要属性数据的过程，从而导致丢弃较不重要的属性数据。剩余(非丢弃)的属性数据在步骤140中级联起来以生成“简化的”特征向量。一旦已生成信息项集合的“简化”特征向量，则在步骤150中将其投射到二维SOM以形成语义图。最后，在步骤160中应用“抖动”功能(参阅下述内容)。

从下面将看到，步骤120到140可以另一种顺序执行，以便数据在级联后被丢弃(或实际上，丢弃过程可在级联之前或之后进行)。下面将讨论每个方案的优点。

现在将详细描述步骤110到140。

所述技术的目的是(从音频和视频)自动提取以尽可能少的变量或至少减少数量的变量表示媒体项种类的特征向量；此特征向量从现在开始称为“简化特征向量”。

简化特征向量由几个“基本特征向量”组合而成。基本特征向量封装了特定类型的特征，如颜色、形状等。

为创建简化特征向量，首先必需回答以下问题：

·哪些基本特征向量适用于创建简化特征向量？

·组合基本特征向量以形成简化特征向量的最佳方式是什么？

·基本特征向量和简化特征向量是否包含任何冗余数据，如果是这样的话，是否可删除它？

为进行实施例的经验测试，决定使用两个不同的数据集。第一个数据集由来自不同电视节目的697个5分钟编辑剪辑组成，并且从现在开始称为“TV资料”。第二个数据集由不同长度(在大约5秒钟到大约5分钟)的442个未编辑剪辑组成，并具有基于背景环境的分类，此数据集从现在开始称为“DV资料”。每个数据集分成6个不同的种类/类型。

TV种类

·动画

·电视知识竞赛

·新闻

·肥皂剧

·体育赛事

·访谈节目

DV种类

·汽车

·跳水

·时尚

·航海

·南极

·火车

由于核心技术基于自组织映射图(SOM)，因此，可以用“组织准确度(organization准确度)”来衡量特征向量的成功。组织准确度按以下方式计算：

SOM中的每个节点可吸引几个对象；这些对象可能来自同一种类或不同种类。目标是每个节点应只吸引一个种类类型。作为成功的一个度量，SOM中的每个节点按其主要种类归类(视为到该节点的已知期望映射)，并计算主要种类占与节点相关总项目量的百分比。此百分比对SOM中的所有节点平均，并从现在开始称为“组织准确度”。

因此，换而言之，不同简化特征向量长度的组织准确度比较(参阅下述内容)可视为表示用简化特征向量获得的映射与已知期望映射之间的差别程度。

基本特征向量的创建

在实验的此第一部分中，使用了5种类型的基本特征向量；这些向量为基于颜色、形状、音频、脸和边缘/平域(edge/plain)的特征向量。下面所述结果中的许多结果是在无边缘/平域向量的情况下获得的，但相似的原理适用，并且应理解，除使用下述置换(或不使用其中一个或多个置换)外，可使用边缘/平域向量。也应理解，

下述置换只是示例，并且可使用其它向量置换。

颜色

有几种彩色模型可供使用。要确定哪一模型最适合我们的用途，可尝试几种模型。

对于每个彩色模型实验，针对媒体项中的每个帧计算了有20个区间(20-bin)的直方图，并对整个媒体项求直方图中每列的平均值和标准差。平均值和标准差向量用作表示媒体项的基本特征向量。平均值和标准差的级联也用作基本特征向量，并因而在下面的列表中被称为“组合”。彩色模型和从中计算得出的特征向量如下所示：

·色调直方图

·平均

·标准差

·组合(级联的平均值和标准差向量)

·照度直方图

·平均

·标准差

·组合(级联的平均值和标准差向量)

·红色直方图

·平均

·标准差

·组合(级联的平均值和标准差向量)

·绿色直方图

·平均

·标准差

·组合(级联的平均值和标准差向量)

·蓝色直方图

·平均

·标准差

·组合(级联的平均值和标准差向量)

·RGB直方图(60个数据区间，三个不同直方图的组合)

·平均

·标准差

·组合(级联的平均值和标准差向量)

形状

测试了两种不同类型的形状描述符；它们之间的差异是步骤4快速傅立叶变换(FFT)后的步骤。大体上，形状描述符按以下方式提取：

1.每个帧调整为64*64图像，例如，通过双线性内插

2.根据调整后的帧求FFT。

3.每个方向上前10个频率(最低频率)组合为100个值长的特征向量。

4.这里产生两个不同类型的特征向量：

i.普通FFT，即，不对向量执行任何操作

ii.放大的FFT，当特征向量中的每个值通过如下公式处理时：

D(uv)＝10*log(1+|F(u，v)|)

5.对整个媒体项求向量中每列的平均值和标准差，这根据每个后处理方法得到三个特征向量。

i.平均

ii.标准差

iii.组合(级联的平均值和标准差特征向量)

脸

测验两种不同类型的基于脸的特征向量；一种称为“脸特征”，另一种称为“脸统计”。

脸统计基本特征向量的生成方式如下：

1.对于每个帧，计算以下3个变量：

·脸计数，即，帧内的脸数

·帧内所有脸的平均脸大小

·帧内所有脸的平均(水平)位置x

2.随后，对媒体项内所有帧计算所有3个变量的平均值和标准差

3.脸计数、大小和x位置的平均值和标准差形成6个变量的特征向量。

脸特征基本特征向量的生成方式如下：

1.使用脸分类器，将帧中的所有脸根据脸大小和脸x位置分成6个不同的类别。

脸分类器的工作方式如下：

a.如果脸的大小大于21个像素(例如，宽度)，则将其归类为子类A，并且如果它小于21个像素，则将其归类为子类B。

b.取决于脸x位置是否小于74(例如，从左边起的像素数)、介于74与114之间或高于114，将子类A和B二者分成三个不同的子类。

2.每个媒体项具有7个数据区间的直方图，其中，第一数据区间表示无脸的帧，其它数据区间表示6个不同的脸类。对于正被分析的每个帧，找到的每个脸使其分类所属的数据区间加1。

3.直方图形成表示媒体项的7个数据区间的基本特征向量。

音频

可用的音频具有48kHz的示例速率；音频在有16ms重叠的32ms窗口中抽样，从而产生总共N＝1536个样本。rms幅度定义为

r_{j} = Σ_{i = 1}^{N} {(S_{i})}^{2},

并且如果r_j＜0.2* r(其中j是音频帧，并且 r是整个媒体项上的平均rms幅度)，则将一帧定义为无声。

首先，对整个信号进行汉明窗处理，其中

W_{i} = 0.54 - 0.45 * \cos (\frac{2 πi}{N}),

之后对所有帧计算FFT系数F(ω)。然后，针对每个音频帧计算以下特征：

·总功率谱。使用了功率谱的对数：

P = \log ({&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω),

其中，|F(ω)|²表示频率ω上的功率，并且其中ω₀＝24kHz，为一半抽样频率。

·子带功率。使用具有以下间隔的4个子带功率：

和

子带的功率通过如下方式计算：

P_{j} = \log ({&Integral;}_{L_{j}}^{H_{j}} {| F (ω) |}^{2} dω),

其中，H_j表示所述间隔中的最高频率，而L_j表示最低频率。

·亮度。亮度定义为频率质心，并且按以下方式计算：

ω_{c} = \frac{{&Integral;}_{0}^{ω_{0}} ω * {| F (ω) |}^{2} dω}{{&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω}

·带宽。带宽B按以下方式计算得出：

B = \frac{{&Integral;}_{0}^{ω_{0}} {(ω - ω_{0})}^{2} * {| F (ω) |}^{2} dω}{{&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω}

·基频

基频按以下方式确定：

1.计算每个音频帧的功率谱

2.使用离散算子{0.25f，0.75f，1.0f，0.75f，0.25f}加重功率谱峰值。

3.音频窗口的谐波按以下方式计算得出：

a.以基频50Hz开始的梳状滤波器连续增加，直至它达到1000Hz的基频。对于每次步进，取梳状滤波的信号“C”与噪声“N”之间的差。

i.梳状滤波器值按以下方式计算得出：

C_i＝2.25*S_i-1+1.5*S_i+2.25*S_i+1，其中，“i”是基频，并且“S”是增强的信号。注意如果对于[i-1，i，i+1]，S＝1，则C＝6。

ii.噪声按以下方式计算得出：

N_{i} = S_{i - \frac{4 * i}{6}} + S_{i - \frac{3 * i}{6}} + S_{i - \frac{2 * i}{6}} {+ S}_{i + \frac{2 * i}{6}} + S_{i + \frac{3 * i}{6}} + S_{i + \frac{4 * i}{6}}

注意，对于

[i - \frac{4 * i}{6}, i - \frac{3 * i}{6}, i - \frac{3 * i}{6}, i + \frac{2 * i}{6}, i + \frac{3 * i}{6}, i + \frac{4 * i}{6}],

如果S＝1，则N＝6。

4.这将形成频率与谐波图；谐波的峰值给出基频。

·梅尔频率(Mel-Frequency)倒谱系数从FFT功率系数计算得出。三角带通滤波器组对系数进行滤波。滤波器组由具有恒定梅尔频率间隔涵盖频率范围0-4000Hz的19个三角滤波器组成。S_k{k＝1，2，...K}表示该滤波器组的输出。梅尔频率频谱按以下方式计算得出：

c_{n} = \sqrt{\frac{2}{K} * Σ_{k = 1}^{k} \log (s_{k}) * \cos (n * [k - 0.5] * \frac{Π}{K})},

其中，n＝1，2，3...12是倒谱的顺序。

上述特征形成一个20个值的特征向量，按列对整个媒体求平均值和标准差，并且将其级联到一个40个值的特征向量。通过取无声帧与整个媒体项的总帧数量的比率，将41个变量添加到该特征向量。

边缘/平域特征向量

现在将定义另一基本特征向量。这就是所谓的边缘/平域直方图(EPFH)特征向量。它由两个基本步骤生成：

1.图像中色值的量化。

2.EPFH的创建。

彩色空间的量化

过程从HSV(色调饱和度值)编码的图像开始，其中，0≤H≤360，0≤S≤1，0≤V≤1。如果所考虑的图像未按此格式提供，则将它转换为此格式是直接(且已知)的映射操作。

如果HSV彩色空间已被可视化，则它会采取圆锥的形式。量化步骤旨在将该圆锥划分成不同的块。每个块使用一个号码编索引；号码本身是无关的，号码的唯一功能是用作索引。

索引是由前面陈述的饱和度量化生成(或“返回”)的值。这在下面又称为色调和照度量化。

饱和度量化为4个部分：

0.00＜饱和度≤0.03 →无色返回照度A

0.03＜饱和度≤0.33 →低彩色返回7*照度C+色调-1

0.33＜饱和度≤0.66 →中彩色返回(3+照度C)*7+色调-1

0.66＜饱和度≤1 →高彩色返回(6+照度C)*7+色调-1

在后三个类别的情况下，色调和照度如下量化：

色调量化为7个非均匀部分：

330＜色调≤22 返回1 //红色

22＜色调≤45 返回2 //橙色

45＜色调≤70 返回3 //黄色

70＜色调≤155 返回4 //绿色

155＜色调≤186 返回5 //青色

186＜色调≤278 返回6 //蓝色

278＜色调≤330 返回7 //紫色

照度C(值)量化为3个部分：

0.00＜饱和度≤0.33 →低照度返回0

0.33＜饱和度≤0.66 →中照度返回1

0.66＜饱和度≤1 →高照度返回2

在归类为“无色”的情况下，将照度值量化：

照度A(值)在无色区域量化为4个部分：

0.00＜饱和度≤0.25 →白色返回63

0.25＜饱和度≤0.50 →浅灰色返回64

0.50＜饱和度≤0.75 →暗灰色返回65

0.75＜饱和度≤1 →黑色返回66

EPFH创建

下面，对图像中的像素进行迭代处理，每个像素(中心像素)与其周围的像素(即一组8个像素)进行比较。如果任一周围像素具有与当前中心像素不同的彩色指数值，则中心像素被视为“边缘”像素；否则，它被视为平域像素。

为避免混淆，术语“中心”指像素相对于与其比较颜色属性的像素的空间(图像)位置。术语“边缘”和“平域”指当前中心像素在彩色空间中相对于空间上周围像素的位置。

如果像素被归类为边缘像素，则将它添加到“边缘”直方图；否则，将它添加到“平域”直方图。

每个直方图中的数据区间是以上所述的彩色指数。特征向量的后处理

边缘直方图和平域直方图各自加以归一化，以使其长度等于1。边缘像素与图像中总像素的比率也可计算出(“边缘比率”)。

最终的特征向量包括归一化的边缘直方图、归一化的平域直方图和边缘比率的级联。

基准特征向量

此处的主要目的是研究各个基本特征向量与种类的相关程度。

对于每个特征向量测试，计算如下表所示的混淆矩阵，该表中，列是预期分类，行是实际分类。

对于每个特征向量计算，计算组织准确度，以作为特征向量精确度的度量。而且，在组织准确度内计算其标准差，以作为特征向量一般性程度的度量。高的标准差值与高的组织准确度一起可表示特征向量非常适于将一些类型的数据分类，而不适于将其它类型的数据分类。

实验按以下方式进行：

特征向量以均值标准差归一化来按列归一化。之后，对它们进行评估。

	汽车	潜水	时尚	航海	南极	火车
	汽车	潜水	时尚	航海	南极	火车	汽车	96.3	0	0	0	1.85	1.85
潜水	0	100	0	0	0	0	汽车	96.3	0	0	0	1.85	1.85

时尚	0	98.59	1.41	0	0
时尚	0	98.59	1.41	0	0	航海	0	5.56	22.22	72.22	0	0
火车	0.6	0	0.6	1.79	97.02	航海	0	5.56	22.22	72.22	0	0

对角值
对角值		汽车	96.3
潜水	100	汽车	96.3
潜水	100	时尚	98.6
航海	72.2	时尚	98.6
航海	72.2	南极	61.5
火车	97	南极	61.5
火车	97	总计	526
平均值	87.6	总计	526
平均值	87.6	标准差	15

表1：混淆矩阵在上表中显示。下表显示具有混淆矩阵对角列的一个列表，它还包括平均组织准确度和组织准确度的平均偏差。

为获得稳健的结果，每个特征向量被测试了100次。结果如表2中所示的形式表示：

第1列：特征向量的名称

第2列：Avg OA是100个混淆矩阵的组织准确度OA的平均值(此参数显示分类有多好)。它表示为百分比值。

第3列：StdDev of OA是100个混淆矩阵的组织准确度的标准差(此参数显示分类的稳定程度)。

第4列：StdDev准确度是100个混淆矩阵的组织准确度的平均值(此参数显示分类的一般性程度)。

第5列：StdDev of StdDev准确度是从100个混淆矩阵产生的标准差的标准差(此参数显示分类的稳定程度)。

第6列：Avg OA的平均值从测试的所有特征向量中计算得出，并从Avg OA中减去，其旨在给出每个特征向量成功的良好概述。

特征/向量	AvgOA	Std Devof OA	Std Dev准确度	Std Dev of StdDev准确度	平均值差
特征/向量	AvgOA	Std Devof OA	Std Dev准确度	Std Dev of StdDev准确度	平均值差	AudioTEST	66.40	1.48	14.2	1.78	4.36
blue.avgTEST	58.38	1.18	20.79	2.03	-3.66	AudioTEST	66.40	1.48	14.2	1.78	4.36
blue.avgTEST	58.38	1.18	20.79	2.03	-3.66	Blue.combTEST	61.34	1.61	16.83	2.53	-0.70
平均值	62.04					Blue.combTEST	61.34	1.61	16.83	2.53	-0.70

表2：示例结果

结果

TV和DV资料的结果通过两个表格均得以显示。第一个表显示在测试中使用的数据，第二个表显示上一部分中所述的结果。

TV

TV测试数据由表3中所示种类的697个5分钟剪辑组成。

整体结果显示在表4中。

种类	媒体项数量
种类	媒体项数量	动画	84
电视知识竞赛	105	动画	84
电视知识竞赛	105	新闻	244
肥皂剧	109	新闻	244
肥皂剧	109	体育赛事	93
访谈节目	62	体育赛事	93
访谈节目	62	总计	697

表3TV种类分布

特征向量	Avg OA	Std Dev ofOA	StdDev 准确度	Std Dev of StdDev准确度
特征向量	Avg OA	Std Dev ofOA	StdDev 准确度	Std Dev of StdDev准确度	audio	70.76	1.27	13.02	1.75
blue.avg	58.38	1.18	20.79	2.03	audio	70.76	1.27	13.02	1.75
blue.avg	58.38	1.18	20.79	2.03	blue.comb	61.34	1.61	16.83	2.53
blue.stdDev	54.31	1.65	17.47	2.67	blue.comb	61.34	1.61	16.83	2.53

brightnes.avg	62.27	1.07	19.23	1.82
brightnes.avg	62.27	1.07	19.23	1.82	brightnes.comb	67.80	1.40	14.62	1.85
brightnes.stdDev	61.30	1.23	15.82	2.20	brightnes.comb	67.80	1.40	14.62	1.85
brightnes.stdDev	61.30	1.23	15.82	2.20	facefeatures	62.42	1.46	22.87	2.02
facestatfeatures	63.50	1.24	16.92	2.42	facefeatures	62.42	1.46	22.87	2.02
facestatfeatures	63.50	1.24	16.92	2.42	fft.avg	62.84	1.36	16.41	2.27
fft.comb	63.00	1.36	17.01	1.98	fft.avg	62.84	1.36	16.41	2.27
fft.comb	63.00	1.36	17.01	1.98	fft.mag.avg	63.03	1.24	16.65	2.19
fft.mag.comb	62.97	1.20	16.91	2.11	fft.mag.avg	63.03	1.24	16.65	2.19
fft.mag.comb	62.97	1.20	16.91	2.11	fft.mag.stdDev	62.86	1.50	16.75	2.30
fft.stdDev	62.59	1.39	16.78	2.62	fft.mag.stdDev	62.86	1.50	16.75	2.30
fft.stdDev	62.59	1.39	16.78	2.62	green.avg	58.28	1.04	20.93	2.08
green.comb	61.44	1.55	17.13	2.80	green.avg	58.28	1.04	20.93	2.08
green.comb	61.44	1.55	17.13	2.80	green.std	54.29	1.49	17.04	2.60
hue.avg	57.99	1.40	22.29	3.03	green.std	54.29	1.49	17.04	2.60
hue.avg	57.99	1.40	22.29	3.03	hue.comb	61.40	1.43	17.43	2.48
hue.std	58.78	4.49	18.12	2.46	hue.comb	61.40	1.43	17.43	2.48
hue.std	58.78	4.49	18.12	2.46	luminance.avg	62.44	4.80	19.89	2.33
luminance.comb	62.57	1.51	16.56	2.25	luminance.avg	62.44	4.80	19.89	2.33
luminance.comb	62.57	1.51	16.56	2.25	luminance.stdDev	55.46	1.46	15.69	2.04
red.avg	59.42	1.56	17.10	2.16	luminance.stdDev	55.46	1.46	15.69	2.04
red.avg	59.42	1.56	17.10	2.16	red.comb	65.26	1.23	15.46	2.27
red.stdDev	58.15	1.29	17.90	2.36	red.comb	65.26	1.23	15.46	2.27
red.stdDev	58.15	1.29	17.90	2.36	rgb.avg	63.45	1.48	16.21	2.35
rgb.comb	66.63	1.41	18.60	2.37	rgb.avg	63.45	1.48	16.21	2.35
rgb.comb	66.63	1.41	18.60	2.37	rgb.stdDev	57.56	1.42	15.93	2.02
平均值	61.42				rgb.stdDev	57.56	1.42	15.93	2.02

表4从TV特征向量基准产生的结果

特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差
特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差	audio	87.14	2.38	14.27	4.15	21.66
blue.avg	64.43	1.92	21.52	3.38	-1.05	audio	87.14	2.38	14.27	4.15	21.66

blue.comb	63.74	2.05	19.98	3.73	-1.74
blue.comb	63.74	2.05	19.98	3.73	-1.74	blue.stdDev	56.17	2.60	16.48	4.29	-9.31
brightnes.avg	66.00	1.96	16.21	3.61	0.53	blue.stdDev	56.17	2.60	16.48	4.29	-9.31
brightnes.avg	66.00	1.96	16.21	3.61	0.53	brightnes.avg	64.85	2.07	19.45	4.25	-0.63
brightnes.comb	56.34	2.15	17.88	4.32	-9.14	brightnes.avg	64.85	2.07	19.45	4.25	-0.63
brightnes.comb	56.34	2.15	17.88	4.32	-9.14	brightnes.stdDev	51.25	2.28	22.47	3.27	-14.22
facestat fft.avg	66.80	2.13	19.67	3.84	1.33	brightnes.stdDev	51.25	2.28	22.47	3.27	-14.22
facestat fft.avg	66.80	2.13	19.67	3.84	1.33	fft.avg	66.90	1.93	19.02	3.50	1.43
fft.comb	67.30	1.72	19.09	4.50	1.83	fft.avg	66.90	1.93	19.02	3.50	1.43
fft.comb	67.30	1.72	19.09	4.50	1.83	fft.mag.avg	67.34	1.88	18.83	3.64	1.87
fft.mag.stdDev	67.65	1.92	18.14	4.25	2.18	fft.mag.avg	67.34	1.88	18.83	3.64	1.87
fft.mag.stdDev	67.65	1.92	18.14	4.25	2.18	fft.stdDev	66.98	1.95	19.44	3.64	1.50
green.avg	64.51	1.87	21.82	3.40	-0.96	fft.stdDev	66.98	1.95	19.44	3.64	1.50
green.avg	64.51	1.87	21.82	3.40	-0.96	green.comb	64.36	2.14	19.43	3.96	-1.11
green.stdDev	55.98	2.16	17.28	3.63	-9.50	green.comb	64.36	2.14	19.43	3.96	-1.11
green.stdDev	55.98	2.16	17.28	3.63	-9.50	hue.avg	73.41	2.12	20.87	3.10	7.93
hue.comb	72.25	1.90	24.80	3.90	6.78	hue.avg	73.41	2.12	20.87	3.10	7.93
hue.comb	72.25	1.90	24.80	3.90	6.78	hue.steDev	63.51	2.51	22.55	3.82	-1.96
luminance.avg	69.36	2.05	14.34	4.08	3.88	hue.steDev	63.51	2.51	22.55	3.82	-1.96
luminance.avg	69.36	2.05	14.34	4.08	3.88	luminance.comb	67.00	2.35	19.12	4.83	1.52
luminance.std	57.73	1.97	15.50	3.85	-7.75	luminance.comb	67.00	2.35	19.12	4.83	1.52
luminance.std	57.73	1.97	15.50	3.85	-7.75	red.avg	71.40	2.04	14.66	3.46	5.93
red.comb	68.38	2.12	15.26	4.42	2.90	red.avg	71.40	2.04	14.66	3.46	5.93
red.comb	68.38	2.12	15.26	4.42	2.90	red.stdDev	58.46	2.11	12.81	4.42	-7.02
rgb.avg	71.50	2.49	23.54	3.90	6.03	red.stdDev	58.46	2.11	12.81	4.42	-7.02
rgb.avg	71.50	2.49	23.54	3.90	6.03	rgb.comb	68.17	2.82	19.04	4.66	2.70
rgb.stdDev	59.84	2.19	17.16	4.23	-5.63	rgb.comb	68.17	2.82	19.04	4.66	2.70
rgb.stdDev	59.84	2.19	17.16	4.23	-5.63	平均值	65.47

表6从DV特征向量基准产生的结果

讨论

此技术的目的是选择在简化特征向量中使用的基本特征向量。在此实验中，有4种主要类型的基本特征向量类：

·基于颜色

·基于FFT

·基于音频

·基于脸。

简化特征向量应多样化且稳定，以便它对此实验中未测试的数据集有效；同时，其性能理论上应优于此数据集的平均特征向量。因此，简化特征向量应包含所有主要基本特征向量类的数据。

·基于颜色的特征向量

如果将根据TV和DV资料的结果组合，可看到RGB是用于对本目的的非常好的彩色模型。然而，采用的是RGB组合直方图，即使它只是稍优于RGB平均值本身并且长度为两倍。继续使用组合直方图的原因是它提供比仅仅平均值更广的信息，并且下述的Hotelling变换将大大缩短特征向量。

·基于FFT的特征向量

放大的FFT的平均值和标准差对TV和DV资料表现均非常好。然而，组合的表现并不优于平均值和标准差本身。但出于与“基于颜色的特征向量”中相同的原因，使用了组合向量。

·基于音频的特征向量

音频特征向量对所有资料表现均非常好，是一个好的选择。

·基于脸的特征向量

我们对TV资料尝试两种不同类型的脸特征向量：“脸特征”和“脸统计”。“脸统计”稍优于“脸特征”，并在计算上较不复杂。对DV资料未测试“脸特征”，但根据TV资料的结果使得有信心作出继续使用基本特征向量“脸统计”的决定。

特征向量内冗余度的研究

特征向量的紧凑性是特征向量非常重要的方面。此实验的主要目的是研究我们的特征向量是否可以更少的变量来表示。

获得向量最重要部分的一种方式是使用所谓的Hotelling变换。Hotelling变换基于特征向量的统计属性。对一个含20个变量的向量进行变换将得到一个含20个变量的向量，其中最前/第一变量是具最大方差的变量(即，它们可视为更重要的变量)。这意味着变换将特征向量中的最重要特征移到向量的开始处。

实验按以下方式进行：

1.特征向量集以均值标准差归一化按列进行归一化。

2.特征向量集内的所有特征向量利用Hotelling变换进行变换。

3.评估循环开始并运行，直到仅一个变量留在特征向量中为止。

a.向量中最后(最不重要)的剩余变量被截去或丢弃。

b.特征向量被评估10次，并且平均组织准确度在图中呈现。

结果显示在图10到图14中，其中，水平轴表示向量中变量的数量，而垂直轴表示平均组织准确度(在图13中还显示了组织准确度的一阶导数和二阶导数，分别重新围绕垂直轴10单位和40单位的位置定基)。只提供了代表性结果。

结果显示，有几个变量由于对组织准确度贡献不大而可被丢弃。在目前的实施例中，所用配置是通过级联以下内容形成简化特征向量：

·具有41个变量的音频向量的前7个变量

·具有120个变量的RGB组合向量的前7个变量

·具有200个变量的放大的FFT组合向量的前10个变量

·具有6个变量的脸统计向量的所有6个变量。

为以解析方式获得这些截去点，有用的是能够获得每个图形的“拐点”，并丢弃该拐点后的所有特征数据。这可通过获得在梯度大致水平且变化极慢的最右区域(例如，图10中从25到40个变量的区域)上图形的平均梯度和梯度远非水平的图形最左区域(例如，图10中从1到6个变量的区域)的梯度来实现。这两个梯度相交处可能指示拐点。预定的少量的额外变量(例如，额外的两个变量)可可选地作为安全裕度添加。

或者，从图形的左侧开始，可检测一个点，在该点移到变量数的下一更高值造成低于阈值的组织准确度差异。

归一化策略基准

SOM(在下面)使用欧几里德距离进行特征向量的训练和组织。为确保级联特征向量中没有哪一部分会比任何其它部分更有影响，将每个“基本特征向量”的值归一化以便值在同一值范围内是适当的。归一化有三个主要策略。

1.每个基本特征向量应该对结果有均等的贡献，因此有用的是对每个特征向量按其自己的长度归一化(所谓的向量归一化处理)。(注意，如果在级联后进行向量归一化，则它针对简化特征向量进行)

2.基本特征向量中的每个变量有均等的贡献，因此，通过均值标准差归一化或线性变换，按列将特征向量归一化。

3.组合上述两个结果。(例如，列归一化后进行其自己长度的归一化)

如下表所示，实际上有8种有意义的归一化组合。注意ALT 1是原始特征向量。术语“向量”、“均值”和“线性”分别表示向量归一化、均值标准差归一化及线性归一化。

步骤1

步骤2

步骤3

步骤4

名称

Alt 1		级联		原始
Alt 1		级联		原始	Alt 2	向量	级联		向量
Alt 3	均值	级联		均值	Alt 2	向量	级联		向量
Alt 3	均值	级联		均值	Alt 4	线性	级联		线性
Alt 5	向量	级联	向量	向量.向量	Alt 4	线性	级联		线性
Alt 5	向量	级联	向量	向量.向量	Alt 6	向量	级联	均值	均值.向量
Alt 7	向量	级联	线性	线性.向量	Alt 6	向量	级联	均值	均值.向量
Alt 7	向量	级联	线性	线性.向量	Alt 8	均值	级联	向量	向量.均值
Alt 9	线性	级联	向量	向量.线性	Alt 8	均值	级联	向量	向量.均值

表7归一化组合

以下描述处理下列情况：级联全部基本特征向量，然后进行Hotelling变换并截短简化特征向量的情况，相对于进行Hotelling变换并截短/删截基本特征向量然后将其级联的情况。

要找出最适合的归一化策略，首先将以上定义的特征向量归一化并级联。然后，将每个特征向量分类100次，并在对应于TV资料的表格8和对应于DV资料的表格9中显示结果的平均值。

TV

特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差
特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差	原始	75.86	1.44	12.07	2.03
线性	84.06	1.38	8.93	1.97	-1.49	原始	75.86	1.44	12.07	2.03
线性	84.06	1.38	8.93	1.97	-1.49	线性.向量	84.25	1.44	8.48	2.14	-1.3
均值	90.07	1.34	6.1	1.56	4.52	线性.向量	84.25	1.44	8.48	2.14	-1.3
均值	90.07	1.34	6.1	1.56	4.52	均值.向量	87.58	1.46	6.56	1.82	2.03
向量.线性	83.51	1.36	9.28	1.91	-2.04	均值.向量	87.58	1.46	6.56	1.82	2.03
向量.线性	83.51	1.36	9.28	1.91	-2.04	向量.均值	89.64	1.23	6.7	1.47	4.09
向量	82.72	1.42	8.94	1.92	-2.83	向量.均值	89.64	1.23	6.7	1.47	4.09
向量	82.72	1.42	8.94	1.92	-2.83	向量.向量t	82.58	1.46	9.27	2.18	-2.97

表8TV归一化结果

DV

特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差
特征向量	Avg OA	Std Devof OA	StdDev准确度	Std Dev of StdDev准确度	平均值差	原始	44.72	2.1	18.34	2.86
线性	91.47	1.77	10.7	3.17	6.83	原始	44.72	2.1	18.34	2.86
线性	91.47	1.77	10.7	3.17	6.83	线性.向量	79.14	2.36	23.03	5.41	-5.5
均值	89.31	2.57	14.25	4.68	4.66	线性.向量	79.14	2.36	23.03	5.41	-5.5
均值	89.31	2.57	14.25	4.68	4.66	均值.向量	85.78	2.33	16.81	4.99	1.13
向量.线性	91.18	1.86	10.84	3.5	6.54	均值.向量	85.78	2.33	16.81	4.99	1.13
向量.线性	91.18	1.86	10.84	3.5	6.54	向量.均值	89.02	2.95	15.5	5.91	4.38
向量	75.69	2.67	21.71	4.93	-8.95	向量.均值	89.02	2.95	15.5	5.91	4.38
向量	75.69	2.67	21.71	4.93	-8.95	向量.向量	75.55	2.47	22.16	4.36	-9.09

表9DV归一化结果

讨论

明显可以看出，级联之前及之后的向量归一化均仅使结果更坏。线性归一化改善了DV资料的结果，但使TV资料的结果更坏，因而可视为在不同数据集之间不稳定。另一方面，均值标准差归一化对TV和DV资料表现均很好，因而是优选的归一化方法。

简化特征向量内后级联冗余度的研究

在先前部分中，采用了不同的方法和过程来生成简化特征向量。到目前为止获胜的概念是使用基本特征向量，将其级联，并通过均值标准差归一化将它们归一化。

研究基本特征向量级联到简化特征向量是否会导致生成冗余数据。换言之，是否任一基本特征向量包含相同的数据，并且该种情况下我们是否可以删除它？

测试进行的方式与上述研究特征向量内冗余度的方式相同。

经验结果表明，如果简化特征向量长度截断为一半，则组织准确度将降低大约5-7％，并且这种情况下似乎性能损失太大。

下面是现有实施例中使用的优选简化特征向量的定义。

简化特征向量子部分的创建

颜色

基本颜色特征向量由整个媒体项上具有60个数据区间的RGB直方图(每种颜色对应20个数据区间)的平均值和标准差组成。这给出由120个变量组成的特征向量。

颜色直方图利用Hotelling变换进行变换和删截，以便保持前7个变量。

形状

利用双线性内插将每个电影帧大小从720*576调整为64*64(这将导致混叠问题)。对64*64图像进行FFT变换，并保存10个最低频率加1的幂的对数，如下所示。

D(u，v)＝10*log(1+|F(u，v)|)

这形成了100值长的向量。对于每个帧均产生这些向量，整个媒体项上的平均值和标准差用作特征向量。这意味着我们具有200值长的特征向量。

形状特征向量通过Hotelling变换进行变换和删截，以便保持前10个变量。

音频

音频特征如以上所述创建，并形成41值的特征向量。

脸

脸特征如以上所述创建，并形成6值的特征向量。

级联与归一化

子特征向量通过均值标准差归一化进行归一化并级联。这给出30值长的特征向量，并具有以下经验组织准确度：

特征向量	AvgOA	Std Dev ofOA	StdDev准确度	Std Dev of Std Dev准确度
特征向量	AvgOA	Std Dev ofOA	StdDev准确度	Std Dev of Std Dev准确度	bbc.mean.super.txt	88.43	1.43	7.31	1.67
dv.mean.super.txt	88.44	2.3	8.32	2.51	bbc.mean.super.txt	88.43	1.43	7.31	1.67

表10TV和DV资料二者的30值超向量的平均性能

	动画	电视竞赛节目	新闻	肥皂剧	体育赛事	访谈节目
	动画	电视竞赛节目	新闻	肥皂剧	体育赛事	访谈节目	动画	95.24	2.38	1.19	1.19	0.00	0.00
电视竞赛节目	2.86	88.57	0.00	0.95	5.71	1.90	动画	95.24	2.38	1.19	1.19	0.00	0.00
电视竞赛节目	2.86	88.57	0.00	0.95	5.71	1.90	新闻	0.41	2.46	92.21	0.41	4.10	0.41
肥皂剧	0.00	1.83	0.92	93.58	2.75	0.92	新闻	0.41	2.46	92.21	0.41	4.10	0.41
肥皂剧	0.00	1.83	0.92	93.58	2.75	0.92	体育赛事	1.08	7.53	2.15	0.00	89.25	0.00
访谈节目	0.00	6.45	4.84	3.23	3.23	82.26	体育赛事	1.08	7.53	2.15	0.00	89.25	0.00

表11对使用TV资料的30值超向量的混淆矩阵式评估

	汽车	潜水	时尚	航海	南极	火车
	汽车	潜水	时尚	航海	南极	火车	汽车	100	0	0	0	0	0
潜水	0	100	0	0	0	0	汽车	100	0	0	0	0	0
潜水	0	100	0	0	0	0	时尚	0	0	90.14	9.86	0	0
航海	5	5	2.5	80	0	7.5	时尚	0	0	90.14	9.86	0	0
航海	5	5	2.5	80	0	7.5	南极	0	0	15.38	5.77	76.92	1.92
火车	0	0.6	2.980	1.79	0.6	94.05	南极	0	0	15.38	5.77	76.92	1.92

表12对使用DV资料的30值简化特征向量的混淆矩阵式评估

有关SOM的一般注释

本申请和引用文档中其它地方也引用了SOM的论述。

自组织映射图(SOM)是将n维向量映射到二维图的一种神经网络类型。

映射图由N*M个节点组成；每个节点表示m^l _NM前的码本。系统初始化时，码本向量设为随机值。

为就向量集X＝{x}对该映射图进行训练，以使用距离度量如欧几里德距离将x与所有码本向量m^l _NM进行比较作为开始。获胜节点(winning node)和获胜节点周围的邻居随后通过以下公式加以修改。

m_{mm}^{l + 1} = m_{mm}^{l} + a (t) (m_{mm}^{l} - x)

h(n，m)可表示其它函数，如气泡函数(bubble function)等。

有关Hotelling变换的一般注释

Hotelling变换也称为主成分、本征向量和离散Karhunen-loéve变换。Hotelling是减少特征向量内冗余度的一种很有用的方法。

假定有多个向量。

X = [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \end{matrix}]

具有平均向量

m_x＝E(x)

以及一个协方差矩阵

C_x＝E((x-m_x)(x-m_x)^T)

如果取本征值和匹配本征向量，并按匹配本征值的递减值的顺序将本征向量排序，可得到矩阵A。A＝eig(Cx)

Hotelling变换随后按如下公式描述：

y＝A·(x-m_x)

其中，x变换为y。y向量中的第一维具有最高方差；第二维具有次高方差，如此等等。这是由于根据本征值大小组织本征向量的原因。

有关向量归一化的一般注释

向量归一化是标准的代数过程，其中，向量除以自己的范数。这产生长度为l的向量。

v_{normalized} = \frac{v}{| | v | |}

‖v_normalized‖＝l

有关列线性变换归一化的一般注释

对于每个列，可求最小值和最大值，并将其变换为新的最小值和最大值。

x_new＝x_old·a+M

a = \frac{x_{new}^{\max} - x_{new}^{\min}}{x_{old}^{\max} - x_{old}^{\min}}

m = x_{new}^{\max} - x_{old}^{\max} \cdot a

有关均值和标准差归一化的一般注释

均值和标准差归一化是一种类型的列归一化。按列求均值和标准差。每个值随后通过均值转换并除以该列的标准差。

x_{new} = \frac{(x_{old} - mean)}{stdDev}

替代方法研究

实验研究了，与将向量集级联，对其进行Hotelling变换，然后对最终的特征向量进行缩短相比较，对这些向量进行Hotelling变换，按向量缩短，然后再将其级联是否存在任何优点。

方法

在此实验中，两种类型的特征向量彼此进行比较：级联“前”与级联“后”截短特征向量。获得这些的方法如下：

级联前截短特征向量

每个基本特征向量进行Hotelling变换，由其冗余“拐点”切断(如上所述)，然后以均值标准差归一化进行归一化。所有基本特征向量随后级联起来以形成一个大的特征向量。

级联后截短特征向量

每个基本特征向量以均值标准差归一化进行归一化，级联起来以形成一个大的特征向量。大的特征向量随后通过Hotelling变换进行变换并截短为与级联前截短特征向量相同的长度。

随后针对每个特征向量计算组织准确度10次，下表中显示了平均值。

结果

特征向量	特征向量	特征向量	特征向量	前截短	后截短	平均值差
特征向量	特征向量	特征向量	特征向量	前截短	后截短	平均值差	音频	facestatfeatures	fftMag	rgb.comb	90.7	85.7	5
音频	facestatfeatures	fftMag		86.3	86.2	0.1	音频	facestatfeatures	fftMag	rgb.comb	90.7	85.7	5
音频	facestatfeatures	fftMag		86.3	86.2	0.1	音频	facestatfeatures		rgb.comb	89.2	83.1	6.1
音频		fftMag	rgb.comb	89.3	86.7	2.6	音频	facestatfeatures		rgb.comb	89.2	83.1	6.1
音频		fftMag	rgb.comb	89.3	86.7	2.6		facestatfeatures	fftMag	rgb.comb	84.6	79	5.6
音频	facestatfeatures			82.3	79.6	2.7		facestatfeatures	fftMag	rgb.comb	84.6	79	5.6
音频	facestatfeatures			82.3	79.6	2.7	音频		fftMag		84.1	83.9	0.2
音频			rgb.comb	87.3	81.5	5.8	音频		fftMag		84.1	83.9	0.2
音频			rgb.comb	87.3	81.5	5.8		facestatfeatures	fftMag		75.7	75.1	0.6
	facestatfeatures		rgb.comb	80.5	72.1	8.4		facestatfeatures	fftMag		75.7	75.1	0.6
	facestatfeatures		rgb.comb	80.5	72.1	8.4			fftMag	rgb.comb	74.3	73.2	1.1
					平均值D	3.472727273			fftMag	rgb.comb	74.3	73.2	1.1

可以看到，先对基本特征向量进行Hotelling变换，缩短它们然后将其级联，优于先将基本特征向量级联，然后对简化特征向量进行Hotelling变换并截短简化特征向量。

如上所述，一旦已为信息项集合生成“简化”特征向量，从而定义了集合的信息空间，则在步骤150中将它们投射到二维SOM以形成语义图。以下部分解释通过使用Kohonen自组织映射图将特征向量集群而映射到二维的过程。还可参照图3。

Kohonen自组织映射图用于群集和组织已为每个文档生成的特征向量。

自组织映射图由显示为二维平面185的二维阵列或节点网格中的输入节点170和输出节点180组成。输入节点的数量与用于训练映射图的特征向量中的值一样多。映射图上的每个输出节点通过加权连接190连接到输入节点(每条连接一个加权)。

最初，这些加权中的每个加权设为随机值，随后，通过迭代过程，对这些加权进行“训练”。通过将每个特征向量呈给映射图中的输入节点来对映射图进行训练。通过计算输入向量与每个输出节点的加权之间的欧几里德距离，可计算得出“最近”的输出节点。

最近的节点被指定为“赢家”，并且通过稍微改变加权以便它们移到“更接近”输入向量，对该节点的加权进行训练。

此过程不只训练单个节点的加权，而且训练映射图上节点区域的加权，使得映射图一旦经过训练便可保持二维节点映射图中大量的输入空间拓朴。

映射图一旦经过训练，每个文档便可呈给映射图以查看哪个输出节点最接近该文档的输入特征向量。加权将不可能与特征向量完全相同，并且特征向量与映射图上其最近节点之间的欧几里德距离称为其“量化误差”。

通过将每个文档的特征向量呈给映射图以查看它所处位置并给出每个文档的x、y映射位置。这些x、y位置在连同文档ID一起放入查找表中时可用于使文档之间的关系可视化。

最后，在步骤160中添加抖动成分，这将在下面参照图4进行描述。

上述过程的可能问题是两个相同或大致相同的信息项可能映射到SOM节点阵列中的同一节点。这对数据处理不会造成困难，但对在显示屏幕上可视化数据(如下描述)没有帮助。具体而言，当数据在显示屏幕上可视化时，已认识到，让多个很相似的项目可与某个特定节点上的一个项目区分很有用。因此，将“抖动”成分添加到每个信息项映射到的节点位置。抖动成分是随机添加的±1/2的节点间距。因此，参照图4，映射过程为其选择输出节点200的信息项添加了抖动成分，这样，它实际上可映射到图4上虚线界定的区域210内的任一节点位置。

因此，信息项可视为映射到在不同于SOM过程的“输出节点”的节点位置处图4平面上的位置。

一个替代方案可能使用比上述SOM映射过程中高得多的“输出节点”密度。这不会在绝对相同的信息项之间提供任何区分，但可能几乎但并不完全允许相同的信息项映射到不同但空间上接近的输出节点。

图5示意性地显示了显示屏幕60上的显示，其中，以图形方式显示用于搜索操作的存储在SOM中的数据。显示包括搜索查询250、结果列表260及SOM显示区270。

在操作中，用户将关键字搜索查询键入查询区250。用户随后启动搜索，例如通过按键盘70上的回车键或通过使用鼠标80选择屏幕“按钮”以开始搜索。通过使用标准关键字搜索技术，搜索查询框250中的关键字随后可与数据库的信息项进行比较。这会生成结果列表，每个结果在列表视图260中显示为相应的条目280。另外，每个结果在节点显示区270上具有对应的显示点。

由于用于生成SOM表示的排序过程倾向于在SOM中将互相似的信息项组合在一起，因此，搜索查询的结果通常倾向于落于诸如群集290的群集内。此处，要注意的是，区域270上的每个点对应于SOM中与结果列表260中的一个结果相关联的相应条目；并且区域270内显示点的位置对应于节点阵列内那些节点的阵列位置。

图6示意性地显示了减少“查询结果”(结果列表中的结果)数量的技术。用户使用鼠标80在对应于感兴趣节点的一组显示点周围画一个框300。在结果列表区260中，只有与框300内的点对应的那些结果才会显示。如果这些结果证明是不是感兴趣的结果，则用户可另画一个围住不同显示点集的框。

要注意的是，结果区260为显示点显示在框300内以及满足字搜索区250中搜索标准的那些结果显示列表条目。框300可围住对应于节点阵列中填充节点的其它显示位置，但如果这些不满足搜索标准，则不会显示它们，并因此不会形成框260中所示结果子集的部分。

图7示意性地显示了一种用于检测列表视图260中条目的节点位置的技术。使用图形用户界面领域的标准技术，具体而言在使用所谓“Windows”^TM操作系统的计算机中，用户可在结果列表视图中“选择”一个或多个条目。在所示示例中，这通过鼠标点击与相关结果相关联的“复选框”310而完成。然而，这同过单击以突出显示整个结果，或者通过双击相关结果等操作也同样可完成。在选择结果时，以不同的方式显示代表节点阵列中相应节点的对应显示点。图中示意性地显示了与结果区260中选定结果330对应的两个显示点320。

外观的变化可以是以更大的尺寸或同一显示颜色的更浓版本或不同的显示颜色或这些改变属性的组合方式来显示点。

在任一时候，通过在以上概述的步骤(即，步骤110到140)后，接着将得到的简化特征向量应用到“预训练的”SOM模型，即，由映射图的自组织准备得到的SOM模型集，可将新信息项添加到SOM。因此，对于新添加的信息项，一般不对映射图进行“重新训练”；相反，对于所有未修改的SOM模型，使用步骤150到160。每次要添加新信息项时重新训练SOM在计算上成本高，并且对可能习惯于映射图中经常访问的信息项的相对位置的用户也有点不友好。

注意，在准备原始映射时存储的、定义哪个特征数据被重新训练以及哪个被主成分检测过程丢弃的信息，对允许生成有关新映射项目的对应简化特征向量很有用。这同样适用于基于A/V资料属性的搜索查询(例如，“查找更多与此类似的资料”)。此处与查询(或与数据集的比较)相关的简化特征向量将使用针对整个集合定义的相同的更重要特征数据集来生成。

然而，很可能产生在该处重新训练过程是适当的点。例如，如果SOM首先生成后新术语(可能是新的新闻项或新的技术领域)被输入词典，则它们可能不会特别好地映射到现有输出节点集。这可作为将新接收的信息项映射到现有SOM过程中检测到的所谓“量化误差”增加被检测到。在现有实施例中，将量化误差与阈误差数进行比较。如果它大于阈值量，则：(a)使用自SOM创建后其所有原始信息项和所有添加的项目，自动对SOM进行重新训练；或者(b)提示用户在方便的时候启动重新训练过程。重新训练过程使用所有相关信息项的特征向量，并完全地重新应用步骤150和160。重新训练可限于已检测到超过阈值量的至少阈数量个的误差的情况，或在阈时限期间已检测到此类数量的情况。

图8示意性地显示了作为视频采集和/或处理设备示例的可携式摄像机500；该可携式摄像机包括：具有关联镜头520的图像捕获装置510；数据/信号处理器530；带存储器540；盘或其它随机存取存储器550；用户控制560；以及具有目镜580的显示装置570。本领域的技术人员会清楚常规可携式摄像机或其它摄像机的其它特征(如不同的存储介质或不同的显示屏装置)。使用时，与捕获的视频资料相关的元数据可存储在存储器550中，并且与存储数据相关的SOM可在显示装置570上查看并如上所述使用用户控制560进行控制。

图9示意性地显示了作为便携式数据处理设备的个人数字助理(PDA)600，它具有包括显示区620和提供用户控制的触敏区630的显示屏幕610以及数据处理和存储装置(未显示)。同样地，本领域的技术人员会知道此领域的其它替代方式。PDA可如上所述结合图1的系统使用。

Claims

1.一种信息处理方法，其中，信息项通过所述信息项的互相似性映射到节点阵列中的相应节点，以便相似的信息项映射到所述节点阵列中相似位置上的节点；在涉及信息项的特征数据与所述节点阵列中的节点之间定义了映射关系；所述方法包括以下步骤：

(a)对于一组信息项中的每个信息项：

检测表示该信息项属性集中每个属性的特征数据；

(b)对于与所述信息项组对应的全体特征数据：

检测所述全体特征数据内更重要和较不重要的属性；

关联涉及更重要属性的所述特征数据以便生成每个信息项的简化特征向量；

2.如权利要求1所述的方法，其特征在于，

所述信息项包括音频和/或视频资料项目；以及

所述属性包括所述资料项目的音频和/或视频属性。

3.如权利要求1或2所述的方法，其特征在于，所述方法包括存储定义了就一组信息项而论不使用哪些较不重要属性的数据的步骤。

4.如权利要求3所述的方法，其特征在于，所述方法包括以下步骤：

就要被新映射到节点的信息项而论，使用与当前信息项组相关联的映射；

检测特征数据，所述特征数据表示用于有关所述当前信息项组的所述简化特征向量中的至少那些信息项属性中的每个属性；

关联所述检测到的特征数据以便形成对应于要新映射信息项的简化特征向量。

5.如权利要求4所述的方法，其特征在于，所述方法包括以下步骤：

获得取决于所述新映射信息项与其所映射到的节点之间的映射误差的误差数；

检测是否所述误差数指示大于阈误差的误差；并且如果是这样的话，则启动包括所述新映射信息项的所述信息项全体的重新映射。

6.如权利要求5所述的方法，其特征在于，所述误差数取决于对应于所述新映射节点的所述简化特征向量与所述新映射信息项映射到的节点之间的欧几里德距离。

7.如权利要求5或6所述的方法，其特征在于，仅在涉及预定数量的新映射信息项的所述误差数超过所述阈误差数时才启动重新映射。

8.如权利要求7所述的方法，其特征在于，仅在涉及预定数量的新映射信息项的所述误差数已超出所述阈误差数，并且那些信息项已在阈时限期间全部被映射时才启动重新映射。

9.如权利要求5到8中任一项所述的方法，其特征在于，重新映射操作包括重复检测更重要和较不重要属性的所述步骤。

10.如权利要求3到9中任一项所述的方法，其特征在于，针对要新映射到节点的搜索查询，使用与当前信息项组相关联的映射：

作为所述搜索查询的一部分，定义表示用于有关所述当前信息项组的所述简化特征向量中的至少那些信息项属性中的每个属性的特征数据；

关联所述定义的特征数据以便形成对应于要新映射的所述搜索查询的简化特征向量。

11.如以上任一权利要求所述的方法，其特征在于，检测更重要和较不重要属性的所述步骤使用主成分分析技术。

12.如权利要求11所述的方法，其特征在于，检测更重要和较不重要属性的所述步骤使用Hotelling变换技术。

13.如以上任一权利要求所述的方法，其特征在于，检测更重要和较不重要特征数据的所述步骤是针对于各个属性或属性子组来执行的。

14.如以上任一权利要求所述的方法，其特征在于，所述属性集包括从如下列表中选择的一个或多个属性：

色调统计分布；

照度统计分布；

亮度统计分布；

颜色分量统计分布；

图像形状；

脸检测统计；

音频功率；

音频子带功率；

音频亮度；

音频带宽；

音频基频；以及

音频梅尔频率属性。

15.如以上任一权利要求所述的方法，其特征在于，所述方法包括丢弃与较不重要属性相关的特征数据的所述步骤。

16.如以上任一权利要求所述的方法，其特征在于，所述方法包括通过以下步骤确定哪些特征数据更重要和较不重要的步骤：

(i)对于具有到所述阵列中节点的已知期望映射的信息项测试组中的每个信息项：

检测表示该信息项属性集中每个属性的特征数据；

(ii)对于对应于所述信息项测试组的所述特征数据全体：

检测所述特征数据内或所述特征数据子类别内的重要性顺序；

对n的至少两个值，关联与所述n个最重要属性相关的特征数据以便生成每个信息项的简化特征向量；

定义所述简化特征向量与所述节点阵列之间的映射；以及

检测使用每个n值的简化特征向量定义的所述映射与所述已知期望映射之间的差异程度。

17.如权利要求16所述的方法，其特征在于，所述方法包括通过检测n的某个值而检测更重要与较不重要特征数据之间边界的所述步骤，在所述n值，增加到n的下一最高值造成的使用简化特征向量定义的所述映射与所述已知期望映射之间的差异程度的变化小于阈值。

18.具有用于执行根据以上任一权利要求所述方法的程序代码的计算机软件。

19.一种用于提供如权利要求18所述程序代码的提供介质。

20.如权利要求19所述的介质，其特征在于，所述介质是存储介质。

21.如权利要求19所述的介质，其特征在于，所述介质是传输介质。

22.一种信息处理系统，其中，信息项通过所述信息项的互相似性映射到节点阵列中的相应节点，以便相似的信息项映射到所述节点阵列中相似位置上的节点；在涉及信息项的特征数据与所述节点阵列中的节点之间定义了映射关系；所述系统包括：

检测表示信息项组中每个信息项的属性集中每个属性的特征数据的工具；

检测对应于所述信息项组的所述全体特征数据内更重要和较不重要属性的工具；

关联涉及更重要属性的所述特征数据以便生成每个信息项的简化特征向量的工具；以及

定义所述简化特征向量与所述节点阵列中节点之间映射的工具。

23.一种便携式数据处理装置，包括如权利要求22所述的系统。

24.一种视频采集和/或处理设备，包括如权利要求22所述的系统。