CN101589387B

CN101589387B - 信息处理

Info

Publication number: CN101589387B
Application number: CN2007800453160A
Authority: CN
Inventors: J·R·索普; A·P·伯特尔斯
Original assignee: Sony Corp
Current assignee: Sony Europe Ltd
Priority date: 2006-12-06
Filing date: 2007-11-29
Publication date: 2013-06-12
Anticipated expiration: 2027-11-29
Also published as: GB0624420D0; CN101589387A; GB2444535A; US20100023516A1; WO2008068462A1; US8402037B2

Abstract

一种关于信息项总集中的当前信息项来生成文字元数据的信息处理设备，所述信息处理设备包括：用于检测所述当前信息项的一个或多个预定属性的装置；用于从所述信息项总集中检测信息项子集的装置，所述子集是具有与所述当前信息项的属性最相似的一个或多个预定属性的那些子集；以及用于在与信息项子集有关的文字元数据内选择一个或多个最频繁出现的单词和/或短语的装置，以用在与所述当前信息项有关的文字元数据中。

Description

信息处理

技术领域

本发明涉及信息处理。

背景技术

存在很多通过利用关键字进行搜索的方式来定位信息(例如文档、图像、电子邮件、专利、因特网内容、或诸如音频/视频内容之类的媒体内容)的已建成系统。实例包括诸如由“Google”^TM或“Yahoo”^TM提供的因特网搜索“引擎”，其中由关键字(keyword)而执行的搜索将生成由搜索引擎按照所理解的相关性(relevance)的次序而排列(rank)的结果列表。

在要搜索的信息项(item)是音频项和/或视频项的情况下，执行有效搜索将会更加困难。现已存在一些通过分析音频/视频材料来自动检测内容的成功事例，但是这被认为是不可靠的，或者被认为是足够简单而不能实现精确的搜索。相反，文字元数据(textual metadata)(与信息项有关的附加数据)仍然是搜索这类信息项的最有效的方式。

文字元数据的条目(entry)需要人工输入，并可能非常繁重，这又意味着其可能非常昂贵。

对提供改进的信息处理技术存在着恒久不变的需求。

发明内容

本发明提供了关于信息项总集(ensemble)中的当前信息项来生成文字元数据的信息处理设备，所述设备包括：

用于检测当前信息项的一个或多个预定属性的装置；

用于从所述信息项总集中检测信息项子集的装置，所述子集是具有与当前信息项的属性最相似的一个或多个预定属性的那些子集；以及

用于在与所述信息项子集有关的文字元数据内选择一个或多个最频繁出现的单词(word)和/或短语(phrase)的装置，以用在与当前信息项有关的文字元数据中。

本发明提供了一种根据与自动被检测为相似的其它信息项有关的文字元数据来填充或预填充(建议用于文字元数据的候选单词和/或短语)与信息项有关的文字元数据的极简单方法。

在所附权利要求中还定义了本发明的其它各个方面和特征。

附图说明

现在将参照附图仅以举例说明的方式来描述本发明的实施方式，其中：

图1示意性地图示信息存储和检索系统；

图2是显示本发明的一个实施方式的总体操作的示意性流程图；

图3是显示用于生成简化特征向量的示意性流程图；

图4是显示用于生成候选单词/短语列表的示意性流程图；

图5示意性地图示显示屏幕；

图6示意性地图示单词/短语的提示框(suggestion box)；以及

图7示意性地图示个人数字助理(PDA)。

具体实施方式

图1是以通用计算机10为基础的信息存储和检索系统的示意图，所述通用计算机10具有：包括用于程序和数据的磁盘存储器30的处理器单元20；连接到诸如以太网网络或因特网之类的网络50的网络接口卡40；诸如阴极射线管设备60之类的显示设备；键盘70以及诸如鼠标80之类的用户输入设备。所述系统在程序控制下运行，所述程序被存储在磁盘存储器30上，以及例如通过网络50、可移动磁盘(未显示)或以预安装在磁盘存储器30上的方式来提供。

所述实施方式适用于多种类型的信息项。信息的适当类型的非穷举列表包括专利、视频材料、电子邮件、演示文稿(presentation)、因特网内容、广播内容、业务报告、音频材料、图表和剪贴、照片等，或者是上述任意类型的组合或混合。在本说明书中，将提及音频/视频信息项，或至少具有音频和/或视频内容或与其相关的信息项。例如，诸如音频和/或视频材料之类的一篇广播内容可以具有相关的“元数据”，所述“元数据”以文字术语定义了所述材料。

下面的详细实例指的是音频和/或视频数据信息项，并描述了对这种信息项的预定属性的检测。当然，作为替代(或者同时)可以处理其它类型的信息项。例如，如果信息项是静止的照片，那么这些照片的图像属性可用于形成特征向量。特征向量可以由信息项等形成，所述信息项由文本(例如根据它们的文字内容、单词的个数、不常见单词的分布等)等等形成。

信息项以常规方式被加载到磁盘存储器30上。优选地，它们被存储为数据库结构的一部分，以使所述数据库结构能更容易地检索并索引所述项，但这不是必需的。一旦所述信息和项被如此存储，那么使用处理来帮助用户将文字元数据应用到所述项中。下面将描述该处理的一个实例。

应当理解的是：不需要将所索引信息数据存储在本地磁盘驱动器30上。数据可以被存储在经由网络50而与系统10相连接的远程驱动器上。可替换地，信息可以以分布的方式来存储，例如存储在跨因特网的不同站点处。如果信息被存储在不同的因特网或网络站点处，那么第二级信息存储(second level of information storage)可以用于本地地存储对远程信息的“链接(link)”(例如URL)，或许连同与该链接有关的相关概要、摘要或元数据一起都被存储。因此，尽管在下文中出于技术说明的目的，将远程保留(remotely held)的信息，或摘要/概要(summary)/元数据，或链接/URL都称为“信息项”，但无需存取远程保留的信息，除非用户(例如从如下所述的结果列表260中)选择相关链接。

换句话说，“信息项”的形式定义是从其中得出并处理特征向量的项(见下文)。

在另一个实例中，信息项可以跨诸如研究组或合法公司之类的网络工作组来存储。混合方式(hybrid approach)可能涉及本地存储的一些信息项和/或跨局域网存储的一些信息项和/或跨广域网存储的一些信息项。

还应当理解：图1的系统10仅是可以使用经索引的信息项(indexed information item)的可用系统的一个实例。下面将参照图7描述另一个实例。通常，实际上具有显示器的几乎任何设备都能被用于信息存取阶段的操作。

所述处理不局限于特定数目的信息项。

图2是图示当前实施方式的操作的示意性流程图。应当理解，图2中所涉及的操作和存储器需求可以利用参照图1所描述的装置来执行。

包括音频/视频材料的信息项100(来自于信息项总集)由步骤110、120、130、140、150和160处理，以便生成要被存储在特征向量和文字元数据存储器170(其可以是单独的存储器，或者可以由与每个信息项有关的各个数据库条目而形成)中的文字元数据(例如标题、关键字和/或免费文本说明)。这允许执行由文本来搜索的单独步骤180。

步骤110至160尤其与正为其首次生成文字元数据的信息项有关，也就是说当前没有保留关于该信息项的文字元数据。然而，所述技术还可以被用于更新或增补与信息项有关的文字元数据，在这种情况下有可能已经发生步骤110(见下文)中的A/V属性检测，以及步骤120(见下文)中的特征向量生成。

参照步骤110，检测信息项100的预定音频和/或视频(A/V)属性。在步骤120，特征向量(实际上在下文中使用术语“简化特征向量(reduced feature vector)”)被生成并被存储在特征向量和文字元数据存储器170中。特征向量和文字元数据存储器170存储与已经由所述系统处理的某些信息项总集或(优选地)所有信息项总集相关的特征向量和文字元数据。

重要的是，为了比较特征向量(见下文)，特征向量必须具有可管理的长度，或可管理的值的个数，同时还提供信息项的有效表示。对于这一点不存在绝对量。在如下所述的实施方式中，使用30值的特征向量。对于比较特征向量而言，3个值或许太少，而1000个值需要太多处理，但是对本领域的普通技术人员来说可以根据可用的处理资源而选择适当数目的值。

下面将参照图3详细描述步骤110和120。

在步骤130，将当前信息项100的特征向量与所存储的关于其它信息项的特征向量进行比较。通过用于检测q维空间(其中q是每个特征向量的值的数目)中各向量之间的欧几里德距离(Euclideandistance)的公知技术来执行所述比较。通过该测试来选择n个最接近的特征向量，所述特征向量表示具有最接近信息项100的属性的一个或多个预定属性的n个信息项(如由步骤110检测的那样)。值n表示所存储的特征向量总数的子集。例如，n可以是20。

在步骤140，从与n个最接近的信息项有关的文字元数据中进行选择。在步骤150，从该选择中提供单词和/或短语来作为给用户的关于当前信息项的建议(尽管在其它实施方式中可以利用来自该选择的预定数目的最频繁出现的单词和/或短语；或者利用至少具有阈值出现频率的单词和/或短语；或者利用其组合来自动填充当前信息项)。下面将参照图4详细描述与步骤140和150有关的处理。

最后，在步骤160，将已经(由用户或自动地)被选择为附加到(accompany)当前信息项的文字元数据相关于那个信息项存储在特征向量和文字元数据存储器中。

步骤180示意性地图示利用文字元数据来搜索信息项的独立处理。当然应当理解：该步骤可以用与在步骤110-160中所使用的相同装置来执行，或者利用至少能够存取特征向量和文字元数据存储器170的不同装置来执行。

图3是图示与图2的步骤110和120相对应的所谓的“特征提取”处理的示意性流程图。特征提取是用于将原始数据变换为抽象表示的过程。因此这些抽象表示能被用于诸如模式分类、分组(clustering)和识别之类的过程理。在该过程中，生成所谓的“特征向量”，所述“特征向量”是在文档内所使用的术语的频率的抽象表示。

图3的基本步骤是关于一组信息项中的信息项100而执行的，所述信息项包括音频和/或视频材料，如下所述：

在步骤210中依次检测每个信息项的音频和/或视频属性。在步骤220和230，执行用于检测具有更重要属性和不重要(less significant)属性的数据的过程，从而导致丢弃(discard)具有不重要属性的数据。在步骤240中将剩余(非丢弃)的属性数据并置(concatenate)在一起，从而生成“简化”特征向量。一旦已经生成用于信息项集合(collection)的“简化”特征向量，那么所述“简化”特征向量就可以被用于图2的步骤130中。

可以选择性地执行进一步的可选简化处理(例如利用公知的随机向量映射技术，其涉及用p个值的特征向量矩阵来矩阵乘(matrix-multiply)随机数矩阵p×q，以生成q个值的特征向量)。然而，这种进一步的步骤与当前实施方式无关，在当前实施方式中利用如下所述的过程来生成30值的特征向量。当然，本领域的普通技术人员将理解：随机向量映射可被用于代替步骤220、230和240，从而生成具有可管理尺寸的特征向量。

步骤220至240可以以另一种次序来执行，以使数据在并置之后可以被丢弃(或者甚至可以在并置之前或之后执行丢弃处理)。

现在将详细描述步骤210至240。

所述技术的目的在于(从音频与视频中)自动提取特征向量，所述特征向量利用尽可能少的变量(或者至少是减少的变量数目)来表示媒体项的种类(genre)；该特征向量从现在开始被称为“简化特征向量”。

简化特征向量由几个“基本特征向量”的组合组成。基本特征向量封装(encapsulate)像颜色、形状等的特定的特征类型。由步骤210所表示的第一阶段用于检测所谓的“基本特征向量”，所述“基本特征向量”表示信息项的各个属性。

基本特征向量的创建

在当前实施方式中，使用五种类型的基本特征向量；这些基本特征向量是基于颜色、形状、音频、表面(face)和边缘/平坦(plain)的特征向量。事实上，如下所述的简化特征向量不涉及边缘/平坦数据，但是该技术将其包括在内以说明可能的特征数据的另一来源。应当理解：下面所阐述的排列(permutation)仅是实例，并且可以使用其它的向量排列。

颜色

存在几种可以被使用的颜色模型。下面将描述一些实例。

对每个颜色模型而言，计算用于媒体项中的每个帧的20位二进制(bin)直方图(histogram)，在整个媒体项上得到直方图中的每一列的平均值(average)和标准偏差(standard deviation)。平均值和标准偏差向量被用作表示媒体项的基本特征向量。平均值和标准偏差的并置也被用作基本特征向量，并且因此在下面的列表中被称为“组合”。由它们计算的颜色模型和特征向量是：

-HUE直方图

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

-亮度(Luminance)直方图

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

-红色直方图

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

-绿色直方图

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

-蓝色直方图

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

-RGB直方图(60位二进制，其是三个不同直方图的组合)

-平均值

-标准偏差

-组合(并置的平均值和标准偏差向量)

形状

将描述两种不同类型的形状描述符；它们之间的差异在于快速傅里叶变换(Fast Fourier Transform，FFT)之后的步骤，即步骤4。用下列方式来提取总体形状描述符：

1、例如通过双线性插值(bilinear interpolation)来将每个帧调整大小为64*64的图像。

2、根据已调整大小的帧执行快速傅里叶变换(FFT)。

3、处理每个方向上的前10个频率值(最低频率)(见下文)，并将它们合并成100值长的特征向量。

4、在整个媒体项上得到向量中的每一列的平均值和标准偏差，其为每个后续的处理方法提供了三个特征向量，

i、平均值

ii、标准偏差

iii、组合(并置的平均值和标准偏差特征向量)

表面

将描述两种不同类型的基于表面的特征向量；一个称为“表面特征”，另一个称为“表面统计(face statistic)”。

表面统计基本特征向量是按如下所述的方式生成的：

1、对每个帧，计算下述3个变量：

-表面数(count)，也就是帧内有多少个表面；

-帧内所有表面的平均表面尺寸；

-帧内所有表面的平均值×(水平)位置，

2、然后在媒体项内的所有帧上对所有3个变量计算平均值和标准偏差；

3、表面数、尺寸和x位置的平均值和标准偏差形成6个变量的特征向量。

表面特征基本特征向量是按照如下所述的方式生成的：

1、使用表面分类器(classifier)，所述表面分类器根据表面尺寸和表面x位置将帧中的所有表面分为6种不同的类别。

表面分类器按下述方式工作：

a.如果表面尺寸大于21个像素(例如宽度方向上)，那么其被分为A子类，如果表面尺寸小于21个像素，那么其被分为B子类。

b.根据表面x位置是小于74(例如从左侧开始的若干像素)、是在74和114之间、还是大于114，将子类A和B二者都再拆分为三个不同的子类。

2、每个媒体项都具有7位二进制的直方图，其中第一位二进制表示没有表面的帧；其它的二进制表示6个不同的表面类别。对正被分析的每个帧而言，每查找到一个表面，就将其分类所属的二进制增加一。

3、直方图形成表示媒体项的7位二进制的基本特征向量。

音频

假定可用音频具有48kHz的采样速率(sample rate)；音频在具有16ms重叠的32ms窗中进行采样，给出了总计N＝1536个采样。均方根振幅(rms amplitude)被定义为：

r_{j} = Σ_{i = 1}^{N} {(s_{i})}^{2},

并且如果r_j＜0.2*r，则帧被定义为是无声的，其中j是音频帧，r是全部媒体项上的均方根振幅的平均值。

首先，全部信号利用

W_{i} = 0.54 - 0.46 * \cos (\frac{2 πi}{N})

来进行Hamming窗(Hamming-window)，之后为所有帧计算FFT系数F(ω)。然后为每一个音频帧计算下述特征：

总频谱功率(Total Spectrum Power)。使用频谱功率的对数：

P = \log ({&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω),

其中|F(ω)|²表示频率ω处的功率，并且其中ω₀＝24kHz(采样频率的一半)。

子频带(Subband)功率。使用具有以下间隔(interval)的四个子频带功率：

[0, \frac{ω_{0}}{8}], [\frac{ω_{0}}{8}, \frac{ω_{0}}{4}], [\frac{ω_{0}}{4}, \frac{ω_{0}}{2}]

以及

[\frac{ω_{0}}{2}, ω_{0}] .

子频带的功率是按照如下所述的方式计算的：

P_{j} = \log ({&Integral;}_{L_{j}}^{H_{j}} {| F (ω) |}^{2} dω),

其中H_j表示间隔中的最高频率，L_j表示间隔中的最低频率。

明度(brightness)。明度被定义为频率质心(centroid)，并以如下所述的方式进行计算：

ω_{c} = \frac{{&Integral;}_{0}^{ω_{0}} ω * {| F (ω) |}^{2} dω}{{&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω}

带宽。以如下所述的方式计算带宽B：

B = \frac{{&Integral;}_{0}^{ω_{0}} {(ω - ω_{c})}^{2} * {| F (ω) |}^{2} dω}{{&Integral;}_{0}^{ω_{0}} {| F (ω) |}^{2} dω}

音调(pitch)频率。以如下所述的方式确定音调频率：

1、计算每一个音频帧的功率频谱；

2、利用离散算子{0.25f，0.75f，1.0f，0.75f，0.25f}来加重 (emphasise)功率频谱峰值；

3、以如下所述的方式计算音频窗的谐波：

a、起始于50Hz音调频率的梳状滤波器(comb filter)被连续提高，直至其达到1000Hz的音调频率。对于每个步骤，得到经梳状滤波的信号“C”和噪声“N”之间的差。

i、以如下所述的方式计算梳状滤波器的值：

C_i＝2.25*S_i-1+1.5*S_i+2.25*S_i+1，其中“i”是音调频率，“S”是增强的信号。注意到：如果对于[i-1，i，i+1]，S＝1，则C＝6。

ii、以如下所述的方式计算噪声：

N_{i} = S_{i - \frac{4 * i}{6}} + S_{i - \frac{3 * i}{6}} : + S_{i - \frac{2 * i}{6}} + S_{i + \frac{2 * i}{6}} + S_{i + \frac{3 * i}{6}} + S_{i + \frac{4 * i}{6}} .

注意到，如果对于

[i - \frac{4 * i}{6}, i - \frac{3 * i}{6}, i - \frac{3 * i}{6}, i + \frac{2 * i}{6}, i + \frac{3 * i}{6}, i + \frac{4 * i}{6}],

S＝1，则N＝6。

4、这将形成频率与谐波的关系图，谐波的峰值给出了音调频率。

Mel频率倒谱系数(Mel-Frequency cepstral Coefficient)是根据FFT功率系数计算的。三角带通滤波器组(triangular bandpass filterbank)对所述系数进行滤波。滤波器组由19个三角滤波器组成，所述三角滤波器具有覆盖频率范围0-4000Hz的恒定mel频率间隔。S_k{k＝1，2，...K}表示滤波器组的输出。按如下所述的方式计算mel频谱：

c_{n} = \sqrt{\frac{2}{K} * Σ_{k = 1}^{k} \log (S_{k}) * \cos (n * [k - 0.5] * \frac{π}{K})},

其中n＝1，2，3..12是倒频谱(cepstrum)的次序。

上述特征形成20值的特征向量，在整个媒体上得到所有列式(column wise)平均值和标准偏差，并将平均值和标准偏差并置成40值的特征向量。通过得到无声帧与用于整个媒体项的帧总数的比率，来将41变量(41 variable)添加到该特征向量中。

边缘\平坦区域特征向量

现在将定义另一个基本特征向量。这就是所谓的边缘\平坦区域直方图(edge/plain field histogram，EPFH)特征向量。其是通过两个基本步骤生成的：

1、图像中颜色值的量子化(quantisation)；

2、EPFH的创建。

颜色空间的量子化

该过程起始于HSV(Hue Saturation Value，色调饱和值)编码图像，其中0≤H≤360，0≤S≤1，0≤V≤1。如果要研究的图像没有以该格式提供，那么执行简明的(以及公知的)映射操作以将其转换为该格式。

如果使HSV颜色空间形象化，那么将采用锥体的形式。量子化步骤旨在将锥体划分成不同的块。每个块利用数字来进行索引；数字本身是不相关的，数字的唯一功能是作为索引。

索引是通过最初阐述的饱和度量子化而生成的(或“返回”的)值。这又涉及下面所阐述的色调和亮度量子化。

饱和度(Saturation)被量子化为4个部分：

0.00＜饱和度≤0.03→无色的(Achromatic)返回亮度A(LuminanceA)

0.03＜饱和度≤0.33→低色彩的返回7*亮度C+色调-1(7*LuminanceC+Hue-1)

0.33＜饱和度≤0.66→中色彩的返回(3+亮度C)*7+色调-1((3+LuminanceC)*7+Hue-1)

0.66＜饱和度≤1→高色彩的返回(6+亮度C)*7+色调-1((6+LuminanceC)*7+Hue-1)

在最后三种类别的情况下，按如下所述的方式对色调和亮度进行量子化：

色调被量子化为7个不均匀的部分：

330＜色调≤22 返回1 //红色

22＜色调≤45 返回2 //橙色

45＜色调≤70 返回3 //黄色

70＜色调≤155 返回4 //绿色

155＜色调≤186 返回5 //青色

186＜色调≤278 返回6 //蓝色

278＜色调≤330 返回7 //紫色

亮度C(值)被量子化为3个部分：

0.00＜饱和度≤0.33→低亮度返回0

0.33＜饱和度≤0.66→中亮度返回1

0.66＜饱和度≤1 →高亮度返回2

在“无色的”分类的情况下，亮度值被量子化为：

在无色区域中的亮度A(值)被量子化为4个部分：

0.00＜亮度≤0.25 →白色返回63

0.25＜亮度≤0.50 →浅灰色返回64

0.50＜亮度≤0.75 →深灰色返回65

0.75＜亮度≤1 →黑色返回66

EPFH的创建

接下来，遍历(iterate through)图像中的像素，将每一个像素(中心像素)与其周围的像素(也就是一组8个像素)进行比较。如果周围像素中的任何一个像素具有不同于当前中心像素的颜色索引值，那么中心像素就被认为是“边缘”像素；否则就被认为是平坦区域的像素。

为避免混淆，术语“中心”指与其颜色属性正被比较的像素有关的像素的空间(图像)位置(the pixel′s spatial(image)position with relationto the pixels with whose colour properties it is being compared)。术语“边缘”和“平坦区域”指的是关于空间周围像素在颜色空间中当前中心像素的位置。

如果像素被分类为边缘像素，那么将其添加到“边缘”直方图中，否则将其添加到“平坦区域”直方图中。

每个直方图中的二进制都是上述的颜色索引。

特征向量的后续处理(post processing)

边缘直方图和平坦区域直方图二者都分别被归一化(normalise)，因此它们的长度都等于1。图像中的边缘像素与总像素的比率(“边缘比率(edge ratio)”)也被计算。

最终的特征向量包括归一化的边缘直方图、归一化的平滑区域直方图及边缘比率的并置。

简化特征向量子部(subpart)的创建

颜色

基本颜色特征向量由整个媒体项上的60位二进制RGB直方图(每个颜色20位二进制)的平均值和标准偏差组成。这给出由120个变量组成的特征向量。

利用霍特林变换(Hotelling transform)对颜色直方图进行变换并进行截取，以保留前7个变量。

霍特林变换是以特征向量的统计属性为基础的。20变量向量的变换将生成具有顶部/前面(top/first)变量的20变量向量，其是具有最大方差(variance)的变量(即它们可以被认为是更重要的变量)。这意味着所述变换将特征向量中最重要的特征移到了向量的开头部分。

形状

利用双线性插值将每个帧从其起始尺寸(例如720*576像素)调整大小为64*64。利用FFT过程来对64*64图像进行变换，并且存储10个最低频率的功率再加一的对数值(logs of the power of the 10lowest frequencies plus one)：

D(u，v)＝10*log(1+|F(u，v)|)

这形成了100个值长度的向量。对每个帧都生成所述向量，并且将整个媒体项上的平均值和标准偏差用作特征向量。这意味着我们具有200个值长度的特征向量。

利用霍特林变换来对形状特征向量进行变换并进行截取，以保留(keep)前10个变量。

音频

音频特征以如上所述的方式创建，并创建41值的特征向量。(在由霍特林变换检测时)保留7个最重要的值。

表面

表面特征向量以如上所述的方式创建，并创建6值的特征向量。

并置和归一化(normalisation)

利用平均标准偏差归一化来对子特征向量进行归一化，并将其并置以形成30值的特征向量。

图4示意性地图示与图2的步骤140和150相对应的过程。假定在步骤130中已经标识了n个最接近的信息项(根据它们的特征向量)，并且关于那些信息项的至少一些信息项的文字元数据300被存储在特征向量和文字元数据存储器170中。

在当前实例中，文字元数据300被设置成信息项的标题、一些关键字和一些免费文本说明。当然应当理解：该确切设置不是必需的，并且甚至根本无须划分(partition)文字元数据。

在步骤310，与n个最接近信息项(或至少具有一些文字元数据的那些信息项)相对应的文字元数据被整理(collate)到用于排序(sorting)过程的单个集合中。在随后的说明中，这个经整理的文字元数据集合将被认为是一个文档，但这仅是为了便于说明和理解。

在步骤320，从文档中除去所有“无用单词(stop word)”。无用单词是在预先准备的列表上极常用的单词，诸如“一个”、“该”、“然而”、“关于”、“和”以及“所述”之类的单词。这些单词太常见了，以致于不能被作为提供给用户的特定于信息项(item-specific)的建议或者作为自动生成的文字元数据。

无用单词的检测还有另一个目的，就是在步骤330中限定(delimit)“短语”。换句话说，短语被认为是在两个无用单词之间的那些单词(或者对于较长短语来说，第一预定数目(例如3)的这种单词)。在当前系统中，短语被当做是用于估计出现的频率以及建议包含在文字元数据中的候选项的多个单词。

在去除无用单词并检测短语之后，在步骤340中对剩余的单词“确定主干(stemmed)”，这涉及查找词的变型的公共主干(stem)。例如词“thrower”、“throws”和“throwing”具有公共主干“throw”。

在步骤350，按出现的频率对确定主干的词和短语进行排序，并标识最频繁出现的单词或短语。在已经确定这个单词的主干的情况下，将在执行主干确定过程之前的该单词最频繁出现的版本作为要呈现给用户的版本。在步骤360，多个最频繁出现这种单词和短语被添加到关于当前信息项而要呈现给用户的单词和短语候选列表370中。

图4所示的候选列表370的实例具有不同的子列表，这些子列表涉及标题字段、关键字字段和免费文本元数据字段。可以对该数据300中的这三个字段分别执行步骤310-360的分析。或者该列表可以基于相同的选择，但是在标题列表和关键字列表中或许具有更少的条目。或者作为替换，可以提供单一的候选列表。

图5示意性地图示在执行步骤150时图1的装置中的屏幕显示400。

提供不同的显示窗口：窗口410，根据当前信息项显示代表性图像；窗口420，提供所建议的文字元数据条目的候选单词和短语；窗口430，显示在步骤130中选择的最接近信息项或它们的最接近子集的(较小的)代表性图像；以及窗口440，提供文本条目区。

尽管如上所述，对不同的文字元数据字段可以生成单独的列表，但在图5所示的实例中，在窗口420中提供了候选单词和短语的单个列表。提供了可由诸如鼠标控制之类的用户控制来操作的三个用户按钮422、424和426。这些按钮的每一个都具有将当前高亮显示(highlighted)的单词(例如：如所示的单词“track”)添加到各个文字元数据字段中的作用。当然，无论其是否出现在候选列表中，用户都可以简单地将单词键入(type)到各个字段中。

窗口440被划分成不同的文字元数据字段，并允许向其中插入候选单词或简单地向其中键入其它单词。如图6所示意的那样，特征在于使用键入选择。如果用户开始键入，比如说若干字母“tra”，那么系统就选择(多个)候选列表中以那些字母开头的最频繁出现的单词和短语，并将其提供给用户以供用户选择。

应当理解的是：“单词和短语”无须是在常规词典中能查找到的单词，也无须是符合语法规则(grammatical)的单词。例如，它们可以是诸如专利分类索引之类的分类术语。

可以根据信息项的字段或种类对单词和短语执行预排序(pre-sort)。因此，利用全部的参考词典(未显示)，如果某些单词不适合将被处理的信息项的类型，那么可以从给用户作出的建议中排除这些单词。

在其中提供了单词和短语的次序可以是频率次序，以便列出n个最接近信息项中的最频繁出现的单词和/或短语。或者该次序可以与每个单词的对应信息项和被测试的当前信息项的接近程度有关。因此，在列表顶部所列出的单词将具有与用户键入的(多个)字母相同的(多个)字母，并且来自于与最接近于当前信息项的信息项(在具有以用户输入的字母开头的单词的那些信息项中间)有关的文字元数据。或者可以使用组合策略，其中利用与信息项的接近程度(closeness)有关的因子来对n个最接近项之中的单词和短语的“原始”出现频率进行加权。例如，可以使用下面的排列因子(ranking factor)：

ranking factor_word＝(frequency of occurrence_word)/(distance_item^3)(排列因子_单词＝(出现频率_单词)/(距离_项^3))

其中距离_项表示包含那个单词的信息项(或者如果存在一个以上的单词，则是最接近的这种信息项)和当前信息项之间的欧几里德距离。

应当清楚的是：由于受到用户键入起始字母的排序影响，所以对该过程而言系统可以使用比在窗口420中显示所需要的单词和短语集合更大的单词和短语集合。随着用户键入或改变任何其它字母，图6所示的列表将被修订成仅包括以用户键入的当前字母集合开头的那些单词和短语。用户可以通过鼠标点击或通过利用光标控制键上下移动光标(未显示)并在所要的单词或短语处按下“输入”来选择这些建议中的一个建议。

图7示意性地图示作为便携式数据处理设备的实例的个人数字助理(PDA)600，其具有显示屏幕610以及数据处理和存储器(未显示)，其中该显示屏幕610包括显示区620和用于提供用户控制的触摸感应区630。此外，本领域的普通技术人员将知道该领域的替换方式。如上所述，PDA可以用于代替图1中的系统，或者与图1中的系统相结合，可以例如经由无线链路(未显示)来存取存储在图1的系统上的信息项和/或元数据。

关于霍特林变换的一般说明

霍特林变换也被称为主分量、本征向量(eigenvector)和离散Karhunen-Loéve变换。霍特林变换是一种减少特征向量内的冗余的非常有用的方法。

设定向量总数(population)：

X = [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \end{matrix}]

其中，均值向量(mean vector)：m_x＝E(x)，

以及协方差(covariance)矩阵：C_x＝E((x-m_x)(x-m_x)^T)，

如果采用本征值(eigenvalue)和匹配的本征向量，并且以匹配本征值的减少的值的次序来对本征向量进行排序，则得到矩阵A：

A＝eig(C_x)。

然后利用下面的公式描述霍特林变换：

y＝A·(x-m_x)

其中x被变换为y。y向量中的第一维具有最高的方差，第二维具有第二高的方差，依此类推。这是因为我们相对于本征值的大小来组织本征向量。

关于向量归一化的一般说明

向量归一化是标准代数过程，其中将向量除以其自身的范数(norm)。这将生成长度为1的向量。

v_{normalized} = \frac{v}{| | v | |},

||v_normalized||＝1。

关于列线性变换归一化的一般说明

对每一列查找最小值(min)和最大值(max)，并将其变换为新的最小值和最大值。

x_new＝x_old·a+m，

a = \frac{x_{new}^{\max} - x_{new}^{\min}}{x_{old}^{\max} - x_{old}^{\min}},

m = x_{new}^{\max} - x_{old}^{\max} \cdot a .

关于均值(Mean)和标准偏差归一化的一般说明

均值和标准偏差归一化是一种列归一化。得到列式均值和标准偏差。然后用均值来转换(translate)每个值，并除以那一列的标准偏差。

x_{new} = \frac{(x_{old} - mean)}{stdDev} .

Claims

1.一种关于信息项总集中的当前信息项来生成文字元数据的信息处理设备，所述设备包括：

可操作用于检测所述当前信息项的一个或多个预定属性的属性检测器；

可操作用于从所述信息项总集中检测信息项子集的子集检测器，所述子集是具有与所述当前信息项的属性最相似的一个或多个预定属性的那些子集；

可操作用于向用户显示在与所述信息项子集有关的文字元数据内的单词和/或短语的可选列表的显示装置，所述显示是按利用一因子进行加权的单词和/或短语的出现频率的次序进行的，该因子与对应于每个单词和/或短语的信息项与当前信息项的相似度有关；以及

可操作用于选择一个或多个所显示的最频繁出现的单词和/或短语以用在与所述当前信息项有关的文字元数据中的选择器。

2.根据权利要求1所述的设备，其中所述信息项包括音频和/或视频数据，并且所述属性检测器可操作用于检测所述音频和/或视频数据的一个或多个属性。

3.根据权利要求2所述的设备，其中所述一个或多个预定属性包括从包括以下各项的列表中选择的一个或多个属性：

色调统计分布；

亮度统计分布；

颜色分量统计分布；

图像形状；

表面检测统计；

音频功率；

音频子频带功率；

音频明度；

音频带宽；

音频音调；以及

音频mel频率属性。

4.根据权利要求2或3所述的设备，

包括可操作用于生成特征向量的特征向量发生器，所述特征向量包括指示一个或多个预定属性的特征数据值；

以及其中所述子集检测器可操作用于检测具有特征向量的那些信息项，所述特征向量具有距当前信息项的特征向量最短的欧几里德距离。

5.根据权利要求4所述的设备，包括可操作用于丢弃与信息项的不重要的属性有关的特征数据的数据丢弃器。

6.根据权利要求4所述的设备，包括可操作用于关于所述信息项总集中的至少一些信息项来存储特征向量的特征向量存储器。

7.根据权利要求1所述的设备，包括：

可操作用于从所选择的一个或多个最频繁出现的单词和/或短语中排除经常出现的单词的预定列表的无用单词检测器。

8.根据权利要求1所述的设备，其中所述一个或多个最频繁出现的单词和/或短语是关于各个词干的出现频率和/或相应的信息项属性与当前信息项属性的相似度而选择的。

9.根据权利要求1所述的设备，包括可操作用于向用户显示一个或多个最频繁出现的单词和/或短语的可选列表的显示装置，其中所述列表按各个词干的出现频率和/或相应信息项属性与当前信息项属性的相似度来进行排序。

10.根据权利要求9所述的设备，

包括用于供用户输入一个或多个字母的用户输入设备；

以及其中所述列表包括以所述用户输入的若干字母而开头的单词和/或短语。

11.一种关于信息项总集中的当前信息项来生成文字元数据的信息处理方法，所述方法包括下述步骤：

检测所述当前信息项的一个或多个预定属性；

从所述信息项总集中检测信息项子集，所述子集是具有与所述当前信息项的属性最相似的一个或多个预定属性的那些子集；

显示在与所述信息项子集有关的文字元数据内的单词和/或短语，所述显示是按利用一因子进行加权的单词和/或短语的出现频率的次序进行的，该因子与对应于每个单词和/或短语的信息项与当前信息项的相似度有关；以及

选择一个或多个最频繁出现的单词和/或短语，以用在与所述当前信息项有关的文字元数据中。