CN103384883A

CN103384883A - 利用Top-K处理使语义丰富

Info

Publication number: CN103384883A
Application number: CN2011800380128A
Authority: CN
Inventors: J.W.金; A.S.卡夏普; 李德凯; S.巴米迪帕蒂; B.A.帕特尔; A.斯里德哈; S.马瑟
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS; International Digital Madison Patent Holding SAS
Priority date: 2010-06-03
Filing date: 2011-06-03
Publication date: 2013-11-06
Anticipated expiration: 2031-06-03
Also published as: JP5894149B2; WO2011153392A3; EP2691845A4; EP2691845A2; KR101811468B1; CN103384883B; JP2014500528A; KR20130120381A; US20130268261A1; WO2011153392A2

Abstract

合适地表示文本的含义对增强许多数据挖掘和信息检索任务（包括聚类、计算文本之间的语义相关度和搜索）来说是至关重要的。最近，在从维基百科导出的概念空间中进行文本表示得到了日益增长的关注，这是由于其综合性和专业性。这种基于概念的表示能够提取无法用词袋模型推论的文本之间的语义相关度。然而，使用维基百科作为语义解释器的一个关键障碍在于从维基百科中导出的概念的尺寸太大，使得很难高效地将文本映射到概念空间。证明了一种能够通过使用与之最为匹配的概念来表示文本的含义的高效算法。具体地，该方法首先计算与给定文本最相关的近似top-k个概念。然后，利用这些概念表示给定文本的含义。

Description

利用Top-K处理使语义丰富

相关申请的交叉引用

本申请要求于2010年6月3日提交的序列号为第61/351,252号的美国临时申请、于2010年6月15日提交的序列号为第61/397,780号的美国临时申请和于2010年11月12日提交的序列号为第61/456,774的美国临时申请的权益，在此通过引用以其整体并入。

技术领域

本发明涉及数据挖掘和信息检索，更具体地涉及数据挖掘和信息检索中使用的关键字的语义解释。

背景技术

词袋（bag of words,BOW）模型已被证明在跨越从传统的基于文本的应用到网络和社交媒体的大范围的多种领域内是非常有效的。虽然已经存在多种使用词袋的信息检索系统中的模型，包括布尔模型、概率模型和模糊模型，但是基于单词的向量模型仍然是文献中最常用的。在基于单词的向量模型中，给定具有u个不同的单词的词典U，一个文档被表示为u维向量

，在该向量中只有与文档单词对应的那些位置才被设置为>0，所有其它的位置被设置为0，这产生了在高维空间中的极为稀疏的向量的集合。

尽管基于BOW的向量模型是最流行的方案，但是它也有局限：这些局限包括向量的稀疏性，以及单词之间缺乏语义关系。一种克服这些局限的方法是分析全部资料中（in the corpus）文档的关键字，以提取在该全部资料中居于主导地位的潜在概念和在产生的潜在概念空间中的模型文档。虽然这些技术已经在基于文本的应用领域产生了让人印象深刻的结果，但是它们仍具有的局限在于，产生的潜在概念不同于人类组织的知识，从而不能通过人类的知识对它们进行解释。

解决该难题的一种可能的解决方案是使用从已有的人类提供的知识数据库（即，维基百科、WordNet和Open Directory Project（开放式目录项））获得的背景知识来丰富单个文档。例如，维基百科是网络上最大的自由百科全书之一，其英语版本包含超过4百万篇文章。维基百科中的每一篇文章描述了一个概念（主题），每个概念属于至少一个分类。维基百科使用重定向页面，它将一个概念重定向到同含义的另一个概念。另一方面，如果一个概念是多义的，那么维基百科在消除歧义页中显示多义概念的可能的意思。

由于其综合性和专业性，维基百科已经应用于各种应用，如聚类、分类、单词消除歧义、用户配置文件的创建、链接分析、主题检测，其中它用作基于维基百科的概念重新解释（或丰富）原始文档的语义解释器。如图5所示，这样的语义重新解释500相当于或对应于将原始文档从关键字空间510映射到概念空间520。一般情况下，原始词典和概念之间的映射通过（a）匹配概念和关键字以及（b）用这些匹配的概念替换关键字进行。在文献中，这个过程一般被定义为原始关键字矩阵和关键字-概念矩阵之间的矩阵相乘（图5）。这种基于维基百科的语义重新解释具有确保被映射到维基百科概念空间中的关键字在语义上是知悉的潜力，显著地改善其应对多种任务的有效性（包括文本分类和聚类）。

利用如维基百科这样的来源作为语义解释器的主要障碍来源于效率考虑。考虑到维基百科文章的数量极大（多于4百万个概念），基于维基百科的所有可能的概念来重新解释原始文档的代价可能是高到难以承受。因此，本质上这种语义重新解释使用的技术的速度应该快。

更加重要的是，例如，使用所有可能的维基百科概念来丰富原始文档在应用层面强加了额外的开销，这是由于将在与非常大的尺寸对应的增强的概念空间中表示丰富后的文档。大部分的应用并不要求使用所有可能的维基百科概念表示文档，因为它们对给定的文档来说不是同等重要的。实际上，不重要的概念易于成为噪声。因此，存在在维基百科中高效地找到与给定的原始文档匹配的最佳的k个概念并基于这k个概念对文档在语义上进行重新解释的需求。

发明内容

给定一个表示关键字集合的关键字矩阵，高效地识别与给定的关键字查询匹配的最佳的K个结果不是琐碎的。首先，关键字矩阵的大小是庞大的。其次，关键字矩阵的稀疏性限制了在该问题上应用最公知的top-k处理方法。因此，本发明的一个目的是开发出用于计算与给定的文档查询最相关的近似top-k个关键字的高效机制。具体地，提出了SparseTopk算法，其能够在用户（应用程序）提供可接受的准确率时有效地估计看不见（unseen）的对象的分数并基于这些预期分数计算近似的top-k个结果。

根据一个实施例，提供了一种对关键字进行语义解释的方法。该方法包括下列步骤：获得用于语义解释的一个或多个关键字；对于该一个或多个关键字计算知识数据库中的top-k个概念；以及使用该top-k个概念将该一个或多个关键字映射到概念空间。

根据另一个实施例，提供了一种用于对显示的内容进行自动图像发现的系统。该系统包括主题检测模块、关键字提取模块、图像发现模块和控制器。主题检测模块被配置为检测正在显示的内容的主题。关键字提取模块被配置为从正在显示的内容的主题中提取查询术语。图像发现模块被配置为基于查询术语发现图像；以及控制器被配置为控制主题检测模块、关键字提取模块和图像发现模块。

通过结合附图阅读下面的示例性实施例的详细描述，本原理的这些和其它方面、特征以及优点将会更加明显。

附图说明

根据以下示例性附图，可以更好地理解本原理。

图1是概述根据一个实施例的将视频和音频内容传送到家庭的系统图。

图2是展示根据一个实施例的代表性机顶盒接收器的更多细节的系统图。

图3是展示根据一个实施例的在机顶盒接收器处进行的处理的图。

图4是展示根据一个实施例的语义解释的处理的流程图。

图5是展示根据一个实施例的语义解释器如何将关键字从关键字空间映射到概念空间的图。

图6是根据一个实施例的依赖排列等级（rank）的处理方案的语义解释器的总体框架。

图7是根据一个实施例的用于计算近似top-k个概念的伪码的示例。

图8是用于将关键字从关键字空间映射到概念空间的伪码的示例。

具体实施方式

本原理针对内容搜索，更具体地针对使用Top-k技术对用于搜索的关键字进行语义解释。

因此，应该理解的是，本领域的技术人员将能够设计出尽管没有在此明确地描述或示出但体现了本发明并被包括在其精神和范围内的各种布置。

在此引用的所有的例子和条件性语言都旨在用作教导目的，以帮助阅读理解本发明和由发明人贡献的促进本技术领域发展的概念，并应该被解读为不限制为这些被详细引用的例子和条件。

另外，在此所有引用的本发明的原理、方面和实施例以及其特定例子的陈述都旨在包括其结构和功能的等效物。此外，这些等效物旨在包括当前已知的等效物和未来开发的等效物，即任何被开发出来执行相同功能而不论其结构如何的元件。

因此，例如，本领域的技术人员将会理解的是，在此出现的框图表示体现本发明的说明性电路系统的概念图。类似地，将会理解的是，任何流程表、流程图、状态转换图、伪码等表示可在计算机可读媒体中被实质性表示并由计算机或处理器执行的各种过程，不论这些计算机或处理器是否明显地显示出来。

图中所示的各种元件的功能可以通过使用专用硬件和能够联合合适的软件执行软件的硬件提供。当由处理器提供时，该功能可以由单个专用的处理器、单个共用的处理器或其中有一些可以共用的多个独立的处理器提供。此外，明确使用的术语“处理器”或“控制器”不应该被解读为排他性地专指能够执行软件的硬件，而应该被解读为没有限制地、隐含地包括数字信号处理器（DSP）硬件、用于存储软件的只读存储器（ROM）、随机存取存储器（RAM）和非易失性存储装置。

还可以包括其它传统和/或定制的硬件。相似地，图中示出的任何开关都只是概念性的。它们的功能可以通过执行程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑交互或者甚至手动进行，可以根据上下文更具体地理解可被实施者选择的特定技术。

在其权利要求中，任何被表达为执行特定功能的部件的元件都旨在包括执行该功能的任何方式，包括例如a）执行该功能的电路元件的组合或b）任何形式的软件，因此包括与合适的用于执行软件以完成该功能的电路组合在一起的固件、微码等。这些权利要求限定的本发明在于下列事实：各个被列举的部件提供的功能以权利要求要求保护的方式组合并放置在一起。因此，任何可以提供这些功能的部件都被视为与在此示出的那些部件是等效的。

本说明书中引用的本发明的“一个实施例”或“实施例”以及其它变型是指在本发明的至少一个实施例内包括与实施例联系在一起描述的特定特征、结构或特性等。因此，出现在说明书中各个位置的措辞“在一个实施例中”或“在实施例中”以及任何其它变型并不一定都是指同一个实施例。

现在转向图1，示出了传送内容到家庭或终端用户的系统100的实施例的框图。从诸如电影工作室或制作室之类的内容源102发出内容。可以以两种形式中的至少一种提供内容。一种形式可以是内容的一种广播形式。广播内容被提供给广播联盟管理者104，它通常是全国性的广播服务，如美国广播公司（ABC）、国家广播公司（NBC）、哥伦比亚广播系统（CBS）等。广播联盟管理者可以收集并存储内容，还可以调度内容在传送网络上的传送，如传送网络1（106）所示。传送网络1（106）可以包括从国家中心到一个或多个区域或本地中心的卫星链接传输。传送网络1（106）还可以包括使用本地传送系统，如通过空中广播、卫星广播或有线广播的本地内容传送。本地传送的内容被提供给用户家庭中的接收装置108，用户随后就会搜索其中的内容。应该理解的是，接收装置108可以采用多种形式，可以被实施为机顶盒/数字视频记录器（DVR）、网关、调制解调器等。此外，接收装置108可以用作包括被配置为家庭网络中的客户装置或对等装置的其它装置的家庭网络系统的进入点或网关。

内容的第二种形式被称为特殊内容。特殊内容可以包括被作为优质观看(premium viewing)、付费观看递送的内容，或者以其它方式未提供给广播联盟管理者的其它内容，例如电影、视频游戏或其它视频元素。在许多情形中，特殊内容可以是用户请求的内容。特殊内容可以被传送给内容管理器110。内容管理器110可以是服务提供商，如附属于例如内容提供商、广播服务或传送网络服务的互联网网站。内容管理器110还可以将互联网内容引入传送系统。内容管理器110可以通过单独的传递网络（传递网络2（112））将内容传送给用户接收装置108。传送网络2（112）可以包括高速宽带互联网类型的通信系统。重要的是注意到，来自广播联盟管理者104的内容还可以使用传送网络2（112）的全部或部分传递，来自内容管理器110的内容还可以使用传递网络1（106）的全部或部分传递。此外，用户还可以通过传送网络2（112）直接从互联网获得内容，而无需由内容管理器110管理内容。

用于利用分开传送的内容的若干适配是可能的。在一种可能的方法中，提供特殊内容作为对广播内容的增强（augmentation），其提供替代性显示、购买和销售选项、加强材料等。在另一个实施例中，特殊内容可以完全替换某些被作为广播内容提供的节目内容。最后，特殊内容可以完全和广播内容分离，并且可以仅仅只是用户可以选择使用的媒体替代物。例如，特殊内容可以是尚不可用作广播内容的电影库。

接收装置108可以从传送网络1和传送网络2中之一或者二者中接收不同类型的内容。接收装置108处理内容，并基于用户偏好和命令提供内容的分离。接收装置108还可以包括用于记录和回放音频和视频内容的存储装置，如硬驱动器或光盘驱动器。接收装置108的操作以及与回放存储内容相关的特征的更多细节在下面结合图2描述。处理后的内容被提供给主显示装置114。主显示装置114可以是传统的2D类型显示器，或者替代性地可以是高级3D显示器。

接收装置108还可以连接到第二屏幕，如第二屏幕控制装置，例如触屏控制装置116。第二屏幕控制装置116可以适应用来提供对接收装置108和/或显示装置114的用户控制。第二屏幕装置116还可以能够显示视频内容。视频内容可以是图形输入，如用户界面输入，或者可以是被传送给显示装置114的视频内容的一部分。第二屏幕控制装置116可以使用任何已经熟知的信号传输系统，如红外（IR）或射频（RF）通信，并且可以包括标准协议，如红外数据协会（IRDA）标准、Wi-Fi、蓝牙等，或任何其它专有协议，连接到接收装置108。触屏控制装置116的操作将在下面更加详细地描述。

在图1的示例中，系统100还包括后端服务器118和使用数据库120。后端服务器118包括分析用户使用习惯并基于这些使用习惯做出推荐的个性化引擎。用户数据库120是存储用户使用习惯的地方。在某些情形中，使用数据库120可以是后端服务器118的一部分。在当前示例中，后端服务器118（以及使用数据库120）连接到系统100并且通过传送网络2（112）访问。

现在转向图2，示出了接收装置200的实施例的框图。接收装置200可以以相似于图1中描述的接收装置工作，并且可以被包括作为网关装置、调制解调器、机顶盒或其它类似通信装置的一部分。装置200还可以被引入到其它的包括音频装置或显示装置的系统。在任何一种情形中，为了简明扼要，未示出若干对完成系统运行来说必需的组件，因为它们是本领域技术人员所熟知的。

在图2所示的装置200中，通过输入信号接收器202接收内容。输入信号接收器202可以是若干已知的用于接收、解调和解码通过若干可能的网络（包括通过空中、有线、卫星、以太网、光纤和电话线网络）中的一种提供的信号的接收器电路中的一种。输入信号接收器202可以基于通过控制界面222提供的用户输入来选择并获取想要的输入信号。控制界面222可以包括用于触屏装置的界面。触摸平板界面222还可以适应于连接到蜂窝电话、平板电脑、鼠标、高端遥控器等。

已解码的输出信号被提供给输入流处理器204。输入流处理器204进行最终的信号选择和处理，包括将内容流的视频内容与音频内容分离。音频内容被提供给音频处理器206以从接收格式（如压缩数字信号）转换成模拟波形信号。模拟波形信号被提供给音频接口208，并被进一步提供给显示装置或音频放大器。替代性地，音频接口208可以使用高清多媒体接口（HDMI）电缆或者通过替换的音频接口（如索尼/飞利浦互联格式（SPDIF））将数字信号提供给音频输出装置或显示装置。音频接口还可以包括用于驱动一组或多组扬声器的放大器。音频处理器206还进行任何对存储音频信号来说必要的转换。

来自输入流处理器204的视频输出被提供给视频处理器210。视频信号可以是若干格式中的一种。如有必要，视频处理器210基于输入信号格式对视频内容进行转换。视频处理器210还进行任何对存储视频信号来说必要的转换。

存储装置212存储在输入端接收到的音频和视频内容。存储装置212使得在控制器214的控制下以及还基于从用户接口216和/或控制接口222接收到的命令，例如，导航指令如快进（FF）和回退（Rew），稍后获取并回放内容。存储装置212可以是硬盘驱动器、一个或多个大容量集成电子存储器，如静态RAM（SRAM）或动态RAM（DRAM），或者可以是可互换光盘存储系统，如致密盘（CD）驱动器或数字视频盘（DVD）驱动器。

来自视频处理器210的、源自输入端或者源自存储装置212的转换后的视频信号被提供给显示接口218。显示接口218进一步将显示信号提供给上述类型的显示装置。显示接口218可以是模拟信号接口，如红绿蓝（RGB），或者可以是数字接口，如HDMI。应该理解的是，显示接口218将生成用三维网格展示搜索结果的多个屏幕，这将在下面更加详细地描述。

控制器214通过总线和装置200的若干组件互连，这些组件包括输入流处理器202、音频处理器206、视频处理器210、存储装置212和用户接口216。控制器214管理将输入流信号转换成供存储在存储装置上或供显示的信号的转换过程。控制器214还管理已存储内容的获取和回放。此外，如下所述，控制器214进行内容搜索，并创建和调整表示被存储或者将通过传送网络传送的内容的网格显示，如上所述。

控制器214进一步耦接到用于存储控制器214的信息和指令代码的控制存储器220（例如，易失性或非易失性存储器，包括RAM、SRAM、DRAM、ROM、可编程ROM（PROM）、闪速存储器、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）等）。控制存储器220可以存储用于控制器214的指令。控制存储器还可以存储元素的数据库，如包含内容的图形元素。数据库可以被存储为图形元素模式（pattern）。替代性地，存储器可以将图形元素存储在被标识的或分组的存储器位置，并使用存取或位置表格识别与图形元素相关的信息的各个部分的存储器位置。与存储图形元素相关的更多细节将在下面描述。此外，控制存储器220的实施方式可以包括若干可能的实施例，如单个存储器装置，或者替代性地，通信连接或耦合在一起以形成共享或共用存储器的多于一个的存储器电路。此外，存储器可以和其它电路系统，如总线通信电路系统的若干部分一起被包括在更大的电路中。

本公开的用户接口处理采用了可以用来表达功能（如快进、回退等）的输入装置。考虑到这一点，可以通过接收装置200的用户接口216和/或控制接口222连接第二屏幕控制装置，如触摸平板装置。

图3描述了在机顶盒（STB）310中，如上述关于图1和图2讨论的接收装置106、200中，进行语义解释涉及的过程300的一个可能的实施例。这里，STB310从内容源102接收内容305。然后在三个部分中处理内容305：1）关键字收集320，2）概念收集340，3）概念处理360。在关键字收集320中，隐藏式字幕提取器325被用来接收、抓取和以其它方式提取被作为内容305的一部分而提供的隐藏式字幕数据。然后，使用语句分割器330在隐藏式字幕数据中识别语句结构以寻找候选短语和关键字，如语句的主语或宾语以及所有的短语。对隐藏式字幕的许多语句来说，主题词（subject phrase）是非常重要的。这样，可以使用依赖性分析器找到语句的头部，如果语句的头部也是候选词，那么可以给予该语句的头部更高的优先级。然后，使用候选关键字在概念收集340中寻找相关概念。在这里，还使用语义解释器350将候选关键字映射到概念。然后，通过概念累加器（accumulator）340可以将这些概念编组在一起。然后，可以对由此得到的累积的概念进行处理360。这可以包括排列等级365和其它的功能，如创建用户配置文件（profile）370。

例如，片段的隐藏式字幕可以被用来创建用户的TV观看配置文件，这样可以使得内容个性化，从而改善给予用户推荐的质量。目前存在许多创建准确且提供信息的用户配置文件的其它的应用程序，如能够匹配广告或能够建议具有相似兴趣的朋友。当前系统根据用户的TV观看习惯创建配置文件要面临的关键问题是稀疏性和缺乏准确数据。为了减轻该问题，可以抓取与观看的TV节目片段对应的隐藏式字幕片段以及其它的元数据，如观看时间和节目的EPG信息。通过抓取隐藏式字幕，了解用户的兴趣所在是可能的并提供了基础以给出基于内容的推荐。此外，当使用语义解释器将抓取到的隐藏式字幕映射到概念空间时，更加直观地理解并充分利用得到的配置文件。作为额外的收益，由于不存储整个隐藏式字幕片段，因此需要存储的数据量降低了。只存储隐藏式字幕片段表示的top-k个概念。

在另一个示例中，被语义解释器映射的概念可以被用来基于隐藏式字幕数据在线（用于例如直播/广播）和离线（用于例如DVRed）分割视频。每个片段应该包含一组概念，以使得它是一个连贯的单元（例如，晚间新闻中有关泰格·伍兹的片段）。一旦视频被分割，对应的隐藏式字幕片段就被映射到概念空间，并且使用得到的top-k个概念对视频进行注释。这种应用能够让人们和朋友一起分享这些迷你剪辑（mini clips），或者将它们保存到DVR，或者仅仅给其加上感兴趣的标签。在用户并不对整个视频感兴趣，或者整个视频可能太大以致于难以分享，或者可能有版权问题时，这样做是有好处的。现代DVR已经记录了正在观看的节目以便提供实时的暂停/回退功能。这可以被进一步增强为触发分割和概念映射算法，使得可以伴随检测到的片段之前和之后的短暂时间间隔（+/-t秒）对得到的片段贴上标签和/或存储和/或分享。

在另一个示例中，这些技术可以被用来改善搜索。目前，为了找到感兴趣的节目，用户需要使用精确的关键字搜索信息。虽然在用户确切地知道什么是他正在寻找的情况下这样做是有帮助的，但是搜索准确的关键字也阻碍了发现用户可能感兴趣的更新或更令人兴奋的内容。语义解释器可以被用来解决这个问题。可以从维基百科中导出概念空间，这是由于出于实用的目的可以认为维基百科代表整个人类知识。因此，任何被表示在此空间中的文档都可以使用相同的概念来查询。例如，用户应该能够使用高层次的知识，如“庞氏骗局”或“供应链”，并发现与该概念最相关的媒体。即使相应的媒体不具有严格匹配“庞氏骗局”或“供应链”的关键字，这种发现也将是可能的。此外，通过设置若干常设的过滤器（standing filter），任何输入的媒体都可以被映射到概念空间，并且如果这些概念与常设的过滤器匹配，那么可以对这样的媒体进行标记以供系统的进一步的操作。当与用户过滤规则匹配的节目被广播时，通知用户，并且用户选择保存、浏览相关、分享或观看它们。

虽然在图3的示例中，处理在STB310中进行，但是应该明白的是，也可以在内容源102或服务提供商104、110处进行相同的处理。在某些情形中，这些部分根据需要或期望可以分离在不同的装置之中或位置上。实际上，在许多情形中，语义解释在远程服务器上进行，并且产生的概念被提供回STB310、内容源102或服务提供商104、110以供进一步处理。

在内容源102处进行处理的情形中，当创建内容时，对应的隐藏式字幕或对白字幕的数据被映射到概念空间。然后，将这些推断的概念作为单独的流嵌入媒体多路复用器（例如，使用MPEG-7标准）。这样做的优点是，对每个媒体文件而言，这个过程只需进行一次而不是多次。这样做的缺点是，需要针对这些元数据的嵌入、进一步处理和消费制定若干标准。

在服务提供商104或110处进行处理的情形中，处理发生在通过服务提供商的网络或在云中发送内容时。例如，服务提供商可以使用语义解释器处理所有的输入信道，并以合适的方式（MPEG-7、专有的或使用基于Web的技术）嵌入元数据。服务提供商不需要诉诸于标准方案，只要它们的STB可以解释和进一步处理这些元数据。这种方法的一大优点是不需要制定详细的标准；此外，这些方案也可以用来区分不同的服务提供商。

现在转向图4，描述了流程图400，其示出了使用top K个概念进行语义解释涉及的处理的一个实施例。首先，获得用于语义解释的一个或多个关键字（步骤410）。然后，使用一个或多个关键字来计算知识数据库中的top-k个概念（步骤420）。然后，可以使用top-k个概念将关键字映射到概念空间（步骤430）。

可以以任何数目的方式获得一个或多个关键字。可以使用上面参照图3所述的涉及隐藏式字幕数据的关键字提取来获得关键字。在其它的实施例中，可以从与一段内容有关的数据（如总结、节目描述、摘要、概要等）中提取关键字。在另外的其它实施例中，用户可以提供搜索术语。在下面对处理的描述中，提供关键字作为文档的一部分。

下面结合图5至8、利用对SparseTopk算法的讨论来描述计算top-k个概念（步骤420）和映射到概念空间（步骤430）的步骤。

问题定义

在本节中，正式定义该问题，并介绍用来开发和描述算法的符号。

使用所有可能的维基百科概念进行语义重新解释

设U是具有u个不同单词的词典。维基百科中的概念被表示为例如u×m的c-concept矩阵C（530）形式，其中m是对应于维基百科文章的概念的数目，u是在词典中的不同的关键字的数目。令C_i,r表示第r个概念C_r中第i个关键字t_i的权重。令C_-,r=[w_1,r,w_2，r，...,w_u，r]^T是第r个概念向量。不失一般性地，假设每个概念向量C_-,r都被归一化为单位长度。

给定词典U，文档d被表示为l维向量，

给定关键字-概念矩阵C（530）和文档向量

使用所有可能的维基百科概念进行语义重新解释（丰富过的）后的文档向量

被定义为：

\overset{&RightArrow;}{d^{'}} = \overset{&RightArrow;}{d} C

通过定义矩阵乘法，概念C_r在向量

中的贡献度计算如下：

{w^{'}}_{r} = \underset{1 \leq i \leq u}{Σ} w_{i} \times C_{i, r} = \underset{&ForAll; w_{i} &NotEqual; 0}{Σ} w_{i} \times C_{i, r}

使用Top-k个维基百科概念进行语义重新解释

正如在以上介绍中提到的，计算

所有可能的维基百科概念可能代价高到难以承受。因此，目标是使用维基百科中与之相关的最佳的k个概念重新解释文档。

给定重新解释的文档

令S_k是一组k个概念，使得下式成立：

&ForAll; c_{r} &Element; S_{k}, c_{p} &NotElement; S_{k}

w'_r≥w'_p

换言之，S_k包含k个概念，其对

的贡献度大于或等于其它概念。然后，基于维基百科中与之匹配的top-k个概念对

进行的语义重新解释被定义为

\overset{&RightArrow;}{d^{'}} = [w_{1}^{'}, w_{2}^{'}, . . ., w_{m}^{'}],

其中

如果c_r∈S_k，

{w^{'}}_{r} = \underset{1 \leq i \leq u}{Σ} w_{i} \times C_{i, r} = \underset{&ForAll; w_{i} &NotEqual; 0}{Σ} w_{i} \times C_{i, r}

否则，w'_r=0。

问题定义：使用近似Top-k个维基百科概念进行语义重新解释

精确计算与给定文档相关的最佳的k个概念通常要求扫描整个关键字-概念矩阵，这样做的代价是非常高昂的。因此，为了进一步提高效率，将S_k放宽如下：给定文档

令S_k,α是一组k个概念，使得S_k,α中至少有αk个答案（answer）属于S_k，其中0≤α≤1。然后，目标定义如下：

问题1（使用S_k,α进行语义重新解释）给定关键字-概念矩阵C、文档向量

以及对应的近似最佳k个概念S_k，α，基于维基百科中与之匹配的近似top-k个概念对

进行的语义重新解释被定义为

其中

如果c_r∈S_k,α，

w_{r}^{'} \approx \underset{1 \leq i \leq u}{Σ} w_{i} \times C_{i, r} = \underset{&ForAll; w_{i} &NotEqual; 0}{Σ} w_{i} \times C_{i, r}

否则，w'_r=0。

换言之，原始文档d被近似地从单词空间510映射到由维基百科中与文档d最为匹配的近似的k个概念构成的概念空间520。因此，该问题的关键挑战是如何高效地识别这些近似的top-k个概念S_k，α。为了解决这个问题，提出一种新颖的排列等级处理算法，以高效地计算给定文档的S_k，α。

S_k的朴素解（naive solution）

在本节中，首先描述用于精确计算给定文档的top-k个概念S_k的朴素方案（即不实用的解决方案）。

扫描整个数据

对这个问题的一个显而易见的解决方案是：扫描整个u×m关键字-概念矩阵C530，用文档向量

乘以每个概念向量C_-，r，按降序排序得到的分数w′_r（其中1≤r≤m），并只选择k个最佳解。对这个问题的一个更有发展前景的解决方案是利用（leverage）IR系统中常用的反向索引，它使得仅扫描其在关键字-概念矩阵中的对应值大于0的那些项成为可能。这两种方案的代价都非常高昂，因为它们将大部分资源浪费在处理不属于最佳k个结果的没有希望的数据上。

基于阈值的排列等级处理方案

目前已经存在大量的排列等级或top-k处理的建议。如上所述，基于阈值的方法，如阈值算法（TA）、Fagin算法（FA）和禁止重复（No Repeating）算法（NRA）是最广为人知的方法。这些算法都假设给定若干排序的列表，每个对象在每个列表中都有一个单一的分数，将独立对象在每个列表中的分数组合在一起的聚合函数是单调的，如最小值函数、最大值函数、（加权)和函数以及乘积函数。这些单调的打分函数保证在其子分数上较之其余的居于主导地位的候选者将具有较之其余的更好的组合分数，这使得在top-k计算过程中较早地停止成为可能，以避免扫描所有的列表。通常说来，TA（和FA）算法要求两种存取方法：随机存取和顺序存取。然而，支持随机存取高维数据（如文档项矩阵）的代价可能高到难以承受。因此，采用NRA用作基础框架，这是由于它只要求顺序存取方法，从而适合用于高维数据，如概念矩阵C。

概念矩阵的排序的反转列表

为了支持顺序存取u×m的关键字-概念矩阵C530，创建了包含u个列表的反转索引610（图6）。对每一个关键字t_i，对应的列表L_i都包含一组<c_r,C_i，r>，其中C_i，r是关键字t_i在维基百科概念c_r中的权重。如图6所示，每个反转的列表只保留其权重大于0的概念。以权重的降低值来创建该反转的列表以支持顺序存取。

用于计算S_k的基于NRA的方案

根据上面给出的w'_r的定义，明显地，由于打分函数被定义为加权和，因此它在u个独立的列表中是单调的。给定文档

NRA以循环（round-robin）方式访问输入列表，并更新阈值向量

其中τ_i是在列表L_i上读取的最近的权重。换言之，阈值向量由输入列表中看不见的实例的权重的上界组成。在读取列表L_i中的实例<c_r,C_i,r>之后，语义重新解释的文档向量

中第r个位置的可能的最差分数计算如下：

{w^{'}}_{r, wst} = \underset{h &Element; {KN}_{r}}{Σ} w_{h} \times C_{h, r}

其中KN_r是概念向量C_-,r中的一组位置，其对应的权重之前已经由该算法读出。另外一方面，

中第r个位置的可能的最好分数计算如下：

{w^{'}}_{r, bst} = \underset{h &Element; {KN}_{r}}{Σ} w_{h} \times C_{h, r} + \underset{j &NotElement; {KN}_{r}}{Σ} w_{j} \times μ_{j}

总而言之，可能的最差分数是基于下列假设计算的：概念向量中看不见的项将为0，而可能的最佳分数假设了将在每个列表的最后一次扫描位置之后遇到概念向量中所有看不见的项。NRA保持截断分数min_k等于当前top-k个候选者中的最低分数。当截断分数min_k大于（或等于）不属于当前top-k个候选者的概念的最高最佳分数时，NRA将停止计算。虽然该停止条件始终保证产生正确的top-k个结果（即该情形中的S_k），但是这样的终止条件过于保守（pessimistic），假设在每个列表的当前扫描位置之后将读取每个概念向量的所有的未知值。然而，情况并非如此，特别对于稀疏关键字-概念矩阵而言，其中以非常高的概率将每个概念向量的未知值预期为0，。因此，NRA可能会最终扫描完整个列表，这样做的代价是非常高昂的。

使用维基百科概念高效解释文档

在本节中，描述用于使用维基百科的高效语义解释器的算法。提出的算法由两个阶段组成：（1）计算给定文档的近似top-k个概念S_k，α；以及（2）使用S_k，α将原始文档映射到概念空间。

阶段1：识别近似top-k概念S_k，α

如上所述，基于阈值的算法是基于下列假设：给定排序列表，每个对象在每个列表中具有单一的分数。NRA算法中看不见的对象的可能的分数是基于此假设计算的。然而，这个假设对其中大部分项都是0的稀疏关键字-概念矩阵来说不成立。因此，在这个小节，首先描述一种使用稀疏关键字-概念矩阵来估计看不见的对象的分数的方法，然后提出一种利用预期分数获得给定文档的近似top-k个概念的方法。

估计输入列表数目的边界

由于每个对象在每个输入列表中具有单一分数的假设对稀疏关键字-概念矩阵来说是无效的，因此本小节的目标是正确估计输入列表数目的边界，其中在计算过程中预期要找到每个对象。直方图通常被用来近似数据分布（即概率密度函数）。现有的许多近似top-k处理算法都保留直方图用于输入列表，并通过求直方图的卷积来估计未知对象的分数。一般情况下，近似方法比精确方案要高效得多。然而，考虑到对关键字-概念矩阵来说，列表的数量极为庞大，在运行时保留这种直方图并求它们的卷积以计算可能的聚合分数不是一个可行的解决方案。因此，为了获得更高的效率，通过依靠二项分布来简化每个反转的列表的数据分布：即，一种是反转的列表包含给定的概念的情况，另外一种是它不包含的情况。由于概念矩阵的极度稀疏性，这种简化的数据分布不会引起top-k个结果的质量的显著降低。

给定关键字t_i和关键字-概念矩阵C，对应的排序列表L_i的长度被定义为

|L_i|=|{C_i，r|C_i，r>0，其中1≤r≤m}|

给定u×m的关键字-概念矩阵C，将实例<c_r,C_i，r>在L_i中的概率用公式表达为

\frac{| L_{i} |}{m}

一般情况下，基于阈值的算法顺序扫描每个排序列表。可以假设该算法从排序列表L_i顺序扫描最前面的f_i个实例，在扫描过程中未看见实例<c_r,C_i,r>。然后，可以计算在列表L_i的未扫描部分（即，剩下的(|L_i|-f_i)个实例）中找到实例<c_r,C_i,r>的概率如下：

P_{< C_{i, r}, f_{i} >} = \frac{| L_{i} | - f_{i}}{m - f_{i}}

注意到，在每个对象在每个输入列表中具有单一分数的假设下，

将是1（即，|L_i|=m）。然而，关键字-概念矩阵是极度稀疏的，因此在大多数情况下，

接近0。

给定文档d和对应的u维向量此外，给定

令L是一组排序列表，使得

L={L_i|w_i>0，其中1≤i≤u}

换言之，L是其对应的单词出现在给定文档d中的一组排序列表。其它不在L中的列表对语义重新解释的向量

的计算没有贡献，因为它们在原始向量中对应的权重等于0（图2）。

此外，可以假设单词在文档中的出现是相互独立的。由于其的简单性，

单词独立的假设长期以来被许多应用程序使用。令是这样的概率：在目前为止在任何列表中还未被看见的概念c_r其后将在L中恰好n个列表中被找到的概率。然后，这个概率可以计算如下：

P_{found_exact (L, c_{r}, n)} = (\begin{matrix} | L | \\ n \end{matrix}) p_{< c_{r}, avg >}^{n} \times {(1 - P_{< c_{r}, avg >})}^{| L | - n}

其中，

p_{< c_{r}, avg >} = \frac{1}{| L |} \underset{L_{i} &Element; L}{Σ} P_{< C_{i, r}, f_{i} >}

此外，可以计算在计算过程中将在L中多达n个列表中找到完全看不见的概念c_r的概率

如下：

P_{found_upto (L, c_{r}, n)} = \underset{0 \leq q \leq n}{Σ} P_{found_exact (L, c_{r}, q)}

注意，

总是等于1。

如稍前所述，本发明的一个目标是找到近似top-k个概念S_k，α，它满足在S_k,α中至少有αk个答案属于精确的top-k个结果S_k。设想应用（或用户）被提供可接受的准确率α，为了计算其中将找到完全不可用的概念c_r的列表的数量的边界b_r，选择的值是满足以下公式的最小值b_r：

P_{found_upto (L, c_{r}, b_{r})} &GreaterEqual; α

总而言之，b_r是满足看不见的概念c_r少于b_r个输入列表的概率大于可接受准确率α的最小值。

计算完全或部分看不见的对象的预期分数

一旦估计了在其中将找到任何完全看不见的对象的列表的数量，就可以计算完全（或部分）看不见的对象的预期分数。

给定当前阈值向量

和原始文档向量定义W如下：

W={w_i×τ_i|1≤i≤u}

然后，完全看不见的概念c_r的预期分数被界定为：

{w^{'}}_{r, \exp} \leq \underset{1 \leq h \leq b_{r}}{Σ} W_{h}

其中W_h是W中第h个最大值。

反转索引中的每个列表按照权重而不是概念ID进行排序，这在top-k计算期间产生给定概念c_r的部分可用（看见的）的概念向量。因此，还需要估计已被部分看见的对象的预期分数。令c_r是已被部分看见的概念。此外，令KN_r是概念向量C_-,r中一组位置，之前已经通过该算法得知了其权重。然后，已被部分看见的概念c_r的预期分数定义如下：

如果|KN_r|≥b_r，那么

{w^{'}}_{r, \exp} = \underset{h &Element; {KN}_{r}}{Σ} w_{h} \times C_{h, r}

否则，

{w^{'}}_{r, \exp} = \underset{h &Element; {KN}_{r}}{Σ} w_{h} \times C_{h, r} + \underset{| {KN}_{r} | + 1 \leq h \leq b_{r}}{Σ} w_{h}

注意，当将在其中找到c_r的输入列表的数量的边界b_r与L相同时，任何已被完全或部分看见的概念c_r的预期分数将等于上面所述的可能的最佳分数。然而，关键字-概念矩阵的稀疏性保证了预期分数总是小于可能的最佳分数。

算法

图7描述了提出的高效计算给定文档的近似top-k个概念S_k,α的算法的伪码。该算法首先初始化一组近似top-kS_k，α、截断分数min_k以及一组候选者Cnd。

阈值向量

被初始地设置为[1,1，...,1]。初始地，计算任何完全看不见的概念的预期分数，如上所述（第1-5行）。

一般情况下，阈值算法以round-robin方式访问或存取输入列表。然而，在输入列表具有各种长度的情形中，这种方案可能是比较低效的，这是因为资源被浪费用来处理其对应分数相对较低、但由于属于较短的列表而被较早读取的没有希望的对象上。为了解决这个问题，以一种使得完全不可用的概念的预期分数最小化的方式来访问输入列表。直观上看，这使得该算法通过提供较高的截断分数min_k从而较早地停止计算成为可能。

给定原始文档

和当前阈值向量

来决定将通过该算法下一次要读取的哪一个输入列表，期望列表L_i（第8行）使得：

{&ForAll; L}_{h} &Element; L - {L_{i}}, w_{h} \times τ_{h} < w_{i} \times τ_{i}

满足上述条件的列表可以保证使得任何不可用概念的预期分数最小化，并因此为该算法提供较早的停止条件。

对列表L_i中新近被看见的实例<c_r,C_i,r>，计算对应的最差分数w′_r，wst，并使用<c_r,w′_r，wst>更新候选列表（第9-11行）。选择截断分数min_k以使得min_k等于当前候选组Cnd中最差分数的第k个最高值（第12行）。然后，更新阈值向量（第13行）。

在15至20行之间，从候选组中去除将以较高的概率不在top-k个结果中的没有希望的概念。对当前候选组中的每个概念c_p，如上所述计算对应的预期分数w′_p，exp。注意到当前候选组中的每个概念对应于一个被部分看见的概念。如果被部分看见的概念c_p的预期分数w'_p，exp小于截断分数，那么从当前候选组中去除该对<c_p,w′_p，wst>，因为该概念未被预期以较大概率在最终的top-k个结果中（第18行）。在第21行，计算任何完全看不见的概念的预期分数。只有在当前候选组包含k个元素并且完全看不见的概念的预期分数很可能小于截断分数时，top-k计算才停止（第7行）。

阶段2：将文档从关键字空间映射到概念空间

一旦识别了给定文档的近似top-k个概念，那么下一步就是将原始文档从关键字空间映射到概念空间。图8描述了用于使用S_k，α将原始文档从关键字空间映射到概念空间的伪码。

初始地，语义重新解释的向量

被设置为[0,0，...,0]（第1行）。由于图4中的算法在扫描全部的输入列表之前停止，因此S_k,α中概念的概念向量是部分可用的。因此，对S_k,α中每个概念，需要使用被部分看见的概念向量来估计预期分数，如上所述（第3行）。然后，使用估计的分数来更新语义重新解释的向量

中对应的项（第4行）。最后，算法返回语义重新解释的文档向量

（第6行）。

描述了一种新颖的语义解释器用于基于维基百科的概念来高效地使得原始文档丰富。提出的方法对于给定的文档能够高效地识别维基百科中最重要的K个-概念，并利用这些概念通过将其从关键字空间映射到概念空间而在语义上丰富原始文档。实验结果表明，提出的技术显著提升了语义重新解释的工作效率，而不会造成精度的明显下降。

基于在此的教导，相关领域中的普通技术人员可以容易地确定本原理的这些和其它的特征和优点。应该理解的是，本原理的教导可以被实施成硬件、软件、固件、专用处理器或其组合的各种形式。

最优选地，本原理的教导被实施为硬件和软件的组合。此外，软件可以被实施为有形地体现在程序存储单元上的应用程序。应用程序可以被上载到并且由包括任何合适的体系结构的机器执行。优选地，该机器可以被实施在具有硬件，诸如一个或多个中央处理单元（CPU）、随机存取存储器（RAM）和输入/输出（I/O）接口的计算机平台上。该计算机平台还可以包括操作系统和微指令代码。在此描述的各个过程和功能可以是可以由CPU执行的微指令代码的一部分或者是应用程序的一部分或者是它们的任何组合。另外，可以将各种其它的外围单元连接到计算机平台上，诸如附加的数据存储单元和打印单元。

还应该理解的是，由于附图中描述的一些组成系统的组件和方法优选地被实施为软件，因此系统组件或处理功能块之间的实际连接可能根据本原理被编程的方式而有所不同。考虑在此的教导，相关领域中的普通技术人员将能够设想出本原理的这些以及类似的实施方式或配置。

尽管在此已经参照附图描述了示例性实施例，但是应该理解的是，本原理并不限于这些精确的实施例，相关技术领域的普通技术人员可以在不偏离本发明原理的范围或精神的情况下对其做出各种变化和修改。所有这些变化和修改都旨在被包括在所附权利要求陈述的本原理的范围内。

Claims

1.一种对关键字进行语义解释的方法，所述方法包括下列步骤：

获得用于语义解释的一个或多个关键字；

对于所述一个或多个关键字计算知识数据库中的top-k个概念；以及

使用所述top-k个概念将所述一个或多个关键字映射到概念空间。

2.如权利要求1所述的方法，其中计算top-k个概念的步骤包括下列步骤：

估计输入行的数目的边界；以及

计算完全或部分看不见的对象的预期分数。

3.如权利要求1所述的方法，其中获得一个或多个用于语义解释的关键字的步骤包括从被包括在内容中的隐藏式字幕数据中提取关键字。

4.如权利要求1所述的方法，进一步包括对通过将一个或多个关键字映射到概念空间而产生的概念进行处理。

5.如权利要求4所述的方法，其中所述处理包括对所述概念排列等级。

6.如权利要求4所述的方法，其中所述处理包括基于产生的概念创建用户配置文件。

7.如权利要求4所述的方法，其中所述处理包括基于产生的概念创建分割的内容。

8.如权利要求4所述的方法，其中所述处理包括基于产生的概念进行过滤。

9.如权利要求4所述的方法，其中所述处理包括基于产生的概念进行搜索。

10.一种用于对关键字进行语义解释的系统，所述系统包括：

关键字收集；

概念收集；以及

概念处理。

11.如权利要求10所述的系统，其中所述关键字收集包括：

隐藏式字幕提取器；以及

语句分割器。

12.如权利要求10所述的系统，其中所述概念收集包括：

语义解释器；以及

概念累加器。

13.如权利要求10所述的系统，其中所述概念处理包括：

排列等级；以及

用户配置文件。

14.一种包括具有计算机可读程序的计算机可用介质的计算机程序产品，其中当在计算机上执行时，所述计算机可读程序使得所述计算机执行以下方法步骤，包括：

获得用于语义解释的一个或多个关键字；