CN102939602B

CN102939602B - 对网站中的内容按语义排列等级

Info

Publication number: CN102939602B
Application number: CN201080067532.7A
Authority: CN
Inventors: S.J.刘; S.林; J.金; Y.熊; P.M.乔施; N.巴蒂; J.J.刘; J.范; S.杨
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2010-04-19
Filing date: 2010-04-19
Publication date: 2016-10-12
Anticipated expiration: 2030-04-19
Also published as: WO2011130870A8; US20130114105A1; EP2561452A4; CN102939602A; US8918403B2; WO2011130870A1; EP2561452A1

Abstract

使用计算机化排列等级装置（105）对网站（110）中的内容按语义排列等级包括：使用计算机化排列等级装置（105）将来自网站（110）的内容解析成多个自治的内容块（415‑1到415‑17），以及使用所述计算机化排列等级装置（105），基于内容块（415‑1到415‑17）的主旨与多个预定义类别之一相关的程度，向所述内容块（415‑1到415‑17）中的每一个分配重要性等级。

Description

对网站中的内容按语义排列等级

背景技术

常常出现这样的情况：组织将维持在互联网上的存在，以为客户、商业伙伴和其他信息搜索者提供关于该组织的廉价且易得的信息。当前，实现这种类型的互联网存在的最常见方法是通过网站。因为几乎所有人都可以通过这种或那种方式访问互联网，所以网站在向那些搜索关于该组织的信息的人们暴露该组织方面可能是非常有效的。

由组织维持的网站可以是各种内容的储存库。因此，在一些情况下在其他类型的媒体（诸如印刷的营销媒体）中重新使用为网站开发的内容可能是实用的。尽管如此，在创建这些其他类型的媒体时，并非网站上的所有内容都具有相等价值。例如，在用于组织的印刷的营销小册子中，网站上的那个组织的联系信息可能比网站上的涉及在线申请职位的内容更有用。结果，筛选网站的内容以确定哪个内容最适合在特定的应用中重新使用可能是耗时的过程。

附图说明

附图说明了这里描述的原理的各种实施例，并且附图是说明书的一部分。说明的实施例仅仅为示例并且不限制权利要求的范围。

图1是根据这里所描述的原理的一个示范性实施例的用于按语义对网站中的内容排列等级的说明性系统的框图。

图2是根据这里所描述的原理的一个示范性实施例的由说明性计算机化的网站内容排列等级实现的功能块的框图。

图3是根据这里所描述的原理的一个示范性实施例的被设计用于重新使用从网站提取的按语义排列等级的内容的媒体文章（article）的说明性模板的图。

图4是根据这里所描述的原理的一个示范性实施例的表示说明性网站的分级结构的树形图。

图5是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容的说明性目标媒体文章的图。

图6是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。

图7是根据这里所描述的原理的一个示范性实施例的通过说明性计算机化的网站内容排列等级装置实现的功能块的框图。

图8是根据这里所描述的原理的一个示范性实施例的说明性内容等级列表的图。

图9是根据这里所描述的原理的一个示范性实施例的结合了从网站提取的内容的说明性营销小册子的图。

图10是根据这里所描述的原理的一个示范性实施例的对结合了从网站提取的按语义排列等级的内容的媒体文章进行创建的说明性方法的流程图。

在所有附图中，相同的附图标记表示类似但未必相同的元件。

具体实施方式

如上所述，在一些情况下，从网站提取内容以在另一种类型的媒体中重新使用可能是节省成本的。然而，网站上可用的所有内容可能不具有相等价值，或者甚至与目标媒体文章的创建相关。特别是在大的网站的情况下，筛选整个网站来手动地提取相关的内容以在目标媒体文章中重新使用可能是耗时并且繁重的。于是，可能期望的是提供一种对网站内容自动按语义排列等级以在创建目标媒体文章中使用的方法。

鉴于这些考虑，本说明书公开了用于对网站中的内容按语义排列等级的各种方法、系统和装置。对网站内容按语义排列等级的过程包括：将来自网站的内容解析成多个自治的内容块，基于内容块的主旨（substance）将每个内容块分配到预定义的类别，以及根据与其分配的预定义的类别相关联的重要性的程度对每个内容块排列等级。在某些实施例中，然后可以根据等级将内容块自动组装成目标媒体文章。

这里描述的原理有利地实现了基于可改变的一组语义根据其重要性自动组织来自网站的内容，从而消除在整个网站中手动地搜寻适于在期望的应用中重新使用的内容的需求。通过这样做，这里描述的系统、方法和装置简化了为新应用重新使用网站内容的过程，使得网站的所有者可以提高该内容的价值。

尽管主要关于其中基于从网站提取的信息使用按语义排列等级的内容来自动生成文档的实施例描述了在本说明书中阐述的原理，但是应当理解的是，这些原理不限于这样的实施例。相反，预期的是，也可以将这里描述的新原理应用于其中可以利用按语义排列等级的网站内容的任何其他的应用。

如在本说明书中和在所附权利要求书中所使用的，术语“网站”是指网页或共享共同的统一资源定位符（URL）域的网页集合。

如在本说明书中和在所附权利要求书中所使用的，术语“网页”是指可以通过网络连接从服务器检索并在web浏览器应用中观看的文档。

在以下的描述中，为了解释的目的，大量特定的细节被阐述以便提供对本系统和方法的透彻理解。然而，对于本领域的技术人员而言将显而易见的是，本系统和方法可以在没有这些特定细节的情况下实现。在说明书中对“实施例”、“示例”或类似语言的引用意味着在至少那一个实施例中，但未必在其他实施例中，包括结合该实施例或示例来描述的特定特征、结构或特性。短语“在一个实施例中”或类似短语在本说明书中各处的各种实例未必全都指相同的实施例。

现在将关于用于按语义对网站中的内容排列等级的说明性系统、装置和方法论述这里公开的原理。

现在参考图1，用于按语义对网站中的内容排列等级的说明性系统（100）包括网站内容排列等级装置（105），其可以访问由网站服务器（115）存储的网站（110）。在本示例中，网站内容排列等级装置（105）和网站服务器（115）是通过连接通信地耦合到公共网络（120）的分离的计算装置。然而，在本说明书中阐述的原理同样地扩展到任何替代配置，其中网站内容排列等级装置（105）可以完全访问网站（110）。照此，在本说明书的原理范围内的替代实施例包括，但不限于，其中由同一计算装置实现网站内容排列等级装置（105）和网站服务器（115）的实施例、其中网站内容排列等级装置（105）和网站服务器（115）通过总线直接通信而无需中间的网络装置的实施例、以及其中网站内容排列等级装置（105）可以访问所存储的网站（110）的本地副本的实施例。

本示例的网站内容排列等级装置（105）是被配置成抓取由网站服务器（115）主控的网站（110）并根据一组语义对网站（110）中存在的内容排列等级的计算装置。实际上，网站内容排列等级装置（105）通过使用适当的网络协议（例如，网际协议（“IP”））从网站服务器（115）请求与网站（110）相关联的所有网页来抓取网站（110）。网站内容排列等级装置（105）可以存储并处理从网站服务器（115）返回的网页中的每一个以对网站内容排列等级。在下文中将更详细地阐述按语义对网站内容排列等级的说明性过程。

为了实现其期望的功能，网站内容排列等级装置（105）包括各种硬件部件。在这些硬件部件中可以是至少一个处理器单元（125）、至少一个存储器单元（130）、外围装置适配器（135）和网络适配器（140）。可以通过使用一个或多个总线将这些硬件部件互连。

处理器单元（125）可以包括从存储器单元（130）检索可执行的代码并执行该可执行的代码所必需的硬件架构。在由处理单元（125）执行时，可执行的代码可以使处理单元（125）实现抓取网站（110）并按语义对来自网站（110）的内容排列等级的功能。在执行代码的过程中，处理单元（125）可以从一个或多个其余的硬件单元接收输入并向一个或多个其余的硬件单元提供输出。

存储器单元（130）可以被配置成以数字方式存储由处理单元（125）消耗和产生的数据。存储器单元（130）可以包括各种类型的存储器模块，包括易失性和非易失性存储器。例如，本示例的存储器单元（130）包括随机存取存储器（RAM）、只读存储器（ROM）、其他类型的非易失性和易失性固态存储器和硬盘驱动器（HDD）存储器。在现有技术中很多其他类型的存储器是可用的，以及本说明书考虑如可能适合这里描述的原理的特定应用那样在存储器单元（130）中使用任何类型的存储器（130）。在某些示例中，可以针对不同的数据存储需求使用存储器单元（130）中的不同类型的存储器。例如，在某些实施例中，处理单元（125）可以从ROM引导，维持HDD存储器中的非易失性存储，并执行在RAM中存储的程序代码。

网站内容排列等级装置（105）中的硬件适配器（135，140）被配置成使处理单元（125）能够与网站内容排列等级装置（105）外部和内部的各种其他硬件元件对接。例如，外围装置适配器（135）可以提供到输入/输出装置的接口，以创建用户接口和/或访问存储器的外部存储源。外围装置适配器（135）还可以创建处理单元（125）和印刷机（145）或其他媒体输出装置之间的接口。例如，在网站内容排列等级装置（105）被配置成基于其对网站的内容的自动排列等级生成文档的实施例中，网站内容排列等级装置（105）可以进一步被配置成指示印刷机（145）创建文档的一个或多个物理副本。

网络适配器（140）可以提供到网络（120）的接口，从而实现向网络（120）上的其他装置（包括网站服务器（115））发送数据和从网络（120）上的其他装置（包括网站服务器（115））接收数据。

现在参考图2，示出了由与这里所描述的原理一致的网站内容排列等级装置（105，图1）实现的说明性功能（200）的框图。图中的每个模块表示由网站内容排列等级装置（105，图1）的处理单元（125）执行的功能元素。模块之间的箭头表示在模块之中的通信和互操作性。

在图2的示例中，网站内容排列等级装置（105，图1）被配置成使用针对目标文档的模板根据来自网站的内容与模板的相关性按语义对来自网站的内容排列等级。一旦已经对网站内容排列了等级，与模板最相关的内容就可以被用于以与模板一致的方式用来自网站的内容自动填充目标文档。

通过重新使用从网站提取的内容，可以想象，可以生成很多不同类型的目标文档。这样的文档的示例包括，但绝不限于，小册子、营销附属品、旅游日志、业务通讯、产品传单、目录等。不同类型的文档将可能具有不同的设计要求集合。例如，关于饭店的小册子可能与关于旅行社的小册子具有不同的外观和感觉。因此，预先制作的模板可以指定对于特定目标文档所期望的特定类型的内容和设计要求。使用这样的模板，网站内容排列等级装置（105，图1）可以执行图2中所说明的功能以从网页提取与模板最相关的内容。

在本示例中，由站点内多页抓取器模块（205）接收网站的URL（201）。该URL（201）可以是简单的域名（例如，example.com），其用作到网站中的所有页面的根。此外或可替代地，在被讨论的网站仅具有一个网页的情况下，URL可以是单个网页的web地址。可以由网站内容排列等级装置（105）的用户指定或者可替代地自动确定网站URL（201）。站点内多页抓取器模块（205）然后可以从网站服务器下载网站的每个网页以获得所有可用的网站内容。使该网站内容对于内容块提取模块（210）是可用的，其将网站内容划分成多个自治的内容块。

考虑用于将网站内容解析成内容块的各种不同的方法。在一些示例中，可以基于各种准则将网站内容解析成内容块，所述准则包括，但不限于，网页、内容中存在的标题和副标题、标点符号、图像元数据、它们的组合等。如适合这里所描述的原理的特定应用那样，可以使用将网站内容解析成内容块的任何其他方法。

然后可以由块语义提取模块（215）确定每个内容块的主旨并提供给匹配模块（220）。在某些实施例中，可以使用对每个内容块的文本分析（例如，关键字提取）确定内容块的主旨。此外，适合这里所描述的原理的特定应用的按语义确定每个内容块的主旨的任何其他方法可以被使用。

模板内容语义模块（225）向匹配模块提供模板的主旨。模板的主旨可以包括多个预定义类别，使得根据其与模板的相关性或重要性对每个类别排列等级。

匹配模块（220）然后可以基于每个内容块的主旨将该内容块分配到模板语义中的预定义类别之一。在某些实施例中，每个类别可以关联关键字，使得通过对内容块采用关键字提取，匹配模块（220）可以确定预定义类别中与每个内容块最相关的。此外或可替代地，匹配模块（220）可以基于检测到的内容块之内的字符模式将该内容块分配到特定的预定义类别。例如，可以将具有表示电话号码或电子邮件地址的字符模式的内容块分配给模板的“联系信息”类别。

然后可以根据模板的语义对内容块排列等级。例如，可以根据它们对应的被分配的类别对内容块排列等级。此外，在某些实施例中，可以根据它们与每个类别的相关性和/或重要性在那个特定类别之内对内容块排列等级。

匹配模块（220）然后可以根据模板内容语义，从对网站内容的分类和排列等级确定内容块中的哪些将被包括在目标文档中。然后可以从匹配模块（220）以由模板指定的格式输出所选的内容块。

图3-5说明根据图1-2所描述的功能使用从网站提取的内容基于模板自动创建目标文档的特定示例。

具体参考图3，示出了用于网站内容排列等级的说明性模板（300）。可以使用此特定模板（300）来创建印刷文档，诸如使用从网站提取的内容的营销小册子。如图3所示，说明性模板（300）包括被分成三个部分（305，310，315）的页面布局，所述三个部分也对应于模板（300）中的类别。这些类别是“关于我们”、“联系信息”和“地图”。因此，网站内容排列等级装置（105，图1）的任务可以是确定来自网站的哪个内容与这三个类别最相关。然后可以基于此模板（300）使用等级被排列为与这些类别最相关的内容来自动生成营销小册子。

图4是根据这里所描述的原理的从其提取内容并按语义排列等级的网站的树形分级结构（400）的图。根网页（405）可以是向到达网站的访问者初始显示的默认网页或主网页。通过根网页（405）上的链接可以访问各种二级网页（410-1到410-5）。在本示例中，这些二级网页（410-1到410-5）包括“关于”网页（410-1）、“产品”网页（410-2）、“联系我们”网页（410-3）、“在线商店”网页（410-4）和“常见问题”网页（410-5）。可以从“产品”网页（410-2）访问说明性的三级网页（410-6，410-7）。

网站内容排列等级装置（105，图1）的多页抓取器块（205，图2）可以检索这些网页（405，410-1到410-7）的每一个中的网站内容，并且内容块提取模块（210，图2）可以将网站内容划分成多个自治的内容块（415-1到415-17）。这些内容块可以包括文本块、图像、其他内容对象或它们的组合。块语义提取模块（215，图2）然后可以确定每个内容块（415-1到415-7）的主旨。

模板内容语义模块（225，图2）可以评估可适用的模板（300，图3）的语义。具体而言，模板内容语义模块（225，图2）可以确定与模板（300，图3）的部分（305，310，315，图3）对应的预定义类别。在本示例中，模板（300，图3）包括三个部分（305，310，315），具有分别与其相关联的“关于我们”、“联系信息”和“地图”的类别。除了识别这些类别之外，模板内容语义模块（225，图2）还可以识别与将内容块（415-1到415-17）分配到模板（300，图3）的每个相应类别相关联的任何关键字或其他语义。可以由模板（300，图3）、网站内容排列等级装置（105，图1）中的软件、或两者，提供这些关键字或其他语义。然后使模板（300，图3）的类别以及用于向其分配内容块（415-1到415-7）的语义对于匹配模块（220，图2）是可用的。

匹配模块（220，图2）然后可以根据内容块（415-1到415-7）的主旨将任何相关内容块（415-1到415-17）匹配到由模板（300，图3）定义的三个类别。将分配到由模板（300，图3）定义的类别的相关内容块（415-1到415-17）视为与模板（300，图3）最相关的内容块。此外，可以对每个类别中的内容块（415-1到415-17）排列等级以确定哪些内容块（415-1到415-17）与每个个体类别最相关。然后可以使用被视为与模板（300，图3）相关的内容块（415-1到415-17）通过如下方式生成符合模板（300，图3）的文档：从确定为跟与每个部分（305，310，315，图3）相关联的类别最相关的内容块（415-1到415-17）开始填充模板（300，图3）的该部分（305，310，315，图3），直到用完与该类别相关的所有内容块（415-1到415-17）或者模板（300，图3）的格式化约束防止在该部分（305，310，315，图3）中放置额外的内容块。

为了说明的目的，假设匹配模块（220，图2）确定来自根页（405）的内容块（415-3）和来自“关于”页（410-1）的内容块（415-6）是与模板（300，图3）的“关于我们”类别最相关的内容块，并且是将符合于与“关于我们”类别对应的模板（300，图3）的部分（305，图3）的仅有的两个内容块。假设关于模板（300，图3）的“联系信息”部分（310，图3）对“联系我们”页（410-3）中的内容块（415-9）做了类似的确定，以及关于模板（300，图3）的“地图”部分（315，图3），对“联系我们”页（410-3）中的内容块（415-10）做了类似的确定。

现在参考图5，在以上假设之下，如图所示可以使用内容块（415-3，415-6，415-9，415-10）自动生成小册子文档（500）。可以将此小册子文档印刷和/或保存为电子文件并分发给客户或网站所有者的其他联系人。

现在参考图6，示出了流程图，该流程图总结了对网站中的内容按语义排列等级以自动生成基于网站的文档的说明性模板驱动的方法（600）。该方法（600）包括抓取（步骤605）网站以检索网站内容并将网站内容解析（步骤610）成多个自治的内容块。然后基于模板的语义确定（步骤615）每个内容块与文档模板中定义的类别的相关性，并基于每个内容块与定义的类别之一的相关性向该内容块分配（步骤620）重要性等级。最后，通过按照它们被分配的重要性次序在文档模板约束之内使用与每个类别相关的内容块填充模板中为该类别保留的空间，自动生成（步骤625）文档。

图7-10展示了基于从网站获得的内容自动生成文档的稍不同的方式。在此实施例中，文档的类别布局不由模板指定。相反，基于分配给每个内容对象的纯重要性等级在文档的布局约束之内布置内容对象。在这样的实施例中，基于如何在网站中组织内容对象，连同具有加权概念分数的内容类别的预先确定的列表一起，确定内容对象的重要性。

现在具体参考图7，示出了与本实施例一致的网站内容排列等级装置（105，图1）的底层功能（700）的框图。本示例的模块性功能（700）类似于在图2的实施例中所示出的模块性功能。然而，确实存在一些差异。例如，本示例的内容块提取模块（710），除了将网站内容解析成内容块之外，还可以被配置成为每个内容块标记从网站的根页（405，图4）到达该特定内容块所需的点击数（即内容对象在网站分级结构（400，图4）内的位置）。这样的信息是有用的，因为到达内容对象所需的较低的点击数可能通常指示该特定内容对象中的信息的较高的重要性和一般可适用性。

图7中所示出的模块化功能（700）和图2中所示出的模块化功能中的另一差异是，重要性等级计算模块（730）为匹配模块（720）提供了指导（rubric），用于基于内容对象在网站分级结构（400，图4）内的位置、内容对象与内容等级列表（725）中的任何类别相关的程度以及内容等级列表（725）中的相关类别的加权重要性分数，来确定每个内容对象的重要性。

图8示出了说明性内容等级列表（725）。内容等级列表包括多个类别，每个类别都具有被分配的重要性分数和关联的关键字。返回到图7，匹配模块（720）可以首先通过内容对象中的文本和/或元数据的关键字匹配，确定每个内容对象与等级列表（725）中的类别之一的相关性。匹配模块（720）然后可以使用以上所描述的重要性等级计算指导为每个内容块分配特定的基于语义的重要性等级。

可以通过从具有最高重要性的那些内容对象开始，根据每个内容对象的重要性等级，用内容对象填充空白文档来自动生成文档。将与期望的特定文档的布局约束一致地执行内容对象的这种放置。

现在参考图9，示出了可以基于图7的功能自动生成的说明性小册子文档（900）。如图9所示，根据分配给类别的重要性下降的次序，在小册子文档（900）中布置与图8的表格中的类别相关联的内容对象。

现在参考图10，示出了流程图，该流程图总结了对网站中的内容按语义排列等级以自动生成基于网站的文档的说明性模板驱动的方法（1000）。该方法（1000）包括抓取（步骤1005）网站以检索网站内容并将网站内容解析（步骤1010）成多个自治的内容块。然后基于内容等级列表的语义确定（步骤1015）每个内容块的主旨与内容等级列表中定义的类别的相关性。基于每个内容块的主旨与定义的类别之一的相关性和内容块在网站内的层级位置，向该内容块分配（步骤1020）重要性等级。最后，通过在文档模板的约束之内按照分配的重要性次序，使用内容块填充空白文档中的空间，自动生成（步骤1025）文档。

给出前面的描述仅仅是为了说明和描述所描述的原理的实施例和示例。本描述并非旨在穷举或将这些原理限制于公开的任何精确形式。根据以上教导，能够进行很多修改和变化。

Claims

1.一种使用包括至少一个处理器的计算机化排列等级装置按语义对网站中的内容排列等级的方法，所述方法包括：

使用所述计算机化排列等级装置将来自所述网站的内容解析成多个自治的内容块；以及

对于所述内容块中的每一个，使用所述计算机化排列等级装置，基于所述内容块的主旨与多个预定义类别之一的相关程度，向所述内容块分配重要性等级;

其中所述内容块的主旨使用对每个内容块的文本分析而加以确定。

2.根据权利要求1的方法，其中所述网站包括多个不同的网页，并且从所述网页中的每一个解析所述内容。

3.根据权利要求1-2的任一项的方法，还包括对每个所述内容块执行关键字分析以确定所述内容块的所述主旨与所述多个预定义类别中的所述一个相关的所述程度。

4.根据权利要求1-2的任一项的方法，其中所述重要性等级分配还基于所述内容块在所述网站的分级结构之内的位置。

5.根据权利要求1-2的任一项的方法，其中所述重要性等级分配还基于所述内容块与其最相关的所述预定义类别的加权重要性分数。

6.根据权利要求1-2的任一项的方法，还包括根据所述内容块的所述重要性等级将所述内容块的至少一些自动布置到文档中。

7.根据权利要求6的方法，其中与文档模板一致地将所述内容块布置到所述文档中，所述文档模板指定所述预定义类别和所述文档中分派给所述预定义类别的每一个的空间。

8.根据权利要求6的方法，其中按照由分配给所述内容块的所述重要性等级确定的重要性的下降次序，将所述内容块布置到所述文档中。

9.一种用于按语义对网站中的内容排列等级的计算机化排列等级装置，所述计算机化排列等级装置包括：

处理器；以及

通信地耦合到所述处理器的存储器，所述存储器包括在其上存储的可执行代码，使得在执行所述可执行代码时，所述处理器被配置成：

抓取网站以从所述网站获得内容；

将来自所述网站的所述内容解析成多个自治的内容块；以及

基于所述内容块的主旨与多个预定义类别中的一个相关的程度，为每个内容块分配重要性等级；

10.根据权利要求9的计算机化排列等级装置，其中所述处理器还被配置成对每个所述内容块执行关键字分析以确定所述内容块的所述主旨与所述多个预定义类别的所述一个相关的所述程度。

11.根据权利要求9-10的任一项的计算机化排列等级装置，其中所述重要性等级分配还基于所述内容块在所述网站的分级结构之内的位置。

12.根据权利要求9-10的任一项的计算机化排列等级装置，其中所述重要性等级分配还基于分配给所述内容块与其最相关的所述预定义类别的加权重要性分数。

13.根据权利要求9-10的任一项的计算机化排列等级装置，其中所述处理器还被配置成根据所述内容块的所述重要性等级自动将所述内容块的至少一些布置到文档中。

14.根据权利要求13的计算机化排列等级装置，其中与文档模板一致地将所述内容块布置到所述文档中，所述文档模板指定所述预定义类别和所述文档中分派给所述预定义类别的每一个的空间。

15.一种用于基于网站中按语义排列等级的内容创建印刷文档的系统，所述系统包括：

印刷装置；

通信地耦合到所述印刷装置的处理器；以及

抓取网站以从所述网站获得内容；

将来自所述网站的所述内容解析成多个自治的内容块；

基于所述内容块的主旨与多个预定义类别之一相关的程度，为每个内容块分配重要性等级；

基于所述内容块的所述重要性等级将所述内容块的至少一些布置到文档中；以及

使所述印刷装置印刷所述文档；