CN102137146B

CN102137146B - 一种互联网多源信息处理与展示方法及其装置

Info

Publication number: CN102137146B
Application number: CN201010600715.2A
Authority: CN
Inventors: 王清明; 唐益龙; 邓亮; 苏上海; 陈浩然
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Filing date: 2010-12-22
Publication date: 2016-12-14
Anticipated expiration: 2030-12-22

Abstract

本发明提供了一种互联网多源信息处理与展示方法，包括以下步骤：向外源服务器请求数据；解析从外源服务器返回的结构化数据；根据解析的结构化数据构造内部数据，其中，内部数据的数据结构包括基本数据结构和衍生数据结构，基本数据结构是为了满足业务需求而包含的逻辑上的基本数据单元，衍生数据结构是由基本数据结构复合而成的逻辑上包含多个组成部分的数据单元；将构造的内部数据存储到数据库；以定时或随机设定时间间隔的方式重复执行上述步骤以及从数据库获取内部数据并展示在页面。本发明还提供了采用该方法的互联网多源信息处理与展示装置。本发明的方法和装置能较好地实现在词条页面将本地静态信息与从互联网上多个信息源得来的可更新的动态信息进行结合展示的效果。

Description

一种互联网多源信息处理与展示方法及其装置

【技术领域】

本发明涉及互联网通信技术领域，特别是涉及一种互联网多源信息处理与展示方法及其装置。

【背景技术】

随着互联网领域越来越深入地发展，大众在网络上获取信息也变得越来越便捷。在互联网应用领域出现的百科类产品，更是为大众获取知识和信息提供了一种新的途径和体验。与传统的百科全书类似，这种类型的产品以词条为信息组织的基本单元，通过对词条的详细解释，使阅读者了解与该词条相关的各种信息。

但是现有的互联网百科产品，均以段落、章节为文档内容组织方式，对于一些具备结构化可更新的扩展内容的词条，这种组织方式显得不够方便。例如对于“某某联赛”词条，除了提供给用户的除了关于该联赛的历史背景，赛制介绍等不需要随时间更改的静态内容之外，还需要提供给用户关于该联赛近期的赛事状况等可随时间更新的动态信息，这种动态信息可能包括赛事分组、各小组球队、各球队得分等随时间动态更新的信息。又例如某档电视节目词条，需要扩展出相应的节目表，这个节目表内容是随着时间而变化的。

词条的静态信息通常是存储在本地数据库上，也称为本地数据，而词条所需的动态信息则是本地数据库所没有的，也称为外源数据。在现有技术下，由于提供词条的服务器本身并没有这些外源数据，所以只能提供基于自身服务器的纯粹静态的词条信息，而难以实现动态信息的展示，更不能实现将动态信息与静态信息同时组织并提供给用户的功能。

【发明内容】

有鉴于此，本发明提供了一种互联网多源信息处理与展示装置及其方法，以便于实现动态信息的展示。

本发明提供一种基于互联网的多源信息处理与展示方法，包括以下步骤：定时向外源服务器请求数据；解析从外源服务器返回的结构化数据；根据解析的结构化数据构造内部数据，其中，内部数据的数据结构包括基本数据结构和衍生数据结构，基本数据结构是为了满足业务需求而包含的逻辑上的基本数据单元，衍生数据结构是由基本数据结构复合而成的逻辑上包含多个组成部分的数据单元；将构造的内部数据存储到数据库；以及数据库获取内部数据并展示在页面。

根据本发明之一优选实施方式，外源服务器包括一个或多个。

根据本发明之一优选实施方式，在构造内部数据的过程中，检测解析的结构化数据的完整性，若结构化数据不完整而需要获取的其他数据，则返回执行定时向外源服务器请求数据的步骤。

根据本发明之一优选实施方式，从外源服务器返回的结构化数据为XML格式的结构化数据。

根据本发明之一优选实施方式，通过基于树结构的DOM解析器或者基于事件的SAX解析器对XML结构化数据进行解析。

根据本发明之一优选实施方式，将构造的内部数据存储到数据库步骤中，进一步包括将内部数据以及与内部数据相关联的本地数据分散存储在不同数据库中，其中，本地数据是指不需要从外源服务器获得并处理的存储在数据库中的数据，以便与内部数据相结合以展示信息。

根据本发明之一优选实施方式，将构造的内部数据存储到数据库步骤中，进一步包括将内部数据以及与内部数据相关联的本地数据集中存储在同一数据库中，其中，本地数据是指不需要从外源服务器获得并处理的存储在数据库中的数据，以便与内部数据相结合以展示信息。

根据本发明之一优选实施方式，该方法还包括将本地数据与内部数据结合后展示在页面。

根据本发明之一优选实施方式，将构造的内部数据存储到数据库的步骤进一步包括：将内部数据序列化为结构化字符串；以及将结构化字符串存储到数据库。

根据本发明之一优选实施方式，从数据库获取内部数据并展示在页面的步骤进一步包括：从数据库读取结构化字符串并反序列化为内部数据；以及通过页面渲染将内部数据展示在页面。

本发明还提供一种互联网多源信息处理与展示装置，包括：请求数据单元，用于定时向外源服务器请求数据；解析数据单元，用于解析从外源服务器返回的结构化数据；构造数据单元，用于根据解析的结构化数据，构造内部数据，其中，内部数据的数据结构包括基本数据结构和衍生数据结构，基本数据结构是为了满足业务需求而包含的逻辑上的基本数据单元，衍生数据结构是由基本数据结构复合而成的逻辑上包含多个组成部分的数据单元；存储数据单元，用于将构造的内部数据存储到数据库，以及展示页面单元，用于从数据库获取内部数据并展示在页面。

根据本发明之一优选实施方式，外源服务器包括一个或者多个。

根据本发明之一优选实施方式，构造数据单元还包括检测解析的结构化数据的完整性，若结构化数据不完整而需要获取的其他数据，则调用请求数据单元。

根据本发明之一优选实施方式，XML结构化数据由基于树结构的DOM解析器或者基于事件的SAX解析器进行解析。

根据本发明之一优选实施方式，存储数据单元进一步将内部数据以及与内部数据相关联的本地数据分散存储在不同数据库中，其中，所述本地数据是指不需要从外源服务器获得并处理的存储在所述数据库中的数据，以便与内部数据相结合以展示信息。

根据本发明之一优选实施方式，存储数据单元进一步将内部数据以及与内部数据相关联的本地数据集中存储在同一数据库中，其中，本地数据是指不需要从外源服务器获得并处理的存储在数据库中的数据，以便与内部数据相结合以展示信息。

根据本发明之一优选实施方式，展示页面单元将本地数据与内部数据结合后展示在页面。

根据本发明之一优选实施方式，存储数据单元进一步包括序列化单元，序列化单元将内部数据序列化为结构化字符串，存储数据单元将结构化字符串存储到数据库。

根据本发明之一优选实施方式，展示页面单元从数据库读取结构化字符串并反序列化为内部数据，然后通过页面渲染将内部数据展示在页面。

由以上技术方案可以看出，采用本发明的互联网多源信息处理方法与装置、互联网多源信息展示方法与装置以及应用系统，可以很好的达到在词条页面将本地静态信息与从互联网上多个信息源得来的可更新的结构化的动态信息结合展示的效果。

【附图说明】

图1为依据本发明一实施例提供的互联网多源信息处理方法的流程示意图；

图2为依据本发明一实施例提供的互联网多源信息展示方法的流程示意图；

图3为依据本发明一实施例提供的本地数据与内部数据结合展示页面效果图；以及

图4为依据本发明一实施例提供的互联网多源信息处理与展示装置的架构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施方式对本发明进行详细描述。

本发明提供一种互联网多源信息处理与展示方法。根据本发明的一实施方式，该方法包括互联网多源信息处理方法和互联网多源信息展示方法两部分，以下分别进行详细说明。

图1为本发明提供的互联网多源信息处理方法的流程示意图。如图1所示，互联网多源信息处理方法100包含以下步骤：

步骤101：向外源服务器请求数据。通过HTTP(Hyper Text TransferProtoco1)接口向一个或多个外源服务器发出数据请求并得到外源服务器返回的XML(Extensible Markup Language)格式的结构化数据文件。所述外源服务器是指能提供本地服务器上没有的并可随时间更新的信息的服务器，它通常是实施本方法的系统不能控制的。

值得注意的是，本发明并不限于上述HTTP接口的数据通讯方式，也不限于得到返回XML格式数据。改变通讯的接口方式或返回自定义协议的结构化数据，均应理解为包含在本发明的范围之内。

步骤102：解析得到的外源数据。本发明可以通过基于树结构的DOM(Document Object Model)解析器、基于事件的SAX(Simple API for XML)解析器对从外源服务器得到的XML结构化数据进行解析。

由于从外源服务器上获取的是一个XML文件，为了理解该文件中的数据表示的含义，以便后续步骤的操作，需要对该文件进行解析。

下面以DOM解析器为例，对解析XML文档的过程进行说明。所谓DOM解析器是指基于DOM的解析器。XML DOM定义了所有XML元素的对象和属性，以及访问它们的方法(接口)，而实现这些方法对XML文件进行解析的装置就是DOM解析器。DOM解析器解析XML文件的最大特点是把XML文件全部加载到内存中，在内存中形成一个与XML文件结构相对应的节点树，然后依据节点的子孙关系来遍历数据。例如下面的XML文件：

<？xml version＝″1.0″encoding＝″ISO-8859-1″？>

<title lang＝″en″>Everyday Italian</title>

<author>Giada De Laurentiis</author>

</book>

<title lang＝″en″>Harry Potter</title>

<author>J K.Rowling</author>

</book>

<title lang＝″en″>XQuery Kick Start</title>

<author>James McGovern</author>

<author>Per Bothner</author>

<author>Kurt Cagle</author>

<author>James Linn</author>

<author>Vaidyanathan Nagaraj an</author>

</book>

<title lang＝″en″>Learning XML</title>

</book>

</bookstore>

该文件中，根节点是<bookstore>，文档中的所有其他节点都被包含在<bookstore>中。根节点<bookstore>有四个<book>节点，第一个<book>节点有四个节点：<title>，<author>，<year>以及<price>，其中每个节点都包含一个文本节点，″Everyday Italian″，″Giada De Laurentiis″，″2005″以及″30.00″。通过这些节点的关系构造相应的节点树，并通过符合XML DOM规范的方法对这些节点依照子孙关系进行遍历，就可以获得每一个文本节点的值与这些值的属性(即这些值表示的含义)。

与步骤101相应的，当后台服务器获取的结构化数据是除XML格式之外的其他格式，而导致采用与上述不同的解析方式对外源数据进行解析，应理解为包含在本发明的范围之内。

步骤103：通过解析后的外源数据，构造需要的内部数据。由于我们从外源服务器上获取回来的数据，本身并不具备业务应用的逻辑，为了最终使用时能够满足我们的业务需求，需要将解析后的外源数据构造为我们可以使用的内部数据，这是通过将解析后的外源数据匹配到内部数据的数据结构中不同的部分实现的。所述内部数据的数据结构包括基本数据结构和衍生数据结构。其中，基本数据结构指为了满足业务需求而需要包含的逻辑上的基本数据单元，衍生数据结构指根据业务需要由基本数据结构复合构成的逻辑上包含多个组成部分的数据单元。将内部数据的结构划分为基本数据结构和衍生数据结构，可以增加数据的重用性，也会在后续的存储中节约存储空间。

下面以足球比赛对内部数据的数据结构进行举例说明：例如基本数据结构包括某场比赛对阵A、小组赛积分榜B和射手榜C，衍生数据结构包括某支球队如阿根廷队，其中需要描述它正在进行的比赛、过去的比赛、在小组赛中的积分等信息，这样就相当于可以用A和B两种结构复合来描述。此外，衍生数据结构还包括用来描述“世界杯”这样的信息，包括正在进行的比赛、过去的比赛、各小组积分榜、射手榜等信息，这就需要用到A、B、C三种结构复合一起来描述，即世界杯信息需要由比赛对阵、小组赛积分榜和射手榜来综合呈现。是由人制定的。

在本实施方式的具体实现中，可以通过PHP内置数组的方式来构造基本数据结构，通过PHP内建的关联数组的方式来构造衍生数据结构。如上面所述的基本数据结构中的世界杯积分榜数据结构可以示意如下：

′scoreboard′＝>array(

array(

′lid′＝>62496，

′name′＝>′巴西′，

′flag′＝>′http://brazil.jpg′，

′games′＝>5，

′gamesWin′＝>3，

′gamesLost′＝>1，

′gamesDraw′＝>1，

′goals′＝>20，

′goalsLost′＝>5，

′goalsDifference′＝>10，

′score′＝>60，

)，

可以看出，积分榜对象为一个数组，数组中可以包含各个球队对象，每个球队又是一个数组，里面可以包含与该球队比赛相关的信息。

这种方式既简单又灵活，但不应理解为本发明仅限于使用该种方式，任何可以达到相同目的的实现方式，都应包含在本发明的范围之内。

在步骤103中，构造内部数据时，若发现有为了构造内部数据而需要获取的其他数据，将返回执行步骤101，以再次向外源服务器发出数据请求。由于内部数据是与业务应用逻辑相关的，而外源服务器并不知道这种逻辑，所以从外源服务器上获取回来的某个XML文件内的数据有可能不能完全匹配到某个内部数据，这时，为了将这个内部数据构造完整，需要返回执行步骤101，再次向外源服务器发出数据请求。

此外，由于数据库中的数据是从外界输入的，而数据的输入由于种种原因，会发生输入无效或错误信息。保证输入的数据符合规定，成为了数据库系统，尤其是多用户的关系数据库系统首要关注的问题。数据完整性因此而提出。

数据完整性(Data Integrity)是指数据的精确性(Accuracy)和可靠性(Reliability)。它是应防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而提出的。数据完整性分为四类：实体完整性(Entity Integrity)、域完整性(Domain Integrity)、参照完整性(Referential Integrity)、用户定义的完整性(User-definedIntegrity)。

步骤104：将构造的内部数据存储到数据库。本发明可以将构造的内部数据与本地数据分散存储在不同数据库中，也可以集中存储在同一数据库中，其中，本地数据是指不需要从外源服务器获得并处理的存储在本地数据库中的数据。在本发明优选的实施方式中，采用分散存储的方式对构造的内部数据进行存储，以降低存储成本，分散系统风险。

在本实施方式中，步骤104还进一步包括以下两个步骤：

步骤1041：将构造的内部数据序列化为结构化字符串，即将内部数据中的对象信息转换为可保持或便于传输的结构化字符串，以方便存储在数据库中。

步骤1042：将结构化字符串存储到数据库，即将结构化字符串转化为关系数据库中的数据表，以便于随时读取和使用。

步骤105：以定时或随机设置时间间隔的方式返回执行步骤101至步骤104。由于外源数据值具有时效性，随着时间的改变数据值也会发生改变，而采用本方法的系统对于外源服务器无法控制，也就无法获知外源服务器上的外源数据何时发生了变更，为了在展示时可以获得及时准确的数据值，需要以定时或随机设置时间间隔的方式重复执行步骤101至步骤105。

图2为本发明提供的互联网多源信息展示方法的流程示意图。如图2所示，互联网多源信息展示方法200包含以下步骤：

步骤201：接收用户对包含内部数据的展示页面的请求；

步骤202：从数据库获取数据，其中所述数据包括内部数据与数据库存储的本地数据的结合。

更进一步的，在步骤202中还包括以下步骤：读取数据库中存储的结构化字符串；将结构化字符串反序列化为内部数据。

步骤203：通过页面渲染将所述数据展示在页面，具体的，可将内部数据与本地数据分别展示在页面的不同部位，优选的，将所述内部数据以表格的方式展现。

如图3所示，为依据本发明一实施例提供的本地数据与内部数据结合展示页面效果图。从图3中可以看出，页面中有一个区域用来展示以表格组织的从外源服务器获取并经过处理的信息，其他部分以段落的方式来组织本地数据。

本发明还提供了采用上述方法的互联网多源信息处理与展示装置。图3为本发明提供的互联网多源信息处理与展示装置的架构示意图。如图3所示，本发明提供的互联网多源信息处理与展示装置300包括处理装置301以及展示装置302。处理装置301用于负责与外源服务器进行交互并处理数据。展示装置302用于向用户展示经处理的外源数据与本地数据。

互联网多源信息处理装置301包括：请求数据单元3011、解析数据单元3012、构造数据单元3013以及存储数据单元3014。

其中，请求数据单元3011负责以定时或随机设置时间间隔的方式向外源服务器请求数据，外源服务器可以为一个或多个，所述外源服务器是指能提供本地服务器上没有的并可随时间更新的信息的服务器。

解析数据单元3012，负责解析从外源服务器返回的结构化数据，结构化数据为XML格式数据，可用基于树的DOM解析器或基于事件的SAX解析器对XML格式数据进行解析。

构造数据单元3013，负责根据解析的结构化数据，构造内部数据，其中内部数据的数据结构包括基本数据结构和衍生数据结构，基本数据结构是指为了满足业务需求而需要包含的逻辑上的基本数据单元，衍生数据结构是指根据业务需要由基本数据结构复合而成的逻辑上包含多个组成部分的数据单元，构造数据单元还负责检测是否有为了构造内部数据而需要获取的其他数据，如果有则调用请求数据单元。

存储数据单元3014，负责将构造的内部数据存储到数据库中，可以将构造的内部数据与本地数据分散存储，也可以集中存储，其中，本地数据是指不需要从外源服务器获得并处理的存储在数据库中的数据。在本发明优选的实施方式中，存储数据单元采用分散存储的方式对构造的内部数据进行存储，以降低存储成本，分散系统风险。在本实施方式中，存储数据单元还可以包括序列化单元，序列化单元将内部数据序列化为结构化字符串，存储数据单元将结构化字符串存储到数据库中。

重复调用单元3015，负责以定时或随机设置时间间隔的方式调用请求数据单元，以及时获得外源服务器上变更了的数据。

互联网多源信息展示装置302包括接收请求单元3021、数据获取单元3022及页面渲染单元3023。

其中，接收请求单元3021负责接收用户对包含内部数据的展示页面的请求。

数据获取单元3022负责从数据库获取数据，其中所述数据包括内部数据与数据库存储的本地数据的结合。

页面渲染单元3023负责将内部数据与本地数据分别展示在页面的不同部位，优选的，页面渲染单元将所述内部数据以表格的方式展现。

以上所述仅为本发明的较佳实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种互联网多源信息处理与展示方法，其特征在于，所述方法包括以下步骤：

定时向外源服务器请求数据；

解析从所述外源服务器返回的结构化数据，所述外源服务器提供的数据不具备本地服务器的业务应用逻辑；

根据解析的所述结构化数据构造与本地服务器业务应用逻辑相关的内部数据，其中，所述内部数据的数据结构包括基本数据结构和衍生数据结构，所述基本数据结构是为了满足业务需求而包含的逻辑上的基本数据单元，所述衍生数据结构是由所述基本数据结构复合而成的逻辑上包含多个组成部分的数据单元；

将构造的所述内部数据存储到数据库；以及

接收到用户对包含内部数据的展示页面的请求后，从所述数据库获取所述内部数据并展示在所述页面。

2.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，所述外源服务器包括一个或多个。

3.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，在所述构造内部数据的过程中，检测解析的所述结构化数据的完整性，若所述结构化数据不完整而需要获取其他数据，则返回执行所述定时向外源服务器请求数据的步骤。

4.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，从所述外源服务器返回的所述结构化数据为XML格式的结构化数据。

5.根据权利要求4所述的互联网多源信息处理与展示方法，其特征在于，通过基于树结构的DOM解析器或者基于事件的SAX解析器对所述XML结构化数据进行解析。

6.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，所述将构造的所述内部数据存储到数据库步骤中，进一步包括将所述内部数据以及与所述内部数据相关联的本地数据分散存储在不同数据库中，其中，所述本地数据是指不需要从外源服务器获得并处理的存储在所述数据库中的数据，以便与所述内部数据相结合以展示信息。

7.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，所述将构造的所述内部数据存储到数据库步骤中，进一步包括将所述内部数据以及与所述内部数据相关联的本地数据集中存储在同一数据库中，其中，所述本地数据是指不需要从外源服务器获得并处理的存储在所述数据库中的数据，以便与所述内部数据相结合以展示信息。

8.根据权利要求6或7所述的互联网多源信息处理与展示方法，其特征在于，该方法还包括将所述本地数据与所述内部数据结合后展示在页面。

9.根据权利要求1所述的互联网多源信息处理与展示方法，其特征在于，所述将构造的所述内部数据存储到所述数据库的步骤进一步包括：

将所述内部数据序列化为结构化字符串；以及

将所述结构化字符串存储到所述数据库。

10.根据权利要求9所述的互联网多源信息处理与展示方法，其特征在于，从所述数据库获取所述内部数据并展示在所述页面的步骤进一步包括：

从所述数据库读取所述结构化字符串并反序列化为所述内部数据；以及

通过页面渲染将所述内部数据展示在页面。

11.一种互联网多源信息处理与展示装置，其特征在于，所述互联网多源信息处理的装置包括：

请求数据单元，用于定时向外源服务器请求数据，所述外源服务器提供的数据不具备本地服务器的业务应用逻辑；

解析数据单元，用于解析从所述外源服务器返回的结构化数据；

构造数据单元，用于根据解析的所述结构化数据，构造与本地服务器业务应用逻辑相关的内部数据，其中，所述内部数据的数据结构包括基本数据结构和衍生数据结构，所述基本数据结构是为了满足业务需求而包含的逻辑上的基本数据单元，所述衍生数据结构是由所述基本数据结构复合而成的逻辑上包含多个组成部分的数据单元；

存储数据单元，用于将构造的所述内部数据存储到数据库，以及

展示页面单元，用于接收到用户对包含内部数据的展示页面的请求后，从所述数据库获取所述内部数据并展示在所述页面。

12.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，所述外源服务器包括一个或者多个。

13.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，所述构造数据单元被配置以检测解析的所述结构化数据的完整性，若所述结构化数据不完整而需要获取其他数据，则调用所述请求数据单元。

14.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，从所述外源服务器返回的所述结构化数据为XML格式的结构化数据。

15.根据权利要求14所述的互联网多源信息处理与展示装置，其特征在于，所述XML结构化数据由基于树结构的DOM解析器或者基于事件的SAX解析器进行解析。

16.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，所述存储数据单元进一步将所述内部数据以及与所述内部数据相关联的本地数据分散存储在不同数据库中，其中，所述本地数据是指不需要从外源服务器获得并处理的存储在所述数据库中的数据，以便与所述内部数据相结合以展示信息。

17.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，所述存储数据单元进一步将所述内部数据以及与所述内部数据相关联的本地数据集中存储在同一数据库中，其中，所述本地数据是指不需要从外源服务器获得并处理的存储在所述数据库中的数据，以便与所述内部数据相结合以展示信息。

18.根据权利要求16或17所述的互联网多源信息处理与展示装置，其特征在于，所述展示页面单元将所述本地数据与所述内部数据结合后展示在页面。

19.根据权利要求11所述的互联网多源信息处理与展示装置，其特征在于，所述存储数据单元进一步包括序列化单元，所述序列化单元将所述内部数据序列化为结构化字符串，所述存储数据单元将所述结构化字符串存储到所述数据库中。

20.根据权利要求19所述的互联网多源信息处理与展示装置，其特征在于，所述展示页面单元从所述数据库读取所述结构化字符串并反序列化为所述内部数据，然后通过页面渲染将所述内部数据展示在所述页面。