CN108694206A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN108694206A
CN108694206A CN201710232826.4A CN201710232826A CN108694206A CN 108694206 A CN108694206 A CN 108694206A CN 201710232826 A CN201710232826 A CN 201710232826A CN 108694206 A CN108694206 A CN 108694206A
Authority
CN
China
Prior art keywords
webpage
triple
node
user
repetitive structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710232826.4A
Other languages
English (en)
Inventor
郑仲光
孟遥
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710232826.4A priority Critical patent/CN108694206A/zh
Publication of CN108694206A publication Critical patent/CN108694206A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理方法包括:从用户的服务器获取第一网页;基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。通过根据本公开的技术,可以自动地在网页中添加资源描述框架属性。

Description

信息处理方法和装置
技术领域
这里讨论的实施例涉及信息处理方法和信息处理装置,特别地,涉及用于向网页添加资源描述框架属性的信息处理方法和信息处理装置。
背景技术
近年来,互联网上的信息量呈爆炸式增长,致使对互联网上的信息的检索变得越来越复杂。
使用资源描述框架属性(Resource Description Framework attribute,RDFa)对超文本标记语言(Hyper Text Mark-up Language,HTML)网页中的语义属性进行注释,有助于提高检索效率。
资源描述框架属性(RDFa)是一个W3C推荐标准,它扩充了HTML语言的若干属性,可以利用这些属性在网页中添加可供机器读取的后设资料。换言之,在网页中添加RDFa可以以内联方式使为网页的HTML描述添加元数据。这些元数据可以描述例如名称、地址和电话号码等。
在网页中添加RDFa的一个优点在于使得网页内容更易于被诸如搜索引擎的应用“理解”。例如,谷歌(Google)和其他搜索引擎都以Rich Snippets的形式为RDFa提供支持。
图1是示出在机构的网页的HTML结构中使用RDFa的一个具体示例的示意图。例如,当搜索引擎检索到图1的上图所示的网页时,如果该网页不具有RDFa(如图1的左下图所示),则搜索引擎将提取网页的内容并且将所有信息作为字符串来处理。另一方面,如果该网页具有RDFa(如图1的右下图所示),则搜索引擎可以通过RDFa获取关于网页内容的属性信息。例如,HTML描述中的“<div>”中的RDFa“typeof=’Organization’”表示“<div>……</div>”中的内容是关于机构的信息。此外,RDFa“property=’name’”表示机构的名称是“TheEuropean Bioinformatics Institute”,RDFa“property=’streetAddress’”表示机构的位置是“Wellcome Genome Campus”。显然,较之不具有RDFa的网页,搜索引擎更易于理解网页的内容。
目前,将资源描述框架属性(RDFa)嵌入到超文本标记语言(HTML)页面通常需要网页开发者手动完成,需要消耗大量的时间和人力。一方面,网页开发者需要学习关于RDFa的知识以为网页中的相关内容添加RDFa。另一方面,互联网上的许多过去的网页不具有RDFa,而人工为这些网页一一添加RDFa显然是不现实的。
因此,需要提供一种信息处理技术,其能够自动地为网页添加RDFa。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
针对现有技术中存在的问题,本公开提出了一种信息处理技术。根据本公开的技术,能够自动地向网页添加资源描述框架属性。此外,本公开的信息处理技术对网页的结构不敏感,因而能够向具有任何结构的网页添加资源描述框架属性,而不需要预设关于网页的结构的模板或者训练数据。
根据本公开的一个方面,提供了一种信息处理方法,其包括:从用户的服务器获取第一网页;基于第一网页中的重复性结构自动地在第一网页上添加资源描述框架属性以生成第二网页,其中第二网页存储在本地服务器上;以及通过第二网页将对第一网页的访问重定向到用户的服务器。
根据本公开的另一方面,提供了一种信息处理装置,其包括:获取单元,被配置成从用户的服务器获取第一网页;生成单元,被配置成基于第一网页中的重复性结构自动地在第一网页上添加资源描述框架属性以生成第二网页,其中第二网页存储在本地服务器上;以及引导单元,被配置成通过第二网页将对第一网页的访问重定向到用户的服务器。
根据本公开的再一方面,还提供了能够实现上述的信息处理方法的计算机程序。此外,还提供了具有至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述的信息处理方法的计算机程序代码。
通过根据本公开的用于向网页添加资源描述框架属性的信息处理技术,较之现有技术,可以在无需人工操作的情况下自动地向网页添加资源描述框架属性,从而极大地提高了处理效率。
附图说明
参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出在机构的网页的HTML结构中使用RDFa的一个具体示例的示意图;
图2是示出根据本公开的实施例的用于向网页添加RDFa的信息处理方法的流程图;
图3是示出根据本公开的实施例的基于网页的重复性结构为网页添加RDFa的方法的流程图;
图4是示出获取网页的结构化描述并且确定网页中的重复性结构一个具体示例的示意图;
图5是示出从网页得到描述不止一个实体的三元组并且将三元组合并为三元组分组的示意图;
图6是示出将两个三元组分组合并为一个三元组分组的示意图;
图7是示出根据本公开的实施例的用于向网页添加RDFa的信息处理装置的框图;以及
图8是示出可用来实现根据本公开的实施例的用于向网页添加RDFa的信息处理方法和信息处理装置的通用机器的结构简图。
具体实施方式
在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。
根据本公开的信息处理技术基于通过自动地对网页的结构和内容进行分析来向网页添加资源描述框架属性(RDFa)的思想。作为示例,根据本公开的技术可以在本地服务器上实现,在用户请求为其网页添加RDFa时,本地服务器从用户的服务器获取用户的网页,对该网页进行分析并且基于分析结果生成具有RDFa的网页,随后将该具有RDFa的网页链接到用户的网页。
下面参照附图通过实施例对根据本公开的信息处理技术进行详细的说明。
图2是示出根据本公开的实施例的用于向网页添加RDFa的信息处理方法200的流程图。如图2中所示,方法200开始于步骤S201。随后,在步骤S202中,从用户的服务器获取用户的第一网页。接着,在步骤S203中,基于第一网页中的重复性结构自动地在第一网页上添加资源描述框架属性以生成存储在本地服务器上的第二网页。随后,在步骤S204中,通过第二网页将对第一网页的访问重定向到用户的服务器。最终,方法200结束于步骤S205。
应注意,涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。本文中的“第一网页”表示用户的不具有RDFa的网页,而“第二网页”表示由本地服务器基于第一网页生成的具有RDFa的网页。
下面将对方法200的步骤S202至S204的操作进行更详细的描述。
根据本公开的实施例,在步骤S202中,通过用户在其第一网页中嵌入脚本并且运行该脚本来使本地服务器从用户的服务器获取第一网页,以对第一网页进行分析并且添加RDFa。
例如,用户可以在其第一网页中添加简单的脚本并且运行该脚本来向本地服务器发起添加RDFa的请求,从而使本地服务器从用户的服务器获取第一网页。
例如,可以向第一网页的HTML描述添加具有如下内容的脚本:
“serverip”:指示本地服务器的IP地址,例如“10.167.174.152:8080”;
“u”:指示用户的第一网页的url地址;
“status”:指示请求本地服务器进行的操作,例如分析用户的第一网页并且基于第一网页创建具有RDFa的第二网页;
“page”:当“status”请求创建第二网页时,指示仅针对第一网页进行添加RDFa的操作还是针对第一网页以及其所链接的所有网页进行添加RDFa的操作;等等。
根据本公开的实施例,当用户在其服务器上刷新嵌入了脚本的第一网页时,用户的服务器向本地服务器发起为其第一网页添加RDFa的请求。当本地服务器接收到用户的请求时,本地服务器可以例如使用用户的脚本中的“u”字段的值来为用户的第一网页生成标识,并且根据用户的脚本中的“status”字段的值来执行相应的操作。例如,当“status”指示请求在用户的第一网页中添加RDFa时,本地服务器根据“u”和“page”字段的值爬取用户的第一网页(以及第一网页所链接到的网页),即获得第一网页(以及第一网页所链接到的网页)的HTML描述。
应认识到,尽管这里通过在第一网页中嵌入脚本并且运行该脚本来实现步骤S202中的从用户的服务器获取第一网页的操作,但是本公开不限于此。本领域技术人员根据本公开的教导可以设想其他实施例来实现从用户的服务器获取第一网页的操作。这些替选实施例同样涵盖于本公开的范围内。
随后,在步骤S203中,基于第一网页中的重复性结构自动地在第一网页上添加资源描述框架属性以生成存储在本地服务器上的第二网页。根据本公开的实施例,方法200的步骤S203可以通过图3所示的基于网页的重复性结构为网页添加RDFa的方法300来实现。图3是示出根据本公开的实施例的基于网页的重复性结构为网页添加RDFa的方法300的流程图。
根据本公开的方法300基于如下思想。现有技术通常对网页的(非结构化的)纯文本进行分析并且提取与重要信息相关的元数据。然而,本发明人注意到,网页开发者通常将重要信息以表格布局存储在网页的HTML结构中。因而,网页的(结构化的或半结构化的)表格通常包括重要信息。为此,有研究者提出了一些方法用于通过对于网页的表格结构进行分析以网页中提取信息。但是这些方法对网页的结构极为敏感,需要人工定义模板,甚至需要一定的训练数据,导致仅能够分析结构相同或相似的网页。如果网页的结构变化较大,则不能进行信息提取。根据本公开的信息处理方法可以在无需训练的情况下,在线地对网页的结构化描述进行分析并且提取与重要信息相关的元数据。
此外,RDFa包含多个资源描述,每个资源描述由多个语句构成,其中每个语句是由资源、属性类型、属性值构成的三元组,表示资源具有的一个属性。资源描述中的语句可以对应于自然语言的语句,资源对应于自然语言中的主语,属性类型对应于谓语,属性值对应于宾语,在RDFa术语中称其分别为主语、谓语、宾语。相对应地,网页中的表格结构中存储的信息可以用三元组<主语,谓语,宾语>表示,三元组描述网页中的某一实体。例如,对于机构的网页,网页中的关于机构的信息可以表示为<机构,名称是,“机构名称”>、<机构,位于,“机构地址”>、<机构、电话号码是,“电话号码”>等等。本发明人注意到,与无结构的文本不同,具有表格形式的结构化的网页的数据具有重复性结构。通过对网页的重复性结构进行分析并且提取相应的三元组,可以自动地为网页添加RDFa。
下面参照图3详细描述基于网页的重复性结构为网页添加RDFa的方法300的处理。
图3中所示,方法300开始于步骤S301。
随后,在步骤S302中,基于第一网页的结构化描述确定第一网页中的重复性结构。通常,网页由作为XML格式语言的HTML标签构成。网页中的每个元素对应于HTML标签中的节点。以关于机构的网页为例,如上文所述,关于机构的信息在网页中通常呈现为表格形式,而具有表格形式的结构化的网页的数据具有重复性结构。
图4是示出获取网页的结构化描述并且确定网页中的重复性结构一个具体示例的示意图。
图4中的(a)示出了从网页“www.fujitsu.com/jp/group/labs/about/”中获取的具有表格形式的结构化描述。在该表格中,每行对应于图4中的(b)所示的表格形式的结构化描述中的一个HTML“<tr>”节点。如图4中的(b)所示,在该结构化描述中存在结构相似的描述,其对应于网页中的重复性结构。
根据本公开,为了确定网页中的重复性结构,需要找到网页结构化描述,即HTML结构中重复出现的HTML节点或者HTML节点集合。为此,根据本公开的实施例,可以动态地分析HTML结构中的每个节点以发现重复性结构,因此不需要任何预设的模板和人工规则,从而实现了自动化操作。
根据本公开的实施例,为了基于网页的结构化描述确定网页中的重复性结构,可以基于网页的结构化描述构造文件对象模型(Dom)树,对于文件对象模型树中的每个节点,根据节点类型和类别属性定义其模板,并且将在同一节点下的具有相同模板的子节点确定为重复性节点,其中重复性节点对应于网页中的重复性结构。
具体地,如图4中的(c)中所示,可以基于网页的结构化描述,即HTML结构,构造Dom树的结构。基于HTML结构构造Dom树结构的方法是本领域公知的,因而本文不作进一步的详细描述。
对于Dom树中的每个节点,可以定义模板pat{tag,class},其中tag是该节点的节点类型,class是该节点的类别属性。
例如,HTML结构中与网页中呈现的按钮对应的节点“<a class=‘button’>clickme</a>”的模板为pat{‘a’,‘button’}。因此,对于图4中的(c)中所示的“<tr>”节点,其模板为pat{‘tr’,null}。
在Dom树结构中有可能存在如下节点,该节点具有若干个子节点,例如图4中的(c)中所示的<tbody>节点。根据本公开,可以针对Dom树结构中的同一节点具有的子节点,寻找重复出现的节点集合。同一节点具有的所有子节点的集合的模板可以被表示为patset[subpati,1,i=1,…,n],这里n为自然数。subpati,l可以被进一步表示为subpati,l{pati,nodeseti},即节点集合nodeseti具有相同模板pati,l表示具有相同模板pati的节点集合nodeset的长度,即该集合中的节点的数目。
nodeseti表示具有相同模板pati的节点集合,可以进一步被表示为nodeseti[nodesj,j=1,…,m]。根据本公开的实施例,可以对m的取值进行限定。具体地,可以设置关于m的表示最小重复次数的阈值mth。换言之,mth可以被理解为关于表示具有相同模板pati的节点集合nodeseti中的最少元素数目,即模板pati出现的最小次数的阈值,m应大于mth
以图4中的(b)所示的Html结构为例,其Dom树中的节点“<tbody>”具有5个子节点“<tr>”,因此可以得到表示这5个子节点的模板的patset[subpat1,1],其中subpat1,1可以被进一步表示为subpat1,1{pat1{‘tr’,null},nodeset1[nodes1[tr1],nodes2[tr2],nodes3[tr3],nodes4[tr4],nodes5[tr5]]}。
通过对Dom树结构的分析,可以确定同一节点下的具有相同模板的子节点。这些子节点可以被确定为重复性节点。重复性节点对应于网页中的重复性结构。
接着,方法300前往步骤S303,其中从网页中的重复性结构提取包括主语、谓语和宾语的三元组。具体地,在步骤S302中所构造的Dom树结构中的每个节点可以作为主语。此外,在步骤S302中确定每个节点的模板之后,可以基于对应于重复性节点的模板中的类别属性来进一步提取谓语和宾语,从而形成三元组。
通常,网页的节点的模板中包括大量的无关信息,诸如网页中导航条的内容。这些信息可被视为噪声并且因而希望将其滤除。
根据本公开的实施例,可以使用包含谓语名称的辞典对所述重复性节点进行过滤。
包含谓语名称的辞典可以是预先设定的,其中谓语名称可以是根据所要构造的知识图谱数据库的具体需要而选择出来的。例如,对于图4中所示的示例,在构造关于机构的知识图谱数据库的情况下,通常仅需要保留关于机构的诸如社名、所在地、电话号码等信息。在该示例中,可以将诸如社名、所在地、电话号码等选择为谓语以构成辞典,并且基于该辞典对在步骤S302中获得的模板进行过滤以得到所需的三元组。
例如,通过使用上述辞典对在图4所示示例中获得的节点集合的模板进行过滤,可以得到如下三元组。
节点1:<机构,“社名”,“株式会社富士通研究所”>
节点2:<机构,“所在地”,“川崎市中原区上小田中4-1-1”>
节点2:<机构,“邮政编码”,“211-8588”>
节点2:<机构,“电话号码”,“044-754-2613”>
节点3:<机构,“代表者”,“佐々木繁”>
节点4:<机构,“资本金”,“50亿日元”>
节点5:<机构,“从业员数”,“约1,200名”>
如上文所述,通过对从网页“www.fujitsu.com/jp/group/labs/about/”获取的图4的(a)中所示的具有表格形式的结构化描述转换成Dom树结构并且进行如上文所述的步骤S302和S303的处理,可以获得具有重复性结构的节点集合,随后通过过滤得到每个节点所对应的一个或更多个三元组。例如,图4的(a)中的表格的第二行对应于节点2,通过对该节点的分析可以得到3个三元组。
随后,方法300前往步骤S304,其中合并具有同一主语的三元组以形成三元组分组。
在步骤S304中,可以对描述同一个实体,即具有同一主语的三元组进行合并以形成三元组分组。不同的三元组分组用于表示不同的实体。
对于图4中所示的示例,由于如上文所述获得的7个三元组均描述同一个实体,即“株式会社富士通研究所”,因此这7个三元组属于同一个三元组分组。
此外,可能存在如下情况,通过上文描述的对网页的处理所得到的三元组可能描述不止一个实体。图5是示出从网页得到描述不止一个实体的三元组并且将三元组合并为三元组分组的示意图。
例如,对从图4中的(a)中所示的网页中获取具有表格形式的结构化描述执行如上文所述的步骤S302和S303,得到具有如图5中的(b)中所示的三元组。显然,图5中的(b)中所示的三元组所描述的不是同一个机构。在该情况下,如图5中的(c)所示,执行步骤304的处理将得到多个三元组分组,每个三元组分组均描述同一个实体。
根据本公开的实施例,在第一网页中存在与某一主语并列的其他主语的情况下,可以形成包含其他主语的三元组,以及可以将包含相同主语的三元组编组成三元组分组。
在本文中所称的三元组分组可以被理解为不可分的最小的三元组集合,可由mtb(minimum triple bead)表示。例如,对于图4和图5中所示的示例,在三元组分组中,仅有一个三元组表示机构(org)的名称,而其他的三元组均不表示机构的名称。这样确保了三元组分组中的三元组均描述同一个实体。
此外,还可能存在如下情况,通过对不同的网页执行如上文所述的处理可能得到描述同一个实体的不止一个三元组分组。在该情况下,有必要对描述同一个实体的不止一个三元组分组进行合并。
根据本公开的实施例,步骤S304的处理可以进一步包括在具有同一主语的三元组分组之间的相似性大于相似性阈值的情况下,对具有同一主语的三元组分组进行合并。
例如,对于图4和图5中所示的示例,如果两个三元组分组中的至少表示机构名称的三元组是相同的,则可以对这两个三元组分组进行比较以根据它们之间的相似性来确定是否有必要对这两个三元组分组进行合并。
根据本公开的实施例,可以基于具有同一主语的三元组分组中的宾语来计算相似性。
例如,对于图4和图5中所示的示例,判断分别属于两个三元组分组的三元组是否相同可以基于宾语来进行。
图6是示出将两个三元组分组合并为一个三元组分组的示意图。例如,从网页1提取的三元组分组中包括三元组<机构,“社名”,“株式会社大和宣広”>、<机构,“邮政编码”,“192-0045”>和<机构,“所在地”,“东京都八王子市大和町1丁目17-16”>,并且从网页2提取的三元组分组中包括三元组<机构,“名称”,“株式会社大和宣広”>、<机构,“邮政编码”,“192-0045”>和<机构,“所在地”,“东京都八王子市大和町1丁目17-16”>。由于这两个三元组分组至少具有相同的表示机构名称的三元组,因此可以对这两个三元组分组中的其他三元组进行比较以确定是否需要合并这两个三元组分组。对于其他三元组的比较可以基于三元组中的宾语进行。对于图6中的示例,通过对宾语的比较,这两个三元组分组中进一步具有宾语相同的三元组<机构,“邮政编码”,“192-0045”>和<机构,“所在地”,“东京都八王子市大和町1丁目17-16”>。因此,可以对这两个三元组分组进行合并。
例如,可以根据下式来确定两个三元组分组之间的相似性。
其中sim表示三元组分组mtbi和mtbj之间的相似性,||mtbi||和||mtbj||分别表示三元组分组mtbi和mtbj中的三元组的数量,common(mtbi,mtbj)表示三元组分组mtbi和mtbj中的相同的三元组的数量。
例如,在所计算的两个三元组分组之间的相似性大于预先设定的相似性阈值时,可以认为这两个三元组分组描述同一个实体,并且对它们进行合并。
根据本公开的实施例,上文所述的合并三元组分组的处理可以被迭代执行,直到不再需要对三元组分组进行合并为止。
随后,方法300进行至步骤S305,其中对在步骤S304中得到的三元组分组添加相应的资源描述框架属性以生成第二网页。例如,根据从第一网页得到的三元组,可以在第一网页的HTML描述中添加例如“typeof=’Organization’”(表示机构)、“property=’name’”(表示机构的名称)、“property=’address’”(表示机构的地址)、“property=’leader’”(表示机构的负责人)等,从而得到具有RDFa的第二网页。根据本公开的实施例,该第二网页存储在本地服务器上。
方法300结束于步骤S306。
返回图2,在步骤S204中,通过第二网页将对第一网页的访问重定向到用户的服务器。
当搜索引擎对用户的网页进行检索时,由于具有RDFa标签的第二网页较之不具有RDFa标签的第一网页更易于被搜索引擎所理解,因此搜索引擎首先检索到的是第二网页。因此,可以将第二网页将对第一网页的访问重定向到用户的服务器,使得任何通过搜索引擎对第一网页进行访问的效率得以极大地提高。
此外,根据本公开的实施例,可以根据来自用户的请求从本地服务器删除第二网页。例如,用户可以对添加到第一网页的HTML描述的脚本中的“status”字段的值进行修改,以指示请求本地服务器的操作是从本地服务器删除与第一网页对应的第二网页。
根据本公开的信息处理方法,可以在无需人工操作的情况下自动地向网页添加资源描述框架属性,从而极大地提高了处理效率。此外,根据本公开的信息处理方法对网页的结构不敏感,因而能够向具有任何结构的网页添加资源描述框架属性,而不需要预设关于网页的结构的模板或者训练数据。
图7是示出根据本公开的实施例的用于向网页添加RDFa的信息处理装置700的框图。
如图7中所示,信息处理装置700包括:获取单元701,被配置成从用户的服务器获取第一网页;生成单元702,被配置成基于第一网页中的重复性结构自动地在第一网页上添加资源描述框架属性以生成第二网页,其中第二网页存储在本地服务器上;以及引导单元703,被配置成通过第二网页将对第一网页的访问重定向到用户的服务器。
获取单元701被配置成执行上文参照图2描述的方法200的步骤S202的处理并且能够取得与该处理相关的益处,在此省略其描述。生成单元702被配置成执行上文参照图2描述的方法200的步骤S203的处理并且能够取得与该处理相关的益处,在此省略其描述。此外,引导单元703被配置成执行上文参照图2描述的方法200的步骤S204的处理并且能够取得与该处理相关的益处,在此省略其描述。
图8是示出可用来实现根据本公开的实施例的用于向网页添加RDFa的信息处理方法200和信息处理装置700的通用机器800的结构简图。通用机器800可以是例如计算机系统。应注意,通用机器800只是一个示例,并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器800解释为对上述用于向网页添加RDFa的方法中示出的任一组件或其组合具有依赖或需求。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中,还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件也连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分809经由网络例如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序可根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开的用于向网页添加RDFa的方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。
上面已通过框图、流程图和/或实施例进行了详细描述,阐明了根据本公开的实施例的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1.一种信息处理方法,包括:
从用户的服务器获取第一网页;
基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及
通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。
方案2.根据方案1所述的方法,其中所述第一网页中嵌入有脚本,通过由用户运行所述脚本来获取所述第一网页。
方案3.根据方案1所述的方法,其中基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页的步骤包括:
基于所述第一网页的结构化描述确定所述第一网页中的重复性结构;
从所述第一网页中的重复性结构提取包括主语、谓语和宾语的三元组;
合并具有同一主语的三元组以形成三元组分组;以及
对所述三元组分组添加相应的资源描述框架属性以生成所述第二网页。
方案4.根据方案3所述的方法,其中基于所述第一网页的结构化描述确定所述第一网页中的重复性结构的步骤包括:
基于所述第一网页的结构化描述构造文件对象模型树,
对于所述文件对象模型树中的每个节点,根据节点类型和类别属性限定其模板,
将在同一节点下的具有相同模板的子节点确定为重复性节点,所述重复性节点对应于所述第一网页中的重复性结构。
方案5.根据方案4所述的方法,其中基于所述第一网页的结构化描述确定所述第一网页中的重复性结构的步骤进一步包括:
使用包含谓语名称的辞典对所述重复性节点进行过滤。
方案6.根据方案3所述的方法,其中合并具有同一主语的三元组以形成三元组分组的步骤包括:
在具有同一主语的三元组分组之间的相似性大于相似性阈值的情况下,对具有同一主语的三元组分组进行合并。
方案7.根据方案6所述的方法,其中基于具有同一主语的三元组分组中的谓语来计算所述相似性。
方案8.根据方案1所述的方法,进一步包括:
根据来自用户的请求从本地服务器删除所述第二网页。
方案9.一种信息处理装置,包括:
获取单元,被配置成从用户的服务器获取第一网页;
生成单元,被配置成基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及
引导单元,被配置成通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。
方案10.根据方案9所述的装置,其中所述第一网页中嵌入有脚本,通过由用户运行所述脚本来获取所述第一网页。
方案11.根据方案9所述的装置,其中所述生成单元被进一步配置成:
基于所述第一网页的结构化描述确定所述第一网页中的重复性结构;
从所述第一网页中的重复性结构提取包括主语、谓语和宾语的三元组;
合并具有同一主语的三元组以形成三元组分组;以及
对所述三元组分组添加相应的资源描述框架属性以生成所述第二网页。
方案12.根据方案11所述的装置,其中所述生成单元被进一步配置成:
基于所述第一网页的结构化描述构造文件对象模型树,
对于所述文件对象模型树中的每个节点,根据节点类型和类别属性限定其模板,
将在同一节点下的具有相同模板的子节点确定为重复性节点,所述重复性节点对应于所述第一网页中的重复性结构。
方案13.根据方案12所述的装置,其中所述生成单元被进一步配置成:
使用包含谓语名称的辞典对所述重复性节点进行过滤。
方案14.根据方案11所述的装置,其中所述生成单元被进一步配置成:
在具有同一主语的三元组分组之间的相似性大于相似性阈值的情况下,对具有同一主语的三元组分组进行合并。
方案15.根据方案14所述的装置,其中基于具有同一主语的三元组分组中的谓语来计算所述相似性。
方案16.根据方案9所述的装置,所述获取单元被进一步配置成根据来自用户的请求从本地服务器删除所述第二网页。
方案17.一种计算机可读存储介质,其上存储有能够由计算机执行的计算机程序,所述计算机程序在被所述计算机执行时能够实现根据方案1至8中任一项所述的信息处理方法。
尽管上面已经通过对本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims (10)

1.一种信息处理方法,包括:
从用户的服务器获取第一网页;
基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及
通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。
2.根据权利要求1所述的方法,其中所述第一网页中嵌入有脚本,通过由用户运行所述脚本来获取所述第一网页。
3.根据权利要求1所述的方法,其中基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页的步骤包括:
基于所述第一网页的结构化描述确定所述第一网页中的重复性结构;
从所述第一网页中的重复性结构提取包括主语、谓语和宾语的三元组;
合并具有同一主语的三元组以形成三元组分组;以及
对所述三元组分组添加相应的资源描述框架属性以生成所述第二网页。
4.根据权利要求3所述的方法,其中基于所述第一网页的结构化描述确定所述第一网页中的重复性结构的步骤包括:
基于所述第一网页的结构化描述构造文件对象模型树,
对于所述文件对象模型树中的每个节点,根据节点类型和类别属性限定其模板,
将在同一节点下的具有相同模板的子节点确定为重复性节点,所述重复性节点对应于所述第一网页中的重复性结构。
5.根据权利要求4所述的方法,其中基于所述第一网页的结构化描述确定所述第一网页中的重复性结构的步骤进一步包括:
使用包含谓语名称的辞典对所述重复性节点进行过滤。
6.根据权利要求3所述的方法,其中合并具有同一主语的三元组以形成三元组分组的步骤包括:
在具有同一主语的三元组分组之间的相似性大于相似性阈值的情况下,对具有同一主语的三元组分组进行合并。
7.根据权利要求6所述的方法,其中基于具有同一主语的三元组分组中的谓语来计算所述相似性。
8.根据权利要求1所述的方法,进一步包括:
根据来自用户的请求从本地服务器删除所述第二网页。
9.一种信息处理装置,包括:
获取单元,被配置成从用户的服务器获取第一网页;
生成单元,被配置成基于所述第一网页中的重复性结构自动地在所述第一网页上添加资源描述框架属性以生成第二网页,其中所述第二网页存储在本地服务器上;以及
引导单元,被配置成通过所述第二网页将对所述第一网页的访问重定向到用户的服务器。
10.一种计算机可读存储介质,其上存储有能够由计算机执行的计算机程序,所述计算机程序在被所述计算机执行时能够实现根据权利要求1至8中任一项所述的信息处理方法。
CN201710232826.4A 2017-04-11 2017-04-11 信息处理方法和装置 Pending CN108694206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710232826.4A CN108694206A (zh) 2017-04-11 2017-04-11 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710232826.4A CN108694206A (zh) 2017-04-11 2017-04-11 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN108694206A true CN108694206A (zh) 2018-10-23

Family

ID=63842497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710232826.4A Pending CN108694206A (zh) 2017-04-11 2017-04-11 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN108694206A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885545A (zh) * 2019-02-02 2019-06-14 华为技术有限公司 存储、查询日志信息的方法、装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN102792292A (zh) * 2009-12-07 2012-11-21 考持·维 站点性能优化和因特网业务处理的系统和方法
CN102999563A (zh) * 2012-11-01 2013-03-27 无锡成电科大科技发展有限公司 基于资源描述框架的网络资源语义检索方法及系统
CN103559234A (zh) * 2013-10-24 2014-02-05 北京邮电大学 RESTful Web服务的自动化语义标注系统和方法
CN103823855A (zh) * 2014-02-19 2014-05-28 天津大学 面向语义网的中文百科知识组织与集成方法
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792292A (zh) * 2009-12-07 2012-11-21 考持·维 站点性能优化和因特网业务处理的系统和方法
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN102999563A (zh) * 2012-11-01 2013-03-27 无锡成电科大科技发展有限公司 基于资源描述框架的网络资源语义检索方法及系统
CN103559234A (zh) * 2013-10-24 2014-02-05 北京邮电大学 RESTful Web服务的自动化语义标注系统和方法
CN103823855A (zh) * 2014-02-19 2014-05-28 天津大学 面向语义网的中文百科知识组织与集成方法
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885545A (zh) * 2019-02-02 2019-06-14 华为技术有限公司 存储、查询日志信息的方法、装置

Similar Documents

Publication Publication Date Title
Bhardwaj et al. Collaborative data analytics with DataHub
CN109033358B (zh) 新闻聚合与智能实体关联的方法
KR101120301B1 (ko) 지속 저장 포탈
US20130198605A1 (en) Document Merge Based on Knowledge of Document Schema
US7895570B2 (en) Accessible role and state information in HTML documents
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US20110219045A1 (en) Data processing device
US20120011118A1 (en) Method and system for defining an extension taxonomy
CN108694208A (zh) 用于构造数据库的方法和装置
JP2010086517A (ja) コンピュータによって実施される、ウェブページからデータを抽出する方法
TW201250492A (en) Method and system of extracting web page information
US9703767B2 (en) Spreadsheet cell dependency management
US10489024B2 (en) UI rendering based on adaptive label text infrastructure
Baskaran et al. Automated scraping of structured data records from health discussion forums using semantic analysis
CN107122187A (zh) 一种业务系统异构操作系统访问设计方法
JP2008090403A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US10445370B2 (en) Compound indexes for graph databases
CN103246719B (zh) 一种基于Web的网络信息资源整合方法
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
US20180357328A1 (en) Functional equivalence of tuples and edges in graph databases
Kumar Apache Solr search patterns
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
Yu et al. Web content information extraction based on DOM tree and statistical information
US20090055345A1 (en) UDDI Based Classification System
CN113849718A (zh) 互联网烟草科技情报信息自动采集装置、方法与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181023