CN101048773B - 文件分析系统以及文件分析方法 - Google Patents
文件分析系统以及文件分析方法 Download PDFInfo
- Publication number
- CN101048773B CN101048773B CN2005800366943A CN200580036694A CN101048773B CN 101048773 B CN101048773 B CN 101048773B CN 2005800366943 A CN2005800366943 A CN 2005800366943A CN 200580036694 A CN200580036694 A CN 200580036694A CN 101048773 B CN101048773 B CN 101048773B
- Authority
- CN
- China
- Prior art keywords
- file
- layout
- key element
- inscape
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/88—Mark-up to mark-up conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
Abstract
一种可实现提供者希望的布局分析、系统地标题分析、第三者可利用分析出的布局的文件分析系统。输入部(11)取得结构化/半结构化文件进行描绘。基本布局分析部(14)取得描绘结果,参照文件描述要素的配置,对沿一定方向排列设置的文件描述要素进行分组化,分析布局。标题分析部(15)取得描绘结果,并从标题分析规则存储部(23)取得标题分析规则,将文件描述要素的名称、属性、类型、内容与标题分析规则对照,来分析布局。布局分析部(16)取得布局的构成要素与其层次关系和标题,将布局的构成要素分组化,生成新布局。输出部(13)取得新布局的构成要素与其层次关系、各构成要素与标题的对应关系,整形为利用文件描述要素的参照表现这些关系的形式后输出。
Description
技术领域
本发明涉及可根据结构化/半结构化文件分析布局的文件分析系统、文件分析方法、文件分析用程序、以及可利用布局使结构化/半结构化文件适应环境的文件适应系统、文件适应方法、文件适应程序。
背景技术
现有的文件分析系统、文件适应系统,对结构化/半结构化文件在保持布局的状态下以所希望的显示条件进行显示,因此利用文件描述要素的段落的强度来分析布局,并按分析出的布局的构成要素分配显示区域,以在各显示区域内扩大显示等所希望的显示条件对构成要素的信息进行显示,或在各显示区域内选择地显示构成要素内的标题(参照日本国特开2001-184344号公报)。
在此,文件描述要素是指成为结构化/半结构化文件的描述单位的要素,例如指HTML文件中的TABLE要素、A要素等HTML标签(tag)的要素。而且,布局的构成要素是指构成以画面为代表的显示面的、由关联信息组成的部分区域,例如指HTML文件中的某索引的关联信息构成的部分区域。
并且,为了生成适于画面显示的文件,按照利用了文件描述要素的名称的规则,根据具有特定名称的文件描述要素来生成目录文件,或生成描述了目录的项目的内容的文件(参照日本国特开平9-251457号公报)。
进而,为了生成用户所希望的文件,参照结构化/半结构化文件的URL、表示各文件的必要信息的存在位置的文件描述要素,按照与显示该必要信息的区域相关的规则,生成了由必要信息构成的合成文件(参照日本国特开2004-139275号公报)。
与本发明相关联,日本国特开平10-289250号公报公开了如下技术:在显示所登记的URL的一览时,不仅显示标题信息,还显示图像信息, 由此可直观地认识到所登记的URL的页面是何种页面。
特开平11-203285号公报公开了如下技术:按每行确定表示文件要素的行内位置的行属性,基于构成文件要素的各词素的意义和文件要素的所属行的行属性,按每行来确定文件要素的意义,从而对原文件的各文件要素准确地赋予意义。
特开2003-85159号公报公开了如下技术:分析所希望的结构化文件组的头文件,自动生成目录,通过合成该目录和关联文件的图像数据,向用户提供容易阅读的文件。
特开2004-86855号公报公开了一种用于使一边相互参照文件的内容和目录,一边容易进行文件的生成编辑的技术。具体而言,在该公知的技术中,当生成文件的目录时,嵌入用于生成与目录的项目所对应的文件内容信息的链接。并且,通过指点该链接,生成包括该目录的项目的文件内容信息。在生成时,预先将用于指示目录的输出的链接嵌入到文件内容信息中。通过指点文件内容信息中的链接,生成包括该文件的内容所对应的目录的项目的目录。在该情况下,也将用于生成目录的项目所对应的文件内容信息的链接嵌入目录中。
特开2003-288334号公报中公开了用于根据由多个页面构成的印刷文件高精度地生成带标签的结构文件的技术。
特开2003-330856号公报公开了如下技术:根据改变缩放状态的操作,动态进行布局生成以及信息粒度的调整,由此能快速访问内容的局部信息和大体信息双方。
现有技术中的第一问题是:在结构化/半结构化文件的文件分析系统中,未必能分析出文件提供者希望的布局。这是由于:文件的描述方法多样,因此在利用了文件描述要素的段落的强度的布局分析中,未必能分析出文件提供者希望的布局。
现有技术中的第二问题是:在结构化/半结构化文件的文件分析系统中,只能分析一部分标题。这是由于:一般标题利用文件描述要素的名称、属性、类型(style)、内容来表现,因此在依据仅利用了文件描述要素的名称的规则的标题分析中,只能分析一部分标题。
现有技术中的第三问题是:在结构化/半结构化文件的文件分析系统 中,无法利用第三者分析出的布局的信息来开发应用软件。这是由于:现有的文件分析系统不以第三者可利用的形式输出分析出的布局的信息。
现有技术中的第四问题是:在结构化/半结构化文件的文件适应系统中,无法准确捕捉文件提供者希望的文件的逻辑结构,使文件适应网络、终端、用户的环境。这是由于:当依据利用了文件描述要素的名称的规则来生成目录文件时,只能分析一部分标题,无法正确生成目录文件。还由于:利用文件的URL(Uniform Resource Locator)、表示各文件的必要信息的存在位置的文件描述要素的参照,依据用户定义的规则,来生成合成文件时,在文件更新时,有时无法正确生成用户所希望的合成文件,在这些规则中,不能准确捕捉文件提供者希望的文件的逻辑结构。
发明内容
本发明的第一目的在于,提供一种可分析文件提供者希望的布局的文件分析系统。
本发明的第二目的在于,提供一种可系统地分析标题的文件分析系统。
本发明的第三目的在于,提供一种能按第三者可利用来开发应用软件的形式输出布局的信息的文件分析系统。
本发明的第四目的在于,提供一种能准确捕捉文件提供者希望的文件的逻辑结构,使文件适应网络、终端、用户的环境的文件适应系统。
在本发明的方式一中,文件分析系统包括基本布局分析部,该基本布局分析部参照结构化文件或半结构化文件所包含的文件描述要素的配置,对沿着一定方向排列设置的所述文件描述要素进行分组化,分析所述结构化文件或所述半结构化文件的布局。
本发明的文件分析系统还包括:标题分析规则存储部,其存储基于结构化文件或半结构化文件的文件描述要素的名称、属性、类型、内容的任意一个以上的值的标题分析规则;标题分析部,其对照所述结构化文件或所述半结构化文件所包含的文件描述要素的名称、属性、类型、内容的任意一个以上和所述标题分析规则,对标题进行分析;和布局分析部,其利用由所述基本布局分析部分析出的所述布局、和由所述标题分析部分析出 的所述标题,对所述布局的构成要素进行分组化,生成新布局。
在本发明的文件分析系统中,所述布局分析部包括:块挑选部,其利用由所述基本布局分析部分析出的所述布局、由所述标题分析部分析出的所述标题、和由所述布局分析部分析出的所述新布局,挑选所述布局的主要构成要素;和区计算部,其利用由所述基本布局分析部分析出的所述布局、由所述布局分析部分析出的所述新布局、和由所述块挑选部挑选出的所述布局的主要构成要素,对所述布局的构成要素进行分组化,生成新布局。
在本发明的文件分析系统中,所述基本布局分析部参照所述分组化后的文件描述要素以下的所述文件描述要素的配置,将沿着之前的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析。
在本发明的文件分析系统中,所述基本布局分析部参照所述分组化后的文件描述要素以下的所述文件描述要素的配置,将沿着之前的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对下一层的布局进行分析。
在本发明的文件分析系统中,所述基本布局分析部仅参照所述文件描述要素中的一部分被指定的文件描述要素的配置。
在本发明的方式二中,文件分析系统包括:标题分析规则存储部,其存储基于结构化文件或半结构化文件的文件描述要素的名称、属性、类型、内容的任意一个以上的值的标题分析规则;和标题分析部,其对照所述结构化文件或所述半结构化文件所包含的文件描述要素的名称、属性、类型、内容的任意一个以上和所述标题分析规则,对标题进行分析。
在本发明的方式三中,文件分析系统包括输出部,该输出部将结构化文件或半结构化文件的布局以及标题整形为参照所述结构化文件或所述半结构化文件所包含的文件描述要素的表现形式并输出。
在本发明的方式四中,本发明的文件适应系统包括:目录文件输出部,其利用结构化文件或半结构化文件、和描述了所述结构化文件或所述半结构化文件的布局信息的文件,生成并输出目录文件;和项目文件输出部,其利用所述结构化文件或所述半结构化文件、和描述了所述布局信息的文 件,生成并输出描述了目录的项目内容的文件。
在本发明的方式五中,本发明的文件适应系统包括:输出构成要素信息存储部,其将所述结构化文件或所述半结构化文件的URI(UniversalResource Identifier)与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,作为输出构成要素信息存储;和合成文件输出部,其利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局信息的文件,生成并输出合成文件。
本发明的文件分析方法和文件分析程序包括:参照结构化文件或半结构化文件所包含的文件描述要素的配置,对沿着一定方向排列设置的所述文件描述要素进行分组化,分析所述结构化文件或所述半结构化文件的布局的步骤。
本发明的文件分析方法和文件分析程序包括:存储基于所述结构化文件或所述半结构化文件的文件描述要素的名称、属性、类型、内容的任意一个以上的值的标题分析规则的步骤;对照所述结构化文件或所述半结构化文件所包含的文件描述要素的名称、属性、类型、内容的任意一个以上和所述标题分析规则,对标题进行分析的步骤;和利用所述分析出的布局、和所述分析出的标题,对所述布局的构成要素进行分组化,生成新布局的步骤。
本发明的文件分析方法和文件分析程序,在分析所述布局的步骤中包括:参照所述分组化后的文件描述要素以下的所述文件描述要素的配置,将沿着之前的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析的步骤。
本发明的文件分析方法和文件分析程序,在分析所述布局的步骤中包括:参照所述分组化后的文件描述要素以下的所述文件描述要素的配置,将沿着之前的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对下一层的布局进行分析的步骤。
本发明的文件分析方法和文件分析程序,在分析所述布局的步骤中,仅参照所述文件描述要素中的一部分被指定的文件描述要素的配置。
本发明的文件分析方法和文件分析程序包括:存储基于结构化文件或半结构化文件的文件描述要素的名称、属性、类型、内容的任意一个以上的值的标题分析规则的步骤;和对照所述结构化文件或所述半结构化文件所包含的文件描述要素的名称、属性、类型、内容的任意一个以上和所述标题分析规则,对标题进行分析的步骤。
本发明的文件分析方法和文件分析程序包括:将结构化文件或半结构化文件的布局以及标题整形为参照所述结构化文件或所述半结构化文件所包含的文件描述要素的表现形式并输出的步骤。
本申请发明的文件适应方法和文件适应程序包括:利用结构化文件或半结构化文件、和描述了所述结构化文件或所述半结构化文件的布局的信息的文件,生成并输出目录文件的步骤;和利用所述结构化文件或所述半结构化文件、和描述了所述布局的信息的文件,生成并输出描述了目录的项目的内容的文件的步骤。
本发明的文件适应方法和文件适应程序包括:将结构化文件或半结构化文件的URI与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,作为输出构成要素信息存储到输出构成要素信息存储部的步骤;和利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局的信息的文件,生成并输出合成文件的步骤。
第一效果是能分析文件提供者希望的布局。这是由于基于文件描述要素的配置来分析布局。还由于:利用基于文件描述要素的配置分析出的布局、和除文件描述要素的名称之外利用属性、类型、内容分析出的标题,通过将之前分析出的布局的构成要素分组化,从而生成将以标题等为关键字的关联的构成要素的集合作为新构成要素的新布局。
第二效果是能系统地分析标题。这是由于除文件描述要素的名称之外还利用属性、类型、内容来分析标题。
第三效果是能以第三者可利用来开发应用软件的形式提供布局的信息。这是由于以利用文件描述要素的参照来表现布局的构成要素和标题的形式输出分析出的布局和标题。
第四效果是能利用文件提供者希望的文件的逻辑结构,使文件适应网络、终端、用户的环境。这是由于除结构化/半结构化文件之外,还利用描述了反映文件提供者希望的文件的逻辑结构的布局的信息的文件,并使文件适应环境。
另外,本发明可应用于如下用途中:利用了显示文件的概要的功能或朗读功能、选择性显示文件的项目的功能这样的文件的逻辑结构的文件阅览系统;或用于使计算机执行文件阅览系统的程序。而且,还可应用在如下用途中:利用了生成文件的概要的功能或根据概要分割文件的功能、选择性合成文件的项目的功能这样的文件的逻辑结构的文件转换系统、或用于使计算机实现文件转换系统的程序。
附图说明
图1是表示用于实施本发明第一发明的实施方式的构成的框图;
图2是表示用于实施本发明第一发明的实施方式的动作的流程图;
图3是表示HTML文件的例子的图;
图4是用于说明本发明第一实施方式的图;
图5是用于说明本发明第一实施方式的图;
图6是用于说明本发明第一实施方式的图;
图7是用于说明本发明第一实施方式的图;
图8是用于说明本发明第一实施方式的图;
图9是用于说明本发明第一实施方式的图;
图10是表示本发明第一实施方式的输出形式的例子的图;
图11是表示用于实施本发明第二发明的实施方式的构成的框图;
图12是表示用于实施本发明第二发明的实施方式的动作的流程图;
图13是表示本发明第二实施方式的标题分析规则的例子的图;
图14是用于说明本发明第二实施方式的图;
图15是表示本发明第二实施方式的输出形式的例子的图;
图16是表示用于实施本发明第三发明的实施方式的构成的框图;
图17是表示用于实施本发明第三发明的实施方式的动作的流程图;
图18是用于说明本发明第三实施方式的图;
图19是用于说明本发明第三实施方式的图;
图20是用于说明本发明第三实施方式的图;
图21是表示本发明第三实施方式的输出形式的例子的图;
图22是表示用于实施本发明第四发明的实施方式的构成的框图;
图23是表示用于实施本发明第四发明的实施方式的动作的流程图;
图24A是表示HTML文件和XML文件的例子中的HTML文件的图;
图24B是表示HTML文件和XML文件的例子中的XML文件的图;
图25是表示本发明的第四实施方式的目录文件的例子的图;
图26是表示本发明的第四实施方式的目录文件的例子的图;
图27是表示用于实施本发明第五发明的实施方式的构成的框图;
图28是表示用于实施本发明第五发明的实施方式的动作的流程图;
图29是表示与本发明的第五实施方式的输出构成要素相关的信息的例子的图;
图30A是表示HTML文件和XML文件的例子中的HTML文件的图;
图30B是表示HTML文件和XML文件的例子中的XML文件的图;
图31是表示本发明的第五实施方式的合成文件的例子的图;
图32是表示本发明第六实施方式的构成的框图;
图33是表示本发明第七实施方式的构成的框图;
图34是表示本发明第八实施方式的构成的框图;
图35是表示本发明第九实施方式的构成的框图;
图36是表示本发明的第九实施方式的动作的流程图;
图37是用于说明本发明第六实施例的图;
图38是用于说明本发明第六实施例的图;
图39是用于说明本发明第六实施例的图;
图40是用于说明本发明第六实施例的图;
图41是用于说明本发明第六实施例的图;
图42是用于说明本发明第六实施例的图;
图43是用于说明本发明第六实施例的图;
图44是用于说明本发明第六实施例的图;
图45是用于说明本发明第六实施例的图。
具体实施方式
下面,参照附图,对本发明的实施方式进行说明。参照图1,本发明第一实施方式的系统包括通过程序控制而动作的数据处理装置1、对信息进行存储的存储装置2。
数据处理装置1具备输入部11、布局分析工具12、输出部13。存储装置2具备描绘(rendering)结果存储部21、分析结果存储部22。
输入部11从外部取得结构化/半结构化文件,并对该文件进行描绘,将描绘结果存储到描绘结果存储部21中。布局分析工具12具有基本布局分析部14。输出部13从分析结果存储部22取得布局的构成要素和其层次关系的信息,整形为利用文件描述要素的参照来表现布局的构成要素的形式,输出到外部。在此,可对布局的构成要素赋予ID进行输出。
基本布局分析部14从描绘结果存储部21取得描绘结果,参照文件描述要素的配置,将沿一定方向排列设置的文件描述要素分组化,从而分析布局。具体而言,参照被指定的文件描述要素、例如成为根(root)的文件描述要素或属于已经分析出的布局的构成要素的文件描述要素的配置,对沿一定方向排列设置的文件描述要素分组化。被分组化后的文件描述要素、未被分组化但没有子文件描述要素的文件描述要素作为布局的构成要素而存储到分析结果存储部22中。未被分组化的文件描述要素以该文件描述要素的子文件描述要素为对象,反复进行处理,直至所有文件描述要素被分组化,或直至不存在子文件描述要素。
描绘结果存储部21存储输入部11的处理结果,分析结果存储部22存储布局分析工具12的处理结果。
通过以上的处理,对特定层的布局、即布局的构成要素的集合进行分析。在此,对通过上述处理分析出的布局的构成要素而言,还可通过如下方式来分析布局:参照属于该布局的构成要素的文件描述要素的配置,将沿着之前的分组化中采用的方向的垂直方向排列配置的文件描述要素进行分组化,并将替换之前分析出的布局的构成要素的处理反复执行规定次数。而且也可以是:当作为布局的构成要素而分析出的文件描述要素从母文件描述要素来看是唯一的子文件描述要素时,将该分析出的文件描述要 素与母文件描述要素调换。
在分析下一层的布局时,对之前分析出的布局的各构成要素进行再次处理。具体而言,对之前分析出的布局的构成要素而言,参照属于该布局的构成要素的文件描述要素的配置,在对沿一定方向排列配置的文件描述要素进行分组化之后,参照被分组化的文件描述要素以下的文件描述要素的配置,将对沿着之前的分组化中使用的方向的垂直方向排列配置的文件描述要素进行分组化的处理反复执行规定次数分析布局。在此,作为下一层的分析的最初的分组化中采用的方向,可使用上位布局的分析的最后的分组化中使用的方向的垂直方向。若反复执行分析下一层的处理,则在可能的范围内能分析任意层的布局。另外,在上述处理中,作为文件描述要素,也可仅参照一部分被指定的文件描述要素的配置。通过以上的处理,对布局、即布局的构成要素与其层次关系进行分析。
下面,参照图1、图2,对本实施方式的动作进行详细说明。输入部11从外部取得结构化/半结构化文件,对该文件进行描绘,并将描绘结果存储到描绘结果存储部21中(步骤S101)。
基本布局分析部14从描绘结果存储部21取得描绘结果,使处理对象层n为1(步骤S102),判断是否对该处理对象层继续处理(步骤S103)。作为判断基准,可使用处理层的上限值、分析出的基本布局的大小。当基本布局分析部14判断为不继续处理时,前进到步骤S107。
基本布局分析部14当在步骤S103中判断为继续处理时,取得成为处理对象的文件描述要素(步骤S104)。
基本布局分析部14参照成为处理对象的文件描述要素的配置,通过将沿着一定方向排列配置的文件描述要素进行分组化来分析布局,并与上位层的布局的构成要素相关联,存储到分析结果存储部22中(步骤S105)。
基本布局分析部14将处理对象层n作为n+1(步骤S106),重复步骤S103以后的处理。
输出部13从分析结果存储部22取得布局的构成要素与其层次关系的信息,整形为利用文件描述要素的参照来表现布局的构成要素的形式,输出到外部(步骤S107)。
在本实施方式中,由于参照结构化/半结构化文件的文件描述要素的配 置来对排列配置的文件描述要素进行分组化,由此分析布局,因此可分析基于文件描述要素的配置的布局。所以,即使在描述方法多样的结构化/半结构化文件中,也能分析文件提供者希望的布局。而且,由于以利用文件描述要素的参照来表现布局的形式进行输出,因此第三者可开发利用了布局的信息的应用程序。
下面,参照附图,对本发明第二实施方式进行详细说明。参照图11,本发明第二实施方式包括通过程序控制而动作的数据处理装置1、对信息进行存储的存储装置2。
数据处理装置1具备输入部11、布局分析工具12、输出部13。存储装置2具备描绘结果存储部21、分析结果存储部22、标题分析规则存储部23。
输入部11从外部取得结构化/半结构化文件,并对该文件进行描绘,将描绘结果存储到描绘结果存储部21中。布局分析工具12具有标题分析部15。输出部13从分析结果存储部22取得标题的集合,整形为利用文件描述要素的参照来表现标题的形式,输出到外部。
描绘结果存储部21存储输入部11的处理结果,分析结果存储部22分别存储布局分析工具12的处理结果。标题分析规则存储部23预先存储标题分析规则、即成为标题判断的基准的基于文件描述要素的名称、属性、类型、内容的值的规则。
标题分析部15从描绘结果存储部21取得描绘结果,从标题分析规则存储部23取得标题分析规则,除文件描述要素的名称之外,还将属性、类型、内容与标题分析规则进行对照,由此分析标题。具体而言,将被指定的文件描述要素例如成为根的文件描述要素作为处理对象要素,对处理对象要素,将文件描述要素的名称、属性、类型、内容与标题分析规则进行对照。当对照的结果判断为标题时,将该文件描述要素作为标题,存储到分析结果存储部22中,若存在未处理的处理对象要素,则将其作为对象而继续处理。
当判断为不是标题时,将该文件描述要素的子文件描述要素重新作为处理对象要素,并继续处理直至不存在未处理的处理对象要素。在此,作为标题分析规则,可采用“属性在文件内唯一”、“使用了背景色或背景图 像”、“使用了在文件内使用频度低的文字颜色或文字大小”这样基于描绘图像上的文件描述要素的特性的规则。另外,在上述处理中,作为文件描述要素,可将具有相同名称、属性、类型的多个文件描述要素进行分组化。通过以上的处理,对标题的集合进行分析,并存储到分析结果存储部22中。
下面,参照图11、图12,对本实施方式的动作进行详细说明。输入部11从外部取得结构化/半结构化文件,对该文件进行描绘,并将描绘结果存储到描绘结果存储部21中(步骤S201)。
标题分析部15从描绘结果存储部21取得描绘结果,从标题分析规则存储部23取得标题分析规则,取得成为处理对象的文件描述要素(步骤S202)。
标题分析部15确认有无作为处理对象的文件描述要素,当判断为没有可成为处理对象的文件描述要素时,前进到步骤S208(步骤S203)。
标题分析部15当在步骤S203中判断为存在成为处理对象的文件描述要素时,将该文件描述要素的名称或属性、类型、内容与标题分析规则进行对照(步骤S204)。
标题分析部15当在步骤S204中通过对照判断为不是标题的情况下,或者当在步骤S206中将文件描述要素存储为标题的情况下,取得下一个成为处理对象的文件描述要素,对该文件描述要素进行步骤S203以下的处理(步骤S205)。
标题分析部15当在步骤S204中通过对照判断为是标题的情况下,将该文件描述要素作为标题存储到分析结果存储部22中,并前进到步骤S205(步骤S206)。
输出部13从分析结果存储部22取得标题的集合,整形为利用文件描述要素的参照来表现标题的形式,输出到外部(步骤S207)。
接着,对本实施方式的效果进行说明。在本实施方式中,由于除结构化/半结构化文件的文件描述要素的名称之外,还利用属性、类型、内容来分析标题,因此还可分析利用属性或类型来表现的标题。所以,能系统地分析标题。而且,由于以利用文件描述要素的参照来表现标题的形式进行输出,因此第三者可开发利用了标题的信息的应用程序。
下面,参照附图,对本发明第三实施方式进行说明。参照图16,本发明第三实施方式包括通过程序控制而动作的数据处理装置1、对信息进行存储的存储装置2。
数据处理装置1具备输入部11、布局分析工具12、输出部13。存储装置2具备描绘结果存储部21、分析结果存储部22、标题分析规则存储部23。
输入部11从外部取得结构化/半结构化文件,并对该文件进行描绘,将描绘结果存储到描绘结果存储部21中。
布局分析工具12具有基本布局分析部14、标题分析部15、布局分析部16。
输出部13从分析结果存储部22取得新布局的构成要素与其层次关系、以及各构成要素与标题的对应关系,整形为利用文件描述要素的参照来表现新布局的构成要素和标题的形式,输出到外部。在此,可对新布局的构成要素赋予ID进行输出。
基本布局分析部14从描绘结果存储部21取得描绘结果,参照文件描述要素的配置,将沿一定方向排列设置的文件描述要素分组化,从而分析布局。基本布局分析部14的功能与本发明第一实施方式的基本布局分析部14所示的功能相同。
标题分析部15从描绘结果存储部21取得描绘结果,从标题分析规则存储部23取得标题分析规则,除文件描述要素的名称之外,还将属性、类型、内容与标题分析规则进行对照,由此分析标题。标题分析部15的功能与本发明第二实施方式的标题分析部15所示的功能相同。
布局分析部16从分析结果存储部22取得由基本布局分析部14分析出的布局的构成要素与其层次关系、由标题分析部15分析出的标题,并通过将不具有标题的布局的构成要素与具有标题的布局的构成要素或不具有标题的其它布局的构成要素进行分组化,来生成新布局。具体而言,首先取得第一层的布局的构成要素,使构成要素与构成要素包含的标题对应。不具有标题的构成要素与具有标题的构成要素中的、例如最靠近源码开头的构成要素分组化。当不存在最靠近的具有标题的构成要素时,例如与最靠近的不具有标题的构成要素分组化。被分组化的布局的构成要素作 为新布局的构成要素,与属于该构成要素的标题一起存储到分析结果存储部22中。进而,将上述处理反复执行由基本布局分析部14分析出的布局的层数次,由此分析新布局的构成要素与其层次关系、以及各构成要素与标题的对应关系。
描绘结果存储部21存储输入部11的处理结果,分析结果存储部22存储布局分析工具12的处理结果。标题分析规则存储部23预先存储标题分析规则。
下面,参照图16、图17,对本实施方式的动作进行详细说明。输入部11从外部取得结构化/半结构化文件,对该文件进行描绘,并将描绘结果存储到描绘结果存储部21中(步骤S301)。
基本布局分析部14的动作与本发明第一实施方式所示的基本布局分析部(图1的14)的动作相同(步骤S302~步骤S306)。
标题分析部15的动作与本发明第二实施方式所示的标题分析部(图11的15)的动作相同(步骤S311~步骤S316)。
布局分析部16从分析结果存储部22取得由基本布局分析部14分析出的布局的构成要素与其层次关系、由标题分析部15分析出的标题,使处理对象层n为1(步骤S321)。
布局分析部16判断是否存在处理对象层的布局的构成要素,当判断为不存在处理对象层的布局的构成要素时,前进到步骤S331(步骤S322)。
布局分析部16当在步骤S322中判断为存在处理对象层的布局的构成要素时,取得第n层的布局的构成要素(步骤S323),使第n层的布局的构成要素与标题对应(步骤S324)。
布局分析部16通过将不具有标题的的布局的构成要素与具有标题的布局的构成要素或不具有标题的其它布局的构成要素进行分组化,来分析新布局的构成要素,并将存储到分析结果存储部22中(步骤S325)。
布局分析部16将处理对象层n作为n+1,重复步骤S322以后的处理(步骤S326)。
输出部13从分析结果存储部22取得新布局的构成要素与其层次关系、以及各构成要素与标题的对应关系,整形为利用文件描述要素的参照来表现新布局的构成要素和标题的形式,输出到外部(步骤S331)。
在此,也可调换基本布局分析部14的动作(步骤S302~步骤S306)、和标题分析部15的动作(步骤S311~步骤S316)的执行顺序。具体而言,变为在步骤S301之后执行步骤S311~步骤S316的形式,当在步骤S312中为“否”时,执行步骤S302~步骤S306。而且,在该情况下,变为当在步骤S303中为“否”时,转移到步骤S321的形式。
接着,对本实施方式的效果进行说明。在本实施方式中,利用参照文件描述要素的配置而对排列配置的文件描述要素进行分组化来分析出的布局、以及除文件描述要素的名称之外还使用属性、类型、内容来分析出的布局,并通过将不具有标题的布局的构成要素与具有标题的布局的构成要素或不具有标题的其它布局的构成要素进行分组化,从而生成将关联的构成要素的集合作为新构成要素的新布局,所以可分析进一步捕捉了逻辑结构的布局。因此,可分析进一步反映了文件提供者的希望的布局。而且,由于以利用文件描述要素的参照来表现布局或标题的形式进行输出,因此第三者可开发利用了布局的信息的应用程序。
下面,参照附图,对本发明第四实施方式进行说明。参照图22,本发明第四实施方式包括通过程序控制而动作的数据处理装置5、对信息进行存储的存储装置6。
数据处理装置5具备输入部51、文件输入部52、目录文件输出部53、项目文件输出部54。存储装置6具备结构化/半结构化文件存储部61、布局文件存储部62。
输入部51从以键盘为首的输入装置或通过网络来取得用户的输入,取得用户所希望的结构化/半结构化文件的URI(Universal ResourceIdentifier)。而且,输入部51从以键盘为首的输入装置或通过网络来取得用户的输入,并对输出进行控制。具体而言,根据取得的输入,判断输出目录文件还是输出描述了目录的项目的内容的文件,当输出描述了目录的项目的内容的文件时,还判断输出的目录的项目。
文件输入部52利用由输入部51取得的用户所希望的结构化/半结构化文件的URI,取得该文件,存储到结构化/半结构化文件存储部61中。而且,文件输入部52取得如下文件:所取得的结构化/半结构化文件中被指定的、利用文件描述要素的参照而描述了布局的信息的文件,存储到布局 存储部62中。在此,文件输入部52也可采用利用通信协议的头信息等其它方法,取得描述了所取得的结构化/半结构化文件的布局的信息的文件。而且,对所取得的结构化/半结构化文件而言,还可利用本发明第三实施方式所示的系统,分析布局信息,存储到布局文件存储部62中。
当输入部51判断为输出目录时,目录文件输出部53从结构化/半结构化文件存储部61取得用户所希望的结构化/半结构化文件,并从布局文件存储部62取得描述了该结构化/半结构化文件的布局的信息的文件,生成目录文件。具体而言,从描述了布局的信息的文件提取所有末端的布局的构成要素,并提取对各自指定的标题,利用文件描述要素的参照从原来的结构化/半结构化文件挑出该标题所对应的文件描述要素,进行整形并按顺序排列,从而生成目录文件。在此,对没有标题的指定的构成要素,也可从该构成要素所对应的文件描述要素以下的内容中挑出一定数量的文字进行排列。而且,还可对目录添加如下装饰:在特定层的布局的构成要素之间插入分隔线、插入对结构化/半结构化文件赋予另外用途的标题等。还有,对于上位层的构成要素相同的一个以上的末端的布局的构成要素,也可取代末端的构成要素而使用上位层的构成要素。生成的目录文件从显示器或扬声器等输出装置或通过网络提供给用户。
当输入部51判断为输出描述了目录的项目的内容的文件而判断要输出的目录的项目时,项目文件输出部54从结构化/半结构化文件存储部61取得用户所希望的结构化/半结构化文件,并从布局文件存储部62取得描述了该结构化/半结构化文件的布局的信息的文件,生成描述了指定的目录的项目的内容的文件。具体而言,提取具有指定的目录的项目作为标题的布局的构成要素,利用文件描述要素的参照从原来的结构化/半结构化文件挑出该构成要素所对应的文件描述要素,进行整形并按顺序排列,从而生成描述的目录的项目的内容的文件。在此,作为项目的内容,可对挑出的文件描述要素的内容进行进一步挑选而排列。而且,也可在将结构化/半结构化文件的文件描述要素替换成其它文件描述要素后进行排列。进而,作为描述了目录的内容的文件,可利用用户所希望的结构化/半结构化文件,对匹配指定的目录的项目所对应的区域后进行输出。生成的描述了目录的项目的内容的文件从显示器或扬声器等输出装置或通过网络提供给用户。
结构化/半结构化文件存储部61、布局文件存储部62存储文件输入部52的处理结果。在此也可采用如下构成:目录文件输出部54在生成目录文件时存储该目录信息,并且由项目文件输出部54预先生成并存储描述了目录的项目的内容的所有文件,选择目录文件输出部53或项目文件输出部54,来输出描述了与用户输入相对应的目录文件或目录的项目的内容的文件。
下面,参照图22、图23,对本实施方式的动作进行详细说明。输入部51从以键盘为首的输入装置或通过网络来取得用户的输入,取得用户所希望的结构化/半结构化文件的URI(步骤S401)。
文件输入部52利用取得的URI取得文件,并存储到结构化/半结构化文件存储部61中。而且,文件输入部52取得如下文件:所取得的结构化/半结构化文件中被指定的描述了布局的信息的文件,存储到布局文件存储部62中(步骤S402)。
输入部51判断是否继续处理,当判断为不继续处理时,结束处理(步骤S403)。
当在步骤S403中判断为继续处理时,输入部51判断输出的内容是否为目录(步骤S404)。
当在步骤S404中判断为输出目录时,目录文件输出部53从结构化/半结构化文件存储部61取得用户所希望的结构化/半结构化文件,并从布局文件存储部62取得描述了该结构化/半结构化文件的布局的信息的文件,生成目录文件。生成的目录文件从显示器或扬声器等输出装置或通过网络提供给用户(步骤S405)。
当在步骤S404中判断为不输出目录时,项目文件输出部54进一步判断目录的项目,从结构化/半结构化文件存储部61取得用户所希望的结构化/半结构化文件,并从布局文件存储部62取得描述了该结构化/半结构化文件的布局的信息的文件,生成描述了指定的目录的项目的内容的文件。生成的描述了目录的项目的内容的文件从显示器或扬声器等输出装置或通过网络提供给用户(步骤S406)。
在步骤S405中输出了目录文件之后、或在步骤S406中输出了描述有目录的项目的内容的文件之后,输入部51从以键盘为首的输入装置或通 过网络来取得用户的输入,重复步骤S403以后的处理(步骤S407)。
接着,对本实施方式的效果进行说明。在本实施方式中,利用结构化/半结构化文件和描述了该文件的布局的信息的文件,来生成并输出描述了目录文件或目录的项目的内容的文件,因此能利用准确捕捉了文件提供者希望的文件的逻辑结构的目录来阅览文件,因此即使在画面小的终端中也容易把握文件的整个像,并且能以少的操作阅览文件。因此,可提供适应终端环境的文件。
下面,参照附图,对本发明第五实施方式进行说明。参照图27,本发明第五实施方式包括通过程序控制而动作的数据处理装置7、对信息进行存储的存储装置8。
数据处理装置7具备文件输入部71和合成文件输出部72。存储装置8具备输出构成要素存储部81、结构化/半结构化文件存储部82、布局文件存储部83。
文件输入部71从输出构成要素存储部81取得与输出构成要素相关的信息,取得该信息中描述的URI所对应的文件,存储到结构化/半结构化文件存储部82中。而且,文件输入部71取得如下文件:所取得的各个结构化/半结构化文件中被指定的、利用文件描述要素的参照而描述了布局的信息的文件,存储到布局文件存储部83中。在此,文件输入部71也可采用利用通信协议的头信息等其它方法,取得描述了所取得的结构化/半结构化文件的布局的信息的文件。而且,对所取得的结构化/半结构化文件而言,还可利用本发明第三实施方式所示的系统,分析布局信息,存储到布局文件存储部83中。
合成文件输出部72从输出构成要素存储部81取得与输出构成要素相关的信息,从结构化/半结构化文件存储部82取得用户所希望的结构化/半结构化文件,并从布局文件存储部83取得描述了布局的信息的文件,生成合成文件。具体而言,从与输出构成要素相关的信息中取得所有URI与构成要素的ID的组合,利用文件描述要素的参照从原来的结构化/半结构化文件挑出该构成要素所对应的文件描述要素,进行整形并按顺序排列,从而生成合成文件。在此,对各构成要素,也可从属于该构成要素的文件描述要素的内容中进一步挑选后进行排列。生成的合成文件从显示器 或扬声器等输出装置或通过网络提供给用户。
在此,也可以是:作为与输出构成要素相关的信息,还存储表示构成要素的标题的文本信息,在合成文件输出部72中当提取出与输出的构成要素ID对应的构成要素时,将提取出的构成要素的标题、和与构成要素相关的信息所存储的表示构成要素的标题的文本信息进行对照,在二者不同的情况下,以该文本信息为线索来检索正确的构成要素,通过更新与输出构成要素相关的信息所存储的输出的构成要素的ID,从而即使在布局中存在变更的情况下也能生成适当的合成文件。而且,还可以是:作为与输出构成要素相关的信息,还存储显示位置的信息,在合成文件输出部72中利用该显示位置的信息,对合成文件进行整形。
输出构成要素存储部81存储与输出的构成要素相关的信息,即存储输出的结构化/半结构化文件的URI与该文件中的输出的构成要素的ID的组合的集合。结构化/半结构化文件存储部82、布局文件存储部83存储文件输入部71的处理结果。
下面,参照图27、图28,对本实施方式的动作进行详细说明。文件输入部71从输出构成要素存储部81取得与输出构成要素相关的信息(步骤S501)。
文件输入部71利用取得的与输出构成要素相关的信息中描述的URI所对应的文件,并存储到结构化/半结构化文件存储部82中。而且,文件输入部71取得如下文件:所取得的各个结构化/半结构化文件中被指定的描述了布局的信息的文件,存储到布局文件存储部83中(步骤S502)。
合成文件输出部72从输出构成要素存储部81取得与输出构成要素相关的信息,从结构化/半结构化文件存储部82取得用户所希望的结构化/半结构化文件,并从布局文件存储部83取得描述了该文件的布局的信息的文件,生成合成文件。生成的合成文件从显示器或扬声器等输出装置或通过网络提供给用户(步骤S503)。
接着,对本实施方式的效果进行说明。在本实施方式中,利用与输出构成要素相关的信息、结构化/半结构化文件和描述了该文件的布局的信息的文件,来生成并输出仅由指定的布局的构成要素构成的合成文件,因此能利用准确捕捉了文件提供者希望的文件的逻辑结构的合成文件,来仅阅 览文件的需要的部分,从而即使在网络带宽受限的终端中也能舒适地阅览文件。而且还可阅览与用户的爱好相应的文件。因此,可提供适用于网络或终端、用户的环境中的文件。
下面,参照附图,对本发明第六实施方式进行说明。参照图32,本发明第六实施方式与本发明的第一、第二、第三实施方式同样,包括数据处理装置1、存储装置2。
文件分析用程序3被读入到数据处理装置1,控制数据处理装置1的动作,在存储装置2中生成描绘结果存储部21、分析结果存储部22和标题分析规则存储部23。数据处理装置1通过文件分析用程序3的控制,执行与第一、第二、第三实施方式中的数据处理装置1所进行的处理相同的处理。
接着,参照附图,对本发明的第七实施方式进行详细说明。参照图33,本发明的第七实施方式与本发明的第四实施方式同样,具备数据处理装置5、存储装置6。
文件适应用程序4被读入到数据处理装置5,控制数据处理装置5的动作,在存储装置6中生成结构化/半结构化文件存储部61、布局文件存储部62。数据处理装置5通过文件适应用程序4的控制,执行与第四实施方式中的数据处理装置5所进行的处理相同的处理。
下面,参照附图,对本发明的第八实施方式进行详细说明。参照图34,本发明的第八实施方式与本发明的第五实施方式同样,具备数据处理装置7、存储装置8。
文件适应用程序9被读入到数据处理装置7,控制数据处理装置7的动作,在存储装置8中构成输出构成要素存储部81、结构化/半结构化文件存储部82、布局文件存储部83。数据处理装置7通过文件适应用程序9的控制,执行与第五实施方式中的数据处理装置7所进行的处理相同的处理。
接着,参照附图,对本发明的第九实施方式进行详细说明。参照图35,本发明的第九实施方式包括通过程序控制而动作的数据处理装置1、对信息进行存储的存储装置2。
数据处理装置1具备输入部11、布局分析工具12、输出部13。存储 装置2具备描绘结果存储部21、分析结果存储部22、标题分析规则存储部23。
输入部11从外部取得结构化/半结构化文件,并对该文件进行描绘,将描绘结果存储到描绘结果存储部21中。
布局分析工具12具有基本布局分析部14、标题分析部15、布局分析部16。
输出部13从分析结果存储部22取得布局的构成要素与其层次关系、以及各构成要素与标题的对应关系,整形为利用文件描述要素的参照来表现布局的构成要素和标题的形式,输出到外部。
基本布局分析部14从描绘结果存储部21取得描绘结果,参照文件描述要素的配置,将沿一定方向排列设置的文件描述要素分组化,从而分析布局。基本布局分析部14的功能与本发明第一实施方式的基本布局分析部14所示的功能相同。
标题分析部15从描绘结果存储部21取得描绘结果,从标题分析规则存储部23取得标题分析规则,除文件描述要素的名称之外,还将属性、类型、内容与标题分析规则进行对照,由此分析标题。标题分析部15的功能与本发明第二实施方式的标题分析部15所示的功能相同。
布局分析部16具有块挑选部17、区计算部18。
块挑选部17从分析结果存储部22取得由基本布局分析部14分析出的第一布局的构成要素与其层次关系、由布局分析部16分析出的第二布局的构成要素与其层次关系,并挑选一个可分割的第二布局的构成要素,将构成该构成要素的第一布局的构成要素作为分析对象。进而,取得由标题分析部15分析出的标题,和分析对象的第一布局的构成要素将标题对应起来,关于对应起来的标题,基于构成该标题的文件描述要素的名称、属性、类型,来挑选主要标题。在此基础上,将具有主要标题的构成要素作为主要构成要素。在此,对分析对象的第一布局的构成要素而言,基于构成该构成要素的文件描述要素的名称、属性、类型、内容,来判断该构成要素是否为边界线,可将判断为是边界线的构成要素作为主要布局的构成要素,还可基于分析对象的第一布局的构成要素之间的距离,将与之前的构成要素相距规定距离以上的构成要素等作为主要构成要素。
区计算部18对于由块挑选部17挑选出的第一布局的构成要素,通过将并不主要的构成要素和主要构成要素或并不主要的其他构成要素进行分组化,由此生成第二布局的构成要素,并存储到分析结果存储部22中。具体而言,并不主要的构成要素与主要构成要素中的、例如最靠近源码开头的构成要素分组化。当不存在最靠近的主要构成要素时,例如与最靠近的并不主要的构成要素分组化。在此,可将新生成的第二布局的构成要素与原来的第二布局的构成要素调换来存储。而且,还可除去判断为边界线的第一布局的构成要素,作为第二布局的构成要素进行存储。
下面,参照图35、图36,对本实施方式的动作进行详细说明。输入部11从外部取得结构化/半结构化文件,对该文件进行描绘,并将描绘结果存储到描绘结果存储部21中(步骤S901)。
基本布局分析部14的动作与本发明第一实施方式所示的基本布局分析部(图1的14)的动作相同(步骤S902~步骤S906)。
标题分析部15的动作与本发明的第二实施方式所示的标题分析部(图1的15)的动作相同(步骤S911~步骤S916)。
块挑选部17从分析结果存储部22取得由基本布局分析部14分析出的第一布局的构成要素与其层次关系、由标题分析部15分析出的标题,由布局分析部F16分析出的第二布局的构成要素与其层次关系(步骤S921)。
块挑选部17判断是否为可分割的第二布局的构成要素,当判断为没有可分割的第二布局的构成要素时,前进到步骤S931(步骤S922)。在此,作为判断基准,可使用第二布局的构成要素所包含的标题的数量、构成第二布局的构成要素的第一布局的构成要素中的具有标题的构成要素的数量、第二布局的构成要素的面积或宽度、高度等。
当在步骤S923中判断为存在可分割的第二布局的构成要素时,块挑选部17挑选一个可分割的第二布局的构成要素,将构成该构成要素的第一布局的构成要素作为分析对象(步骤S923)。
块挑选部17将分析对象的第一布局的构成要素和标题对应起来(步骤S924),关于对应起来的标题,基于构成该标题的文件描述要素的名称、属性、类型,来挑选主要标题(步骤S925)。
块挑选部17将在步骤S925中挑选出的具有主要标题的第一布局的构成要素作为主要构成要素。在此,对分析对象的第一布局的构成要素而言,基于构成该构成要素的文件描述要素的名称、属性、类型、内容,来判断该构成要素是否为边界线,可将判断为是边界线的构成要素和其下一个构成要素都作为主要布局的构成要素,还可基于分析对象的第一布局的构成要素之间的距离,将与之前的构成要素相距规定距离以上的构成要素等作为主要构成要素(步骤S926)。
区计算部18对于由块挑选部17挑选出的第一布局的构成要素,通过将并不主要的构成要素和主要构成要素或并不主要的其他构成要素进行分组化,由此生成第二布局的构成要素,并存储到分析结果存储部22中(步骤S927)。
输出部13从分析结果存储部22取得第二布局的构成要素与其层次关系、以及各构成要素与标题的对应关系,整形为利用文件描述要素的参照来表现第二布局的构成要素和标题的形式,输出到外部(步骤S931)。
在此,也可调换基本布局分析部14的动作(步骤S902~步骤S906)、和标题分析部15的动作(步骤S911~步骤S916)的执行顺序。
下面,对本实施方式的效果进行说明。在本实施方式中,基于根据构成标题的文件描述要素的名称、属性、类型而挑选的主要标题等,对第一布局的构成要素分组化,生成新的第二布局的构成要素,所以可分析进一步捕捉了逻辑结构的布局。因此,可分析进一步反映了文件提供者的希望的布局。而且,由于以利用文件描述要素的参照来表现布局或标题的形式进行输出,因此第三者可开发利用了布局的信息的应用程序。
(实施例)
下面,参照附图,对本发明第一实施例进行说明。所述实施例对应于本发明第一实施方式。本实施例具备数据处理装置,并具备个人计算机作为数据存储装置。
个人计算机具有:发挥输入部、布局分析部、输出部、基本布局分析部的功能的中央运算装置;发挥描绘结果存储部、分析结果存储部的功能的存储器装置;和磁盘存储装置。
在此,作为结构化/半结构化文件以图3所示的HTML文件为对象,对直至第二层的布局的分析进行说明。
中央运算装置从外部取得HTML文件,对该文件进行描绘,并将图3所示的描绘结果存储到存储器装置中。中央运算装置取得描绘结果,首先参照body要素的配置。如图4所示,body要素没有沿水平方向排列设置的HTML文件的要素,无法分组化,因此中央运算装置参照子HTML文件的要素的配置。如图5所示,作为子HTML文件的要素的h1要素和两个table要素均没有沿水平方向排列设置的HTML文件的要素,无法分组化,因此中央运算装置进一步参照子HTML文件的要素的配置。
首先,对h1要素而言,如图5所示,由于没有子HTML文件的要素,因此将该h1要素作为第一布局的构成要素存储到存储器装置中。接着,对第一个table要素而言,如图6所示,由于作为子HTML文件的要素的tr要素没有沿水平方向排列配置的HTML文件的要素,无法分组化,因此中央运算装置进一步参照子HTML文件的要素的配置。如图7所示,作为子HTML文件的要素的td要素没有沿水平方向排列配置的HTML文件的要素而无法分组化,但其没有子HTML文件的要素,因此将该td要素作为第二布局的构成要素存储到存储器装置中。最后,对第二个table要素而言,如图6所示,由于作为子HTML文件的要素的两个tr要素没有沿水平方向排列配置的HTML文件的要素而无法分组化,因此中央运算装置进一步参照子HTML文件的要素的配置。
对第一个tr要素而言,如图7所示,由于作为子HTML文件的要素的两个td要素沿水平方向排列,因此将它们分组化,并将这两个td要素作为第三布局的构成要素存储到存储器装置中。对第二个tr要素而言,如图7所示,由于作为子HTML文件的要素的两个td要素沿水平方向排列,因此将它们分组化,并将这两个td要素作为第四布局的构成要素存储到存储器装置中。
通过以上处理,对图8所示的第一层的布局进行分析。在分析第二层的布局时,对第一层的布局的构成要素而言,参照属于其的HTML文件的要素的配置,将沿垂直方向排列配置的HTML文件的要素分组化。例如,对第三布局的构成要素而言,如图9所示,作为属于其的HTML文件的要 素的两个td要素的均没有沿垂直方向排列配置的HTML文件的要素,无法分组化,因此中央运算装置进一步参照子HTML文件的要素的配置。对第一个td要素而言,如图9所示,由于没有子HTML文件的要素,因此将该td要素作为布局的构成要素存储到存储器装置中。对第二个td要素而言,如图9所示,由于没有子HTML文件的要素,因此将该td要素作为布局的构成要素,存储到存储器装置中。通过以上的处理,对第二层的布局进行分析。
中央运算装置从存储器装置取得分析出的布局的构成要素与其层次关系的信息,整形为利用HTML文件的要素的参照来表现布局的构成要素的形式,例如图10所示的形式,输出到外部。
下面,参照附图,对本发明的第二实施例进行说明。所述实施例对应于本发明第二实施方式。本实施例具备数据处理装置,并具备个人计算机作为数据存储装置。
个人计算机具有:发挥输入部、布局分析部、输出部、标题分析部的功能的中央运算装置;发挥描绘结果存储部、分析结果存储部的功能的存储器装置;和磁盘存储装置。而且,在磁盘存储装置中存储有图13所示的标题分析规则。
在此,作为结构化/半结构化文件以图3所示的HTML文件为对象进行说明。中央运算装置从外部取得HTML文件,对该文件进行描绘,并将图3所示的描绘结果存储到存储器装置中。
中央运算装置取得描绘结果和标题分析规则,将body要素作为处理对象HTML文件的要素。对body要素将其名称、属性、类型、内容与标题分析规则进行对照,由于与规则不一致,因此将body要素的子HTML文件的要素、即h1要素和两个table要素新追加于处理对象HTML文件的要素,将h1要素作为下一个处理对象HTML文件的要素。在此,对h1要素将其名称、属性、类型、内容与标题分析规则进行对照,由于与规则一致,因此将该h1要素作为标题存储到存储器装置中,将第一table要素作为下一个处理对象HTML文件的要素。反复进行上述处理直至不存在处理对象HTML文件的要素。例如,当处理对象HTML文件的要素是第二table要素的第一tr要素的第一td要素时,对该td要素将其名称、属性、 类型、内容与标题分析规则进行对照。该td要素存在背景色的指定,若设为高度是50px,内容是5字符,则对照的结果与规则一致,因此将该td要素作为标题存储到存储器装置中。通过以上的处理,对图14所示的标题进行分析。
中央运算装置从存储器装置取得分析出的标题的信息,整形为利用HTML文件的要素的参照来表现标题的形式,例如图15所示的形式,输出到外部。
下面,参照附图,对本发明的第三实施例进行说明。所述实施例对应于本发明第三实施方式。本实施例具备数据处理装置,并具备个人计算机作为数据存储装置。
个人计算机具有:发挥输入部、布局分析部、输出部、基本布局分析部、标题分析部、布局分析部F的功能的中央运算装置;发挥描绘结果存储部、分析结果存储部的功能的存储器装置;和磁盘存储装置。而且,在磁盘存储装置中存储有标题分析规则。
在此,作为结构化/半结构化文件以图3所示的HTML文件为对象进行说明。中央运算装置从外部取得HTML文件,对该文件进行描绘,并将图3所示的描绘结果存储到存储器装置中。
中央运算装置取得描绘结果,对布局的构成要素与其层次关系进行分析。该功能和动作与第一实施例所示相同。
中央运算装置取得描绘结果和标题分析规则,对标题进行分析。该功能和动作与第二实施例所示相同。
中央运算装置取得分析出的布局的构成要素与其层次关系、标题,首先以第一层的布局的构成要素为对象进行分析。若研究第一层的布局的构成要素与标题的包含关系,则如图18所示可分析具有标题的布局的构成要素与不具有标题的布局的构成要素。在此,由于以body要素下的第一table要素下的第一tr要素下的第一td要素赋予的布局的构成要素不具有标题,因此谋求与具有标题的布局的构成要素或不具有标题的其它布局的构成要素的分组化。
具体而言,如图19所示,与从该构成要素来看最靠近源码开头的具有标题的布局的构成要素、即body要素下的h1要素中被赋予的布局的构 成要素分组化,作为新布局的构成要素存储到存储器装置中。对不具有所有标题的布局的构成要素进行上述处理,分析图20所示的第一层的新布局的构成要素。也可将同样的处理应用到第二层的布局的构成要素,从而可分析第二层的新布局的构成要素。
中央运算装置从存储器装置取得分析出的新布局的构成要素与其层次关系、以及各构成要素与标题的对应关系,整形为利用HTML文件的要素的参照来表现新布局的构成要素的形式,例如图21所示的形式,输出到外部。
下面,参照附图,对本发明的第四实施例进行说明。所述实施例对应于本发明第四实施方式。本实施例具备个人计算机作为数据存储装置。
个人计算机具有:发挥输入部、文件输入部、目录文件输出部、项目文件输出部的功能的中央运算装置;发挥结构化/半结构化文件存储部、布局文件存储部的功能存储器装置;和磁盘装置。
在此,作为结构化/半结构化文件以图24A所示的HTML文件为对象,作为描述了该HTML文件的布局的信息的文件以图24B所示的XML文件为对象进行说明。
当用户通过移动电话输入了http://www.nec.co.jp/news.html这样的URL时,中央运算装置通过网络取得该URL,进而取得与此对应的图24A所示的HTML文件,存储到存储器装置中。而且,中央运算装置分析HTML文件,取得描述了该文件的布局的信息的文件的URL、http://www.nec.co.jp/news.rdf,进而取得与此对应的图24B所示的XML文件,存储到存储器装置中。
中央运算装置从存储器装置取得HTML文件和XML文件,从XML文件提取所有布局的构成要素urn:layout:1、urn:layout:2、urn:layout:2:1、urn:layout:2:2,并对每一个布局的构成要素进一步提取与标题对应的HTML文件的要素/body[1]/h1[1]、/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1]、/body[1]/table[2]/tr[1]/td[2]/table[1]/tr[1]。在此,将标题所对应的HTML文件的要素和HTML文件对照,提取出各个内容“主要新闻”、“政治”、“经济”,通过添加A要素这样的HTML文件的要素并按顺序排列,从而生成具有图25所示的描绘图像的目录文件。生成的目录文件通过网络、 移动电话的Web浏览器而提示给用户。
当用户从所提示的目录HTML文件中选择了“政治”时,中央运算装置通过网络取得该信息,并从XML文件中提取作为标题具有“政治”的布局的构成要素urn:layout:2:1,进而提取属于该构成要素的HTML文件的要素/body[1]/table[2]/tr[1]/td[1]。而且,将构成要素所对应的HTML文件的要素与HTML文件对照,提取其内容,添加以到目录的链接为首的以引导为目的的HTML文件的要素并按顺序排列,从而生成具有图26所示的描绘图像的与“政治”的内容相关的文件。生成的文件通过网络、移动电话的Web浏览器提示给用户。在此,当用户从所提示的文件中选择了目录的情况下,中央运算装置再次生成目录文件,提示给用户。而且,当从该文件中选择了“上一条”或“下一条”时,中央运算装置生成作为“政治”的前一个或后一个项目的与“主要新闻”或“经济”的内容相关的文件,并提示给用户。
下面,参照附图,对本发明的第五实施例进行说明。所述实施例对应于本发明第五实施方式。本实施例具备个人计算机作为数据存储装置。
个人计算机具有:发挥文件输入部、合成文件输出部的功能的中央运算装置;发挥结构化/半结构化文件存储部、布局文件存储部的功能的存储器装置;和磁盘装置。而且,磁盘装置中存储有如图29所示的与输出构成要素相关的信息。
在此,作为结构化/半结构化文件以图24A和图30A所示的HTML文件为对象,作为描述了每一个HTML文件的布局的信息的文件以图24B和图30B所示的XML文件为对象进行说明。
中央运算装置取得与输出构成要素相关的信息所描述的http://www.nec.co.jp/news.html、http://www.nec.co.jp/stock.html这两个URL,进而取得与此对应的图24A和图30A所示的HTML文件,存储到存储器装置中。而且,中央运算装置分析每一个HTML文件,取得描述了该文件的布局的信息的文件的URL、http://www.nec.co.jp/news.rdf和http://www.nec.co.jp/stock.rdf,进而取得与此对应的图24B和图30B所示的XML文件,存储到存储器装置中。
中央运算装置从与输出构成要素相关的信息中,取得两个URL所对 应的文件的输出的构成要素的ID,urn:layout:2:1、urn:layout:1。进而,中央运算装置从存储器装置取得HTML文件和XML文件,并提取从XML文件输出的构成要素的ID所对应的HTML文件的要素、即对于http://www.nec.co.jp/news.html而言提取/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1],对http://www.nec.co.jp/stock.html而言提取/body[1]/table[1]。在此,将输出的构成要素所对应的HTML文件的要素与HTML文件对照,进行整形并按顺序排列,从而生成图31所示的具有描绘图像的合成文件。生成的合成文件通过网络、移动电话的Web浏览器而提示给用户。
下面,参照附图,对本发明的第六实施例进行说明。所述实施例对应于本发明第九实施方式。本实施例具备数据处理装置,并具备个人计算机作为数据存储装置。
个人计算机具有:发挥输入部、布局分析部、输出部、基本布局分析部、标题分析部、布局分析部F、块挑选部、区计算部的功能的中央运算装置;发挥描绘结果存储部、分析结果存储部的功能的存储器装置;和磁盘存储装置。而且,在磁盘存储装置中存储有标题分析规则。
在此,作为结构化/半结构化文件以图37所示的HTML文件为对象进行说明。中央运算装置从外部取得HTML文件,对该文件进行描绘,并将描绘结果存储到存储器装置中。
中央运算装置取得描绘结果,对第一布局的构成要素与其层次关系进行分析。该功能和动作与第一实施例所示相同。
中央运算装置取得描绘结果和标题分析规则,对标题进行分析。该功能和动作与第二实施例所示相同。
中央运算装置取得分析出的第一布局、第二布局,挑选一个可分割的第二布局的构成要素,将构成该构成要素的第一布局的构成要素作为分析对象。图38表示了分析的中途的状态。这里,在/body[1]/div[2]~div[6]构成的第二布局的构成要素,由于构成其的第一布局的构成要素、即/body[1]/div[2]、/body[1]/div[3]、…/body[1]/div[6]的各自中构成的构成要素中存在两个以上具有标题的构成要素,因此成为可分割的第二布局的构成要素。因此,在该情况下,/body[1]/div[2]、/body[1]/div[3]、…/body[1]/div[6]的各自中构成的构成要素成为分析对象的第一布局的构成要素。
中央运算装置取得分析出的标题,如图39所示,挑选分析对象的第一布局的构成要素所包含的标题。进而,研究挑选出的标题的位置,如图40所示,将位于最左的位置的/body[1]/div[2]所构成的标题的左端为起点,沿水平方向左端在规定距离以内的/body[1]/div[2]所构成的标题、以及由/body[1]/div[4]所构成的标题挑选为主要标题。进而,如图41所示,将包含主要标题的第一布局的构成要素为主要构成要素。
另外,作为挑选主要标题的方法,也可采用如图42所示挑选背景色等类型类似的标题作为主要标题的方法、或如图43所示以位置为基准挑选一定数量或一定比例的标题为主要标题的方法、组合位置或类型的类似度来挑选主要标题的方法等。
而且,对分析对象的第一布局的构成要素而言,也可如图44所示,判断该构成要素是否为边界线,将判断为边界线的构成要素作为主要构成要素。在此,根据构成要素的内容,将由具有hr要素的/body[1]/div[5]所构成的构成要素作为主要构成要素。另外,作为边界线的判断方法,也可使用分析对象的第一布局的构成要素的宽度或高度、构成该构成要素的文件描述要素的边界等类型、构成该构成要素的文件描述要素的内容的图像的宽度或高度等。
中央运算装置如图45所示,将并不主要的构成要素与主要构成要素或并不主要的其它构成要素根据源码上的距离分组化,生成新的第二布局的构成要素。例如,由/body[1]/div[3]构成的并不主要的构成要素与最靠近源码开头的主要构成要素/body[1]/div[2]所构成的构成要素分组化。在此,分析出的两个新的第二布局的构成要素作为原来的第二布局的构成要素的子构成要素存储到存储器装置中。另外,也可将分析出的第二布局的构成要素与原来的第二布局的构成要素调换,存储到存储器装置中,或者可根据原来的第二布局的构成要素或分析出的第二布局的构成要素的类型或内容,来选择是调换存储还是作为子构成要素存储。通过将同样的处理应用到可分割的第二布局的构成要素,从而可完全分析第二布局的构成要素与其层次关系。
中央运算装置从存储器装置取得分析出的第二布局的构成要素与其层次关系、以及各构成要素与标题的对应关系的信息,整形为利用HTML 文件的要素的参照来表现第二布局的构成要素与标题的形式,例如第三实施方式所示的形式,输出到外部。在此,也可项布局的构成要素赋予ID进行输出。
通过实施上述的实施方式,可达到发明要解决的课题一栏中记载的本发明的目的。
本发明的第一文件分析系统具有:基本布局分析部(图1的14),其取得结构化/半结构化文件的描绘结果,参照文件描述要素的配置,对排列设置的文件描述要素进行分组化,从而分析布局;和输出部(图1的13),其以利用文件描述要素的参照来表现分析出的布局和布局的构成要素的形式进行输出。通过采用这样的构成,基于文件描述要素的配置分析布局,以第三者可利用的形式输出分析出的布局,从而达到本发明的第一、第三目的。
本发明的第二文件分析系统具有:标题分析规则存储部(图11的23),其存储有标题分析规则;标题分析部(图11的15),其取得结构化/半结构化文件的描绘结果和标题分析规则,除文件描述要素的名称之外,还通过将属性、类型、内容与标题分析规则对照,从而分析布局;和输出部(图1的13),其以利用文件描述要素的参照来表现分析出的标题的形式进行输出。通过采用这样的构成,除文件描述要素的名称之外,还利用属性、类型、内容,来系统地分析标题,以第三者可利用的形式输出分析出的标题,从而达到本发明的第二、第三目的。
本发明的第三文件分析系统具有:标题分析规则存储部(图16的23),其存储有标题分析规则;基本布局分析部(图16的14),其取得结构化/半结构化文件的描绘结果,参照文件描述要素的配置,对排列设置的文件描述要素进行分组化,从而分析布局;标题分析部(图16的15),其取得结构化/半结构化文件的描绘结果和标题分析规则,除文件描述要素的名称之外,还通过将属性、类型、内容与标题分析规则对照,从而分析布局;布局分析部(图16的16),其取得由基本布局分析部分析出的布局和由标题分析部分析出的标题,将不具有标题的布局的构成要素与具有标题的构成要素或不具有标题的其它构成要素进行分组化,生成新布局;和输出部(图16的13),其以利用文件描述要素的参照来表现分析出的新布局、 布局的构成要素和标题的形式进行输出。通过采用这样的构成,生成将以标题为代表信息的关联的构成要素的集合作为新的构成要素的新布局,以第三者可利用的形式输出分析出的布局和标题,从而达到本发明的第一、第二、第三目的。
本发明的第一文件适应系统具有:输入部(图22的51),其取得用户所希望的结构化/半结构化文件的URI(Universal Resource Identifier),并且取得用户的输入,对描述了目录文件或目录的项目的内容的文件的输出进行控制;文件输入部(图22的52),其取得用户所希望的结构化/半结构化文件的URI所对应的文件,并且取得描述了所取得的文件所对应的布局的信息的文件;目录文件输出部(图22的53),其取得用户所希望的结构化/半结构化文件和描述了该文件的布局的信息的文件,生成并输出目录文件;和项目文件输出部(图22的54),其取得用户所希望的结构化/半结构化文件和描述了该文件的布局的信息的文件,生成并输出描述了指定的目录的项目的内容的文件。通过采用这样的构成,利用结构化/半结构化文件和适当反映该文件的逻辑结构的布局的信息,生成并输出描述了目录文件或目录的项目的内容的文件,从而利用准确捕捉了文件提供者希望的文件的逻辑结构的目录来阅览文件,由此可达到本发明的第四目的。
本发明的第二文件适应系统具有:输出构成要素存储部(图27的81),其存储了与输出构成要素相关的信息;文件输入部(图27的71),其取得与输出构成要素相关的信息,并取得该信息所描述的URI所对应的结构化/半结构化文件,而且,并且取得描述了所取得的文件所对应的布局的信息的文件;和合成文件输出部(图27的72),其取得与输出构成要素相关的信息、结构化/半结构化文件、以及描述了该文件的布局的信息的文件,生成并输出合成文件。通过采用这样的构成,利用与输出构成要素相关的信息、结构化/半结构化文件、以及适当反映该文件的逻辑结构的布局的信息,生成并输出由指定的布局的构成要素所构成的合成文件,从而利用准确捕捉了文件提供者希望的文件的逻辑结构的合成文件而仅阅览文件的必要的部分,由此可达到本发明的第四目的。
Claims (14)
1.一种文件分析系统,其中包括基本布局分析部,该基本布局分析部参照结构化文件或半结构化文件所包含的文件描述要素在显示上的配置,对沿着一定方向排列设置的所述文件描述要素进行分组化,将被分组化后的文件描述要素、未被分组化但没有子文件描述要素的文件描述要素作为布局的构成要素,其特征在于,
还包括:
标题分析规则存储部,其存储使用所述结构化文件或所述半结构化文件的文件描述要素的名称、属性、类型、内容任意的一个以上信息所定义的标题分析规则;
标题分析部,其对照所述结构化文件或所述半结构化文件所包含的所述文件描述要素的名称、属性、类型、内容任意的一个以上信息和所述标题分析规则,对标题进行分析;和
布局分析部,其利用由所述基本布局分析部分析出的所述布局的构成要素与其层次关系、和由所述标题分析部分析出的所述标题,并通过将不具有标题的布局的构成要素与具有标题的布局的构成要素或不具有标题的其它布局的构成要素进行分组化,生成新布局。
2.根据权利要求1所述的文件分析系统,其特征在于,
所述布局分析部包括:
块挑选部,其利用由所述基本布局分析部分析出的所述布局、由所述标题分析部分析出的所述标题、和由所述布局分析部分析出的所述新布局,挑选所述布局的主要构成要素;和
区计算部,其利用由所述基本布局分析部分析出的所述布局、由所述布局分析部分析出的所述新布局、和由所述块挑选部挑选出的所述布局的主要构成要素,通过将并不主要的构成要素和主要构成要素或并不主要的其他构成要素进行分组化,生成新布局。
3.根据权利要求1所述的文件分析系统,其特征在于,
所述基本布局分析部参照所述分组化后的文件描述要素和其子所述文件描述要素在显示上的配置,将沿着所述分组化后的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析。
4.根据权利要求2所述的文件分析系统,其特征在于,
所述基本布局分析部参照所述分组化后的文件描述要素和其子所述文件描述要素在显示上的配置,将沿着所述分组化后的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析。
5.根据权利要求1~4中任一项所述的文件分析系统,其特征在于,
所述基本布局分析部参照所述分组化后的文件描述要素和其子所述文件描述要素在显示上的配置,将沿着所述分组化后的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对下一层的布局进行分析。
6.根据权利要求1~4中任一项所述的文件分析系统,其中包括:
输出构成要素信息存储部,其将结构化文件或半结构化文件的URI与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,存储为输出构成要素信息;和
合成文件输出部,其利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局信息的文件,生成并输出合成文件。
7.根据权利要求5所述的文件分析系统,其中包括:
输出构成要素信息存储部,其将结构化文件或半结构化文件的URI与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,存储为输出构成要素信息;和
合成文件输出部,其利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局信息的文件,生成并输出合成文件。
8.一种文件分析方法,其中包括:参照结构化文件或半结构化文件所包含的文件描述要素的在显示上的配置,对沿着一定方向排列设置的所述文件描述要素进行分组化,按照将被分组化后的文件描述要素、未被分组化但没有子文件描述要素的文件描述要素作为布局的构成要素的方式分析所述结构化文件或所述半结构化文件的布局的步骤,其特征在于,
还包括:
存储使用所述结构化文件或所述半结构化文件的文件描述要素的名称、属性、类型、内容任意的一个以上信息所定义的的标题分析规则的步骤;
对照所述结构化文件或所述半结构化文件所包含的文件描述要素的名称、属性、类型、内容的任意的一个以上信息和所述标题分析规则,对标题进行分析的步骤;和
利用在分析所述布局的步骤中分析出的所述布局的构成要素与其层次关系、和在分析所述标题的步骤中分析出的所述标题,并通过将不具有标题的布局的构成要素与具有标题的布局的构成要素或不具有标题的其它布局的构成要素进行分组化,生成新布局的步骤。
9.根据权利要求8所述的文件分析方法,其特征在于,
生成所述新布局的步骤包括:
利用在分析所述布局的步骤中分析出的所述布局、在分析所述标题的步骤中分析出的所述标题、和在生成所述新布局的步骤中生成的所述新布局,挑选所述布局的主要构成要素的步骤;和
利用在分析所述布局的步骤中分析出的所述布局、在生成所述新布局的步骤中生成的所述新布局、和在挑选所述主要构成要素的步骤中挑选出的所述主要构成要素,通过将并不主要的构成要素和主要构成要素或并不主要的其他构成要素进行分组化,生成新布局的步骤。
10.根据权利要求8所述的文件分析方法,其特征在于,
分析所述布局的步骤包括:参照所述分组化后的文件描述要素和其子所述文件描述要素的在显示上的配置,将沿着所述分组化的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析的步骤。
11.根据权利要求9所述的文件分析方法,其特征在于,
分析所述布局的步骤包括:参照所述分组化后的文件描述要素和其子所述文件描述要素的在显示上的配置,将沿着所述分组化的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对布局进行分析的步骤。
12.根据权利要求8~11中任一项所述的文件分析方法,其特征在于,
分析所述布局的步骤包括:参照所述分组化后的文件描述要素和其子所述文件描述要素的在显示上的配置,将沿着所述分组化的文件描述要素的分组化中使用的方向的垂直方向排列配置的所述文件描述要素进行分组化的处理反复执行规定次数,对下一层的布局进行分析的步骤。
13.根据权利要求8~11中的任一项所述的文件分析方法,其中包括:
将结构化文件或半结构化文件的URI与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,作为输出构成要素信息存储到输出构成要素信息存储部的步骤;和
利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局信息的文件,生成并输出合成文件的步骤。
14.根据权利要求12所述的文件分析方法,其中包括:
将结构化文件或半结构化文件的URI与所述结构化文件或所述半结构化文件的输出构成要素的ID的组合的集合,作为输出构成要素信息存储到输出构成要素信息存储部的步骤;和
利用所述输出构成要素信息、所述输出构成要素信息中描述的URI所对应的所述结构化文件或所述半结构化文件、和描述了所述结构化文件或所述半结构化文件所对应的布局信息的文件,生成并输出合成文件的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP310238/2004 | 2004-10-25 | ||
JP2004310238 | 2004-10-25 | ||
PCT/JP2005/019531 WO2006046523A1 (ja) | 2004-10-25 | 2005-10-25 | 文書解析システム、及び文書適応システム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101048773A CN101048773A (zh) | 2007-10-03 |
CN101048773B true CN101048773B (zh) | 2012-01-11 |
Family
ID=36227763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800366943A Expired - Fee Related CN101048773B (zh) | 2004-10-25 | 2005-10-25 | 文件分析系统以及文件分析方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8051371B2 (zh) |
JP (1) | JP4124261B2 (zh) |
CN (1) | CN101048773B (zh) |
WO (1) | WO2006046523A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7712021B2 (en) * | 2005-03-25 | 2010-05-04 | Red Hat, Inc. | System, method and medium for component based web user interface frameworks |
US7464078B2 (en) * | 2005-10-25 | 2008-12-09 | International Business Machines Corporation | Method for automatically extracting by-line information |
US7478332B2 (en) * | 2006-05-24 | 2009-01-13 | 170 Systems Inc. | System for and method of providing a user interface for a computer-based software application |
JP4768537B2 (ja) * | 2006-07-18 | 2011-09-07 | 株式会社リコー | コンテンツ閲覧システムおよびプログラム |
JP2010527051A (ja) * | 2007-03-30 | 2010-08-05 | グーグル・インコーポレーテッド | モバイル装置のための文書処理 |
CN101354705B (zh) * | 2007-07-23 | 2012-06-13 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
US8477143B2 (en) | 2008-03-04 | 2013-07-02 | Apple Inc. | Buffers for display acceleration |
US9418171B2 (en) * | 2008-03-04 | 2016-08-16 | Apple Inc. | Acceleration of rendering of web-based content |
US8289333B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Multi-context graphics processing |
CN101308488B (zh) * | 2008-06-05 | 2010-06-02 | 北京大学 | 基于版式文件的文档流式信息处理方法及装置 |
WO2010053799A1 (en) * | 2008-10-28 | 2010-05-14 | Vistaprint Technologies Limited | Method and system for calculating weight of variable shape product manufactured from product blank |
US20120137233A1 (en) * | 2010-05-26 | 2012-05-31 | Nokia Corporation | Method and Apparatus for Enabling Generation of Multiple Independent User Interface Elements from a Web Page |
EP2577500A1 (en) * | 2010-05-26 | 2013-04-10 | Nokia Corp. | Method and apparatus for specifying mapping parameters for user interface element presentation in an application |
US9576068B2 (en) * | 2010-10-26 | 2017-02-21 | Good Technology Holdings Limited | Displaying selected portions of data sets on display devices |
US9317491B2 (en) * | 2010-11-22 | 2016-04-19 | Webydo Systems Ltd. | Methods and systems of generating and editing adaptable and interactive network documents |
US10803233B2 (en) * | 2012-05-31 | 2020-10-13 | Conduent Business Services Llc | Method and system of extracting structured data from a document |
JP2014128836A (ja) * | 2012-12-27 | 2014-07-10 | Brother Ind Ltd | 切断装置、保持部材、及び切断部材 |
CN103164520B (zh) * | 2013-03-08 | 2014-04-16 | 山东大学 | 一种面向层次化数据的交互可视方法及装置 |
US10229209B2 (en) | 2015-03-30 | 2019-03-12 | Airwatch Llc | Providing search results based on enterprise data |
US10318582B2 (en) * | 2015-03-30 | 2019-06-11 | Vmware Inc. | Indexing electronic documents |
US10089388B2 (en) | 2015-03-30 | 2018-10-02 | Airwatch Llc | Obtaining search results |
RU2638015C2 (ru) * | 2015-06-30 | 2017-12-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ идентификации целевого объекта на веб-странице |
CN108009137B (zh) * | 2017-12-22 | 2021-01-29 | 鼎富智能科技有限公司 | 一种基于配置文件的规范文书处理方法、装置及系统 |
CN111178771B (zh) * | 2019-12-31 | 2022-03-29 | 中国石油天然气股份有限公司 | 体系构建方法和装置 |
US11315353B1 (en) * | 2021-06-10 | 2022-04-26 | Instabase, Inc. | Systems and methods for spatial-aware information extraction from electronic source documents |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1426874A1 (en) * | 2001-09-12 | 2004-06-09 | Seiko Epson Corporation | Source file generation apparatus |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04124261A (ja) | 1990-09-17 | 1992-04-24 | Canon Inc | 化合物薄膜製造装置 |
JPH07282053A (ja) * | 1994-04-15 | 1995-10-27 | Matsushita Electric Ind Co Ltd | 文書編集装置 |
JPH09251457A (ja) | 1996-03-18 | 1997-09-22 | Dainippon Screen Mfg Co Ltd | 文書変換装置 |
JPH10289252A (ja) | 1997-02-17 | 1998-10-27 | Dainippon Screen Mfg Co Ltd | 画像表示装置およびその処理を実行するためのプログラムを記録した記録媒体 |
JPH11203285A (ja) | 1998-01-14 | 1999-07-30 | Sanyo Electric Co Ltd | 文書構造解析装置、方法、及び記録媒体 |
JP3896702B2 (ja) | 1998-09-18 | 2007-03-22 | 富士ゼロックス株式会社 | 文書管理システム |
JP2000148788A (ja) * | 1998-11-05 | 2000-05-30 | Ricoh Co Ltd | 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法 |
JP2000172680A (ja) * | 1998-12-08 | 2000-06-23 | Ricoh Co Ltd | 文書登録システム、文書登録方法、その方法を実行させるための記録媒体、文書閲覧システム、文書閲覧方法、その方法を実行させるための記録媒体および文書取出しシステム |
JP3791877B2 (ja) * | 1999-06-15 | 2006-06-28 | 富士通株式会社 | 文書の参照理由を用いて情報検索を行う装置 |
JP2001184344A (ja) | 1999-12-21 | 2001-07-06 | Internatl Business Mach Corp <Ibm> | 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置 |
JP2003085159A (ja) | 2001-09-14 | 2003-03-20 | Fuji Xerox Co Ltd | 文書処理装置および画像出力装置ならびにそれらの方法 |
JP2003288334A (ja) | 2002-03-28 | 2003-10-10 | Toshiba Corp | 文書処理装置及び文書処理方法 |
JP3969176B2 (ja) | 2002-05-10 | 2007-09-05 | 日本電気株式会社 | ブラウザシステム及びその制御方法 |
US20030222921A1 (en) * | 2002-06-04 | 2003-12-04 | Bernard Rummel | Automatic layout generation using algorithms |
JP2004086855A (ja) * | 2002-06-28 | 2004-03-18 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
JP3941610B2 (ja) | 2002-07-08 | 2007-07-04 | 日本電気株式会社 | 情報抽出方法、情報抽出装置および情報抽出プログラム |
JP2004139275A (ja) | 2002-10-16 | 2004-05-13 | Nippon Telegr & Teleph Corp <Ntt> | Www文書表示方法及び閲覧者端末 |
US20040100509A1 (en) * | 2002-11-27 | 2004-05-27 | Microsoft Corporation | Web page partitioning, reformatting and navigation |
US7203901B2 (en) * | 2002-11-27 | 2007-04-10 | Microsoft Corporation | Small form factor web browsing |
JP4014160B2 (ja) * | 2003-05-30 | 2007-11-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、プログラム、及び記録媒体 |
GB0320278D0 (en) * | 2003-08-29 | 2003-10-01 | Hewlett Packard Development Co | Constrained document layout |
US7392473B2 (en) * | 2005-05-26 | 2008-06-24 | Xerox Corporation | Method and apparatus for determining logical document structure |
-
2005
- 2005-10-25 WO PCT/JP2005/019531 patent/WO2006046523A1/ja active Application Filing
- 2005-10-25 CN CN2005800366943A patent/CN101048773B/zh not_active Expired - Fee Related
- 2005-10-25 US US11/577,984 patent/US8051371B2/en not_active Expired - Fee Related
- 2005-10-25 JP JP2006543141A patent/JP4124261B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1426874A1 (en) * | 2001-09-12 | 2004-06-09 | Seiko Epson Corporation | Source file generation apparatus |
Non-Patent Citations (3)
Title |
---|
0006,0063,0064段、图1,3,4,5,17,13,14,15. |
JP平7-282053A 1995.10.27 |
图4,5,16,17,24、0004,0005,0025,0039段. |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006046523A1 (ja) | 2008-05-22 |
JP4124261B2 (ja) | 2008-07-23 |
WO2006046523A1 (ja) | 2006-05-04 |
US8051371B2 (en) | 2011-11-01 |
CN101048773A (zh) | 2007-10-03 |
US20080148144A1 (en) | 2008-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101048773B (zh) | 文件分析系统以及文件分析方法 | |
CA2636429C (en) | Presenting digitized content on a network | |
US6263347B1 (en) | System for linking data between computer and portable remote terminal and data linking method therefor | |
CN101593186B (zh) | 可视化网站编辑方法及可视化网站编辑系统 | |
CN102073670B (zh) | 一种用于调试在线网页模板的方法、设备及系统 | |
TWI427490B (zh) | 網頁檢視方法及系統,及其電腦程式產品 | |
CN102915228A (zh) | 菜单工具条整合系统及方法 | |
JP2012064207A (ja) | ホスト装置及びホスト装置のコンテンツ表示方法 | |
CN106446055A (zh) | 网页的生成方法及系统 | |
CN104584014A (zh) | 信息显示方法及程序 | |
CN103246691A (zh) | 文档管理系统及其方法 | |
CN100594477C (zh) | 用于标记语言文件内的工具窗格的系统和方法 | |
CN110020279A (zh) | 页面数据处理方法、装置及存储介质 | |
CN1826614B (zh) | 电子化服务指南显示控制方法和装置 | |
KR20080060690A (ko) | 웹문서 스타일 변경 시스템 및 방법 | |
JP2006065467A (ja) | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 | |
JP2006065467A5 (zh) | ||
US20060188162A1 (en) | Common interface for ink trees | |
JP6948492B2 (ja) | 情報管理装置並びにファイル管理方法 | |
JP6209849B2 (ja) | 情報表示装置、情報表示方法及び情報表示用プログラム | |
JP2006155593A (ja) | 文書解析システム、及び文書適応システム | |
CN101676905A (zh) | 基于用户定制的规则修改资源内容的布局 | |
JP4221620B2 (ja) | 文書解析システム、文書解析方法、及びプログラム | |
CN110502713A (zh) | 网页资源处理方法、装置、电子设备以及存储介质 | |
JP3889397B2 (ja) | 電子帳票管理サーバ、クライアント端末、出力データ作成システム、出力データ作成処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120111 Termination date: 20161025 |