CN1567303A - 结构文档信息块的自动分割方法和装置 - Google Patents

结构文档信息块的自动分割方法和装置 Download PDF

Info

Publication number
CN1567303A
CN1567303A CNA031457479A CN03145747A CN1567303A CN 1567303 A CN1567303 A CN 1567303A CN A031457479 A CNA031457479 A CN A031457479A CN 03145747 A CN03145747 A CN 03145747A CN 1567303 A CN1567303 A CN 1567303A
Authority
CN
China
Prior art keywords
message block
sequence
structured documents
repeat pattern
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031457479A
Other languages
English (en)
Inventor
瞿有利
徐国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CNA031457479A priority Critical patent/CN1567303A/zh
Priority to JP2004197092A priority patent/JP2005025763A/ja
Priority to US10/883,992 priority patent/US20050050459A1/en
Publication of CN1567303A publication Critical patent/CN1567303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Abstract

本发明提供一种结构文档信息块的自动分割装置和方法,即使结构文档的结构比较复杂,重复模式比较复杂,信息块之间不是非常一致的情况下,也能够对结构文档中的信息块进行正确的识别和分割。该结构文档信息块的自动分割装置包括:文档结构信息生成部,其接受所述结构文档并根据该结构文档生成文档结构信息;信息块范围确定部,其根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;分割规则生成部,其根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;分割部,其根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。

Description

结构文档信息块的自动分割方法和装置
技术领域
本发明涉及结构文档信息块的自动分割方法和装置。
背景技术
随着网络技术的日益发展,人们可以从因特网等网络中获取越来越多的信息,为了有效的利用所获取的信息,需要对信息进行提取、分类以及存储等操作,但是由于因特网等网络上的信息大多采用结构文档的形式,人们可以直接获取的结构文档中不仅包含所希望的实际的内容信息,而且还包含很多表示文档结构的信息。结构文档中经常有格式上或者形式上相同或者相似的单元,每一个单位属于一个语义体,即本发明所述的信息块。由于信息块在语义上相对独立,我们需要从结构文档中识别和分割信息块,然后对这些信息块进行处理,如为每一个信息块进行索引,以备信息检索使用;由于信息块之间的结构相似,可以对某个信息块进行标注信息提取信息,然后对其他和该信息块相似的信息块进行信息提取。因此,需要一种从结构文档中识别和分割信息块的技术。
这里,所谓的结构文档是,例如HTML(HyperText Markup Language),XML(Extensible Markup Language)等带有表示文档结构信息的文档,所谓信息块是指相对独立的信息单元。例如:假设在HTML文件中,有汽车广告列表,则每一条广告信息为一个信息块;在BBS论坛中,页面上经常有话题(topic)列表,则每一个话题为一个信息块;一个搜索引擎的检索结果页面中,每一个检索结果为一个信息块。结构文档信息块的自动识别分割对信息提取和信息检索非常重要。例如,在HTML文件中,如何自动分割网页中的信息块对于Web页面信息提取的后续工作是非常重要的。
从结构文档中识别并分割信息块的方法,根据人工参与的程度可分为以下三种:完全人工识别分割方法;半自动识别分割方法,例如,首先通过观察发现信息块之间的分割标记,然后编写程序利用这些分割标记进行分割;以及全自动识别分割方法。
作为现有的一种结构文档信息块的全自动识别分割方法,D.WEmbley等人(参见D.W.Embley,Y.S.Jiang,and Y.-K.Ng.Record-boundary discovery in web document s.In SIGMOD’99,1999)提出了一种针对HTML文档的信息块的自动分割方法(下面称为现有技术1),首先根据HTML文件的标记建立标记分析树,然后确定包含信息块的子树,最后使用一些启发式的算法在信息块的候选分割标记中选择分割标记。该算法在确定信息块的子树时未考虑选择性的标记(如“option”,“div”),所以这种情况将出错;另外由于选择分割标记时没有考虑深层次的信息和标记序列之间的重复,在某些情况下也会出错。
作为另外一种结构文档信息块的全自动识别分割方法,Chia-huichang(参见C.H.Chang.and S.C.Lui.IEPAD:Information Extractionbased on Pattern Di scovery,In the Proceedings of the tenthInternational Conference on World Wide Web,pp.681-688,May 2-6,2001,Hong Kong.)提出下述方法(下面称为现有技术2),将HTML文档作为一个字符流,利用PAT(Patricia tree)算法计算重复标记序列,每个重复标记序列的所有子树内容为一个信息块。由于其未考虑HTML文档的结构特征,因此当信息块之间不是非常一致时,可能分割出错。
发明内容
为了解决上述问题,本发明提供一种结构文档信息块的自动分割方法和装置,其能对结构文档中的选择性标记进行处理,并考虑深层次的信息和标记序列之间的重复以及结构文档的结构特征来自动进行识别和分割,即使结构文档的结构、重复模式比较复杂或信息块之间不是非常一致的情况下,也能够对结构文档中的信息块进行正确的识别和分割。
为了达到本发明的目的,本发明的结构文档信息块的自动分割装置以结构文档为输入,对该结构文档包含的信息块进行自动识别和分割并输出分割结果,其特征在于,包括:文档结构信息生成部,其接受所述结构文档并根据该结构文档生成文档结构信息;信息块范围确定部,其根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;分割规则生成部,其根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;分割部,其根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述文档结构信息生成部所生成的文档结构信息为文档结构树,并且采用宽度优先算法搜索该文档结构树,找到有效子节点最多而且其有效文本量和整个文档的有效文本量之比大于预先设定的阈值的节点,该节点所对应的范围就是包含所有信息块的最小范围,以该节点为根的子树为包含所有信息块的最小子树。
根据本发明,使用有效子节点数量和有效文本量和整个文档的有效文本量之比值作为判定包含所有信息块的最小子树的根节点可以消除某些特定的节点和特定的文本对判定包含所有信息块的最小子树的根节点的影响;采用宽度优先算法搜索该文档结构树可以优先考虑距离文档结构树的根节点近的节点。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述文档结构信息生成部所生成的文档结构信息为文档结构树,所述分割规则生成部利用信息块所在的子树的根节点的子节点及其孙子节点的标记序列计算最优重复模式。
根据本发明,不仅利用信息块所在的子树的根节点的子节点信息,而且还利用子树的根节点的孙子节点的标记序列信息,因此可以处理仅利用信息块所在的子树的根节点的子节点的标记序列所不能解决的问题,具体情况参见实例2。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部如下计算最优重复模式:首先对所述根节点的子节点序列,计算第一重复模式;然后对根节点的子节点和孙子序列,计算第二重复模式;最后从所述的第一重复模式和第二重复模式中选择最优重复模式。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部通过以下步骤计算第一重复模式和第二重复模式中的至少一个:
计算原始标记序列的第一重复序列;
根据第一重复序列,用一个特定的符号代替标记序列中的第一重复序列,得到原始标记序列的变形序列;
计算所述变形序列的第二重复序列;
根据第二重复序列,确定最终重复模式。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部使用覆盖度计算重复模式和选择最优重复模式。
其中,某个模式对某个序列的覆盖度指该序列中符合该模式的元素集合的所有数目和该序列的数目的比值。根据覆盖度可以精确第计算和选择最优重复模式。
另外,本发明的结构文档信息块的自动分割装置,其特征在于:所述结构文档为HTML、XML或XHTML。
附图说明
图1表示结构文档信息块自动分割装置结构图;
图2表示本发明的实施方式的实例1的HTML文件;
图3表示本发明的实施方式的实例1的HTML文件的源文件;
图4表示本发明的实施方式的实例1的HTML文件的结构信息图;
图5表示本发明的实施方式的实例1的HTML文件的分割结果;
图6表示本发明的实施方式的实例2的HTML文件;
图7表示本发明的实施方式的实例2的HTML文件的源文件;
图8表示本发明的实施方式的实例2的HTML文件的结构信息图;
图9表示现有技术的HTML文件的分割结果;
图10表示本发明的实施方式的实例2的HTML文件的分割结果;
图11表示本发明的实施方式的实例3的HTML文件;
图12表示本发明的实施方式的实例3的HTML文件源文件;
图13表示本发明的实施方式的实例3的HTML文件的结构信息图;
图14表示本发明的实施方式的实例3的HTML文件的分割结果。
具体实施方式
下面参照附图,对本发明的具体实施方式进行说明。图1是本发明的分割装置的简要结构示意图。本发明的分割装置由下列4个部分构成:包括(1)文档结构信息生成部,(2)信息块范围确定部,(3)分割规则生成部和(4)分割部。下面,对这4个部分进行详细说明。
(1)文档结构信息生成部
首先接收结构文档,利用该文档的标记信息创建文档结构信息。文档结构信息反映了结构文档的内容和结构,即组成该文档的各个元素(元素名称、元素内容、元素所包含的各个属性)以及各个元素之间的构成关系。
例如接收HTML文件,HTML文件都是把标记(即tag,如HTML,tr,td等等)和文本按照HTML的定义联在一起的。标记包括“<”和“>”以及在“<”和“>”之间为标记名称。标记经常成对出现,为开始标记和结束标记。开始标记不以“/”开头,而结束标记以“/”开头。当然也有单独出现的。HTML文件中的某个标记划分出1个离散的区域。该离散区域的开始为开始标记的开始位置;该离散区域的结束为相对应的结束标记的位置。该离散区域可以被某些标记继续分割为更小的区域。标记之间相互嵌套,组成了一个嵌套结构。根据这些信息创建该HTML文件的文档结构树描述该文档的结构信息。
(2)信息块范围确定部
信息块范围确定部根据文档结构信息生成部生成的文档结构信息,计算出包含所有信息块的最小范围。假设使用文档结构图表示文档结构信息,信息块范围确定部确定包含所有信息块的最小子树。
这里以HTML文件为例进行说明,首先接收HTML文件,采用文档结构树表示该文档结构信息,相对应区域的标记(tag)名称为文档结构树的节点名称。
所谓有效子节点数是指:如果子节点中没有“FORM”,有效子节点数为有效文本量不为0的子节点数;如果子节点中含有“FORM”,有效子节点数为连续两个“FORM”之间的有效文本量不为0子节点数的最大者。
节点的有效文本量指其所有子节点的有效文本量之和;如果该节点为文本节点,该节点的有效文本量为该节点文本的长度;如果该节点为option,该节点的有效文本量为0;如果该节点为div id=LayerXX,该节点的有效文本量为0。
采用宽度优先算法搜索该文档结构树,找到有效子节点最多而且其有效文本量和整个文档的文本量之比大于预先设定的阈值,例如40%的节点,以节点为根节点的子树为包含所有信息块的最小子树。这个节点所对应的范围就是包含所有信息块的最小范围。
(3)分割规则生成部
假设包含信息块的子图的根节点A,其子节点依次为A1,A2,A3,…,An。分割的任务就是如何把这些子节点依次分成若干个组,使每个组都比较相似。每一个组的子节点序列所对应的区域为需要分割的信息块。
分割规则生成部计算出这些子节点分组规则即分割规则,同时把该规则输出保存,以便于分割部使用。
分割规则生成部的主要处理过程如下:
步骤1:判断是否可以利用特殊分割标记来分割,如果可以,则该特殊分割标记返回,本部结束;
步骤2:对节点A的子节点序列,计算重复模式1;
步骤3:对节点A的子节点和孙子序列,计算重复模式2;
步骤4:在重复模式1和重复模式2中,利用评估函数选择最优重复模式;这个最优重复模式即为分割规则。
上述处理过程中,步骤2和步骤3可以使用PAT算法等现有的计算方法,也可以使用下述的2-PAT计算方法计算重复模式;步骤4中可以采用覆盖度作为评估函数。下面
下面对覆盖度的概念和计算方法进行详细的说明。
假设字符串为X,模式为Y,X针对模式Y的k个分割点依次为p1,p2,p3,…,pk,str(pi)(0≤i≤k)为X中从pi开始的符合模式Y的子串。1ength(str(pi))为str(pi)的长度。覆盖度score如下计算:
score = Σ i = 1 k length ( str ( p i ) ) length ( X )
score的数值越大,所有的str(pi)(0≤i≤k)对X的覆盖度越高,模式也就越好。
下面对2-PAT(Patricia tree)方法进行说明,2-PAT方法接收标记序列,经过计算得到标记序列的最优重复模式,例如假设标记序列为:“B,I,A,B,I,A,B,I,A,B,I,A,”则标记序列的最优重复模式为“B,I,A,”;例如假设标记序列为:“A,c,d,B,A,c,d,c,d,c,d,B,”则其最优重复模式为:A,(c,d,)*B,
具体来说,其处理过程如下:
假设接收的标记序列为N,
步骤1:计算N中的重复序列;
例如:N为“A,c,d,B,A,c,d,c,d,c,d,B,”时,重复序列为“c,d,”;
步骤2:根据N的重复序列,对标记序列N进行变形。变形的方法是把N中出现的重复序列或者连续出现的多个重复序列替换成某个特定的字母,例如X。上例中N变形为“A,X,B,A,X,B,”;
步骤3:计算N变形序列的重复序列,本例中N变形序列的重复序列为“A,X,B”;
步骤4:如果接收序列N变形后的重复序列中包含X,则把该重复序列中的X替换为(X)*,替换后的重复序列为最优模式,其中(X)*表示0个或者多个同时出现;如果接收序列N变形后的重复序列中不包含X,则接收序列N的重复序列为N的最优模式。
如上所述,分割规则生成部不仅利用信息块所在的子树的根节点的子节点信息,而且还利用子树的根节点的孙子节点的标记序列信息,因此可以处理仅利用信息块所在的子树的根节点的子节点的标记序列所不能解决的问题,具体示例参见实例2。
(4)分割部
假设包含信息块的子图的根节点A,其子节点依次为A1,A2,A3,…,An。利用分割规则,把这些子节点序列依次分成若干组,每个组中的节点的所代表的区域组合在一起,就是分割出来的信息块。
下面我们举3个实例来说明本装置的执行过程。
实例1
下面参考图2至图5,对应用本发明的结构文档自动识别分割装置对实例1的HTML文件进行识别分割的情况进行说明,图2表示实例1的HTML文件,图3表示图2的HTML文件的源文件,图4表示图2的HTML文件的结构树。
首先,文档结构信息生成部对该文件进行分析,得到如图4所示的结构树,具体来说这里是指结构树。
然后,信息块范围确定部对该结构图进行分析,计算每个节点的有效子节点数和有效文本量,从根节点开始,采用宽度优先算法遍历结构树,找到有效文本量大于整个该HTML文件文本量的预先设定的一个阈值,例如40%而且有效子节点数最多的节点S,如图4所示,S的所有节点都为有效子节点,共计11个。以S为根的子树为包含信息块的最小子树。
接着,分割规则生成部计算根节点S的子节点序列,并且判断其有多个特殊标记“HR”,则“HR”为分割规则。
分割部利用分割规则进行分割,根节点S的子节点序列为“p,br,hr,p,hr,p,hr,p,hr,p,hr,p,hr”,分割为六个组“p,br,hr”,“p,hr”,“p,hr”,“p,hr”,“p,hr”,每个组对应一个区域,即为信息块。识别并且分割出的信息块如图5所示。
实例2
下面参考图6至图10,对应用本发明的结构文档自动识别分割装置对实例2的HTML文件进行识别分割的情况进行说明,图6表示实例1的HTML文件,图7表示图2的HTML文件的源文件,图8表示图2的HTML文件的结构图。
首先,文档结构信息生成部对该文件进行分析,得到如图8所示的结构图,具体来说这里是指结构树。
然后,信息块范围确定部对该结构图进行分析,信息块范围确定部对该结构图进行分析,计算每个节点的有效子节点数和有效文本量,从根节点开始,采用宽度优先算法遍历结构图,找到有效文本量大于整个该HTML文件文本量的预先设定的一个阈值,例如40%而且有效子节点数最多的节点S,如图8所示,S的所有节点都为有效子节点,共计10个,以S为根的子树即为包含信息块的最小子树。在这里我们采用了有效文本量的概念,这样我们忽略了“option”节点中的文本量。假设采用现有技术2提出的方法,节点“select”的子节点最多,有12个,而且“select”子树上的文本量和整个文档的文本量之比大于40%,这样确定以select节点为根的子树为包含信息块的最小子树,根据图7所示,“select”节点所对应的区域不包含信息块。
分割规则生成部计算包含信息块的最小子树的根节点S的子节点序列“tr,tr,tr,tr,tr,tr,tr,tr,tr,”调用2-阶PAT算法,得到第一重复模式为“tr”,第一重复模式的覆盖度为1,包含信息块的最小子树的根节点S的子节点和孙子序列为“tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,”,调用2-阶PAT算法,得到第二重复模式为“tr_td,tr_td_td,”,第二重复模式的覆盖度为1,比较第一重复模式的覆盖度和第二重复模式的覆盖度的大小,第一重复模式的覆盖度小于等于第二重复模式的覆盖度,第二重复模式为最佳模式。该最佳模式就是分割规则。在本实例中本发明利用了包含信息块的最小子树的根节点S的子节点和孙子节点信息,如果只利用子节点信息,如采用现有技术1的方法,那么在子节点序列“tr,tr,tr,tr,tr,tr,tr,tr,tr,”中“tr”为最优模式,如果利用这个最优模式进行分割,把应该是一个信息块的部分分成两个部分,错误分割结果如图9所示。
而根据本发明,分割部利用分割规则进行分割,根节点S的子节点和孙子序列为“tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,tr_td,tr_td_td,”,分割为5个组“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,“tr_td,tr_td_td,”,每个组对应一个区域,即为信息块。识别并且分割出的信息块如图10所示。
实例3
下面参考图11至图14,对应用本发明的结构文档自动识别分割装置对实例3的HTML文件进行识别分割的情况进行说明,图11表示实例3的HTML文件,图12表示图11的HTML文件的源文件,图12表示图11的HTML文件的结构图。
首先,文档结构信息生成部对该文件进行分析,得到图11所示的结构图,具体来说这里是指结构树。
然后,信息块范围确定部对该结构图进行分析,信息块范围确定部对该结构图进行分析,计算每个节点的有效子节点数和有效文本量,从根节点开始,采用宽度优先算法遍历结构图,找到有效文本量大于整个该HTML文件文本量的预先设定的一个阈值,例如40%而且有效子节点数最多的节点S,如图13所示,S的所有节点都为有效子节点,共计10个,以S为根的子树为包含信息块的最小子树。
分割规则生成部计算包含信息块的最小子树根节点S的子节点序列“b,b,p,p,p,b,p,p,p,b,p,p,”利用2-PAT方法,得到第一重复模式为“b(p)*”,第一重复模式的覆盖度为11/12,节点S的子节点和孙子序列为“b_p,b_p,p_text,p_text,p_text,b_p,p_text,p_text,p_text,b_p,p_text,p_text,”利用2-PAT方法,得到第二重复模式为“b_p,(p_text,)*”,第二重复模式的覆盖度为11/12,比较第一重复模式的覆盖度和第二重复模式的覆盖度的大小,第一重复模式的覆盖度小于等于第二重复模式的覆盖度,第二重复模式为最佳模式,即为分割规则。在本部中使用2-PAT方法计算序列的重复模式,可以计算出正确的重复模式,如计算序列“b,b,p,p,p,b,p,p,p,b,p,p,”的重复模式,首先计算序列“b,b,p,p,p,b,p,p,p,b,p,p,”的重复序列为“p,”,然后使用特定的字母M对该序列进行变形为“b,b,M,b,M,b,M”,计算变形后的重复序列为“b,M,”,由于变形后的重复序列为“b,M,”包含“M”,那么重复模式为“b,(P)*”。
分割部利用分割规则进行分割,根节点S的子节点和孙子序列为“b_p,b_p,p_text,p_text,p_text,b_p,p_text,p_text,p_text,b_p,p_text,p_text,”分割为3个组“b_p,b_p,p_text,p_text,p_text,”“b_p,p_text,p_text,p_text,”,“b_p,p_text,p_text,”,每个组对应一个区域,即为信息块。识别并且分割出的信息块如图14所示。
实施例子3中,如果采用现有技术2的方法,由于该方法不考虑文档结构,整个文档序列为图13树状图的中序序列,在这个中序序列中寻找重复序列,重复度最大的标记序列为“P”,利用“P”整个HTML文件的分割标记,显然不能得到正确的分割结果。
从上述可以看出,根据本发明的结构文档信息块自动识别分割装置,其能对结构文档中的选择性标记进行处理,并考虑深层次的信息和标记序列之间的重复,以及结构文档的结构特征来自动进行识别和分割,即使结构文档的结构比较复杂,重复模式比较复杂,信息块之间不是非常一致的情况下,也能够对结构文档中的信息块进行正确的识别和分割。可以实现结构文档信息块的正确的自动分割。
本发明不局限于上述实施方式,在不脱离本发明的主要内容的范围内,可以进行各种改变和修改,例如,本发明的装置不局限于由四个部分组成,可以将四个部分该按顺序任意组合为一个、两个或三个部分,也可以将其进一步细化划分成五个以上的部分。同样本发明的方法也不局限于为四个步骤,可以将其按顺序任意组合为一个、两个或三个步骤,也可以将其进一步细化划分成五个以上的步骤等。此外,本发明的结构文档不局限于HTML文件,也可以是XML文件,XHTML文件、以及其他具有结构性特征的文档等。

Claims (14)

1.一种结构文档信息块的自动分割装置,以结构文档为输入,对该结构文档包含的信息块进行自动识别和分割并输出分割结果,其特征在于,包括:
文档结构信息生成部,其接受所述结构文档并根据该结构文档生成文档结构信息;
信息块范围确定部,其根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;
分割规则生成部,其根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;
分割部,其根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。
2.权利要求1所述的结构文档信息块的自动分割装置,其特征在于:所述文档结构信息生成部所生成的文档结构信息为文档结构树,并且采用宽度优先算法搜索该文档结构树,找到有效子节点最多而且其有效文本量和整个文档的有效文本量之比大于预先设定的阈值的节点,该节点所对应的范围就是包含所有信息块的最小范围,以该节点为根的子树为包含所有信息块的最小子树。
3.利要求1所述的结构文档信息块的自动分割装置,其特征在于:所述文档结构信息生成部所生成的文档结构信息为文档结构树,所述分割规则生成部利用信息块所在的子树的根节点的子节点及其孙子节点的标记序列计算最优重复模式。
4.权利要求3所述的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部如下计算最优重复模式:首先对所述根节点的子节点序列,计算第一重复模式;然后对根节点的子节点和孙子序列,计算第二重复模式;最后从所述的第一重复模式和第二重复模式中选择最优重复模式。
5.权利要求4所述的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部通过以下步骤计算第一重复模式和第二重复模式中的至少一个:
计算原始标记序列的第一重复序列;
根据第一重复序列,用一个特定的符号代替标记序列中的第一重复序列,得到原始标记序列的变形序列;
计算所述变形序列的第二重复序列;
根据第二重复序列中是否包含第一重复序列,来确定最终重复模式。
6.权利要求3所述的结构文档信息块的自动分割装置,其特征在于:所述分割规则生成部使用覆盖度计算重复模式和选择最优重复模式。
7.权利要求1至5中任何一项所述的结构文档信息块的自动分割装置,其特征在于:所述结构文档为HTML、XML或XHTML。
8.一种结构文档信息块的自动分割方法,以结构文档为输入,对该结构文档包含的信息块进行自动识别和分割并输出分割结果,其特征在于,包括下列步骤:
文档结构信息生成步骤,接受所述结构文档并根据该结构文档生成文档结构信息;
信息块范围确定步骤,根据所述文档结构信息生成部所生成的文档结构信息确定信息块的范围;
分割规则生成步骤,根据所述文档结构信息生成部生成的文档结构信息和所述信息块范围确定部所确定的范围,生成分割规则;
分割步骤,根据所述分割规则生成部所生成的分割规则对所述结构文档进行分割,并输出分割结果。
9.权利要求8所述的结构文档信息块的自动分割方法,其特征在于:所述文档结构信息生成步骤所生成的文档结构信息为文档结构树,并且采用宽度优先算法搜索该文档结构树,找到有效子节点最多而且其有效文本量和整个文档的有效文本量之比大于预先设定的阈值的节点,该节点所对应的范围就是包含所有信息块的最小范围,以该节点为根的子树为包含所有信息块的最小子树。
10.利要求8所述的结构文档信息块的自动分割方法,其特征在于:所述文档结构信息生成步骤所生成的文档结构信息为文档结构树,所述分割规则生成步骤利用信息块所在的子树的根节点的子节点及其孙子节点的标记序列计算最优重复模式。
11.权利要求10所述的结构文档信息块的自动分割方法,其特征在于:所述分割规则生成步骤如下计算最优重复模式:首先对所述根节点的子节点序列,计算第一重复模式;然后对根节点的子节点和孙子序列,计算第二重复模式;最后从所述的第一重复模式和第二重复模式中选择最优重复模式。
12.权利要求11所述的结构文档信息块的自动分割方法,其特征在于:所述分割规则生成步骤通过以下步骤计算第一重复模式和第二重复模式中的至少一个:
计算原始标记序列的第一重复序列;
根据第一重复序列,用一个特定的符号代替标记序列中的第一重复序列,得到原始标记序列的变形序列;
计算所述变形序列的第二重复序列;
根据第二重复序列中是否包含第一重复序列,来确定最终重复模式。
13.权利要求10所述的结构文档信息块的自动分割方法,其特征在于:所述分割规则生成步骤使用覆盖度计算重复模式和选择最优重复模式。
14.权利要求8至13中任何一项所述的结构文档信息块的自动分割方法,其特征在于:所述结构文档为HTML、XML或XHTML。
CNA031457479A 2003-07-03 2003-07-03 结构文档信息块的自动分割方法和装置 Pending CN1567303A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA031457479A CN1567303A (zh) 2003-07-03 2003-07-03 结构文档信息块的自动分割方法和装置
JP2004197092A JP2005025763A (ja) 2003-07-03 2004-07-02 構造化文書の分割プログラム、分割装置、及び分割方法
US10/883,992 US20050050459A1 (en) 2003-07-03 2004-07-06 Automatic partition method and apparatus for structured document information blocks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA031457479A CN1567303A (zh) 2003-07-03 2003-07-03 结构文档信息块的自动分割方法和装置

Publications (1)

Publication Number Publication Date
CN1567303A true CN1567303A (zh) 2005-01-19

Family

ID=34155923

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031457479A Pending CN1567303A (zh) 2003-07-03 2003-07-03 结构文档信息块的自动分割方法和装置

Country Status (3)

Country Link
US (1) US20050050459A1 (zh)
JP (1) JP2005025763A (zh)
CN (1) CN1567303A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008000172A1 (fr) * 2006-06-19 2008-01-03 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif pour l'extraction d'informations web
CN1722161B (zh) * 2005-04-29 2011-03-16 东华大学 电子政务协同工作数据标准符合性测试方法
CN102460426A (zh) * 2009-04-23 2012-05-16 Kl网络公司 电子模板转换方法、装置和记录介质
CN102567292A (zh) * 2011-06-23 2012-07-11 北京新东方教育科技(集团)有限公司 讲义生成方法和系统
CN102567285A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 一种文档加载的方法及装置
CN101515272B (zh) * 2008-02-18 2012-10-24 株式会社理光 提取网页内容的方法和装置
CN111966932A (zh) * 2019-05-20 2020-11-20 富士通株式会社 信息处理方法和信息处理设备

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1634162B1 (en) 2003-01-31 2010-07-14 Visto Corporation Asynchronous real-time retrieval of data
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
JP2007193660A (ja) * 2006-01-20 2007-08-02 Seiko Epson Corp 情報管理装置、情報管理方法及びそのプログラム
FR2901037B1 (fr) * 2006-05-11 2008-11-07 Canon Kk Procede et dispositif de generation de motifs structurels de reference aptes a representer des donnees hierarchisees
JP4700637B2 (ja) * 2007-02-28 2011-06-15 関西電力株式会社 Web文書分割方法、システム及びプログラム
US7937395B2 (en) * 2008-02-22 2011-05-03 Tigerlogic Corporation Systems and methods of displaying and re-using document chunks in a document development application
US9129036B2 (en) 2008-02-22 2015-09-08 Tigerlogic Corporation Systems and methods of identifying chunks within inter-related documents
US8359533B2 (en) 2008-02-22 2013-01-22 Tigerlogic Corporation Systems and methods of performing a text replacement within multiple documents
US8924374B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of semantically annotating documents of different structures
US8078630B2 (en) * 2008-02-22 2011-12-13 Tigerlogic Corporation Systems and methods of displaying document chunks in response to a search request
US8001162B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of pipelining multiple document node streams through a query processor
US8924421B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of refining chunks identified within multiple documents
US8001140B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of refining a search query based on user-specified search keywords
US8126880B2 (en) 2008-02-22 2012-02-28 Tigerlogic Corporation Systems and methods of adaptively screening matching chunks within documents
US7933896B2 (en) * 2008-02-22 2011-04-26 Tigerlogic Corporation Systems and methods of searching a document for relevant chunks in response to a search request
US8145632B2 (en) * 2008-02-22 2012-03-27 Tigerlogic Corporation Systems and methods of identifying chunks within multiple documents
EP2272010A4 (en) * 2008-04-20 2016-09-14 Tigerlogic Corp SYSTEMS AND METHODS FOR IDENTIFYING BLOCKS FROM MULTIPLE SYNDICATION CONTENT PROVIDERS
CN102301377B (zh) * 2008-12-18 2015-07-08 科普恩股份有限公司 用于内容感知的数据分区和数据去重复的方法和设备
WO2011041795A1 (en) * 2009-10-02 2011-04-07 Aravind Musuluri System and method for block segmenting, identifying and indexing visual elements, and searching documents
EP3508978B1 (en) * 2010-03-12 2021-09-22 BlackBerry Limited Distributed catalog, data store, and indexing
EP2548122B1 (en) * 2010-03-16 2021-06-09 BlackBerry Limited Highly scalable and distributed data de-duplication
WO2012027472A2 (en) 2010-08-24 2012-03-01 Copiun, Inc. Constant access gateway and de-duplicated data cache server
US9477651B2 (en) 2010-09-29 2016-10-25 International Business Machines Corporation Finding partition boundaries for parallel processing of markup language documents
US9001390B1 (en) 2011-10-06 2015-04-07 Uri Zernik Device, system and method for identifying sections of documents
CN103377175A (zh) * 2012-04-26 2013-10-30 Sap股份公司 基于分割的结构化文档转换
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO983175L (no) * 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
US7051276B1 (en) * 2000-09-27 2006-05-23 Microsoft Corporation View templates for HTML source documents
US7051084B1 (en) * 2000-11-02 2006-05-23 Citrix Systems, Inc. Methods and apparatus for regenerating and transmitting a partial page
US6804677B2 (en) * 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
CN1636210A (zh) * 2001-11-02 2005-07-06 美国西门子医疗解决公司 用于临床试验的病人数据挖掘
US6912555B2 (en) * 2002-01-18 2005-06-28 Hewlett-Packard Development Company, L.P. Method for content mining of semi-structured documents

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1722161B (zh) * 2005-04-29 2011-03-16 东华大学 电子政务协同工作数据标准符合性测试方法
WO2008000172A1 (fr) * 2006-06-19 2008-01-03 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif pour l'extraction d'informations web
US8196037B2 (en) 2006-06-19 2012-06-05 Tencent Technology (Shenzhen) Company Limited Method and device for extracting web information
CN101515272B (zh) * 2008-02-18 2012-10-24 株式会社理光 提取网页内容的方法和装置
CN102460426A (zh) * 2009-04-23 2012-05-16 Kl网络公司 电子模板转换方法、装置和记录介质
CN102567285A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 一种文档加载的方法及装置
CN102567292A (zh) * 2011-06-23 2012-07-11 北京新东方教育科技(集团)有限公司 讲义生成方法和系统
CN111966932A (zh) * 2019-05-20 2020-11-20 富士通株式会社 信息处理方法和信息处理设备

Also Published As

Publication number Publication date
JP2005025763A (ja) 2005-01-27
US20050050459A1 (en) 2005-03-03

Similar Documents

Publication Publication Date Title
CN1567303A (zh) 结构文档信息块的自动分割方法和装置
CN100339855C (zh) 内容管理系统
CN107977363B (zh) 标题生成方法、装置和电子设备
Zhao et al. Fully automatic wrapper generation for search engines
CN1135485C (zh) 利用计算机系统的日文文本字的识别
CN1218274C (zh) 在线手写文字模式识别编辑装置及方法
US10248885B2 (en) Method for encoding of anatomic curves
CN109710947B (zh) 电力专业词库生成方法及装置
CN1702651A (zh) 特定类型信息文件的识别方法和装置
CN101059805A (zh) 基于网络流和分层知识库的动态文本聚类方法
CN101055578A (zh) 基于规则的文档内容挖掘器
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1687926A (zh) 一种基于xml的pdf文档信息抽取系统的方法
CN1786965A (zh) 一种新闻网页正文信息的提取方法
CN1629838A (zh) 电子文档的处理、浏览以及信息提取的方法、装置及系统
JP2005038386A (ja) 文章分類装置および方法
CN101079024A (zh) 一种专业词表动态生成系统和方法
CN1719436A (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN1220155C (zh) 基于对话的信息搜索方法和对话机
CN1158460A (zh) 一种跨语种语料自动分类与检索方法
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN1763740A (zh) 网页信息块提取方法和装置
CN1828608A (zh) 一种基于句子关系图的多文档摘要方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned