CN104572745A - 文档结构化方法和装置 - Google Patents

文档结构化方法和装置 Download PDF

Info

Publication number
CN104572745A
CN104572745A CN201310505451.6A CN201310505451A CN104572745A CN 104572745 A CN104572745 A CN 104572745A CN 201310505451 A CN201310505451 A CN 201310505451A CN 104572745 A CN104572745 A CN 104572745A
Authority
CN
China
Prior art keywords
structuring
document
paragraph
file
random content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310505451.6A
Other languages
English (en)
Other versions
CN104572745B (zh
Inventor
杨勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310505451.6A priority Critical patent/CN104572745B/zh
Publication of CN104572745A publication Critical patent/CN104572745A/zh
Application granted granted Critical
Publication of CN104572745B publication Critical patent/CN104572745B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文档结构化方法和装置,其中方法包括:创建Schema文件和结构化规则文件;根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取结构化后的文档中预设的标志性标签的位置;根据标志性标签的位置获取结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,从而提高了文档结构化的效率,降低了文档结构化的出错率。

Description

文档结构化方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档结构化方法和装置。
背景技术
现有技术中,在印刷排版行业中,出版社收到大量来稿时,由于来稿的格式不统一,出版社需要采用规则对来稿进行结构化,然后对来稿中不能采用规则进行结构化的无规则内容,例如中英文标题、中英文作者及作者单位的格式进行整理,得到结构化文档,然后根据结构化文档来制作图书或者期刊。
然而现有技术中,出版社通过投入大量的人力来人工整理无规则内容的格式,导致文档结构化的效率低,出错率高。
发明内容
本发明提供一种文档结构化方法和装置,用于解决现有技术中文档结构化的效率低,出错率高的问题。
本发明的第一个方面是提供一种文档结构化方法,包括:
创建Schema文件和结构化规则文件;
根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取所述结构化后的文档中预设的标志性标签的位置;
根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
本发明的另一个方面提供一种文档结构化装置,包括:
创建模块,用于创建Schema文件和结构化规则文件;
结构化模块,用于根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块,用于获取所述结构化后的文档中预设的标志性标签的位置;
所述获取模块,还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
所述结构化模块,还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
本发明中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
附图说明
图1为本发明提供的文档结构化方法一个实施例的流程图;
图2为本发明提供的文档结构化方法又一个实施例的流程图;
图3为本发明提供的文档结构化方法另一个实施例的流程图;
图4为本发明提供的文档结构化装置一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的文档结构化方法一个实施例的流程图,如图1所示,包括:
101、创建Schema文件和结构化规则文件。
本发明提供的文档结构化方法的执行主体可以为文档结构化装置,文档结构化装置具体可以为保存于计算机中用于对文档进行结构化的软件或系统。
规则(Schema)是一组为了描述某一类XML文档而定义好的一套规则,用于对一类XML文档进行约束并确定其结构,Schema文件中可以包括文档结构和基本元素类型,Schema文件中的文档结构和基本元素类型为文档结构化装置根据对大量的图书或期刊文档样张进行分析得到的规范进行创建的。Schema文件采用w3c标准,后缀名为XSD。文档结构可以包括多个结构单位,例如文档中的标题、篇、章、节等,文档结构中还可以包括标题、篇、章、节等之间的位置关系或顺序关系。基本元素类型可以包括:普通框架元素,样式框架元素,标题框架元素,复用框架元素和混合元素中的一种或多种。上述各种元素中可以包括字体、字形、字号、是否加粗、字间距、段落对齐方式、行间距等参数。
结构化规则文件具体可以为可扩展标记语言(Extensible MarkupLanguage,XML)文件,结构化规则文件中可以包括至少一个结构化规则,结构化规则文件中的结构化规则具体可以为格式匹配规则,样式匹配规则,大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。其中,格式匹配规则,用于规定文字格式来匹配文档结构;样式匹配规则,用于规定段落样式来匹配文档结构;大纲级别匹配规则,用于规定大纲级别来匹配文档结构;自定义通配符匹配规则,用于规定通配符来自定义匹配文档结构。另外,文档结构与匹配规则之间的对应关系可以为一对多配置,以解决一个结构单位在不同文档中不同的显示方式,例如,格式匹配规则可以为:【内容摘要】or[\[【]摘要[】\]]or摘[ ]{1,}要or摘要[::]or[\[【]摘[ ]{1,}要[】\]]。
102、根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容。
其中,当文档结构包括多个结构单位,且结构单位与基本元素类型对应时,步骤102具体可以包括:根据结构化规则对文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;根据实例化规则对文档进行结构化,得到结构化后的文档。
103、获取结构化后的文档中预设的标志性标签的位置。
104、根据标志性标签的位置获取结构化后的文档中的无规则内容。
105、根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档。
文档结构化装置根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档之后,文档结构化装置还可以对无规则内容结构化后得到的内容进行验证。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
图2为本发明提供的文档结构化方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,标志性标签可以包括中文摘要标签和英文摘要标签。
对应的,步骤104具体可以包括:
1041、从中文摘要标签的位置向前找到结构化后的文档中的开始位置,得到第一块无规则内容。
1042、从英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
其中,中文摘要标签和英文摘要标签为文档结构化装置通过对大量文档进行分析得到的文档中有规则文本内容与无规则文本内容的分割节点。
对应的,在第一种实施场景下,步骤105具体可以包括:
1051、遍历第一块无规则内容,查找最大字号中文段落。
1052、若查找到最大字号中文段落,将最大字号中文段落的格式设置为中文标题格式。
文档结构化装置将最大字号中文段落的格式设置为中文标题格式后,可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1053、若未查找到最大字号中文段落,根据段落位置优势对第一块无规则内容进行结构化。
具体地,若未查找到最大字号中文段落,文档结构化装置可以直接将第一块无规则内容中的第一段设置为中文标题格式,将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1054、遍历第二块无规则内容,查找最大字号英文段落。
1055、若查找到最大字号英文段落,将最大字号英文段落的格式设置为英文标题格式。
文档结构化装置将最大字号英文段落的格式设置为英文标题格式后,可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
1056、若未查找到最大字号英文段落,根据段落位置优势对第二块无规则内容进行结构化。
具体地,若未查找到最大字号英文段落,文档结构化装置可以直接将第二块无规则内容中的第一段设置为英文标题格式,将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
对应的,在第二种实施场景下,如图3所示,步骤105具体可以包括:
1057、将第一块无规则内容中的第一段设置为中文标题格式。
具体地,文档结构化装置还可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1058、将第二块无规则内容中的第一段设置为英文标题格式。
具体地,文档结构化装置还可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中的中文摘要标签和英文摘要标签的位置,根据中文摘要标签和英文摘要标签的位置分别获取结构化后的文档中的第一块无规则内容和第二块无规则内容,根据预设的特殊样式或者段落位置优势对第一块无规则内容和第二块无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明提供的文档结构化装置一个实施例的结构示意图,如图4所示,包括:
创建模块41,用于创建Schema文件和结构化规则文件;
结构化模块42,用于根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块43,用于获取结构化后的文档中预设的标志性标签的位置;
获取模块43,还用于根据标志性标签的位置获取结构化后的文档中的无规则内容;
结构化模块42,还用于根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档。
进一步地,结构化规则文件中包括至少一个结构化规则,Schema文件中包括文档结构和基本元素类型,文档结构包括多个结构单位,结构单位与基本元素类型对应;
结构化模块42根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档中,结构化模块42具体用于,
根据结构化规则对文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据实例化规则对文档进行结构化,得到结构化后的文档。
其中,结构化规则,包括:格式匹配规则,样式匹配规则,大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。基本元素类型包括:普通框架元素,样式框架元素,标题框架元素,复用框架元素和混合元素中的一种或多种。
更进一步地,标志性标签包括中文摘要标签和英文摘要标签;
获取模块43根据标志性标签的位置获取结构化后的文档中的无规则内容中,获取模块43具体用于,
从中文摘要标签的位置向前找到结构化后的文档中的开始位置,得到第一块无规则内容;
从英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
再进一步地,在第一种实施场景下,结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档中,结构化模块42具体用于,
遍历第一块无规则内容,查找最大字号中文段落;
若查找到最大字号中文段落,将最大字号中文段落的格式设置为中文标题格式;
若未查找到最大字号中文段落,根据段落位置优势对第一块无规则内容进行结构化;
遍历第二块无规则内容,查找最大字号英文段落;
若查找到最大字号英文段落,将最大字号英文段落的格式设置为英文标题格式;
若未查找到最大字号英文段落,根据段落位置优势对第二块无规则内容进行结构化。
再进一步地,在第二种实施场景下,结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档中,结构化模块42具体用于,
将第一块无规则内容中的第一段设置为中文标题格式;
将第二块无规则内容中的第一段设置为英文标题格式。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种文档结构化方法,其特征在于,包括:
创建Schema文件和结构化规则文件;
根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取所述结构化后的文档中预设的标志性标签的位置;
根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
2.根据权利要求1所述的方法,其特征在于,所述结构化规则文件中包括至少一个结构化规则,所述Schema文件中包括文档结构和基本元素类型,所述文档结构包括多个结构单位,所述结构单位与所述基本元素类型对应;
所述根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,包括:
根据所述结构化规则对所述文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据所述实例化规则对所述文档进行结构化,得到结构化后的文档。
3.根据权利要求1或2所述的方法,其特征在于,所述标志性标签包括中文摘要标签和英文摘要标签;
所述根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容,包括:
从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块无规则内容;
从所述英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,包括:
遍历所述第一块无规则内容,查找最大字号中文段落;
若查找到所述最大字号中文段落,将所述最大字号中文段落的格式设置为中文标题格式;
若未查找到所述最大字号中文段落,根据段落位置优势对所述第一块无规则内容进行结构化。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,还包括:
遍历所述第二块无规则内容,查找最大字号英文段落;
若查找到所述最大字号英文段落,将所述最大字号英文段落的格式设置为英文标题格式;
若未查找到所述最大字号英文段落,根据段落位置优势对所述第二块无规则内容进行结构化。
6.根据权利要求3所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,包括:
将所述第一块无规则内容中的第一段设置为中文标题格式。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,还包括:
将所述第二块无规则内容中的第一段设置为英文标题格式。
8.一种文档结构化装置,其特征在于,包括:
创建模块,用于创建Schema文件和结构化规则文件;
结构化模块,用于根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块,用于获取所述结构化后的文档中预设的标志性标签的位置;
所述获取模块,还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
所述结构化模块,还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
9.根据权利要求8所述的装置,其特征在于,所述结构化规则文件中包括至少一个结构化规则,所述Schema文件中包括文档结构和基本元素类型,所述文档结构包括多个结构单位,所述结构单位与所述基本元素类型对应;
所述结构化模块根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档中,所述结构化模块具体用于,
根据所述结构化规则对所述文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据所述实例化规则对所述文档进行结构化,得到结构化后的文档。
10.根据权利要求8或9所述的装置,其特征在于,所述标志性标签包括中文摘要标签和英文摘要标签;
所述获取模块根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容中,所述获取模块具体用于,
从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块无规则内容;
从所述英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
CN201310505451.6A 2013-10-23 2013-10-23 文档结构化方法和装置 Expired - Fee Related CN104572745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310505451.6A CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310505451.6A CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Publications (2)

Publication Number Publication Date
CN104572745A true CN104572745A (zh) 2015-04-29
CN104572745B CN104572745B (zh) 2018-05-04

Family

ID=53088827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310505451.6A Expired - Fee Related CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Country Status (1)

Country Link
CN (1) CN104572745B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN110188762A (zh) * 2019-04-23 2019-08-30 山东大学 中英文混合商户门店名称识别方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN103186514A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 用于实现文档结构化的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN103186514A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 用于实现文档结构化的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN110188762A (zh) * 2019-04-23 2019-08-30 山东大学 中英文混合商户门店名称识别方法、系统、设备及介质
CN110188762B (zh) * 2019-04-23 2021-02-05 山东大学 中英文混合商户门店名称识别方法、系统、设备及介质

Also Published As

Publication number Publication date
CN104572745B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN104346319B (zh) 检查文档样式的方法及系统
CN103902513A (zh) 在终端设备中显示字体的方法及装置
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN111562919A (zh) 基于psd文件生成前端网页代码的方法、系统及存储介质
KR20070121798A (ko) 확장 가능 애플리케이션 마크업 언어(xaml) 파일을필터링하여 그것에 포함된 논리 내용의 인덱싱을 용이하게하는 방법 및 시스템
CN104699714A (zh) 将书版格式文件转换为epub格式文件的方法及装置
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN106547895B (zh) 一种网页信息的提取方法及装置
CN104598462A (zh) 提取结构化数据的方法及装置
CN110347390B (zh) 一种快速生成web页面的方法、存储介质、设备及系统
CN104572744A (zh) 结构化文档生成方法和装置
CN104090920A (zh) 一种实现数字内容跨终端出版的系统
WO2012012949A1 (en) Visual separator detection in web pages by using code analysis
US20140156799A1 (en) Method and System for Extracting Post Contents From Forum Web Page
JP4086253B1 (ja) Xml文書の処理方法および処理プログラム
CN104572745A (zh) 文档结构化方法和装置
US20070214170A1 (en) Parallel data transformation
CN104281575A (zh) 一种网页数据获取方法及模版引擎
CA2602749C (en) System and method of report representation
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN109492201A (zh) 应用于量值对比的文件格式转化方法
CN112287742B (zh) 文件中的流程图解析方法及装置、计算设备、存储介质
Palekar et al. Deep web data extraction using web-programming-language-independent approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180504

CF01 Termination of patent right due to non-payment of annual fee