CN104572745B - 文档结构化方法和装置 - Google Patents

文档结构化方法和装置 Download PDF

Info

Publication number
CN104572745B
CN104572745B CN201310505451.6A CN201310505451A CN104572745B CN 104572745 B CN104572745 B CN 104572745B CN 201310505451 A CN201310505451 A CN 201310505451A CN 104572745 B CN104572745 B CN 104572745B
Authority
CN
China
Prior art keywords
structuring
document
paragraph
rule
random content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310505451.6A
Other languages
English (en)
Other versions
CN104572745A (zh
Inventor
杨勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310505451.6A priority Critical patent/CN104572745B/zh
Publication of CN104572745A publication Critical patent/CN104572745A/zh
Application granted granted Critical
Publication of CN104572745B publication Critical patent/CN104572745B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文档结构化方法和装置,其中方法包括:创建Schema文件和结构化规则文件;根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;获取结构化后的文档中预设的标志性标签的位置;根据标志性标签的位置获取结构化后的文档中的无规则内容;根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,从而提高了文档结构化的效率,降低了文档结构化的出错率。

Description

文档结构化方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档结构化方法和装置。
背景技术
现有技术中,在印刷排版行业中,出版社收到大量来稿时,由于来稿的格式不统一,出版社需要采用规则对来稿进行结构化,然后对来稿中不能采用规则进行结构化的无规则内容,例如中英文标题、中英文作者及作者单位的格式进行整理,得到结构化文档,然后根据结构化文档来制作图书或者期刊。
然而现有技术中,出版社通过投入大量的人力来人工整理无规则内容的格式,导致文档结构化的效率低,出错率高。
发明内容
本发明提供一种文档结构化方法和装置,用于解决现有技术中文档结构化的效率低,出错率高的问题。
本发明的第一个方面是提供一种文档结构化方法,包括:
创建Schema文件和结构化规则文件;
根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取所述结构化后的文档中预设的标志性标签的位置;
根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
本发明的另一个方面提供一种文档结构化装置,包括:
创建模块,用于创建Schema文件和结构化规则文件;
结构化模块,用于根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块,用于获取所述结构化后的文档中预设的标志性标签的位置;
所述获取模块,还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
所述结构化模块,还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档。
本发明中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
附图说明
图1为本发明提供的文档结构化方法一个实施例的流程图;
图2为本发明提供的文档结构化方法又一个实施例的流程图;
图3为本发明提供的文档结构化方法另一个实施例的流程图;
图4为本发明提供的文档结构化装置一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的文档结构化方法一个实施例的流程图,如图1所示,包括:
101、创建Schema文件和结构化规则文件。
本发明提供的文档结构化方法的执行主体可以为文档结构化装置,文档结构化装置具体可以为保存于计算机中用于对文档进行结构化的软件或系统。
规则(Schema)是一组为了描述某一类XML文档而定义好的一套规则,用于对一类XML文档进行约束并确定其结构,Schema文件中可以包括文档结构和基本元素类型,Schema文件中的文档结构和基本元素类型为文档结构化装置根据对大量的图书或期刊文档样张进行分析得到的规范进行创建的。Schema文件采用w3c标准,后缀名为XSD。文档结构可以包括多个结构单位,例如文档中的标题、篇、章、节等,文档结构中还可以包括标题、篇、章、节等之间的位置关系或顺序关系。基本元素类型可以包括:普通框架元素,样式框架元素,标题框架元素,复用框架元素和混合元素中的一种或多种。上述各种元素中可以包括字体、字形、字号、是否加粗、字间距、段落对齐方式、行间距等参数。
结构化规则文件具体可以为可扩展标记语言(Extensible Markup Language,XML)文件,结构化规则文件中可以包括至少一个结构化规则,结构化规则文件中的结构化规则具体可以为格式匹配规则,样式匹配规则,大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。其中,格式匹配规则,用于规定文字格式来匹配文档结构;样式匹配规则,用于规定段落样式来匹配文档结构;大纲级别匹配规则,用于规定大纲级别来匹配文档结构;自定义通配符匹配规则,用于规定通配符来自定义匹配文档结构。另外,文档结构与匹配规则之间的对应关系可以为一对多配置,以解决一个结构单位在不同文档中不同的显示方式,例如,格式匹配规则可以为:【内容摘要】or[\[【]摘要[】\]]or摘[ ]{1,}要or摘要[::]or[\[【]摘[ ]{1,}要[】\]]。
102、根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容。
其中,当文档结构包括多个结构单位,且结构单位与基本元素类型对应时,步骤102具体可以包括:根据结构化规则对文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;根据实例化规则对文档进行结构化,得到结构化后的文档。
103、获取结构化后的文档中预设的标志性标签的位置。
104、根据标志性标签的位置获取结构化后的文档中的无规则内容。
105、根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档。
文档结构化装置根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档之后,文档结构化装置还可以对无规则内容结构化后得到的内容进行验证。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
图2为本发明提供的文档结构化方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,标志性标签可以包括中文摘要标签和英文摘要标签。
对应的,步骤104具体可以包括:
1041、从中文摘要标签的位置向前找到结构化后的文档中的开始位置,得到第一块无规则内容。
1042、从英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
其中,中文摘要标签和英文摘要标签为文档结构化装置通过对大量文档进行分析得到的文档中有规则文本内容与无规则文本内容的分割节点。
对应的,在第一种实施场景下,步骤105具体可以包括:
1051、遍历第一块无规则内容,查找最大字号中文段落。
1052、若查找到最大字号中文段落,将最大字号中文段落的格式设置为中文标题格式。
文档结构化装置将最大字号中文段落的格式设置为中文标题格式后,可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1053、若未查找到最大字号中文段落,根据段落位置优势对第一块无规则内容进行结构化。
具体地,若未查找到最大字号中文段落,文档结构化装置可以直接将第一块无规则内容中的第一段设置为中文标题格式,将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1054、遍历第二块无规则内容,查找最大字号英文段落。
1055、若查找到最大字号英文段落,将最大字号英文段落的格式设置为英文标题格式。
文档结构化装置将最大字号英文段落的格式设置为英文标题格式后,可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
1056、若未查找到最大字号英文段落,根据段落位置优势对第二块无规则内容进行结构化。
具体地,若未查找到最大字号英文段落,文档结构化装置可以直接将第二块无规则内容中的第一段设置为英文标题格式,将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
对应的,在第二种实施场景下,如图3所示,步骤105具体可以包括:
1057、将第一块无规则内容中的第一段设置为中文标题格式。
具体地,文档结构化装置还可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式,将中间段落中的其他段落设置为中文作者单位格式。
1058、将第二块无规则内容中的第一段设置为英文标题格式。
具体地,文档结构化装置还可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式,将中间段落中的其他段落设置为英文作者单位格式。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中的中文摘要标签和英文摘要标签的位置,根据中文摘要标签和英文摘要标签的位置分别获取结构化后的文档中的第一块无规则内容和第二块无规则内容,根据预设的特殊样式或者段落位置优势对第一块无规则内容和第二块无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明提供的文档结构化装置一个实施例的结构示意图,如图4所示,包括:
创建模块41,用于创建Schema文件和结构化规则文件;
结构化模块42,用于根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块43,用于获取结构化后的文档中预设的标志性标签的位置;
获取模块43,还用于根据标志性标签的位置获取结构化后的文档中的无规则内容;
结构化模块42,还用于根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档。
进一步地,结构化规则文件中包括至少一个结构化规则,Schema文件中包括文档结构和基本元素类型,文档结构包括多个结构单位,结构单位与基本元素类型对应;
结构化模块42根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档中,结构化模块42具体用于,
根据结构化规则对文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据实例化规则对文档进行结构化,得到结构化后的文档。
其中,结构化规则,包括:格式匹配规则,样式匹配规则,大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。基本元素类型包括:普通框架元素,样式框架元素,标题框架元素,复用框架元素和混合元素中的一种或多种。
更进一步地,标志性标签包括中文摘要标签和英文摘要标签;
获取模块43根据标志性标签的位置获取结构化后的文档中的无规则内容中,获取模块43具体用于,
从中文摘要标签的位置向前找到结构化后的文档中的开始位置,得到第一块无规则内容;
从英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
再进一步地,在第一种实施场景下,结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档中,结构化模块42具体用于,
遍历第一块无规则内容,查找最大字号中文段落;
若查找到最大字号中文段落,将最大字号中文段落的格式设置为中文标题格式;
若未查找到最大字号中文段落,根据段落位置优势对第一块无规则内容进行结构化;
遍历第二块无规则内容,查找最大字号英文段落;
若查找到最大字号英文段落,将最大字号英文段落的格式设置为英文标题格式;
若未查找到最大字号英文段落,根据段落位置优势对第二块无规则内容进行结构化。
再进一步地,在第二种实施场景下,结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档中,结构化模块42具体用于,
将第一块无规则内容中的第一段设置为中文标题格式;
将第二块无规则内容中的第一段设置为英文标题格式。
本实施例中,通过根据结构化规则文件和Schema文件对文档进行结构化,得到结构化后的文档,结构化后的文档中包括已结构化的内容和未结构化的无规则内容,获取结构化后的文档中预设的标志性标签的位置,根据标志性标签的位置获取结构化后的文档中的无规则内容,根据预设的特殊样式或者段落位置优势对无规则内容进行结构化,得到结构化文档,而不需要人工整理无规则内容的格式,从而提高了文档结构化的效率,降低了文档结构化的出错率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种文档结构化方法,其特征在于,包括:
创建Schema文件和结构化规则文件;
根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取所述结构化后的文档中预设的标志性标签的位置;
根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档;
所述标志性标签包括中文摘要标签和英文摘要标签;
所述根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容,包括:从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块无规则内容;从所述英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
2.根据权利要求1所述的方法,其特征在于,所述结构化规则文件中包括至少一个结构化规则,所述Schema文件中包括文档结构和基本元素类型,所述文档结构包括多个结构单位,所述结构单位与所述基本元素类型对应;
所述根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,包括:
根据所述结构化规则对所述文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据所述实例化规则对所述文档进行结构化,得到结构化后的文档。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,包括:
遍历所述第一块无规则内容,查找最大字号中文段落;
若查找到所述最大字号中文段落,将所述最大字号中文段落的格式设置为中文标题格式;
若未查找到所述最大字号中文段落,根据段落位置优势对所述第一块无规则内容进行结构化。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,还包括:
遍历所述第二块无规则内容,查找最大字号英文段落;
若查找到所述最大字号英文段落,将所述最大字号英文段落的格式设置为英文标题格式;
若未查找到所述最大字号英文段落,根据段落位置优势对所述第二块无规则内容进行结构化。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,包括:
将所述第一块无规则内容中的第一段设置为中文标题格式。
6.根据权利要求5所述的方法,其特征在于,所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档,还包括:
将所述第二块无规则内容中的第一段设置为英文标题格式。
7.一种文档结构化装置,其特征在于,包括:
创建模块,用于创建Schema文件和结构化规则文件;
结构化模块,用于根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档,所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容;
获取模块,用于获取所述结构化后的文档中预设的标志性标签的位置;
所述获取模块,还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容;
所述结构化模块,还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化,得到结构化文档;
所述标志性标签包括中文摘要标签和英文摘要标签;
所述获取模块根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容中,所述获取模块具体用于,从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置,得到第一块无规则内容;从所述英文摘要标签的位置向前找到第一段中文段落的末尾,得到第二块无规则内容。
8.根据权利要求7所述的装置,其特征在于,所述结构化规则文件中包括至少一个结构化规则,所述Schema文件中包括文档结构和基本元素类型,所述文档结构包括多个结构单位,所述结构单位与所述基本元素类型对应;
所述结构化模块根据所述结构化规则文件和所述Schema文件对文档进行结构化,得到结构化后的文档中,所述结构化模块具体用于,
根据所述结构化规则对所述文档结构进行匹配,将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则;
根据所述实例化规则对所述文档进行结构化,得到结构化后的文档。
CN201310505451.6A 2013-10-23 2013-10-23 文档结构化方法和装置 Expired - Fee Related CN104572745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310505451.6A CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310505451.6A CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Publications (2)

Publication Number Publication Date
CN104572745A CN104572745A (zh) 2015-04-29
CN104572745B true CN104572745B (zh) 2018-05-04

Family

ID=53088827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310505451.6A Expired - Fee Related CN104572745B (zh) 2013-10-23 2013-10-23 文档结构化方法和装置

Country Status (1)

Country Link
CN (1) CN104572745B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN110188762B (zh) * 2019-04-23 2021-02-05 山东大学 中英文混合商户门店名称识别方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN103186514A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 用于实现文档结构化的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102982010A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档结构的方法和装置
CN103186514A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 用于实现文档结构化的方法和装置

Also Published As

Publication number Publication date
CN104572745A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
Buckley PySLHA: a pythonic interface to SUSY Les Houches accord data
US8977606B2 (en) Method and apparatus for generating extended page snippet of search result
CN100444591C (zh) 获取网页关键字的方法及其应用系统
CN102662997A (zh) 一种存储xml数据到关系数据库的方法
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN102135976B (zh) 超文本标识语言页面结构化数据提取方法及装置
CN102982010A (zh) 提取文档结构的方法和装置
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN102411602B (zh) 一种基于 fpga 实现的xml 并行投机解析方法
CN109543128A (zh) 一种基于编程语言的前端框架项目实现方法及电子设备
JP2017507444A5 (zh)
Keller et al. Generalized substring compression
CN104572745B (zh) 文档结构化方法和装置
US9619445B1 (en) Conversion of content to formats suitable for digital distributions thereof
CN104462157B (zh) 一种文本数据二次结构化的方法及装置
CN109101520A (zh) 一种电子手册和电子手册的显示方法
US20070214170A1 (en) Parallel data transformation
CN103377183B (zh) 重复排版的方法和装置
CN110059303A (zh) Excel文件转换为JSON文件的方法及装置
JP5706306B2 (ja) リンクされたテキストボックスを有する電子文書のレンダリングの方法、レンダリングする指示を含むコンピューターが読み取り可能な記憶媒体及びシステム
CN107015955A (zh) 文档编辑方法和装置
CN105095276B (zh) 一种挖掘最大重复序列的方法及装置
JP2010267081A (ja) 情報検索方法及び装置及びプログラム
CN109284481B (zh) 一种提示文本处理方法、装置及计算机可读存储介质
CN114637505A (zh) 一种页面内容提取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220624

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180504

CF01 Termination of patent right due to non-payment of annual fee