CN114692577A - 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人 - Google Patents

一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人 Download PDF

Info

Publication number
CN114692577A
CN114692577A CN202210269930.1A CN202210269930A CN114692577A CN 114692577 A CN114692577 A CN 114692577A CN 202210269930 A CN202210269930 A CN 202210269930A CN 114692577 A CN114692577 A CN 114692577A
Authority
CN
China
Prior art keywords
document
content
text
positioning
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210269930.1A
Other languages
English (en)
Inventor
芮舟
边一雄
冯浩通
邵万骏
郭兆鑫
王攀
金克
陈运文
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN202210269930.1A priority Critical patent/CN114692577A/zh
Publication of CN114692577A publication Critical patent/CN114692577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及到一种用于文本文档自动化编辑的内容定位方法,该方法通过对文本文档结构的划分实现对文档内容的精确定位,其包括文档结构划分流程和文本文档内容定位流程,文本文档结构划分方式分为按文档全文划分、按文档中的页面划分、按文档中的表格划分及按表格中的单元格划分,其流程为:获得文本文档,判断文档内容,确定文档内容所在表格的序号,确定在表格中的位置,确定在单元格内部的段落序号,确定句子在段落中的位置,确定在句子内的位置,再次判断该位置处内容是否为表格,输出文档文字的位置,完成文档定位操作;还涉及定位系统及流程机器人。本发明实现了文本文档内容的精确定位,可对复杂表格嵌套结构定位,流程编写过程简化、直观。

Description

一种用于文本文档自动化编辑的内容定位方法、系统及流程 自动化机器人
技术领域
本发明涉及数字化应用,特别涉及到一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人。
背景技术
文本文档在生产生活中应用广泛,常见于合同,报表等场合,其格式相近,文字的编排和排版符合一定规则,十分适合应用自动化流程进行编辑和修改。
相比于目前自动化编辑水平较高的表格文档,文本文档为非格式化文档,不具备自动化编辑表格时的可操作性。在表格文档中操作对象为表格,每个单元格有明确的定位方法,表格中处理的多为数据,有成熟的数学工具可应用,虽然功能繁复,但是实现自动化操作时较为友好。
而文本文档中操作对象为文字,在文档中没有明确的定位方法,这导致对于文本文档操作的自动化较为困难;文本中常会插入表格、图片、图表、超链接,以及页眉、页脚、版式、纸张设置等复杂多变的元素,难以进行精确的自动化操作。
目前操作文本文档的方式多局限于对文档进行自下而上的编辑,这样的单向操作在对文档任意部位进行修改时有很大的局限性,此外在编写流程时,我们通常用页、段、句等方式对于文字进行定位,而目前常见的自动化编辑定位方式是通过字符在全文中顺序索引,对编写者比较不友好。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种用于流程自动化机器人文本文档自动化编辑功能的内容定位方法。本发明的方法要能够实现文本文档内容的精确定位,并且对复杂表格嵌套结构定位过程使流程编写过程简化且直观。
为了达到上述发明目的,本发明提供技术方案如下:
一种用于文本文档自动化编辑的内容定位方法,该方法通过对文本文档结构的合理划分实现对文档内容的精确定位,其包括文档结构划分方法和文本文档内容定位流程,在所述文本文档结构划分方法中,对于文本文档结构划分可依据文档全文、文档中的页面、文档中的表格及表格中的单元格,所述文本文档内容定位流程通过如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
在所述文本文档结构划分流程中,将结构划分的文本文档进一步从顶层到底层再次划分,所述文档按文档全文从顶层到底层分为文档、页、段落、句子和字符;按文档页面从顶层到底层分为文档、页、段落、句子和字符;按文档中的表格从顶层至底层分为文档、表格和单元格;文档中表格单元格在定位时视为单独的文档。
所述文本文档内容定位流程中,对于所述的文档全文,采用由文档内容形成段落、句子和字符结构,在全文范围内对文档进行定位。
所述文本文档内容定位流程中,对于文档中的页面,页是根据文档排版自然形成的结构,段落、句子和字符是由文档内容形成,两者并列存在,即段落或句子可以跨页存在,根据对文档的阅读和使用习惯,在定位一段内容时,‘页’这个结构的加入可以增加定位的便捷性,更加符合人的阅读习惯,在定位时将页视为独立的机构,忽略跨页的段落或句子,将页面开始处视为第一段落或第一句子的开始,将页面结束处视为最后一段或最后一句的结束,在页内部仍采用段落、句子、字符的方式,结合页码即可获得页内内容在全文中的位置。
在所述文本文档内容定位流程中,对于文档中的表格,定位表格时仅对全文中的表格进行编号,忽略段落结构,于表格内部的单元格,依靠行列坐标进行精确定位。
在所述文本文档内容定位流程中,对于文档中表格单元格内容定位时,将单元格视为单独的文档,在单元格内部采用文档全文的定位方式,结合单元格在文档中的定位即可得到单元格中内容在全文范围内的位置,若单元格中嵌套表格,在单元格内部使用文档表格进行定位。
在所述文本文档内容定位流程中,所述文本文档内容定位流程中还设有定位的互相转换,文本文档的页面除页码外可使用起止段落进行定位;表格除编号外也是段落的集合,可用起止段落进行定位,将表格内部定位或页面内部定位转换为全文范围的位置,页面和表格内部定位也可借此互相转换。
一种用于文本文档自动化编辑的内容定位系统,该内容定位系统中包括有文档结构划分模块和文档内容定位模块,所述文档结构划分模块将文本文档结构分为文档全文、文档中的页面、文档中的表格及表格中的单元格,将划分后的四种文档结构输入至文档内容定位模块实现精确定位,定位时通过如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
一种流程自动化机器人,该流程自动化机器人自动编辑定位文本文档内容,通过对文本文档结构的划分实现对文档内容的精确定位,对于文本文档结构分为文档全文、文档中的页面、文档中的表格及表格中的单元格,并采取如下定位方法实现精确定位:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
基于上述技术方案,本发明专利申请与现有技术相比具有如下技术优点:
1.因为对文档结构的划分涵盖了编辑文档时常用的页面、段落、句子、字符以及表格、单元格等大量结构并且划分足够精细,所以能实现对文档内容的精确定位。
2.因为在划分文档结构时各层级结构之间跨度较小,在“全文”与“段落”之间加入了“页面”层级以及在“段落”与表格内部内容之间加入了“表格单元格”层级,所以流程编写者在定位时工作量减少且更符合阅读习惯。
3.因为在定位单元格中内容时将单元格视为单独的文档,对其内容结构单独划分,所以可对文档中的单元格内段落和嵌套表格等难以描述其位置的复杂结构进行定位。
附图说明
图1是本发明用于文本文档自动化编辑的内容定位方法的实现流程示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明用于文本文档自动化编辑的内容定位方法、定位系统及流程自动化机器人做进一步的详细阐述,以求更为清楚明了地理解其结构组成和工作流程,但不能因此来限制本发明的保护范围。
如图1所示,本发明先是一种用于文本文档自动化编辑的内容定位方法,该方法通过对文本文档结构的划分实现对文档内容的精确定位,其包括文档结构划分流程和文本文档内容定位流程,在所述文本文档结构划分流程中,对于文本文档结构分为文档全文、文档中的页面、文档中的表格及表格中的单元格,所述文本文档内容定位流程通过如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
在上述文本文档结构划分流程中,将结构划分的文本文档进一步从顶层到底层再次划分,所述文档全文从顶层到底层分为文档、页、段落、句子和字符;文档页面从顶层到底层分为文档、页、段落、句子和字符;文档中的表格从顶层至底层分为文档、表格和单元格;文档中表格单元格在定位时视为单独的文档。
上述文本文档内容定位流程中,对于所述的文档全文,采用由文档内容形成段落、句子和字符结构,在全文范围内对文档进行定位。
上述文本文档内容定位流程中,对于文档中的页面,页是根据文档排版自然形成的结构,段落、句子和字符是由文档内容形成,两者并列存在,即段落或句子可以跨页存在,根据对文档的阅读和使用习惯,在定位一段内容时,‘页’这个结构的加入可以增加定位的便捷性,更加符合人的阅读习惯,在定位时将页视为独立的机构,忽略跨页的段落或句子,将页面开始处视为第一段落或第一句子的开始,将页面结束处视为最后一段或最后一句的结束,在页内部仍采用段落、句子、字符的方式,结合页码即可获得页内内容在全文中的位置。
在上述文本文档内容定位流程中,对于文档中的表格,定位表格时仅对全文中的表格进行编号,忽略段落结构,于表格内部的单元格,依靠行列坐标进行精确定位。
在上述文本文档内容定位流程中,对于文档中表格单元格内容定位时,将单元格视为单独的文档,在单元格内部采用文档全文的定位方式,结合单元格在文档中的定位即可得到单元格中内容在全文范围内的位置,若单元格中嵌套表格,在单元格内部使用文档表格进行定位。
在所述文本文档内容定位流程中,所述文本文档内容定位流程中还设有定位的互相转换,文本文档的页面除页码外可使用起止段落进行定位;表格除编号外也是段落的集合,可用起止段落进行定位,将表格内部定位或页面内部定位转换为全文范围的位置,页面和表格内部定位也可借此互相转换。
在计算机等处理平台中,作为流程自动化机器人的组成部分,安装有一种用于文本文档自动化编辑的内容定位系统,该内容定位系统中包括有文档结构划分模块和文档内容定位模块,所述文档结构划分模块将文本文档结构分为文档全文、文档中的页面、文档中的表格及表格中的单元格,将划分后的四种文档结构输入值文档内容定位模块实现精确定位,定位时通过执行如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
在上述基础上,设计了一种新型的流程自动化机器人,该流程自动化机器人自动编辑定位文本文档内容,通过对文本文档结构的划分实现对文档内容的精确定位。该流程自动化机器人首先对于文本文档结构分为文档全文、文档中的页面、文档中的表格及表格中的单元格,然后采取如下定位方法实现精确定位:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
下面我们结合两则案例来描述本发明专利的实践应用方法:
实施例1
本实施例是利用本文按文档中页面划分文档结构的方法,从而快速获取非表格目标内容在文档中的位置,通过增加“页面”结构大大加快了段落的定位,无需从头开始计算段落序号或句子序号。
1.查看目标所在页得到页码,如第二页;
2.查看第二页,发现目标在业内第三个段落,得到第二页第三段; 3.查看第二页第三段,发现目标在第1句,得到第二页第三段第一句;
4.查看第二页第三段第一句,得到目标位于该句第5-10字符;
5.将第二页第三段第一句第5-10字符输入,流程将其转为绝对坐标进行操作。
实施例2
本实施例是用本文按文档中表格划分文档结构的方法,从而快速获取表格内部内容在文档中的位置,通过在单元格内套用按文档全文划分结构的方法,避免表格中的定位和文档中的定位出现冲突或定义不明导致定位结果发生歧义。
1.查看目标,发现目标位于表格内;
2.查看该表格索引或标题,发现内容位于表二;
3.查看表格内容,得到目标位于表格第3行第2列单元格内;
4.查看单元格内容,得到目标位于单元格内第二段;
5.查看该段,得到目标为位于段内第4-6句;
6.得到目标位置为表二第三行第二列内第二段4-6句,输入位置,流程将其转为绝对坐标进行操作。
毫无疑问,以上只是本发明专利有限的实施方式,除此之外还包括其他可行的实施方案和流程设计。总而言之,本发明专利的保护范围还包括其他对于本领域技术人员来说显而易见的变换和替代。

Claims (9)

1.一种用于文本文档自动化编辑的内容定位方法,其特征在于,该方法通过对文本文档结构的划分实现对文档内容的精确定位,其包括文档结构划分流程和文本文档内容定位流程,在所述文本文档结构划分流程中,对于文本文档结构划分方式分为按文档全文划分、按文档中的页面划分、按文档中的表格划分及按表格中的单元格划分,所述文本文档内容定位流程通过如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
2.根据权利要求1所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,在所述文本文档结构划分流程中,将结构划分的文本文档进一步从顶层到底层再次划分,所述文档按文档全文从顶层到底层分为文档、段落、句子和字符;按文档页面从顶层到底层分为文档、页、段落、句子和字符;文档中的表格从顶层至底层分为文档、表格和单元格;文档中表格单元格在定位时视为单独的文档按文档全文方式划分。
3.根据权利要求2所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,所述文本文档内容定位流程中,对于所述的文档全文,采用由文档内容划分形成表格、页面、段落、句子和字符结构,在全文范围内对文档进行定位。
4.根据权利要求2所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,所述文本文档内容定位流程中,对于文档中的页面,页是根据文档排版自然形成的结构,段落、句子和字符是由文档内容形成,两者并列存在,即段落或句子可以跨页存在,根据对文档的阅读和使用习惯,在定位一段内容时,‘页’这个结构的加入可以增加定位的便捷性,更加符合人的阅读习惯,在定位时将页视为独立的机构,忽略跨页的段落或句子,将页面开始处视为第一段落或第一句子的开始,将页面结束处视为最后一段或最后一句的结束,在页内部仍采用段落、句子、字符的方式,结合页码即可获得页面内内容在全文中的位置。
5.根据权利要求2所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,所述文本文档内容定位流程中,对于文档中的表格,定位表格时仅对全文中的表格进行编号,忽略段落结构,于表格内部的单元格,依靠行列坐标进行精确定位。
6.根据权利要求2所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,对于文档中表格单元格内容定位时,将单元格视为单独的文档,在单元格内部采用文档全文的定位方式,结合单元格在文档中的定位即可得到单元格中内容在全文范围内的位置,若单元格中嵌套表格,在单元格内部使用文档表格进行定位。
7.根据权利要求2所述的一种用于文本文档自动化编辑的内容定位方法,其特征在于,所述文本文档内容定位流程中还设有定位的互相转换,文本文档的页面除页码外可使用起止段落进行定位;表格除编号外也是段落的集合,可用起止段落进行定位,将表格内部定位或页面内部定位转换为全文范围的位置,页面和表格内部定位也可借此互相转换。
8.一种用于文本文档自动化编辑的内容定位系统,其特征在于,该内容定位系统中包括有文档结构划分模块和文档内容定位模块,所述文档结构划分模块将文本文档结构分为按文档全文划分、按文档中的页面划分、按文档中的表格划分及按表格中的单元格划分,将划分后的四种文档结构输入至文档内容定位模块实现精确定位,定位时通过如下步骤实现:
第一步,开始进行文档定位操作,获得需要自动化编辑的文本文档;
第二步,判断文档内容是否在表格中,若是则执行第三步,若否则执行第九步;
第三步,确定文档内容所在表格的序号;
第四步,确定文档内容所在的单元格在表格中的位置;
第五步,确定文档内容在单元格内部的段落序号;
第六步,确定文档内容所在句子在段落中的位置;
第七步,确定文档内容在句子内的位置;
第八步,再次判断该位置处内容是否为表格或在表格中,若是则执行第三步,若否则执行第十三步;
第九步,确定文档内容所在的页;
第十步,确定文档内容在页内的段落;
第十一步,确定文档内容在段落内的句子;
第十二步,确定文档内容所在句子内的位置;
第十三步,输出文档文字的位置,实现内容定位,完成文档定位操作。
9.一种流程自动化机器人,其特征在于,该流程自动化机器人自动编辑定位文本文档内容,通过对文本文档结构的划分实现对文档内容的精确定位,采取权利要求1-7任一项所述的用于文本文档自动化编辑的内容定位方法实现。
CN202210269930.1A 2022-03-18 2022-03-18 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人 Pending CN114692577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269930.1A CN114692577A (zh) 2022-03-18 2022-03-18 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269930.1A CN114692577A (zh) 2022-03-18 2022-03-18 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人

Publications (1)

Publication Number Publication Date
CN114692577A true CN114692577A (zh) 2022-07-01

Family

ID=82139625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269930.1A Pending CN114692577A (zh) 2022-03-18 2022-03-18 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人

Country Status (1)

Country Link
CN (1) CN114692577A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344718A (zh) * 2022-07-13 2022-11-15 北京庖丁科技有限公司 跨区域文档内容识别方法、装置、设备、介质和程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法
CN106021307A (zh) * 2016-05-05 2016-10-12 广州阿里巴巴文学信息技术有限公司 一种针对电子文档进行定位的系统、设备、装置及方法
CN112434496A (zh) * 2020-12-11 2021-03-02 深圳司南数据服务有限公司 一种公告文档表格数据识别方法及终端
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法
CN106021307A (zh) * 2016-05-05 2016-10-12 广州阿里巴巴文学信息技术有限公司 一种针对电子文档进行定位的系统、设备、装置及方法
CN112434496A (zh) * 2020-12-11 2021-03-02 深圳司南数据服务有限公司 一种公告文档表格数据识别方法及终端
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344718A (zh) * 2022-07-13 2022-11-15 北京庖丁科技有限公司 跨区域文档内容识别方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
US7899826B2 (en) Semantic reconstruction
Edhlund et al. NVivo 10 essentials
Déjean et al. A system for converting PDF documents into structured XML format
US8239750B2 (en) Extracting semantics from data
KR20150128921A (ko) 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성
CN101375278A (zh) 用于处理注释的策略
JPH11250041A (ja) 文書処理装置および文書処理方法
JP2007095102A (ja) 文書処理装置および文書処理方法
CN104123269A (zh) 一种基于模板的出版物半自动生成方法及系统
US8538964B2 (en) Using an ID domain to improve searching
Rupp et al. Customising geoparsing and georeferencing for historical texts
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
CN101430684A (zh) 中文办公软件文档与其他格式文档相互转换的方法及装置
CN114692577A (zh) 一种用于文本文档自动化编辑的内容定位方法、系统及流程自动化机器人
Toselli et al. Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription
CN110705208A (zh) 文本显示方法、装置、计算机可读存储介质及电子设备
Hocking et al. Optical character recognition for South African languages
CN102722490B (zh) 一种电子阅读器的取词方法、取词装置及电子阅读器
CN103678421A (zh) 一种修改电子公文的方法和装置
CN101714141A (zh) 手写辨识文字的查找翻译系统及其方法
CN1274883A (zh) 简化拼音-触摸屏鼠标式汉字输入方法
JP4466241B2 (ja) 文書処理手法及び文書処理装置
CN103984420A (zh) 一种基于拼音的藏文智能输入法
CN1521660A (zh) 一种手写体文本的生成方法及保存方法
US11631263B1 (en) Gradient boosting tree-based spatial line grouping on digital ink strokes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination