CN101976232A - 一种识别文档中数据表格的方法及装置 - Google Patents
一种识别文档中数据表格的方法及装置 Download PDFInfo
- Publication number
- CN101976232A CN101976232A CN 201010293736 CN201010293736A CN101976232A CN 101976232 A CN101976232 A CN 101976232A CN 201010293736 CN201010293736 CN 201010293736 CN 201010293736 A CN201010293736 A CN 201010293736A CN 101976232 A CN101976232 A CN 101976232A
- Authority
- CN
- China
- Prior art keywords
- text
- data form
- text block
- document
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102937364A CN101976232B (zh) | 2010-09-19 | 2010-09-19 | 一种识别文档中数据表格的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102937364A CN101976232B (zh) | 2010-09-19 | 2010-09-19 | 一种识别文档中数据表格的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101976232A true CN101976232A (zh) | 2011-02-16 |
CN101976232B CN101976232B (zh) | 2012-06-20 |
Family
ID=43576118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102937364A Expired - Fee Related CN101976232B (zh) | 2010-09-19 | 2010-09-19 | 一种识别文档中数据表格的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101976232B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
WO2014146483A1 (zh) * | 2013-03-19 | 2014-09-25 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105912516A (zh) * | 2016-04-01 | 2016-08-31 | 南京朗坤软件有限公司 | 一种从AutoCAD文件中一键式提取表格数据的方法 |
CN107679024A (zh) * | 2017-09-11 | 2018-02-09 | 畅捷通信息技术股份有限公司 | 识别表格的方法、系统、计算机设备、可读存储介质 |
CN107977346A (zh) * | 2017-11-23 | 2018-05-01 | 万兴科技股份有限公司 | 一种pdf文档编辑方法及终端设备 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN108664458A (zh) * | 2017-03-28 | 2018-10-16 | 华多九州科技股份有限公司 | 一种pdf文件表格解析方法及系统 |
CN109284495A (zh) * | 2018-11-03 | 2019-01-29 | 上海犀语科技有限公司 | 一种对文本进行无表格线切表的方法及装置 |
CN109558379A (zh) * | 2018-12-03 | 2019-04-02 | 北京中网易企秀科技有限公司 | 一种数据审核方法及装置 |
CN109635172A (zh) * | 2018-12-28 | 2019-04-16 | 天津字节跳动科技有限公司 | 在线文档检索方法、装置和电子设备 |
CN109670461A (zh) * | 2018-12-24 | 2019-04-23 | 广东亿迅科技有限公司 | Pdf文字提取方法、装置、计算机设备和存储介质 |
CN110096682A (zh) * | 2019-04-17 | 2019-08-06 | 武汉初心科技有限公司 | 基于modoc数据结构来实现文档中数据的实时协作处理方法 |
CN110147537A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于位置关系的pdf表格抽取方法 |
CN110147697A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于人机互助的pdf表格提取方法 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110413979A (zh) * | 2019-08-05 | 2019-11-05 | 金税桥大数据科技股份有限公司 | 基于图像识别技术的行业表格数字化处理方法 |
WO2019237540A1 (zh) * | 2018-06-12 | 2019-12-19 | 平安科技(深圳)有限公司 | 财政数据的获取方法、装置、终端设备及介质 |
CN111160234A (zh) * | 2019-12-27 | 2020-05-15 | 掌阅科技股份有限公司 | 表格识别方法、电子设备及计算机存储介质 |
CN111325110A (zh) * | 2020-01-22 | 2020-06-23 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
WO2020233332A1 (zh) * | 2019-05-20 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 文本结构化信息提取方法、服务器及存储介质 |
CN112528602A (zh) * | 2020-07-28 | 2021-03-19 | 浙江明度智控科技有限公司 | 一种医药文档结构化内容分析方法、系统和存储介质 |
CN115618836A (zh) * | 2022-12-15 | 2023-01-17 | 杭州恒生聚源信息技术有限公司 | 无线表格的结构还原方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205081A1 (en) * | 2003-04-10 | 2004-10-14 | Hui Chao | Method and apparatus for classifying elements of a document |
EP1732012B1 (en) * | 2005-06-09 | 2007-10-10 | PDFlib GmbH | Method of identifying redundant text in an electronic document |
CN101770446A (zh) * | 2008-12-26 | 2010-07-07 | 北大方正集团有限公司 | 一种版式文件中表格识别方法及系统 |
-
2010
- 2010-09-19 CN CN2010102937364A patent/CN101976232B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205081A1 (en) * | 2003-04-10 | 2004-10-14 | Hui Chao | Method and apparatus for classifying elements of a document |
EP1732012B1 (en) * | 2005-06-09 | 2007-10-10 | PDFlib GmbH | Method of identifying redundant text in an electronic document |
CN101770446A (zh) * | 2008-12-26 | 2010-07-07 | 北大方正集团有限公司 | 一种版式文件中表格识别方法及系统 |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
US9798925B2 (en) | 2013-03-19 | 2017-10-24 | Fujian Foxit Software Development Joint Stock Co., Ltd. | Method for identifying PDF document |
WO2014146483A1 (zh) * | 2013-03-19 | 2014-09-25 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105589841B (zh) * | 2016-01-15 | 2018-03-30 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN105912516A (zh) * | 2016-04-01 | 2016-08-31 | 南京朗坤软件有限公司 | 一种从AutoCAD文件中一键式提取表格数据的方法 |
CN105912516B (zh) * | 2016-04-01 | 2019-02-05 | 朗坤智慧科技股份有限公司 | 一种从AutoCAD文件中一键式提取表格数据的方法 |
CN108664458B (zh) * | 2017-03-28 | 2022-06-14 | 中科云投科技股份有限公司 | 一种pdf文件表格解析方法及系统 |
CN108664458A (zh) * | 2017-03-28 | 2018-10-16 | 华多九州科技股份有限公司 | 一种pdf文件表格解析方法及系统 |
CN107679024A (zh) * | 2017-09-11 | 2018-02-09 | 畅捷通信息技术股份有限公司 | 识别表格的方法、系统、计算机设备、可读存储介质 |
CN107977346A (zh) * | 2017-11-23 | 2018-05-01 | 万兴科技股份有限公司 | 一种pdf文档编辑方法及终端设备 |
CN107977346B (zh) * | 2017-11-23 | 2021-06-15 | 深圳市亿图软件有限公司 | 一种pdf文档编辑方法及终端设备 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
CN110147537A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于位置关系的pdf表格抽取方法 |
CN110147697A (zh) * | 2018-02-11 | 2019-08-20 | 鼎复数据科技(北京)有限公司 | 一种基于人机互助的pdf表格提取方法 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN108470021B (zh) * | 2018-03-26 | 2022-06-03 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
WO2019237540A1 (zh) * | 2018-06-12 | 2019-12-19 | 平安科技(深圳)有限公司 | 财政数据的获取方法、装置、终端设备及介质 |
CN109284495B (zh) * | 2018-11-03 | 2023-02-07 | 上海犀语科技有限公司 | 一种对文本进行无表格线切表的方法及装置 |
CN109284495A (zh) * | 2018-11-03 | 2019-01-29 | 上海犀语科技有限公司 | 一种对文本进行无表格线切表的方法及装置 |
CN109558379A (zh) * | 2018-12-03 | 2019-04-02 | 北京中网易企秀科技有限公司 | 一种数据审核方法及装置 |
CN109670461A (zh) * | 2018-12-24 | 2019-04-23 | 广东亿迅科技有限公司 | Pdf文字提取方法、装置、计算机设备和存储介质 |
CN109635172A (zh) * | 2018-12-28 | 2019-04-16 | 天津字节跳动科技有限公司 | 在线文档检索方法、装置和电子设备 |
CN110096682A (zh) * | 2019-04-17 | 2019-08-06 | 武汉初心科技有限公司 | 基于modoc数据结构来实现文档中数据的实时协作处理方法 |
CN110096682B (zh) * | 2019-04-17 | 2023-03-24 | 武汉初心科技有限公司 | 基于modoc数据结构来实现文档中数据的实时协作处理方法 |
WO2020233332A1 (zh) * | 2019-05-20 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 文本结构化信息提取方法、服务器及存储介质 |
CN110210440B (zh) * | 2019-06-11 | 2021-04-27 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110390269B (zh) * | 2019-06-26 | 2023-08-01 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110413979A (zh) * | 2019-08-05 | 2019-11-05 | 金税桥大数据科技股份有限公司 | 基于图像识别技术的行业表格数字化处理方法 |
CN111160234A (zh) * | 2019-12-27 | 2020-05-15 | 掌阅科技股份有限公司 | 表格识别方法、电子设备及计算机存储介质 |
CN111325110A (zh) * | 2020-01-22 | 2020-06-23 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
WO2021147252A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置、电子设备及存储介质 |
CN111325110B (zh) * | 2020-01-22 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
CN112528602A (zh) * | 2020-07-28 | 2021-03-19 | 浙江明度智控科技有限公司 | 一种医药文档结构化内容分析方法、系统和存储介质 |
CN115618836A (zh) * | 2022-12-15 | 2023-01-17 | 杭州恒生聚源信息技术有限公司 | 无线表格的结构还原方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101976232B (zh) | 2012-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101976232B (zh) | 一种识别文档中数据表格的方法及装置 | |
CN101770446B (zh) | 一种版式文件中表格识别方法及系统 | |
CN108415887A (zh) | 一种pdf文件向ofd文件转化的方法 | |
CN101853246B (zh) | 一种文档格式的转换方法及装置 | |
US11341322B2 (en) | Table detection in spreadsheet | |
US20130174024A1 (en) | Method and device for converting document format | |
CN101989256A (zh) | 一种文书文件的排版方法及装置 | |
US20130181995A1 (en) | Handwritten character font library | |
CN104516867A (zh) | 一种表格重排方法和系统 | |
CN101206639A (zh) | 一种基于pdf的复杂版面的标引方法 | |
CN112651331A (zh) | 文本表格提取方法、系统、计算机设备及存储介质 | |
CN105488471A (zh) | 一种字形识别方法及装置 | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
KR101768899B1 (ko) | 문단 내 메모 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법 | |
CN103970723A (zh) | 基于图像检测和切割的电子文档屏幕显示方法 | |
CN101686309B (zh) | 一种图像路径生成陷印的方法及装置 | |
CN112861485A (zh) | 核电dcs控制逻辑图纸的处理方法、装置及设备 | |
WO2020252931A1 (zh) | 一种pdf文件数据提取方法和装置、设备及存储介质 | |
CN106933783A (zh) | 一种从文本中智能提取日期的方法及装置 | |
CN114022888A (zh) | 用于识别pdf表格的方法、设备和介质 | |
CN113962193A (zh) | 表格排版方法、装置、电子设备及存储介质 | |
JP2011090524A (ja) | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム | |
CN111160265A (zh) | 文件转换方法、装置、存储介质及电子设备 | |
CN117217172B (zh) | 表格信息获取方法、装置、计算机设备、存储介质 | |
CN102298572A (zh) | 电子文档生成设备及电子文档生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY CO., L Free format text: FORMER NAME: SHENZHEN WONDERSHARE SOFTWARE CO., LTD. |
|
CP01 | Change in the name or title of a patent holder |
Address after: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901 Patentee after: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd. Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901 Patentee before: WONDERSHARE SOFTWARE Co.,Ltd. |
|
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 850000 Tibet autonomous region, Lhasa City, New District, west of the East Ring Road, 1-4 road to the north, south of 1-3 Road, Liu Dong building, east of the 8 unit 6, floor 2, No. Patentee after: WONDERSHARE TECHNOLOGY CO.,LTD. Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road TCL A building block 901 Patentee before: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120620 |