CN107291677A - 一种pdf文档标题结构树生成方法、装置、终端及系统 - Google Patents
一种pdf文档标题结构树生成方法、装置、终端及系统 Download PDFInfo
- Publication number
- CN107291677A CN107291677A CN201710576555.4A CN201710576555A CN107291677A CN 107291677 A CN107291677 A CN 107291677A CN 201710576555 A CN201710576555 A CN 201710576555A CN 107291677 A CN107291677 A CN 107291677A
- Authority
- CN
- China
- Prior art keywords
- character
- document
- character information
- information
- pdf document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005192 partition Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000933832 Broussonetia Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710576555.4A CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710576555.4A CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291677A true CN107291677A (zh) | 2017-10-24 |
Family
ID=60101920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710576555.4A Pending CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291677A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943760A (zh) * | 2017-11-22 | 2018-04-20 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN108460003A (zh) * | 2018-02-02 | 2018-08-28 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111723551A (zh) * | 2020-06-16 | 2020-09-29 | 北京双泽维度信息技术有限公司 | 一种文档标题结构树生成方法、装置及系统 |
CN112307718A (zh) * | 2020-11-25 | 2021-02-02 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN113641746A (zh) * | 2021-08-20 | 2021-11-12 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN114564938A (zh) * | 2020-11-27 | 2022-05-31 | 阿里巴巴集团控股有限公司 | 文档的解析方法及装置、存储介质和处理器 |
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN102375806A (zh) * | 2010-08-23 | 2012-03-14 | 北大方正集团有限公司 | 一种文档标题提取方法和装置 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
US20160342578A1 (en) * | 2013-07-26 | 2016-11-24 | Metrodigi, Inc. | Systems, Methods, and Media for Generating Structured Documents |
-
2017
- 2017-07-14 CN CN201710576555.4A patent/CN107291677A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN102375806A (zh) * | 2010-08-23 | 2012-03-14 | 北大方正集团有限公司 | 一种文档标题提取方法和装置 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
US20160342578A1 (en) * | 2013-07-26 | 2016-11-24 | Metrodigi, Inc. | Systems, Methods, and Media for Generating Structured Documents |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943760B (zh) * | 2017-11-22 | 2021-09-21 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN107943760A (zh) * | 2017-11-22 | 2018-04-20 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN109977366B (zh) * | 2017-12-27 | 2023-10-31 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN108460003A (zh) * | 2018-02-02 | 2018-08-28 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN108460003B (zh) * | 2018-02-02 | 2021-12-03 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN110688842B (zh) * | 2019-10-14 | 2023-06-09 | 鼎富智能科技有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111723551A (zh) * | 2020-06-16 | 2020-09-29 | 北京双泽维度信息技术有限公司 | 一种文档标题结构树生成方法、装置及系统 |
CN112307718B (zh) * | 2020-11-25 | 2021-05-11 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN112307718A (zh) * | 2020-11-25 | 2021-02-02 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN114564938A (zh) * | 2020-11-27 | 2022-05-31 | 阿里巴巴集团控股有限公司 | 文档的解析方法及装置、存储介质和处理器 |
CN113641746A (zh) * | 2021-08-20 | 2021-11-12 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN113641746B (zh) * | 2021-08-20 | 2024-02-20 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
CN116912867B (zh) * | 2023-09-13 | 2023-12-29 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291677A (zh) | 一种pdf文档标题结构树生成方法、装置、终端及系统 | |
US9449031B2 (en) | Sorting and filtering a table with image data and symbolic data in a single cell | |
US8958644B2 (en) | Creating tables with handwriting images, symbolic representations and media images from forms | |
CN103488711B (zh) | 一种快速制作矢量字库的方法及系统 | |
CN106354740A (zh) | 一种电子试卷的导入方法 | |
US9298685B2 (en) | Automatic creation of multiple rows in a table | |
US20090019010A1 (en) | Document Search Device, Imaging Forming Apparatus, and Document Search System | |
WO2000020985A9 (en) | Conversion of data representing a document to other formats for manipulation and display | |
KR20150128921A (ko) | 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성 | |
CN112861648A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN113723270A (zh) | 基于rpa及ai的文件处理方法及装置 | |
US8386943B2 (en) | Method for query based on layout information | |
US10643022B2 (en) | PDF extraction with text-based key | |
CN111984589A (zh) | 文档处理方法、文档处理装置和电子设备 | |
CN114036909A (zh) | Pdf文档跨页表格合并方法、装置及相关设备 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN103136453A (zh) | 文档操作题的自动组卷方法和自动阅卷方法 | |
CN112801016B (zh) | 一种选票数据统计方法、装置、设备和介质 | |
CN117496521A (zh) | 一种表格关键信息抽取方法、系统、装置及可读存储介质 | |
CN117973323A (zh) | 一种标准文本数字化转换与管理方法及系统 | |
CN110765107B (zh) | 基于数字化编码的题型识别方法及其系统 | |
US20220253603A1 (en) | E-mail classification device, e-mail classification method, and computer program | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN104156345A (zh) | 识别便携文件格式文件中图注的方法和装置 | |
JP2017102587A (ja) | 情報処理装置、画像読み取り装置、画像形成装置、および、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190904 Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant after: China Science and Technology (Beijing) Co., Ltd. Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd. Applicant before: China Science and Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co., Ltd Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |