CN107291677A - 一种pdf文档标题结构树生成方法、装置、终端及系统 - Google Patents
一种pdf文档标题结构树生成方法、装置、终端及系统 Download PDFInfo
- Publication number
- CN107291677A CN107291677A CN201710576555.4A CN201710576555A CN107291677A CN 107291677 A CN107291677 A CN 107291677A CN 201710576555 A CN201710576555 A CN 201710576555A CN 107291677 A CN107291677 A CN 107291677A
- Authority
- CN
- China
- Prior art keywords
- character
- document
- character information
- information
- pdf document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710576555.4A CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710576555.4A CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291677A true CN107291677A (zh) | 2017-10-24 |
Family
ID=60101920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710576555.4A Pending CN107291677A (zh) | 2017-07-14 | 2017-07-14 | 一种pdf文档标题结构树生成方法、装置、终端及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291677A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943760A (zh) * | 2017-11-22 | 2018-04-20 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN108460003A (zh) * | 2018-02-02 | 2018-08-28 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111723551A (zh) * | 2020-06-16 | 2020-09-29 | 北京双泽维度信息技术有限公司 | 一种文档标题结构树生成方法、装置及系统 |
CN112307718A (zh) * | 2020-11-25 | 2021-02-02 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN113641746A (zh) * | 2021-08-20 | 2021-11-12 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN102375806A (zh) * | 2010-08-23 | 2012-03-14 | 北大方正集团有限公司 | 一种文档标题提取方法和装置 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
US20160342578A1 (en) * | 2013-07-26 | 2016-11-24 | Metrodigi, Inc. | Systems, Methods, and Media for Generating Structured Documents |
-
2017
- 2017-07-14 CN CN201710576555.4A patent/CN107291677A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1153955A (zh) * | 1995-09-06 | 1997-07-09 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN102375806A (zh) * | 2010-08-23 | 2012-03-14 | 北大方正集团有限公司 | 一种文档标题提取方法和装置 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
US20160342578A1 (en) * | 2013-07-26 | 2016-11-24 | Metrodigi, Inc. | Systems, Methods, and Media for Generating Structured Documents |
CN105654022A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文档结构化信息的方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943760B (zh) * | 2017-11-22 | 2021-09-21 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN107943760A (zh) * | 2017-11-22 | 2018-04-20 | 万兴科技股份有限公司 | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN109977366B (zh) * | 2017-12-27 | 2023-10-31 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN108460003A (zh) * | 2018-02-02 | 2018-08-28 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN108460003B (zh) * | 2018-02-02 | 2021-12-03 | 广州视源电子科技股份有限公司 | 文本数据的处理方法和装置 |
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN110688842B (zh) * | 2019-10-14 | 2023-06-09 | 鼎富智能科技有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111723551A (zh) * | 2020-06-16 | 2020-09-29 | 北京双泽维度信息技术有限公司 | 一种文档标题结构树生成方法、装置及系统 |
CN112307718B (zh) * | 2020-11-25 | 2021-05-11 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN112307718A (zh) * | 2020-11-25 | 2021-02-02 | 北京邮电大学 | 一种基于文本特征和语法规则的pdf全自动标引系统及方法 |
CN113641746A (zh) * | 2021-08-20 | 2021-11-12 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN113641746B (zh) * | 2021-08-20 | 2024-02-20 | 科大讯飞股份有限公司 | 文档结构化方法、装置、电子设备和存储介质 |
CN116912867A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
CN116912867B (zh) * | 2023-09-13 | 2023-12-29 | 之江实验室 | 结合自动标注和召回补全的教材结构提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291677A (zh) | 一种pdf文档标题结构树生成方法、装置、终端及系统 | |
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
US9449031B2 (en) | Sorting and filtering a table with image data and symbolic data in a single cell | |
CN106709032B (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN106354740A (zh) | 一种电子试卷的导入方法 | |
CN107798321A (zh) | 一种试卷分析方法和计算设备 | |
EP2772871A2 (en) | Creating tables with handwriting images, symbolic representations and media images from forms | |
CN103399885B (zh) | 兴趣点代表图片的挖掘方法、装置和服务器 | |
US20090019010A1 (en) | Document Search Device, Imaging Forming Apparatus, and Document Search System | |
KR20150128921A (ko) | 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성 | |
US9298685B2 (en) | Automatic creation of multiple rows in a table | |
CN112861648A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN103500332B (zh) | 图片内文字显示方法及装置 | |
CN113723270A (zh) | 基于rpa及ai的文件处理方法及装置 | |
EP2110758B1 (en) | Searching method based on layout information | |
CN111984589A (zh) | 文档处理方法、文档处理装置和电子设备 | |
CN110633660A (zh) | 一种文档识别的方法、设备和存储介质 | |
US10643022B2 (en) | PDF extraction with text-based key | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN110765107B (zh) | 基于数字化编码的题型识别方法及其系统 | |
US20220253603A1 (en) | E-mail classification device, e-mail classification method, and computer program | |
JP2740335B2 (ja) | 自動セル属性判定機能を有する表読取装置 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
US20130332824A1 (en) | Embedded font processing method and device | |
CN115331247A (zh) | 文档结构识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190904 Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant after: China Science and Technology (Beijing) Co., Ltd. Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd. Applicant before: China Science and Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co., Ltd Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |