JP2016042349A - 章・セクションの自動分割方法 - Google Patents
章・セクションの自動分割方法 Download PDFInfo
- Publication number
- JP2016042349A JP2016042349A JP2015093049A JP2015093049A JP2016042349A JP 2016042349 A JP2016042349 A JP 2016042349A JP 2015093049 A JP2015093049 A JP 2015093049A JP 2015093049 A JP2015093049 A JP 2015093049A JP 2016042349 A JP2016042349 A JP 2016042349A
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- paragraphs
- style
- chapter
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/114—Pagination
Abstract
【解決手段】デジタル文章に適用する章・セクションの自動分割方法であって、前記デジタル文章の複数の段落のスタイル組み合わせを識別する工程、続いて各異なる前記スタイル組み合わせの前記段落の1つ以上の段落の特徴を計算する工程であって、前記段落の特徴が段落分散度、フォントサイズ、平均文字数、平均段落間隔またはその任意の組み合わせである工程、各前記段落の特徴に基づき、前記スタイル組み合わせをそれぞれ順位付けする工程、続いて各前記スタイル組み合わせの各前記段落の特徴に対応する順位付けにそれぞれ基づいて加重平均値を計算する工程、前記加重平均値の順位が第1位の段落を複数の章・セクション段落候補に選択する工程、前記章・セクション段落候補に基づき前記デジタル文章を複数の章・セクションに分割する工程を含む。
【選択図】図1
Description
デジタル文章に章・セクション編集の設定がないと、出版者または作者が各章・セクションの標題とそれがある場所のページ番号を見つけ出し、別途目次を編集する必要があり、出版者と作者の手間が増えて出版準備時間が長くなる。このため、章・セクションが設定されていないデジタル文章の編集で自動的に章・セクションの目次を生成することをアシストできれば、デジタル出版の準備スケジュールを短縮できる。
デジタル文字ファイルの生成方法については、すでに中華民国第103116324号特許出願案「流式電子書之産生方法及網站系統(リフロー型電子書籍の生成方法及びウェブサイトシステム)」で説明しているため、以下ではデジタル文字ファイルの内容に基づいてどのように各章・セクションを区分するかを中心に説明する。
一般に、同じ段落タイプは共通または類似のスタイル組み合わせを有する。スタイル組み合わせは、フォントサイズ、太字、斜体、インデント、位置揃え方式(如左揃え、中央揃え、右揃え)、下線またはその任意の組み合わせを含むことができるが、これらに限らない。このため、各段落タイプの数、文字数及び分布状況を識別することで、章・セクション段落候補(つまり、章・セクション段落である可能性があるもの)を見つけ出すことができる。ここで、本文の言う「任意の組み合わせ」とは、そのうちの一部(そのうち1つ以上)または全部とすることができる。スタイル組み合わせを例とすると、フォントサイズのみとしても、フォントサイズにその他のパラメータ(例:位置揃え方式)を結合してもよい。
本文段落230の分布が最も平均的でなく、セクション段落220の分布が最も平均的であり、章段落210がそれに次いでいることが分かる。このため、段落分散度を通して、章・セクション段落でないものを優先的に排除できる。しかし、どの段落タイプが章段落210で、どれがセクション段落220であるかを見つけ出すには、その他の段落の特徴(フォントサイズなど)を総合して評価することができる。
上述の方法により、章・セクション段落でないものを優先的に排除し、後続の段落の特徴計算の負荷を軽減することができる。このため、この章・セクション段落ではないものを排除する工程を行う場合、図1の工程S120で各異なるスタイル組み合わせの段落の1つ以上の段落の特徴を計算するとき、削除後に残ったスタイル組み合わせで統計を行う。
210 章標題
220 節標題
230 本文段落
S110 デジタル文章の複数の段落のスタイル組み合わせを識別する
S120 各異なるスタイル組み合わせの段落の1つ以上の段落の特徴を計算する;段落の特徴は段落分散度、フォントサイズ、平均文字数、平均段落間隔またはその任意の組み合わせである
S130 各段落の特徴に基づき、スタイル組み合わせをそれぞれ順位付けする
S140 各スタイル組み合わせの各段落の特徴に対応する順位付けに基づき、加重平均値を計算する
S150 加重平均値の順位が第1位の段落を複数の章・セクション段落候補に選択する
S160 章・セクション段落候補に基づきデジタル文章を複数の章・セクションに分割する
Claims (8)
- デジタル文章に適用する章・セクションの自動分割方法であって、
前記デジタル文章の複数の段落のスタイル組み合わせを識別する工程と、
各異なる前記スタイル組み合わせの前記段落の1つ以上の段落の特徴を計算する工程であって、前記段落の特徴が段落分散度、フォントサイズ、平均文字数、平均段落間隔またはその任意の組み合わせである工程と、
各前記段落の特徴に基づき、前記スタイル組み合わせをそれぞれ順位付けする工程と、
各前記スタイル組み合わせの各前記段落の特徴に対応する順位付けにそれぞれ基づき、加重平均値を計算する工程と、
前記加重平均値の順位が第1位の前記段落を複数の章・セクション段落候補に選択する工程と、
前記章・セクション段落候補に基づき前記デジタル文章を複数の章・セクションに分割する工程と、を含むことを特徴とする、
章・セクションの自動分割方法。 - さらに、各前記スタイル組み合わせの前記段落の重複回数を統計する工程と、1つしかない前記段落の前記スタイル組み合わせを削除する工程と、最多数の段落のスタイル組み合わせを削除する工程と、を含むことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
- 前記各異なる前記スタイル組み合わせの前記段落の1つ以上の段落の特徴を計算する工程が、削除後に残った前記スタイル組み合わせに対して統計を行うことを特徴とする、請求項2に記載の章・セクションの自動分割方法。
- 前記段落の特徴が前記段落分散度を含むとき、前記各異なる前記スタイル組み合わせの前記段落の1つ以上の段落の特徴を計算する工程が、前記段落を平均的に複数のグループに分ける工程と、異なる前記スタイル組み合わせの前記段落が前記グループの1つに占める割合を計算する工程と、を含むことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
- さらに、平均文字数がある文字数しきい値より大きい前記スタイル組み合わせを削除し、かつ平均文字数が1字より小さいまたはそれに等しい前記スタイル組み合わせを削除する工程を含むことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
- 各前記段落の特徴に基づき、前記スタイル組み合わせをそれぞれ順位付けする工程において、前記段落の特徴が前記段落分散度を含むとき、前記段落分散度が大から小に順位付けされ、前記段落の特徴が前記フォントサイズを含むとき、前記フォントサイズが大から小に順位付けされ、前記段落の特徴が前記平均文字数を含むとき、前記平均文字数が予め設定した文字数に対する差に基づいて小から大に順位付けされ、前記段落の特徴が前記平均段落間隔を含むとき、前記平均段落間隔が大から小に順位付けされる、ことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
- さらに、分割した前記章・セクションを複数のドキュメントファイルに保存する工程を含むことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
- 前記スタイル組み合わせが、フォントサイズ、太字、斜体、インデント、位置揃え方式、下線またはその任意の組み合わせを含むことを特徴とする、請求項1に記載の章・セクションの自動分割方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103128360A TWI549003B (zh) | 2014-08-18 | 2014-08-18 | 自動切割章節方法 |
TW103128360 | 2014-08-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016042349A true JP2016042349A (ja) | 2016-03-31 |
Family
ID=55302273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015093049A Pending JP2016042349A (ja) | 2014-08-18 | 2015-04-30 | 章・セクションの自動分割方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160048482A1 (ja) |
JP (1) | JP2016042349A (ja) |
CN (1) | CN105988975A (ja) |
TW (1) | TWI549003B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670162A (zh) * | 2017-10-13 | 2019-04-23 | 北大方正集团有限公司 | 标题的确定方法、装置及终端设备 |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
US10726198B2 (en) | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US10650186B2 (en) | 2018-06-08 | 2020-05-12 | Handycontract, LLC | Device, system and method for displaying sectioned documents |
CN110502727A (zh) * | 2019-02-21 | 2019-11-26 | 贵州广思信息网络有限公司 | Word简化章节序号设置与使用的方法 |
US11494555B2 (en) | 2019-03-29 | 2022-11-08 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying section headings in a document |
US11468346B2 (en) * | 2019-03-29 | 2022-10-11 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying sequence headings in a document |
CN110717323B (zh) * | 2019-10-17 | 2020-07-31 | 北京幻想纵横网络技术有限公司 | 文档分章方法及装置、终端和计算机可读存储介质 |
US11775549B2 (en) | 2021-03-18 | 2023-10-03 | Tata Consultancy Services Limited | Method and system for document indexing and retrieval |
CN113673255B (zh) * | 2021-08-25 | 2023-06-30 | 北京市律典通科技有限公司 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
CN117688927B (zh) * | 2024-02-02 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 病历章节重配置方法、系统、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
US7715635B1 (en) * | 2006-09-28 | 2010-05-11 | Amazon Technologies, Inc. | Identifying similarly formed paragraphs in scanned images |
JP2010218249A (ja) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP2010244412A (ja) * | 2009-04-08 | 2010-10-28 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法および文書処理プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
TW541468B (en) * | 2001-07-31 | 2003-07-11 | Ind Tech Res Inst | Method of text segmentation |
US7421652B2 (en) * | 2002-10-31 | 2008-09-02 | Arizan Corporation | Methods and apparatus for summarizing document content for mobile communication devices |
CN101354727B (zh) * | 2008-09-24 | 2011-06-29 | 北京大学 | 一种建立数字文档目录与正文之间链接的方法及装置 |
CN101782896B (zh) * | 2009-01-21 | 2011-11-30 | 汉王科技股份有限公司 | 结合ocr技术的pdf文字提取方法 |
CN102486769A (zh) * | 2010-12-02 | 2012-06-06 | 北大方正集团有限公司 | 文档目录处理方法和装置 |
CN103778141A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种混合pdf图书目录自动抽取算法 |
CN103885935B (zh) * | 2014-03-12 | 2016-06-29 | 浙江大学 | 基于图书阅读行为的图书章节摘要生成方法 |
-
2014
- 2014-08-18 TW TW103128360A patent/TWI549003B/zh not_active IP Right Cessation
-
2015
- 2015-01-27 CN CN201510040591.XA patent/CN105988975A/zh active Pending
- 2015-04-30 JP JP2015093049A patent/JP2016042349A/ja active Pending
- 2015-06-03 US US14/729,891 patent/US20160048482A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
US7715635B1 (en) * | 2006-09-28 | 2010-05-11 | Amazon Technologies, Inc. | Identifying similarly formed paragraphs in scanned images |
JP2010218249A (ja) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP2010244412A (ja) * | 2009-04-08 | 2010-10-28 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法および文書処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN105988975A (zh) | 2016-10-05 |
US20160048482A1 (en) | 2016-02-18 |
TW201608392A (zh) | 2016-03-01 |
TWI549003B (zh) | 2016-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016042349A (ja) | 章・セクションの自動分割方法 | |
CN108073680B (zh) | 生成具有提炼内容的演示幻灯片 | |
US8819028B2 (en) | System and method for web content extraction | |
US9710440B2 (en) | Presenting fixed format documents in reflowed format | |
US11615635B2 (en) | Heuristic method for analyzing content of an electronic document | |
US11687704B2 (en) | Method, apparatus and electronic device for annotating information of structured document | |
US9535880B2 (en) | Method and apparatus for preserving fidelity of bounded rich text appearance by maintaining reflow when converting between interactive and flat documents across different environments | |
KR102574306B1 (ko) | 동적 조판 | |
US10628526B2 (en) | Providing suggested diagrammatic representations of user entered textual information | |
US8937744B1 (en) | Modifying electronic data layout for efficient printing of electronic data | |
CN104239282A (zh) | 电子书的处理方法和装置 | |
Cohen | The social contract of scholarly publishing | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
US20150347376A1 (en) | Server-based platform for text proofreading | |
US9984053B2 (en) | Replicating the appearance of typographical attributes by adjusting letter spacing of glyphs in digital publications | |
US9594737B2 (en) | Natural language-aided hypertext document authoring | |
US20140115447A1 (en) | Centering Mathematical Objects in Documents | |
US8990219B2 (en) | Processing and publishing digital contents including encyclopedia | |
KR20150085282A (ko) | 전자 문서의 첨삭을 위한 단말의 동작 방법 | |
CN111435405A (zh) | 一种文章关键句自动标注方法及装置 | |
Yadav et al. | Automated layout preservation in cross language translation of document: an integrated approach and implementation | |
CN116740235A (zh) | 基于版式文档的文本注释渲染方法及装置 | |
Lindo et al. | Should Faculty Assume First Authorship on Papers When Students Fail to Draft Papers From Work They Conducted During Training? | |
WO2022104458A1 (en) | Method and system for managing content in a document and publishing same | |
CN118013944A (en) | Method, device, electronic equipment and storage medium for generating demonstration document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20160506 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160506 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170131 |