JP2016103150A - 文書処理装置および文書処理プログラム - Google Patents
文書処理装置および文書処理プログラム Download PDFInfo
- Publication number
- JP2016103150A JP2016103150A JP2014241061A JP2014241061A JP2016103150A JP 2016103150 A JP2016103150 A JP 2016103150A JP 2014241061 A JP2014241061 A JP 2014241061A JP 2014241061 A JP2014241061 A JP 2014241061A JP 2016103150 A JP2016103150 A JP 2016103150A
- Authority
- JP
- Japan
- Prior art keywords
- page
- document
- heading
- extracted
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
最初に、本発明の一実施形態に係る文書処理装置の概要について説明する。本発明の一実施形態に係る文書処理装置は、紙媒体に印刷された文書を読み込んで電子化し、電子化した文書から見出し等を抽出してサマリーまたは目次を作成するものである。
次に、本発明の一実施形態に係る文書処理装置の構成について説明する。文書処理装置は、専用のハードウェアやソフトウェアにより構成されていてもよいし、一般的なコンピューターにより構成されてもよい。文書処理装置が一般的なコンピューターにより構成される場合の構成図を図1に示す。
次に、電子化された文書から見出し等を抽出するために用いる、予め用意しておく文書レイアウトおよびレイアウト毎の見出し等を抽出する具体的な処理の内容について説明する。
まず、論文レイアウトについて説明する。図3は、典型的な論文レイアウトの例を示す図である。
次に、書籍レイアウトについて説明する。図4は、典型的な英文書籍レイアウトの例を示す図である。なお、ここで書籍という場合、英文書籍の意味である。
次に、プレゼンテーション資料のレイアウトについて説明する。図5は、典型的なプレゼンテーション資料のレイアウトを示す図である。
次に、契約書のレイアウトについて説明する。図6は、典型的な契約書のレイアウトを示す図である。なお、ここでは英文の契約書のレイアウトを示しているが、日本語の契約書も同様である。
最後に、その他のレイアウトについて説明する。図7は、その他のレイアウトの具体例として、新聞または雑誌のレイアウトを示す図である。
次に、特別な見出しについて説明する。特別な見出しとは、しおりを作成する際に、各ページから抽出した文字列ではなく、特定のページの属性を示す文字列を、そのページを表す文字列としてしおりに加えるためのものである。
次に、しおりに加える見出しを抽出する際の、深さの設定について説明する。図9は、しおりに加える見出しを抽出する際の、深さの設定について説明するための図である。
次に、文書処理装置10における処理の流れについて説明する。図10は、文書処理装置10における処理の流れについて説明するためのフローチャートである。
その他、本発明は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
11 … CPU
11a… デバイス制御部
11b… 画像処理部
11c… OCR処理部
11d… 見出し抽出部
11e… しおり作成部
11f… ファイル作成部
12 … ROM
13 … RAM
14 … 操作入力部
15 … 通信部
16 … 表示部
17 … 記憶部
18 … バス
19 … スキャナー部
Claims (4)
- 紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、
ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、
生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出するOCR処理部と、
選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、
抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部と
を備えた
文書処理装置。 - 請求項1に記載の文書処理装置であって、
前記見出し抽出部は、
前記タイトルまたは前記見出しを抽出する特定のページに前記テキストデータが含まれないとき、前記特定のページの属性を示す文字列を前記見出しとして抽出する
文書処理装置。 - 請求項1または2に記載の文書処理装置であって、
前記操作入力部は、
前記ユーザーから見出しを抽出する深さの設定を受け付け、
前記見出し抽出部は、
受け付けられた前記見出しを抽出する深さの設定に基づいて、見出しを抽出する
文書処理装置。 - 紙媒体に印刷された文書をスキャナー部にページごとに読み込ませて、各ページの画像データを生成させ、
操作入力部にユーザーによる前記文書のレイアウトの種類の選択を受け付けさせ、
生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出し、
選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出し、
抽出された前記タイトルおよび前記見出しから、前記目次を作成する
手順をコンピューターに実行させるための文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014241061A JP2016103150A (ja) | 2014-11-28 | 2014-11-28 | 文書処理装置および文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014241061A JP2016103150A (ja) | 2014-11-28 | 2014-11-28 | 文書処理装置および文書処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016103150A true JP2016103150A (ja) | 2016-06-02 |
Family
ID=56089487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014241061A Pending JP2016103150A (ja) | 2014-11-28 | 2014-11-28 | 文書処理装置および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016103150A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220227A (zh) * | 2017-04-28 | 2017-09-29 | 长沙智德知识产权代理有限公司 | 知识产权官方文件电子存档命名系统及方法 |
CN115858470A (zh) * | 2022-12-26 | 2023-03-28 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039580A (ja) * | 2009-08-06 | 2011-02-24 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法およびプログラム |
-
2014
- 2014-11-28 JP JP2014241061A patent/JP2016103150A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039580A (ja) * | 2009-08-06 | 2011-02-24 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220227A (zh) * | 2017-04-28 | 2017-09-29 | 长沙智德知识产权代理有限公司 | 知识产权官方文件电子存档命名系统及方法 |
CN115858470A (zh) * | 2022-12-26 | 2023-03-28 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
CN115858470B (zh) * | 2022-12-26 | 2023-09-22 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP5661663B2 (ja) | 情報抽出装置 | |
JP4945813B2 (ja) | 印刷構造化文書 | |
JP2014102669A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9310971B2 (en) | Document viewing device for display document data | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
US9141867B1 (en) | Determining word segment boundaries | |
CN107077515B (zh) | 显示控制装置、显示控制方法及显示控制媒体 | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
JP2005182460A (ja) | 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体 | |
JP2016103150A (ja) | 文書処理装置および文書処理プログラム | |
JP2006262152A (ja) | 画像形成方法、画像形成装置およびプログラム | |
JP6500341B2 (ja) | 文書管理プログラム、文書管理方法及び文書管理システム | |
JP5703244B2 (ja) | トレース支援装置、トレース支援システム、トレース支援方法、およびトレース支援プログラム | |
US20150095314A1 (en) | Document search apparatus and method | |
US20150089335A1 (en) | Smart processing of an electronic document | |
US11842141B2 (en) | Device dependent rendering of PDF content | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
Marmel | Teach Yourself Visually Word 2016 | |
US20210295032A1 (en) | Information processing device and non-transitory computer readable medium | |
JP7229318B1 (ja) | 新聞電子版システム | |
US11163511B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2018067153A (ja) | 形状抽出プログラム、形状抽出方法及び形状抽出装置 | |
JP2016207036A (ja) | 支援装置、支援方法及び支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180424 |