JP2016103150A - 文書処理装置および文書処理プログラム - Google Patents

文書処理装置および文書処理プログラム Download PDF

Info

Publication number
JP2016103150A
JP2016103150A JP2014241061A JP2014241061A JP2016103150A JP 2016103150 A JP2016103150 A JP 2016103150A JP 2014241061 A JP2014241061 A JP 2014241061A JP 2014241061 A JP2014241061 A JP 2014241061A JP 2016103150 A JP2016103150 A JP 2016103150A
Authority
JP
Japan
Prior art keywords
page
document
heading
extracted
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014241061A
Other languages
English (en)
Inventor
健一 桂
Kenichi Katsura
健一 桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2014241061A priority Critical patent/JP2016103150A/ja
Publication of JP2016103150A publication Critical patent/JP2016103150A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】電子文書において目次(しおり)を自動生成するために、常に正確なレイアウトを選択できる文書処理装置および文書処理プログラムを提供する。【解決手段】紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出するOCR処理部と、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部とを備える。【選択図】図10

Description

本発明は、入力された文書からサマリーまたは目次を生成する文書処理装置および文書処理プログラムに関する。
電子的なドキュメントを閲覧する場合、ドキュメントにサマリーや目次が付いていると効率良く閲覧することが出来る。しかし、量が多いドキュメントから人が一つずつサマリーや目次に採用する文字列を抽出することは手間がかかるため、自動的にサマリーや目次を作成するための技術が開発されてきた。
例えば、特許文献1において開示された技術では、目次やサマリーの無い文書に対して、原稿として読み込んだ文書の文書画像から特定の文書要素の箇所のみを取り出して構成した文書画像(サマリーや目次)を自動的に生成する。
特許文献1の技術では、入力文書が、事前に用意しておいた文書レイアウトのどれであるかの情報を、領域分割の結果とのマッチングにより自動判別し、判別結果に基づいて選択されたレイアウトに基づいて見出しの抽出を行っている。
また、特許文献2において開示された技術では、画像データベースにキーワードと共に画像を登録する際、キーワードの入力を容易にするために、画像から抽出した文字列のうち、大きな文字サイズの文字列をキーワードとして選択している。
また、特許文献3において開示された技術では、様々なスタイルの文書画像から自動的に見出し領域を抽出するために、文字サイズなどのスタイル種別および見出し領域と他領域とを区別するための特徴区分を用いている。
また、特許文献4において開示された技術では、文を構成する要素の総合的な特徴量を示す統合見出し度という指標を用いて、ある要素が見出しである確度を計算している。
そして、従来よりも少ない作業量で見出し要素の誤検出および未検出を修正できるように、見出し要素および非見出し要素をユーザーが確認しやすいように工夫している。
特開平05−342326号公報 特開平08−166959号公報 特開2010−218249号公報 特開2010−244412号公報
例えば、特許文献1の技術では、入力文書が、事前に用意しておいた文書レイアウトのどれであるかの情報を、領域分割の結果とのマッチングにより自動判別しているが、入力文書のレイアウトとしては様々なレイアウトが考えられ、常に正確に自動判別できるとは限らなかった。
以上のような事情に鑑み、本発明の目的は、電子文書において目次(しおり)を自動生成するために、常に正確なレイアウトを選択できる文書処理装置および文書処理プログラムを提供することにある。
上記目的を達成するため、本発明の一形態に係る文書処理装置は、紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出するOCR処理部と、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部とを備える。そのため、電子文書において目次(しおり)を自動生成するために、常に正確なレイアウトを選択できる。
上記目的を達成するため、本発明の一形態に係る文書処理装置では、前記見出し抽出部は、前記タイトルまたは前記見出しを抽出する特定のページに前記テキストデータが含まれないとき、前記特定のページの属性を示す文字列を前記見出しとして抽出する構成でもよい。
上記目的を達成するため、本発明の一形態に係る文書処理装置では、前記操作入力部は、前記ユーザーから見出しを抽出する深さの設定を受け付け、前記見出し抽出部は、受け付けられた前記見出しを抽出する深さの設定に基づいて、見出しを抽出する構成でもよい。
上記目的を達成するため、本発明の一形態に係る文書処理プログラムは、紙媒体に印刷された文書をスキャナー部にページごとに読み込ませて、各ページの画像データを生成させ、操作入力部にユーザーによる前記文書のレイアウトの種類の選択を受け付けさせ、生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出し、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出し、抽出された前記タイトルおよび前記見出しから、前記目次を作成する手順をコンピューターに実行させる。
以上のように、本発明によれば、電子文書において目次(しおり)を自動生成するために、常に正確なレイアウトを選択できる。
文書処理装置が一般的なコンピューターにより構成される場合の構成図である。 CPU11においてプログラムが実行されることにより実現される機能ブロックの図である。 典型的な論文レイアウトの例を示す図である。 典型的な英文書籍レイアウトの例を示す図である。 典型的なプレゼンテーション資料のレイアウトを示す図である。 典型的な契約書のレイアウトを示す図である。 その他のレイアウトの具体例として、新聞または雑誌のレイアウトを示す図である。 通常のページPgから抽出された見出し、空白ページBlkを示す見出し、および写真画像のみからなるページPicを示す見出しが設定される様子を示す図である。 しおりに加える見出しを抽出する際の、深さの設定について説明するための図である。 文書処理装置10における処理の流れについて説明するためのフローチャートである。
以下、図面を参照しながら、本発明の実施形態を説明する。
[概要]
最初に、本発明の一実施形態に係る文書処理装置の概要について説明する。本発明の一実施形態に係る文書処理装置は、紙媒体に印刷された文書を読み込んで電子化し、電子化した文書から見出し等を抽出してサマリーまたは目次を作成するものである。
上述した通り、幾つかのテンプレートを予め用意しておき、読み込んだ文書がどのテンプレートに該当するかを自動的に判断した後、該当するテンプレートを用いて見出し等を抽出する事による見出し抽出の効率化が行われてきた。
しかし、どのテンプレートに該当するかを自動的に判別する場合、読み込む文書に様々なレイアウトがあるため、精度よく判別することは難しかった。
そこで、本発明では、ユーザーにその判別を委ねる。そのため、自動判別するよりも高精度で見出し抽出に用いるレイアウトを選択することが出来る。適切なレイアウトを選択出来るので、見出し抽出もより高精度に行うことが出来る。
なお、以下の説明では、紙媒体の文書を電子化した電子文書のフォーマットとして、PDF(Portable Document Format)を例に挙げて説明する。
PDFでは、ドキュメント内の章や節などの構成に合わせて、紙媒体におけるサマリーまたは目次のような役割を果たす、ドキュメント内へのリンクを集めたものを作成することが出来、「しおり」と呼ばれている。
本実施形態では、PDFで作成されたドキュメントに対し、しおりに掲載すべき見出し等をドキュメントから抽出し、しおりを作成までを説明する。
以上、本発明の一実施形態に係る文書処理装置の概要について説明した。
[構成]
次に、本発明の一実施形態に係る文書処理装置の構成について説明する。文書処理装置は、専用のハードウェアやソフトウェアにより構成されていてもよいし、一般的なコンピューターにより構成されてもよい。文書処理装置が一般的なコンピューターにより構成される場合の構成図を図1に示す。
同図に示すように、文書処理装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、操作入力部14、通信部15、表示部16、記憶部17、およびスキャナー部19を有し、これら各ブロックがバス18を介して接続されている。
ROM12は、各種の処理を実行するためのファームウェア等の複数のプログラムやデータを記憶する。RAM13は、CPU11の作業用領域として用いられ、OS(Operating System)、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
記憶部17は、例えばHDD(Hard Disk Drive)や、フラッシュメモリー、その他の不揮発性メモリーである。記憶部17には、OSや各種アプリケーション、各種データが記憶される。
通信部15は、外部の機器と情報のやりとりを行う為のネットワークと結ばれている。
CPU11は、ROM12や記憶部17に記憶された複数のプログラムのうち、操作入力部14から与えられる命令に対応するプログラムをRAM13に展開し、この展開されたプログラムにしたがって、表示部16及び記憶部17を適宜制御する。
操作入力部14は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。
表示部16は、例えば液晶ディスプレイ、EL(Electro-Luminescence)ディスプレイ、プラズマディスプレイ等である。
次に、CPU11においてプログラムが実行されることにより実現される機能ブロックについて説明する。図2は、CPU11においてプログラムが実行されることにより実現される機能ブロックの図である。
文書処理装置10のCPU11において実現される機能ブロックは、デバイス制御部11a、画像処理部11b、OCR処理部11c、見出し抽出部11d、しおり作成11e、およびファイル作成部11fである。
デバイス制御部11aは、外部機器との通信のために通信部15を制御したり、ユーザーとのやりとりのために操作入力部14および表示部16を制御したり、紙媒体の文書を読み込むためにスキャナー部19を制御したりする。
画像処理部11bは、スキャナー部19により読み込まれた画像データに対し、画質変換、解像度変換、サイズ変換、回転処理、色変換などの処理を行う。
OCR処理部11cは、画像処理部11bにより処理された画像データに対して、OCR(Optical Character Recognition)処理を行って、画像データからテキストデータを抽出する。
見出し抽出部11dは、予め定められたキーワードを用いて、しおりに含めるタイトルおよび見出しをテキストデータから抽出する。
しおり作成部11eは、抽出された見出し等を集めてしおりを作成する。
ファイル作成部11fは、しおりが追加されたPDFファイルを作成する。
以上、文書処理装置10の構成について説明した。
[文書レイアウト毎の処理例]
次に、電子化された文書から見出し等を抽出するために用いる、予め用意しておく文書レイアウトおよびレイアウト毎の見出し等を抽出する具体的な処理の内容について説明する。
なお、レイアウト毎の具体的な処理については、ここでのみ説明し、後述する全体的な処理の流れの説明においては、説明を省略する。
以下では、(1)論文レイアウト、(2)書籍レイアウト、(3)プレゼンテーション資料レイアウト、(4)契約書レイアウト、および(5)その他のレイアウトを例に挙げて説明する。
(1)論文レイアウト
まず、論文レイアウトについて説明する。図3は、典型的な論文レイアウトの例を示す図である。
図の左側のページT1に示すように、論文の最初のページT1において、一番上にタイトル(Title name)があり、その次に概要(Summary)がある。それ以下の部分は2段組となっており、章(Chapter)、節(Section、図示せず)、項、図(fig)、表(table)などから構成されている。
タイトルを抽出する場合、論文レイアウトでは、1ページ目T1の上段10行以内に位置する最も文字サイズの大きい文字列を抽出する。
見出しとしては、各章、各節を示す文字列を抽出する。各章および各節を示す文字列とは、「章」、「Chapter」、「節」、「Section」、および通し番号により判別される文字列であり、これらの文字列をキーワードとして、見出しの検索および抽出が行われる。
なお、全てのレイアウトに共通するが、これらの文字列は、予め設定されていてもよいし、ユーザーにより設定されてもよい。ユーザーによる設定が行われていない場合、予め設定されたデフォルトのキーワードを用いて検索および抽出が行われる構成でもよい。
節を示す見出しを抽出するために、節を判別する際には、「節」または「Section」をキーワードとする以外に、「1.1」または「1.2」のように、数字をピリオドで区切った通し番号をキーワードとして検索を行ってもよい。
(2)書籍レイアウト
次に、書籍レイアウトについて説明する。図4は、典型的な英文書籍レイアウトの例を示す図である。なお、ここで書籍という場合、英文書籍の意味である。
書籍は、レイアウトとして、最初のページB1にタイトル(Title name)などが記述され、次のページB2に目次(Index)が記述され、その次のページB3にプロローグ(Prologue)が記述され、その次のページB4から本文が記述される。
タイトルは、最初のページB1から抽出される。
見出しとしては、本文の記述されているページ(B4以降のページ)から、「章」または「Chapter」をキーワードとして、各章の先頭を判別し、見出しが抽出される。
なお、「章」または「Chapter」の文字列の前または後に付加される、連番になっている番号を参考に見出しとする文字列を抽出してもよい。
(3)プレゼンテーション資料レイアウト
次に、プレゼンテーション資料のレイアウトについて説明する。図5は、典型的なプレゼンテーション資料のレイアウトを示す図である。
プレゼンテーション資料は、レイアウトとして、最初のページP1にタイトル(Title)があり、次のページP2から、各ページにおいて特定のトピックを説明するための見出しがページの先頭に大きな文字サイズで記述されている。
最初のページP1にある最も大きい文字サイズで記述された文字列を、タイトルと判別し、最初のページP1の内容を表す見出しとして抽出する。
また、2ページ目以降の各ページからは、先頭の文字列を見出しとして抽出する。
(4)契約書レイアウト
次に、契約書のレイアウトについて説明する。図6は、典型的な契約書のレイアウトを示す図である。なお、ここでは英文の契約書のレイアウトを示しているが、日本語の契約書も同様である。
契約書では、レイアウトとして、最初にタイトル(Title)があり、その次から契約内容を「条」(Article)ごとに纏めて記述が行われており、「条」には通し番号が振られている。
タイトルとして、最初のページC1の先頭文字列を抽出する。
また、各条の見出しを、「Article」をキーワードとして検索し、抽出する。
(5)その他のレイアウト
最後に、その他のレイアウトについて説明する。図7は、その他のレイアウトの具体例として、新聞または雑誌のレイアウトを示す図である。
このようなレイアウトでは、何処にタイトルや見出しがあるかは定まっていないので、各ページの先頭にある文字列を、見出しとして抽出する。
以上、電子化された文書から見出し等を抽出するために用いる、予め用意しておく文書レイアウトおよびレイアウト毎の見出し等を抽出する具体的な処理の内容について説明した。
[特別な見出しについて]
次に、特別な見出しについて説明する。特別な見出しとは、しおりを作成する際に、各ページから抽出した文字列ではなく、特定のページの属性を示す文字列を、そのページを表す文字列としてしおりに加えるためのものである。
以下では、特定のページが白紙である場合と特定のページが写真画像のみからなる場合を例に説明する。
しおりに見出しを加える特定のページが白紙である場合、ユーザーにより設定された任意の文字列を見出しとしてしおりに加えることが出来る。ユーザーによる設定が無い場合は、デフォルトの設定として「Blank page」の文字列が見出しとしてしおりに加えられてもよい。
しおりに見出しを加える特定のページが文字を含まない写真画像(ラスター画像)からなる場合、ユーザーにより設定された任意の文字列を見出しとしてしおりに加えることが出来る。ユーザーによる設定が無い場合は、デフォルトの設定として「Picture」の文字列が見出しとしてしおりに加えられてもよい。
図8は、通常のページPgから抽出された見出し、空白ページBlkを示す見出し、および写真画像のみからなるページPicを示す見出しが設定される様子を示す図である。
なお、図中のブックマークリストBLは、しおりとしてPDFファイルに書き出す文字列を一時的に記憶しておくためのRAM13上の領域を示している。
以上、特別な見出しについて説明した。
[見出しを抽出する深さについて]
次に、しおりに加える見出しを抽出する際の、深さの設定について説明する。図9は、しおりに加える見出しを抽出する際の、深さの設定について説明するための図である。
図の上側、ページPg1からの見出し抽出の際には、深さの設定を「節まで」としているので、ブックマークリストBL1には、章(Chapter 1)に加え、節(Section1-1、Section1-2)が抽出されている。
図の下側、ページPg2からの見出し抽出の際には、深さの設定を「章まで」としているので、ブックマークリストBL2には、章(Chapter 1)だけが抽出されており、節は抽出されていない。
なお、深さとしては、項までを抽出する設定を行うことも出来る。
また、深さの設定は、項までを抽出する設定を「高」、節までを抽出する設定を「中」、章のみを抽出する設定を「低」とすることも出来る。
以上、しおりに加える見出しを抽出する際の、深さの設定について説明した。
[処理の流れ]
次に、文書処理装置10における処理の流れについて説明する。図10は、文書処理装置10における処理の流れについて説明するためのフローチャートである。
まず、ユーザーが、スキャナー部19を介して、文書処理装置10に紙媒体の文書を読み込ませ、画像データとする(ステップS1)。
なお、ステップS1は、ユーザーが既に外部のスキャナー等を用いて取り込んだ画像データを通信部15経由で受け付ける場合は、省略することが出来る。
次に、ユーザーが、読み込ませた文書(原稿)のレイアウトを選択する(ステップS2)。
次に、ユーザーが、オプション設定を選択する(ステップS3)。なお、ここでいうオプション設定とは、上述した、特別な見出しに関する設定および見出しを抽出する深さの設定の事である。
次に、読み込まれた原稿の各ページに対して、ステップS4からステップS8までの処理を繰り返す(ステップS4)。
次に、画像処理部11bが、読み込まれた画像データを、OCR処理に適するように、画像処理する(ステップS5)。
次に、OCR処理部11cが、画像処理された画像データに対し、OCR処理を行い、テキストデータを抽出する(ステップS6)。
次に、見出し抽出部11dが、抽出されたテキストデータから、ステップS1で選択されたレイアウトおよびステップS2で設定されたオプション設定に基づき、タイトルおよび見出しを抽出する(ステップS7)。なお、抽出されたタイトルおよび見出しは、上述したように、RAM13上のブックマークリストBLに記憶される。
次に、しおり作成部11eが、ブックマークリストBLに基づいて、タイトルや見出しをPDFファイルのしおりとして書き出す(ステップS8)。
全てのページに対する処理が完了した後、ファイル作成部11fが、抽出されたテキストデータ等を用いて、しおりの付加されたPDFファイルを完成させる(ステップS10)。なお、PDFファイルのファイル名は、上記のステップで抽出したタイトルを付けてもよい。
以上、文書処理装置10における処理の流れについて説明した。
[補足事項]
その他、本発明は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
10 … 文書処理装置
11 … CPU
11a… デバイス制御部
11b… 画像処理部
11c… OCR処理部
11d… 見出し抽出部
11e… しおり作成部
11f… ファイル作成部
12 … ROM
13 … RAM
14 … 操作入力部
15 … 通信部
16 … 表示部
17 … 記憶部
18 … バス
19 … スキャナー部

Claims (4)

  1. 紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、
    ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、
    生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出するOCR処理部と、
    選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、
    抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部と
    を備えた
    文書処理装置。
  2. 請求項1に記載の文書処理装置であって、
    前記見出し抽出部は、
    前記タイトルまたは前記見出しを抽出する特定のページに前記テキストデータが含まれないとき、前記特定のページの属性を示す文字列を前記見出しとして抽出する
    文書処理装置。
  3. 請求項1または2に記載の文書処理装置であって、
    前記操作入力部は、
    前記ユーザーから見出しを抽出する深さの設定を受け付け、
    前記見出し抽出部は、
    受け付けられた前記見出しを抽出する深さの設定に基づいて、見出しを抽出する
    文書処理装置。
  4. 紙媒体に印刷された文書をスキャナー部にページごとに読み込ませて、各ページの画像データを生成させ、
    操作入力部にユーザーによる前記文書のレイアウトの種類の選択を受け付けさせ、
    生成された前記各ページの画像データに対しOCR処理を行い、ページごとにテキストデータを抽出し、
    選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出し、
    抽出された前記タイトルおよび前記見出しから、前記目次を作成する
    手順をコンピューターに実行させるための文書処理プログラム。
JP2014241061A 2014-11-28 2014-11-28 文書処理装置および文書処理プログラム Pending JP2016103150A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014241061A JP2016103150A (ja) 2014-11-28 2014-11-28 文書処理装置および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014241061A JP2016103150A (ja) 2014-11-28 2014-11-28 文書処理装置および文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2016103150A true JP2016103150A (ja) 2016-06-02

Family

ID=56089487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014241061A Pending JP2016103150A (ja) 2014-11-28 2014-11-28 文書処理装置および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2016103150A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220227A (zh) * 2017-04-28 2017-09-29 长沙智德知识产权代理有限公司 知识产权官方文件电子存档命名系统及方法
CN115858470A (zh) * 2022-12-26 2023-03-28 深圳市中政汇智管理咨询有限公司 政策法规文件的匹配方法、系统、服务器及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039580A (ja) * 2009-08-06 2011-02-24 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039580A (ja) * 2009-08-06 2011-02-24 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220227A (zh) * 2017-04-28 2017-09-29 长沙智德知识产权代理有限公司 知识产权官方文件电子存档命名系统及方法
CN115858470A (zh) * 2022-12-26 2023-03-28 深圳市中政汇智管理咨询有限公司 政策法规文件的匹配方法、系统、服务器及存储介质
CN115858470B (zh) * 2022-12-26 2023-09-22 深圳市中政汇智管理咨询有限公司 政策法规文件的匹配方法、系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP5661663B2 (ja) 情報抽出装置
JP4945813B2 (ja) 印刷構造化文書
JP2014102669A (ja) 情報処理装置、情報処理方法およびプログラム
US9310971B2 (en) Document viewing device for display document data
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US9141867B1 (en) Determining word segment boundaries
CN107077515B (zh) 显示控制装置、显示控制方法及显示控制媒体
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JP2016103150A (ja) 文書処理装置および文書処理プログラム
JP2006262152A (ja) 画像形成方法、画像形成装置およびプログラム
JP6500341B2 (ja) 文書管理プログラム、文書管理方法及び文書管理システム
JP5703244B2 (ja) トレース支援装置、トレース支援システム、トレース支援方法、およびトレース支援プログラム
US20150095314A1 (en) Document search apparatus and method
US20150089335A1 (en) Smart processing of an electronic document
US11842141B2 (en) Device dependent rendering of PDF content
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
Marmel Teach Yourself Visually Word 2016
US20210295032A1 (en) Information processing device and non-transitory computer readable medium
JP7229318B1 (ja) 新聞電子版システム
US11163511B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2018067153A (ja) 形状抽出プログラム、形状抽出方法及び形状抽出装置
JP2016207036A (ja) 支援装置、支援方法及び支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180424