JP2006092091A - Document structuring device and document structuring method - Google Patents
Document structuring device and document structuring method Download PDFInfo
- Publication number
- JP2006092091A JP2006092091A JP2004274712A JP2004274712A JP2006092091A JP 2006092091 A JP2006092091 A JP 2006092091A JP 2004274712 A JP2004274712 A JP 2004274712A JP 2004274712 A JP2004274712 A JP 2004274712A JP 2006092091 A JP2006092091 A JP 2006092091A
- Authority
- JP
- Japan
- Prior art keywords
- document
- browsing
- browsing history
- information
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、文書画像データから文書構造を認識して構造化テキストに変換する装置および方法に関し、特に、文書閲覧者の閲覧履歴を利用して文書構造認識結果を改善する文書構造化装置および文書構造化方法に関するものである。 The present invention relates to an apparatus and method for recognizing a document structure from document image data and converting it into structured text, and more particularly to a document structuring apparatus and document for improving a document structure recognition result by using a browsing history of a document viewer. It relates to a structuring method.
紙の文書を電子化して配信や再利用する際、文字認識や文書構造(タイトルや章、節、段落などのような文書を構成する意味的構造)の認識を行い、構造情報を利用した検索(例:タイトルに「インターネット」を含む文献)や部分配信(例:文献の第2段落のみ配信)を行うことが考えられている。構造情報を利用することで前者は検索精度の向上、後者では通信効率の改善が行えるが、改善の度合いは文書構造の認識結果に大きく依存している。 When paper documents are digitized for distribution and reuse, character recognition and document structure (semantic structures that make up documents such as titles, chapters, sections, paragraphs, etc.) are recognized, and searches using structural information It is considered to perform (for example, a document including “Internet” in the title) and partial distribution (for example, distribution of only the second paragraph of the document). By using the structure information, the former can improve the search accuracy, and the latter can improve the communication efficiency. However, the degree of improvement largely depends on the recognition result of the document structure.
文書データからの文書構造認識には様々な手法が提案されている。例えば特許文献1では、文書のレイアウト情報を利用して文書構造の認識を行う。また、特許文献2および特許文献3では、抽出ルールと認識された文字列のパターンマッチを用いて文書構造認識を行う。また、特許文献4ではワードプロセッサなどで文書を作成する際の操作履歴(コピー、ペーストなど)を利用して構造情報を自動付加する手法を提案している。
Various methods have been proposed for document structure recognition from document data. For example, in
他方、特許文献5には、文書利用者の意図を十分に反映した用語関連ネットワークを生成するために、文書利用者によって文書表示装置に表示される文書の表示履歴に基づいて、表示される文書部分間に対する表示推移の関係を解析し、表示推移関係を有する文書部分から抽出された用語同士の関連度を表示推移関係に基づいて算出し、所定値以上の用語関連度の用語同士を対応付けた用語関連ネットワークを生成する方法が記載されている。ただし、この特許文献5には、文書構造そのものの解析に関して特に表示履歴を利用しているという記述はない。
特許文献4の文書構造化手法では、文書作成時の操作履歴を用いるため、文書の作成段階から特許文献4が要求するシステムを利用しておかなければならず、すでに完成済み、あるいは紙に出力された文書に対しては適用できないという問題がある。 In the document structuring method of Patent Document 4, since an operation history at the time of document creation is used, the system required by Patent Document 4 must be used from the document creation stage, and has already been completed or output to paper. There is a problem that it cannot be applied to a document that has been processed.
これに対して、文書レイアウトの論理モデルや構造抽出ルールを利用して文書構造の抽出を行う特許文献1、2および3の文書構造化手法は、そのような問題は生じない。しかし、認識するための規範となる文書レイアウトの論理モデルや構造抽出ルールが対象文書に正確に合っていないと認識精度が低いという問題がある。この認識精度を向上させるためには、従来は、規範となる文書レイアウトの論理モデルや構造抽出ルールを対象文書に正確に合わせる必要があり、多くの労力を必要とするという問題がある。また、特定の或る対象文書に正確に合わせた文書レイアウトの論理モデルや構造抽出ルールは、その対象文書に特化したものとなるため、その対象文書と少しでも相違する文書に対しては精度が低下し、汎用性に欠けるという問題がある。
On the other hand, the document structuring methods of
本発明の目的は、規範となる文書レイアウトの論理モデルや構造抽出ルールの改変によらずに文書構造の認識精度を向上させる新規な文書構造化装置および文書構造化方法を提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide a novel document structuring apparatus and document structuring method capable of improving the recognition accuracy of a document structure without depending on a normative document layout logical model or structure extraction rule.
本発明の文書構造化装置は、文書データを記憶する文書記憶手段と、前記文書データの文書構造情報を記憶する文書構造記憶手段と、閲覧履歴情報を記憶する閲覧履歴記憶手段と、前記文書記憶手段に記憶された文書データを文書閲覧端末に配信した際の前記文書データの閲覧箇所の履歴を取得して閲覧履歴情報として前記閲覧履歴記憶手段に蓄積し、前記蓄積された閲覧履歴情報を用いて前記文書データの前記文書構造情報における文書構造ブロック間の相関を計算し、該計算した文書構造ブロック間の相関結果を用いて前記文書データの文書構造の再認識を行う処理部とを備えることを特徴とする。より具体的には、本発明の第1の文書構造化装置は、文書データを記憶する文書記憶手段と、文書構造情報を記憶する文書構造記憶手段と、前記文書記憶手段に記憶された文書データから文書構造を認識し文書構造情報として前記文書構造記憶手段に蓄積する構造認識手段と、閲覧履歴情報を記憶する閲覧履歴記憶手段と、前記蓄積された文書構造情報を参照して前記文書データの一部、あるいは、全部を文書閲覧端末に配信する配信手段と、前記文書閲覧端末に配信した文書の閲覧箇所の履歴を取得し閲覧履歴情報として前記閲覧履歴記憶手段に蓄積する閲覧履歴取得手段と、前記蓄積された閲覧履歴情報を用いて、前記蓄積された文書構造情報における文書構造ブロック間の相関を計算する相関計算手段とを備え、前記構造認識手段は、前記相関計算手段が計算した文書構造ブロック間の相関を受け取り文書構造の再認識を行うものであることを特徴とする。 The document structuring apparatus according to the present invention includes a document storage unit that stores document data, a document structure storage unit that stores document structure information of the document data, a browsing history storage unit that stores browsing history information, and the document storage. When the document data stored in the means is distributed to the document browsing terminal, the history of the browsing position of the document data is acquired and stored as browsing history information in the browsing history storage means, and the stored browsing history information is used. And calculating a correlation between the document structure blocks in the document structure information of the document data, and re-recognizing the document structure of the document data using the calculated correlation result between the document structure blocks. It is characterized by. More specifically, the first document structuring apparatus of the present invention includes document storage means for storing document data, document structure storage means for storing document structure information, and document data stored in the document storage means. A structure recognizing means for recognizing the document structure and storing the document structure information in the document structure storage means, a browsing history storage means for storing browsing history information, and referring to the stored document structure information A distribution unit that distributes a part or all of the document to the document browsing terminal; a browsing history acquisition unit that acquires a history of a browsing portion of the document distributed to the document browsing terminal and stores the history as browsing history information in the browsing history storage unit; Correlation calculation means for calculating correlation between document structure blocks in the stored document structure information using the stored browsing history information, the structure recognition means, Serial and wherein the correlation calculation means performs a re-recognition of the received document structure correlations between document structure blocks calculated.
本発明の第2の文書構造化装置は、第1の文書構造化装置において、前記構造認識手段は、再認識の結果に基づいて前記蓄積された文書構造情報を更新するものであることを特徴とする。 According to a second document structuring apparatus of the present invention, in the first document structuring apparatus, the structure recognition unit updates the stored document structure information based on a result of re-recognition. And
本発明の第3の文書構造化装置は、第1または第2の文書構造化装置において、前記配信手段は、1回の配信で前記文書閲覧端末の表示領域に相当するサイズの文書データを配信するものであり、前記閲覧履歴取得手段は、配信された文書データに含まれる文書構造ブロックの情報を文書の閲覧箇所の履歴として取得するものであることを特徴とする。 According to a third document structuring apparatus of the present invention, in the first or second document structuring apparatus, the distribution unit distributes document data having a size corresponding to a display area of the document browsing terminal in one distribution. The browsing history acquisition means acquires the information of the document structure block included in the distributed document data as a history of browsing locations of the document.
本発明の第4の文書構造化装置は、第3の文書構造化装置において、前記閲覧履歴取得手段は、文書データが配信された時刻情報を閲覧履歴情報に含めるものであることを特徴とする。 According to a fourth document structuring apparatus of the present invention, in the third document structuring apparatus, the browsing history acquisition unit includes time information at which document data is distributed in browsing history information. .
本発明の第5の文書構造化装置は、第1ないし第4の文書構造化装置において、前記相関計算手段は、前記閲覧履歴情報が一定個数得られるたび、あるいは、一定時間経過するたび、あるいは、前記文書閲覧端末からの指示があるたび、あるいは、それらの任意の組み合わせのタイミングで文書構造ブロック間の相関を計算するものであることを特徴とする。 According to a fifth document structuring apparatus of the present invention, in the first to fourth document structuring apparatuses, the correlation calculating unit is configured to obtain a certain number of the browsing history information, every time a certain time elapses, or The correlation between the document structure blocks is calculated whenever there is an instruction from the document browsing terminal, or at an arbitrary combination timing.
本発明の第6の文書構造化装置は、第1または第2の文書構造化装置において、前記相関計算手段は、前記閲覧履歴記憶手段に蓄積された同じ文書にかかる複数の閲覧履歴情報の中に、同じ文書構造ブロックを起点とする閲覧箇所の推移が複数通り存在する場合、より多数を占める閲覧箇所の推移に基づいて文書構造ブロック間の相関を計算するものであることを特徴とする。 According to a sixth document structuring apparatus of the present invention, in the first or second document structuring apparatus, the correlation calculating unit includes a plurality of browsing history information relating to the same document stored in the browsing history storing unit. In addition, when there are a plurality of browsing location transitions starting from the same document structure block, the correlation between the document structure blocks is calculated based on the transition of the browsing location occupying a larger number.
本発明の第1の文書構造化方法は、a)構造認識手段が、文書記憶手段に記憶された文書データから文書構造を認識し、文書構造情報として文書構造記憶手段に蓄積するステップ、b)配信手段が、前記蓄積された文書構造情報を参照して前記文書データの一部、あるいは、全部を文書閲覧端末に配信するステップ、c)閲覧履歴取得手段が、前記文書閲覧端末に配信した文書の閲覧箇所の履歴を取得し、閲覧履歴情報として閲覧履歴記憶手段に蓄積するステップ、d)相関計算手段が、前記蓄積された閲覧履歴情報を用いて、前記蓄積された文書構造情報における文書構造ブロック間の相関を計算するステップ、e)前記構造認識手段が、前記相関計算手段が計算した文書構造ブロック間の相関を受け取り、文書構造の再認識を行うステップ、を含むことを特徴とする。 In the first document structuring method of the present invention, a) the structure recognizing means recognizes the document structure from the document data stored in the document storage means, and accumulates it in the document structure storage means as document structure information; b) A step of distributing part or all of the document data to the document browsing terminal by referring to the stored document structure information; c) a document distributed by the browsing history acquiring unit to the document browsing terminal D) a step of acquiring a history of browsing locations and storing the history as browsing history information in browsing history storage means; d) a correlation calculation means using the stored browsing history information to store the document structure in the stored document structure information A step of calculating a correlation between blocks; e) a step in which the structure recognition unit receives the correlation between the document structure blocks calculated by the correlation calculation unit and re-recognizes the document structure. , Characterized in that it comprises a.
本発明の第2の文書構造化方法は、第1の文書構造化方法において、f)前記構造認識手段が、再認識の結果に基づいて前記蓄積された文書構造情報を更新するステップ、を含むことを特徴とする。 The second document structuring method of the present invention includes the step of f) the structure recognizing unit updating the accumulated document structure information based on a result of re-recognition in the first document structuring method. It is characterized by that.
本発明の第3の文書構造化方法は、第1または第2の文書構造化方法において、前記配信手段は、1回の配信で前記文書閲覧端末の表示領域に相当するサイズの文書データを配信し、前記閲覧履歴取得手段は、配信された文書データに含まれる文書構造ブロックの情報を文書の閲覧箇所の履歴として取得することを特徴とする。 According to a third document structuring method of the present invention, in the first or second document structuring method, the distribution unit distributes document data having a size corresponding to a display area of the document browsing terminal in one distribution. The browsing history acquisition means acquires the information of the document structure block included in the distributed document data as a history of browsing locations of the document.
本発明の第4の文書構造化方法は、第3の文書構造化方法において、前記閲覧履歴取得手段は、文書データが配信された時刻情報を閲覧履歴情報に含めることを特徴とする。 According to a fourth document structuring method of the present invention, in the third document structuring method, the browsing history acquisition unit includes time information at which the document data is distributed in the browsing history information.
本発明の第5の文書構造化方法は、第1ないし第4の文書構造化方法において、前記相関計算手段は、前記閲覧履歴情報が一定個数得られるたび、あるいは、一定時間経過するたび、あるいは、前記文書閲覧端末からの指示があるたび、あるいは、それらの任意の組み合わせのタイミングで文書構造ブロック間の相関を計算することを特徴とする。 According to a fifth document structuring method of the present invention, in the first to fourth document structuring methods, the correlation calculating means is configured to obtain a certain number of the browsing history information, or to elapse a certain time, or The correlation between the document structure blocks is calculated every time there is an instruction from the document browsing terminal, or at an arbitrary combination timing.
本発明の第6の文書構造化方法は、第1または第2の文書構造化方法において、前記相関計算手段は、前記閲覧履歴記憶手段に蓄積された同じ文書にかかる複数の閲覧履歴情報の中に、同じ文書構造ブロックを起点とする閲覧箇所の推移が複数通り存在する場合、より多数を占める閲覧箇所の推移に基づいて文書構造ブロック間の相関を計算することを特徴とする。 According to a sixth document structuring method of the present invention, in the first or second document structuring method, the correlation calculating means includes a plurality of browsing history information relating to the same document stored in the browsing history storage means. In addition, when there are a plurality of browsing location transitions starting from the same document structure block, the correlation between the document structure blocks is calculated based on the transition of the browsing location occupying a larger number.
『作用』
本発明にあっては、文書データを文書閲覧端末に配信した際のその文書データの閲覧箇所の履歴を取得して閲覧履歴情報として蓄積し、この蓄積された閲覧履歴情報を用いて、その文書データの文書構造情報における文書構造ブロック間の相関を計算し、この計算した文書構造ブロック間の相関結果を用いて文書データの文書構造の再認識を行う。より具体的には、構造認識手段が、文書記憶手段に記憶された文書データから、タイトル、段落などのひとかたまりの領域である文書構造ブロックなどの文書構造を認識して、文書構造情報として文書構造記憶手段に蓄積し、配信手段が、前記蓄積された文書構造情報を参照して文書データの一部、あるいは、全部を文書閲覧端末に配信し、閲覧履歴記憶手段が、文書閲覧端末に配信した文書の閲覧箇所の履歴を取得して、閲覧履歴情報として閲覧履歴記憶手段に蓄積し、相関計算手段が、蓄積された閲覧履歴情報を用いて、蓄積された文書構造情報における文書構造ブロック間の相関を計算し、構造認識手段が、相関計算手段が計算した文書構造ブロック間の相関を受け取り文書構造の再認識を行う。文書閲覧端末の利用者は、継続している文書構造ブロックは継続して読み進める傾向があるため、文書の閲覧箇所の履歴から文書構造の一種である文書構造ブロック間の継続性を検出することができ、この検出結果を利用して文書構造認識結果を改善することができる。こうして本発明は、閲覧履歴情報を利用し文書構造認識結果を改善していくので、構造認識手段が利用する論理モデルや抽出ルールを対象文書毎に作成する手間を軽減でき、また、文書作成時の操作履歴を必要としないため、すでに完成済み、あるいは紙に出力された文書に対しても適用することが可能である。
"Action"
In the present invention, when the document data is distributed to the document browsing terminal, the history of the browsing portion of the document data is acquired and stored as browsing history information, and the document is stored using the stored browsing history information. The correlation between the document structure blocks in the document structure information of the data is calculated, and the document structure of the document data is re-recognized using the calculated correlation result between the document structure blocks. More specifically, the structure recognizing unit recognizes the document structure such as a document structure block which is a group of areas such as titles and paragraphs from the document data stored in the document storage unit, and the document structure information is obtained as document structure information. Accumulating in the storage means, the distribution means refers to the stored document structure information and distributes part or all of the document data to the document browsing terminal, and the browsing history storage means distributes to the document browsing terminal The browsing history of the document is acquired and stored as browsing history information in the browsing history storage means, and the correlation calculating means uses the stored browsing history information to store the document structure blocks in the stored document structure information. The correlation is calculated, and the structure recognizing means receives the correlation between the document structure blocks calculated by the correlation calculating means and re-recognizes the document structure. The user of the document browsing terminal tends to continue reading the document structure block, and therefore, the continuity between document structure blocks, which is a kind of document structure, is detected from the history of the document browsing location. It is possible to improve the document structure recognition result using this detection result. Thus, according to the present invention, the browsing history information is used to improve the document structure recognition result, so that it is possible to reduce the trouble of creating the logical model and the extraction rule used by the structure recognition unit for each target document. Therefore, the present invention can be applied to a document that has already been completed or output on paper.
第1の効果は、規範となる文書レイアウトの論理モデルや構造抽出ルールの改変によらずに文書構造の認識精度を向上させることができ、論理モデルや抽出ルールを対象文書毎に作成する手間を軽減できることである。その理由は、文書の閲覧履歴情報を利用し文書構造認識結果を改善するからである。 The first effect is that the recognition accuracy of the document structure can be improved without changing the logical model or structure extraction rule of the standard document layout, and the trouble of creating the logical model and the extraction rule for each target document is reduced. It can be reduced. The reason is that the document structure recognition result is improved by using the browsing history information of the document.
第2の効果は、汎用性があることである。その理由は、対象文書への依存が低い、文書の閲覧履歴情報を利用し文書構造認識結果を改善するためである。 The second effect is versatility. The reason is that the dependence on the target document is low and the document structure recognition result is improved by using the browsing history information of the document.
第3の効果は、すでに完成済み、あるいは紙に出力された文書に対しても適用できることである。その理由は、文書作成時の操作履歴を必要としないためである。 The third effect is that it can be applied to a document that has already been completed or output on paper. This is because an operation history at the time of document creation is not required.
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。 Next, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
『第1の実施の形態』
図1を参照すると、本発明の第1の実施の形態にかかる文書構造化装置110は、文書データ101aを記憶する文書記憶部101と、文書構造情報103aを記憶する文書構造記憶部103と、閲覧履歴情報106aを記憶する閲覧履歴記憶部106と、これらに接続された処理部109とで構成される。また、処理部109は、インターネットなどのネットワークを介して1以上の文書閲覧端末であるクライアント端末105と通信可能になっている。
“First Embodiment”
Referring to FIG. 1, a document structuring
クライアント端末105は、携帯電話機、携帯情報端末、パーソナルコンピュータなどで構成され、配信手段104から配信されてきた文書データを表示装置に表示して利用者に提示する機能を有する。また、利用者の操作に応答して次の文書データの配信を配信手段104に要求する機能を有する。
The
処理部109は、ワークステーション、パーソナルコンピュータなどで構成され、文書記憶部101に記憶された文書データ101aから文書構造を認識し、文書構造情報103aとして文書構造記憶部103に蓄積する構造認識手段102と、文書構造記憶部103に蓄積された文書構造情報103aを参照して、文書記憶部101に蓄積された文書データ101aの一部あるいは全部をクライアント端末105に配信する配信手段104と、クライアント端末105に配信した文書データ101aの閲覧箇所の履歴を取得し、閲覧履歴情報106aとして閲覧履歴記憶部106に蓄積する閲覧履歴取得手段108と、閲覧履歴記憶部106に蓄積された閲覧履歴情報106aを用いて、文書構造記憶部103に蓄積された文書構造情報103aにおける文書構造ブロック間の相関を計算する相関計算手段107とを備えている。また、構造認識手段102は、相関計算手段107が計算した文書構造ブロック間の相関を受け取り、文書構造の再認識を行う。
The
次に、図1及び図2のフローチャートを参照して本実施の形態の全体動作の概略を説明する。 Next, an outline of the overall operation of the present embodiment will be described with reference to the flowcharts of FIGS.
文書構造化装置110は、まず、文書構造を認識する文書のページを電子化した文書データ101aを文書記憶部101から読出し、特許文献1乃至3などで公知の手法を用いて構造認識手段102により、文書データ101aをいくつかの領域(文書構造ブロック)に分割するとともに、各領域の文書構造(タイトルや段落など)を認識する(図2のステップ201)。構造認識手段102で認識された文書構造情報は文書構造記憶部103に記憶される。
The
次に文書構造化装置110は、配信手段104により、認識された文書構造情報を文書構造記憶部103から参照して、文書記憶部101に蓄積された文書データ101aの全体、あるいは一部分をクライアント端末105に配信する(ステップ202)。
Next, the
次に文書構造化装置110は、閲覧履歴取得手段108により、配信された文書データについてクライアント端末105の利用者による閲覧箇所の履歴を取得する(ステップ203)。取得された閲覧箇所の履歴は閲覧履歴情報106aとして閲覧履歴記憶部106に蓄積される。
Next, the
次に文書構造化装置110は、所定のタイミングで、相関計算手段107により、閲覧履歴記憶部106に蓄積された閲覧履歴を元に、構造認識手段102が認識した文書構造ブロック間の相関を計算し、計算結果を構造認識手段102に通知する(ステップ204)。上記の所定のタイミングとしては、閲覧履歴情報がn個(nは予め定められた1以上の整数)得られるたび、あるいは、t秒毎(tは予め定められた正の数値)、あるいは、それらの任意の組み合わせのタイミングとすることができる。
Next, the
次に文書構造化装置110は、構造認識手段102により、相関計算手段107で計算された相関を使って文書データ101aの文書構造を再認識し、文書構造記憶部103の文書構造情報103aを更新する(ステップ205)。
Next, the
以下同様に、再認識された文書構造情報を利用して、ステップ202から205を任意の回数繰り返しても良い。 Similarly, steps 202 to 205 may be repeated any number of times using the re-recognized document structure information.
次に、本実施の形態の効果について説明する。 Next, the effect of this embodiment will be described.
本実施の形態では、文書の閲覧履歴情報を利用して文書構造認識結果を再認識していくため、構造認識手段102が利用する構造認識用論理モデルや抽出ルールの改変によらずに文書構造の認識精度を向上させることができ、論理モデルや抽出ツールを対象文書毎に作成する手間を軽減できる。
In this embodiment, since the document structure recognition result is re-recognized using the browsing history information of the document, the document structure is not dependent on the structure recognition logical model used by the
また、本実施の形態では、文書作成時の操作履歴を必要としないため、完成済み、あるいは紙に出力された文書に対しても文書構造認識を行うことができる。 Further, in this embodiment, since an operation history at the time of document creation is not required, document structure recognition can be performed on a document that has been completed or has been output on paper.
さらに、本実施の形態では、対象文書への依存が低い、文書の閲覧履歴情報を利用し文書構造認識結果を改善するため、種々の文書へ適用でき、汎用性がある。 Furthermore, in this embodiment, since the dependence on the target document is low and the document structure recognition result is improved by using the browsing history information of the document, it can be applied to various documents and is versatile.
次に、本発明の第1の実施の形態の実施例について図面を参照して詳細に説明する。 Next, examples of the first embodiment of the present invention will be described in detail with reference to the drawings.
本実施例にかかる文書構造化装置は、図1に示した第1の実施の形態にかかる文書構造化装置110と同様に、文書データ101aを記憶する文書記憶部101と、文書構造情報103aを記憶する文書構造記憶部103と、閲覧履歴情報106aを記憶する閲覧履歴記憶部106と、これらに接続されると共にインターネットなどのネットワークを通じて1以上のクライアント端末105に接続された処理部109とで構成され、処理部109は、文書記憶部101に記憶された文書データ101aから文書構造を認識し、文書構造情報103aとして文書構造記憶部103に蓄積する構造認識手段102と、文書構造記憶部103に蓄積された文書構造情報103aを参照して、文書記憶部101に蓄積された文書データ101aの一部あるいは全部をクライアント端末105に配信する配信手段104と、クライアント端末105に配信した文書データ101aの閲覧箇所の履歴を取得し、閲覧履歴情報106aとして閲覧履歴記憶部106に蓄積する閲覧履歴取得手段108と、閲覧履歴記憶部106に蓄積された閲覧履歴情報106aを用いて、文書構造記憶部103に蓄積された文書構造情報103aにおける文書構造ブロック間の相関を計算する相関計算手段107とを備えている。
As in the
文書記憶部101は、本実施例が対象とする文書データ101aを蓄積したもので、例えば、紙の文書の各ページをスキャナなどの入力手段を用いてイメージデータ化したものを蓄積する。
The
構造認識手段102は、文書データとして蓄積された各ページのイメージデータを入力として受け取り、例えば、特許文献2で示されるような公知の手段を用いてイメージデータの領域分割と文字認識を行い(図3のステップ301)、分割された各領域に対して図4に示されるようなルールを用いて各領域の文書構造を決定するためのスコアを計算し(ステップ302)、最後に各領域毎に、最大のスコア値を持つ文書構造をその領域の文書構造として決定する(ステップ303)。計算されたスコアと決定された文書構造は、文書構造情報103に蓄積される。図5に、構造認識手段102の処理過程の一例を示す。また、参考として、図5の最終結果である文書構造をXML(eXtensible Markup Language)形式の構造化文書で表現した一例を図6に示す。
The
図5を参照すると、構造認識手段102はページイメージに対して領域分割と文字認識を行って、ブロック501〜505を認識し、各ブロックに対して図4のルールを用いて各ブロックの文書構造を決定するためのスコアを計算し、文書構造記憶部103の文書構造情報103aの一部を構成するスコアテーブルSTに記録している。スコアテーブルSTは、認識されたブロック毎の行を有し、各行に、ブロックを特定する情報と、タイトル、段落および継続に関するスコアを保持する。この例の場合、ブロック501は文字サイズ22ポイントの文字であるため、ルールR1によりタイトルのスコアに20点が付与されている。またブロック502〜505は行数が2行以上であるため、ルールR2により段落のスコアに10点が付与されている。さらにルールR3、R4によりブロック503、505に対して継続のスコアが付与されている。文書構造テーブルBTも、文書構造情報103aの一部を構成し、各ブロックについて決定された文書構造を記録している。
Referring to FIG. 5, the
なお、上記の説明では、文書構造情報103aには決定された文書構造を蓄積しているが、決定された文書構造だけでなく、領域(ブロック)の座標情報や文字のサイズ情報、文字認識結果などを一緒に蓄積するようにしても良い。また、図6に示されるようなXML形式の構造化文書として蓄積するようにしても良い。
In the above description, the determined document structure is stored in the
配信手段104は、文書構造情報103aを参照して文書記憶部101に蓄積された文書データ101aにかかるイメージデータの全体、あるいは一部分をクライアント端末105に配信する。例えば、図6で示されるような文書構造情報を持つ文書データに対し、クライアント端末105が図7の破線で示されるサイズの領域を一度に表示できる場合には、配信データ量の削減とクライアント端末の表示レスポンスを良くするために、ブロック501とブロック502の領域のうち、クライアント端末105の表示領域に重なる部分のイメージデータ、およびブロック502と同じ文書構造に属しているブロック503の領域のうち、クライアント端末の表示領域に重なる部分のイメージデータをクライアント端末105に配信する。また、クライアント端末105の利用者が画面のスクロールなどによって隣接部分のイメージデータの配信を要求してきた場合、配信手段104は、隣接部分のイメージデータを文書データ101aから切り出してクライアント端末105へ配信する。
The
他方、閲覧履歴取得手段108は、配信手段104がクライアント端末105にイメージデータを配信するたびに、配信した領域の重心座標に位置する領域情報を閲覧履歴情報106aとして取得し、閲覧履歴記憶部106に蓄積する。図8に、配信領域の重心位置座標の推移と閲覧履歴記憶部106に記憶される閲覧履歴情報106aの例を示す。
On the other hand, each time the
相関計算手段107は、閲覧履歴記憶部106に蓄積された閲覧履歴情報106aを利用して、構造認識手段102が認識した各ブロック間の相関を計算する。例えば、閲覧履歴として挙がっているブロック同士(図8で示される閲覧履歴情報の場合には、502と505)の相関は+20、閲覧履歴上のブロックと閲覧履歴にないブロック(図8で示される閲覧履歴情報の場合には、502と503、504と505など)との相関は−20、のように計算する。閲覧履歴に隣接して出現するブロック同士(図8で示される閲覧履歴情報の場合には、502と505)の相関は+20、のように計算してもよい。
The
構造認識手段102は、相関計算手段107が計算した相関を利用して文書構造の再認識を行う。例えば、構造認識手段102は、相関計算手段107が計算した相関の値をスコアテーブルST上の「継続」スコアに加算し、文書構造の再認識を行う。例えば、相関計算手段107において、ブロック502と505の相関が+20、ブロック502と503、504と505の相関がそれぞれ−20と計算された場合、それを図5のスコアテーブルST上の「継続」スコアに加算すると、スコアテーブルSTの内容は図9に示すようになる。従って、この内容から文書構造を再認識すると、図9の文書構造テーブルBTに示すようになり、ブロック間の継続性についてはブロック505がブロック502から継続しているものと再認識される。図5の処理過程例に対して文書構造の再認識を実施した図9の最終結果を、図6と同様にXML形式の構造化文書で表現した一例を図10に示す。
The
以下同様に、続いて新規に得られた閲覧履歴と再認識された文書構造情報を利用して、図2のステップ202から205に相当する上記の処理を任意の回数繰り返しても良い。
Similarly, the above processing corresponding to
次に、本実施例の効果について説明する。 Next, the effect of the present embodiment will be described.
本実施例では、文書の閲覧履歴情報を利用し文書構造認識結果を再認識していくため、構造認識手段102が利用する構造認識用論理モデルや抽出ルールを対象文書毎に作成する手間を軽減できる。例えば、図4に示されるようなスコア計算のルールのうち、本実施例によれば、ルールR3やルールR4を改変しなくても、文書の閲覧履歴を利用して「継続」スコア計算の補正を行うことが可能となる。
In this embodiment, since the document structure recognition result is re-recognized using the browsing history information of the document, it is possible to reduce the trouble of creating the structure recognition logical model and the extraction rule used by the
また、本実施例では、文書作成時の操作履歴を必要としないため、完成済み、あるいは紙に出力された文書に対しても文書構造認識を行うことができる。 Further, in this embodiment, since an operation history at the time of document creation is not required, document structure recognition can be performed even for a document that has been completed or output on paper.
本実施例では、配信手段104は文書構造情報103aを参照して同じ文書構造に属している領域のイメージデータを一緒に送信しているため、クライアント端末105の利用者が次に必要とする可能性のあるイメージデータを先に配信することができる。これにより、クライアント端末105のレスポンスが改善できるという効果もある。また、クライアント端末105の閲覧履歴を利用して、文書構造が例えば図6から図10にように更新されると、ブロック501とブロック502を配信する場合に一緒に配信されるイメージデータが、ブロック503からブロック505に変更される。すなわち、クライアント端末105の閲覧履歴によって配信手段104がクライアント端末105に配信するイメージデータが、クライアント端末105において次に必要とする可能性がより高いイメージデータに変更されるので、クライアント端末105のレスポンスが改善できるという効果がある。
In this embodiment, the
なお、上記実施例の説明では、文書データ101は紙文書の各ページをスキャナなどの入力手段を用いてイメージデータ化したものとなっているが、例えば、Adobe社製の文書編集ツールであるAcrobatのように、電子文書データからページイメージを生成することができるソフトウェアを用いて生成したイメージデータを蓄積するようにしても良い。また、構造認識手段102がイメージデータ以外のデータ、例えば、「http://ftp.debian.or.jp/debian-jp/pool/main/p/plain2/」から入手できるデータ変換ツールplain2のようにテキストデータを入力しそれをLaTeXやtroffのコマンドを埋め込んだ文書に変換するものである場合、テキストデータ形式で蓄積するようにしても良い。これらの場合には、紙文書だけでなく、電子文書データやテキストデータも本実施例の処理対象とすることができるという効果がある。
In the description of the above embodiment, the
また、上記実施例の説明では、構造認識手段102はイメージデータに対し領域分割と文字認識を行ってから文書構造の決定を行ったが、例えば、特許文献1で示されるような公知の手段を用いて、文字認識は行わず、領域分割だけで文書構造を決定するようにしても良い。
In the description of the above embodiment, the
また、上記実施例の説明では、閲覧履歴取得手段108は配信した領域の重心に位置する領域情報を閲覧履歴情報106aとして蓄積したが、重心座標ではなく、配信した領域内に含まれる領域情報の面積を使って閲覧履歴を抽出し、蓄積するようにしても良い。例えば、図11のように、クライアントに配信した領域がC11のようであったとき、その領域内に含まれるブロックC01、C02、C03の面積C21、C22、C23を比べ、最も大きい面積C22を持つブロックC02を閲覧履歴として蓄積する。配信領域C12の場合は、ブロックC02とC05が同じ最大面積を持っていたとすると、その両方のブロックを閲覧履歴として蓄積する。同様に配信領域C13の場合にはブロックC05が蓄積され、最終的に図11に示されるような閲覧履歴情報が得られる。以上のようにすると、配信領域内で占めている割合が高いブロックについての情報を抽出できるので、利用者が主に閲覧している可能性が高いブロックの情報を元に相関が計算できるようになるという効果がある。
In the description of the above embodiment, the browsing
閲覧履歴情報として、上述した重心位置や最大面積で決定した領域情報だけでなく、配信した時刻も同時に蓄積するようにしてもよい。この場合、配信された時間差に基づいて、時間差が或る値以下のブロック間には正の相関値を、時間差が別の或る値以上のブロック間には負の相関値を与えるように、ブロック間の相関を計算するようにしてもよい。図12にその計算ルールの例を示す。 As the browsing history information, not only the area information determined by the position of the center of gravity and the maximum area described above, but also the time of distribution may be stored at the same time. In this case, based on the delivered time difference, a positive correlation value is given between blocks with a time difference of a certain value or less, and a negative correlation value is given between blocks with a time difference of a certain value or more. You may make it calculate the correlation between blocks. FIG. 12 shows an example of the calculation rule.
また、上記実施例の説明では、配信手段104はクライアント端末105で表示する領域に相当するイメージデータのみを配信したが、文書全体、あるいは、ページ単位でイメージデータを配信するようにしても良い。このようにすると閲覧履歴取得手段108では前述した方法で閲覧箇所の履歴を得ることができなくなるが、その場合にはクライアント端末105で、例えば、利用者のページ移動や画面のスクロールといった操作履歴を取得して、閲覧履歴取得手段108へ閲覧履歴として送信し、閲覧履歴取得手段108が閲覧履歴情報106aとして蓄積するようにしても良い。また、クライアント端末105に利用者の視線を追跡する公知の技術を用いて利用者の視線の動きを取得するようにし、取得した視線の追跡情報を閲覧履歴として閲覧履歴取得手段108へ送信し、閲覧履歴取得手段108が閲覧履歴情報106aとして蓄積するようにしても良い。
In the description of the above embodiment, the
また、上記実施例の説明では、相関計算手段107は閲覧履歴取得手段108が閲覧履歴記憶部106に蓄積した閲覧履歴情報106aをもとに相関を計算したが、例えば同じ文書データについて閲覧者が異なる複数の閲覧履歴が蓄積されている場合に、個々の履歴をひとつずつ利用して相関を計算するのではなく、n個の閲覧履歴情報を統計処理した上で相関を計算するようにしても良い。例えば、図13に示されるように、開始点が同じであるような配信領域の重心座標位置の経路が経路1、経路2、経路3として複数得られている場合に、各経路の閲覧履歴情報を互いに配信された順に比較し、最も多く出現している領域情報を最終的な閲覧履歴として相関計算に用いるようにしても良い。図13の場合には、経路1〜経路3それぞれの最初の閲覧履歴情報は全てブロックA02であるので、ブロックA02を採用する。同様に2番目、3番目もブロックA02が採用されるが、4番目はブロックA02、A05、A03が1つずつ出現している。このような場合には最も多く出現している領域情報は不定とみなし削除する。次に、5番目、6番目はブロックA05が2つ、A03が1つであるので出現個数の多いブロックA05を採用し、最終的に図14のような閲覧履歴情報を相関計算手段107は相関計算に使用する。このように、同じ領域を起点とする閲覧箇所の推移が複数通り存在する場合に、より多数を占める閲覧箇所の推移に基づいて文書構造ブロック間の相関を計算することにより、閲覧履歴の中で最も一般的な経路を利用した構造化が行われることになり、特定の個人の癖などの影響を受けにくい、より一般的な文書構造の抽出を行うことができるという効果がある。
In the description of the above embodiment, the
また、上記実施例の説明では、相関計算手段107が計算した相関を構造認識手段102の計算した「継続」スコアに加算して文書構造の再認識を行ったが、「継続」スコアに加算するのではなく、例えば、相関の高いブロック同士で共通して値の設定されているスコアに加算するようにしても良い。例えば、図15の上段のようなスコアが計算されている状態で、ブロック503とブロック505の相関が+20と計算されたときには、ブロック503とブロック505とで共通して値の設定されている「段落」と「502との継続」スコアを+20し、ブロック505にのみ値が設定されている「504との継続」スコアには何も加算せず、図15の下段のようなスコアに更新して文書構造の再認識を行うようにしても良い。
In the description of the above embodiment, the correlation calculated by the
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。 Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
図16を参照すると、本発明の第2の実施の形態にかかる文書構造化装置210は、図1に示される第1の実施の形態にかかる文書構造化装置110と比較して、相関計算手段107に代えて相関計算手段212を備え、クライアント端末105の代わりに文書閲覧端末である操作端末211が接続されている点で相違する。
Referring to FIG. 16, the
操作端末211は、携帯電話機、携帯情報端末、パーソナルコンピュータなどで構成され、配信手段104から配信されてきた文書データを表示装置に表示して利用者に提示する機能と、利用者の操作に応答して次の文書データの配信を配信手段104に要求する機能とに加えて、相関計算手段212に対して文書構造ブロック間の相関を計算するタイミングを指示する機能を有する。操作端末211の利用者は、文書データの閲覧が目的ではなく、文書構造情報を修正することを目的に文書データの閲覧を行う。
The
相関計算手段212は、操作端末211からの指示を受けたときに文書構造ブロック間の相関を計算する点で、図1の相関計算手段107と相違し、それ以外は相関計算手段107と同じである。
The
次に、図2のフローチャートを借用して本実施の形態の全体動作について説明する。 Next, the overall operation of the present embodiment will be described by borrowing the flowchart of FIG.
文書構造化装置210は、まず、文書構造を認識する文書のページを電子化した文書データ101aを文書記憶部101から読出し、特許文献1乃至3などで公知の手法を用いて構造認識手段102により、文書データ101aをいくつかの領域(文書構造ブロック)に分割するとともに、各領域の文書構造(タイトルや段落など)を認識する(図2のステップ201)。構造認識手段102で認識された文書構造情報は文書構造記憶部103に記憶される。
The
次に文書構造化装置210は、配信手段104により、認識された文書構造情報を文書構造記憶部103から参照して、文書記憶部101に蓄積された文書データ101aの一部分を操作端末211に配信する(ステップ202)。このデータ配信は、操作端末211の利用者が画面のスクロールなどによって隣接部分の文書データの配信を要求するたびに実施される。文書構造情報の修正を目的に文書データの閲覧を行う操作端末211の利用者は、継続している文書構造ブロックが表示画面のほぼ中央に位置するように文書データの閲覧を行っていく。
Next, the
次に文書構造化装置210は、配信手段104により操作端末211に文書データが配信されるたびに、閲覧履歴取得手段108により、配信された文書データについて操作端末211の利用者による閲覧箇所の履歴を例えば図8に示したような方法で取得する(ステップ203)。取得された閲覧箇所の履歴は閲覧履歴情報106aとして閲覧履歴記憶部106に蓄積される。
Next, every time document data is distributed to the
次に文書構造化装置210は、操作端末211から相関計算の開始が指示されたタイミングで、相関計算手段212により、閲覧履歴記憶部106に蓄積された閲覧履歴を元に、構造認識手段102が認識した文書構造ブロック間の相関を計算し、計算結果を構造認識手段102に通知する(ステップ204)。
Next, in the
次に文書構造化装置210は、構造認識手段102により、相関計算手段212で計算された相関を使って文書データ101aの文書構造を再認識し、文書構造記憶部103の文書構造情報103aを更新する(ステップ205)。
Next, the
以下同様に、再認識された文書構造情報を利用して、ステップ202から205を任意の回数繰り返しても良い。 Similarly, steps 202 to 205 may be repeated any number of times using the re-recognized document structure information.
次に、本実施の形態の効果について説明する。 Next, the effect of this embodiment will be described.
本実施の形態では、操作端末211から文書構造ブロック間の相関を計算するタイミングを指示することができるため、操作端末211の利用者が文書構造情報103を修正することを目的に文書データの閲覧を行う場合に、適切なタイミングで相関計算を行わせることができる。
In this embodiment, since the
また本実施の形態では、構造認識手段102が利用する構造抽出用のルールを作成するための特別な知識や技術を有していない者でも、操作端末211を通して文書の閲覧行為を行うだけで、文書構造情報の修正を行うことができるという効果がある。
Further, in the present embodiment, even a person who does not have special knowledge or technology for creating a structure extraction rule used by the
なお、閲覧履歴取得手段108は、第1の実施の形態と同様に、配信手段104が操作端末211へ配信したデータから操作端末211の利用者による閲覧箇所の履歴を取得したが、操作端末211の利用者が相関のある文書構造ブロックを閲覧履歴取得手段108に直接指定するようにし、指定された文書構造ブロック情報を閲覧履歴取得手段108が閲覧履歴情報106aとして閲覧履歴記憶部106に蓄積するようにしても良い。この場合、文書構造ブロックの指定を行うだけで文書構造の再認識を行うことが可能になるという効果がある。
The browsing
以上本発明の実施の形態および実施例について説明したが、本発明は以上の例にのみ限定されず、その他各種の付加変更が可能である。また、本発明の文書構造化装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態および実施例における構造認識手段102、配信手段104、相関計算手段107または212、閲覧履歴取得手段108として機能させる。 Although the embodiments and examples of the present invention have been described above, the present invention is not limited to the above examples, and various other additions and modifications can be made. In addition, the document structuring apparatus of the present invention can be realized by a computer and a program as well as by realizing the functions of the document structuring apparatus as hardware. The program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer at the time of starting up the computer, etc. And function as the structure recognition means 102, the distribution means 104, the correlation calculation means 107 or 212, and the browsing history acquisition means 108.
本発明は、文書データから文書構造を認識する文書構造認識装置や、認識された文書構造を利用する文書配信装置、および、それら装置をコンピュータ上で実現するためのプログラムといった用途に適用できる。 The present invention can be applied to uses such as a document structure recognition device that recognizes a document structure from document data, a document distribution device that uses the recognized document structure, and a program for realizing these devices on a computer.
101…文書記憶部
101a…文書データ
102…構造認識手段
103…文書構造記憶部
103a…文書構造情報
104…配信手段
105…クライアント端末
106…閲覧履歴記憶部
106a…閲覧履歴情報
107…相関計算手段
108…閲覧履歴取得手段
109…処理部
110…文書構造化装置
201…文書構造認識ステップ
202…文書データ配信ステップ
203…閲覧履歴取得ステップ
204…相関計算ステップ
205…文書構造再認識ステップ
210…文書構造化装置
211…操作端末
212…相関計算手段
301…領域分割と文字認識ステップ
302…スコア計算ステップ
303…文書構造選択ステップ
501〜505…認識されたブロック
101 ...
Claims (19)
文書構造情報を記憶する文書構造記憶手段と、
前記文書記憶手段に記憶された文書データから文書構造を認識し文書構造情報として前記文書構造記憶手段に蓄積する構造認識手段と、
閲覧履歴情報を記憶する閲覧履歴記憶手段と、
前記蓄積された文書構造情報を参照して前記文書データの一部、あるいは、全部を文書閲覧端末に配信する配信手段と、
前記文書閲覧端末に配信した文書の閲覧箇所の履歴を取得し閲覧履歴情報として前記閲覧履歴記憶手段に蓄積する閲覧履歴取得手段と、
前記蓄積された閲覧履歴情報を用いて、前記蓄積された文書構造情報における文書構造ブロック間の相関を計算する相関計算手段とを備え、
前記構造認識手段は、前記相関計算手段が計算した文書構造ブロック間の相関を受け取り文書構造の再認識を行うものであることを特徴とする文書構造化装置。 Document storage means for storing document data;
Document structure storage means for storing document structure information;
Structure recognition means for recognizing a document structure from document data stored in the document storage means and storing it in the document structure storage means as document structure information;
Browsing history storage means for storing browsing history information;
Distribution means for distributing a part or all of the document data to a document browsing terminal with reference to the stored document structure information;
A browsing history acquisition unit that acquires a history of a browsing portion of a document distributed to the document browsing terminal and accumulates in the browsing history storage unit as browsing history information;
Correlation calculation means for calculating correlation between document structure blocks in the stored document structure information using the stored browsing history information;
The structure recognizing device, wherein the structure recognizing unit receives the correlation between the document structure blocks calculated by the correlation calculating unit and re-recognizes the document structure.
b)配信手段が、前記蓄積された文書構造情報を参照して前記文書データの一部、あるいは、全部を文書閲覧端末に配信するステップ、
c)閲覧履歴取得手段が、前記文書閲覧端末に配信した文書の閲覧箇所の履歴を取得し、閲覧履歴情報として閲覧履歴記憶手段に蓄積するステップ、
d)相関計算手段が、前記蓄積された閲覧履歴情報を用いて、前記蓄積された文書構造情報における文書構造ブロック間の相関を計算するステップ、
e)前記構造認識手段が、前記相関計算手段が計算した文書構造ブロック間の相関を受け取り、文書構造の再認識を行うステップ、
を含むことを特徴とする文書構造化方法。 a) a step of recognizing the document structure from the document data stored in the document storage means and storing the structure in the document structure storage means as document structure information;
b) a distribution means for distributing a part or all of the document data to a document browsing terminal with reference to the stored document structure information;
c) a browsing history acquisition unit that acquires a browsing history of a document distributed to the document browsing terminal, and stores the browsing history information as browsing history information in a browsing history storage unit;
d) a step of calculating a correlation between the document structure blocks in the stored document structure information using the stored browsing history information;
e) the structure recognizing means receiving the correlation between the document structure blocks calculated by the correlation calculating means and re-recognizing the document structure;
A document structuring method comprising:
を含むことを特徴とする請求項8記載の文書構造化方法。 f) the structure recognizing means updating the stored document structure information based on the result of re-recognition;
The document structuring method according to claim 8, further comprising:
前記文書記憶手段に記憶された文書データから文書構造を認識し文書構造情報として前記文書構造記憶手段に蓄積する構造認識手段、
前記蓄積された文書構造情報を参照して前記文書データの一部、あるいは、全部を文書閲覧端末に配信する配信手段、
前記文書閲覧端末に配信した文書の閲覧箇所の履歴を取得し閲覧履歴情報として前記閲覧履歴記憶手段に蓄積する閲覧履歴取得手段、
前記蓄積された閲覧履歴情報を用いて、前記蓄積された文書構造情報における文書構造ブロック間の相関を計算する相関計算手段、
として機能させるためのプログラムであって、前記構造認識手段は、前記相関計算手段が計算した文書構造ブロック間の相関を受け取り文書構造の再認識を行うものであることを特徴とするプログラム。 A computer having document storage means for storing document data, document structure storage means for storing document structure information, and browsing history storage means for storing browsing history information;
Structure recognition means for recognizing a document structure from document data stored in the document storage means and storing the document structure information in the document structure storage means;
Distribution means for distributing a part or all of the document data to a document browsing terminal with reference to the stored document structure information;
A browsing history acquisition unit that acquires a history of a browsing portion of a document distributed to the document browsing terminal and accumulates in the browsing history storage unit as browsing history information;
Correlation calculation means for calculating correlation between document structure blocks in the stored document structure information using the stored browsing history information;
The structure recognition means receives the correlation between the document structure blocks calculated by the correlation calculation means and re-recognizes the document structure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004274712A JP2006092091A (en) | 2004-09-22 | 2004-09-22 | Document structuring device and document structuring method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004274712A JP2006092091A (en) | 2004-09-22 | 2004-09-22 | Document structuring device and document structuring method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006092091A true JP2006092091A (en) | 2006-04-06 |
Family
ID=36233020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004274712A Pending JP2006092091A (en) | 2004-09-22 | 2004-09-22 | Document structuring device and document structuring method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006092091A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218249A (en) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | Document image processing apparatus, document image processing method, and document image processing program |
WO2010137656A1 (en) * | 2009-05-28 | 2010-12-02 | 日本電気株式会社 | Browsing information gathering system, browsing information gathering method, server, and recording medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096901A (en) * | 1995-06-22 | 1997-01-10 | Oki Electric Ind Co Ltd | Document reader |
JPH10143606A (en) * | 1996-11-06 | 1998-05-29 | Oki Electric Ind Co Ltd | Character recognition device and character recognition method |
JPH11250041A (en) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | Document processor and document processing method |
JP2002108847A (en) * | 2000-09-28 | 2002-04-12 | Toshiba Corp | Device and method for recognizing document |
JP2002149633A (en) * | 2000-11-10 | 2002-05-24 | Fuji Xerox Co Ltd | System/method for evaluating document and computer- readable recording medium |
-
2004
- 2004-09-22 JP JP2004274712A patent/JP2006092091A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096901A (en) * | 1995-06-22 | 1997-01-10 | Oki Electric Ind Co Ltd | Document reader |
JPH10143606A (en) * | 1996-11-06 | 1998-05-29 | Oki Electric Ind Co Ltd | Character recognition device and character recognition method |
JPH11250041A (en) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | Document processor and document processing method |
JP2002108847A (en) * | 2000-09-28 | 2002-04-12 | Toshiba Corp | Device and method for recognizing document |
JP2002149633A (en) * | 2000-11-10 | 2002-05-24 | Fuji Xerox Co Ltd | System/method for evaluating document and computer- readable recording medium |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218249A (en) * | 2009-03-17 | 2010-09-30 | Konica Minolta Business Technologies Inc | Document image processing apparatus, document image processing method, and document image processing program |
WO2010137656A1 (en) * | 2009-05-28 | 2010-12-02 | 日本電気株式会社 | Browsing information gathering system, browsing information gathering method, server, and recording medium |
CN102449609A (en) * | 2009-05-28 | 2012-05-09 | 日本电气株式会社 | Browsing information gathering system, browsing information gathering method, server, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9465802B2 (en) | Content storage processing system, content storage processing method, and semiconductor integrated circuit | |
JP2009081575A (en) | Apparatus, method, and system for outputting video image | |
JP2009176298A (en) | Method, program and device for supporting document navigation on mobile device using segmentation and keyphrase | |
US20110252447A1 (en) | Program information display apparatus and method | |
JPWO2011036755A1 (en) | Keyword extraction device and program | |
JP5200065B2 (en) | Content distribution system, method and program | |
JP6202815B2 (en) | Character recognition device, character recognition method, and character recognition program | |
JP2006186426A (en) | Information retrieval display apparatus, information retrieval display method, and information retrieval display program | |
JP5674451B2 (en) | Viewer device, browsing system, viewer program, and recording medium | |
KR20120129015A (en) | Method for creating educational contents for foreign languages and terminal therefor | |
JP2005182460A (en) | Information processor, annotation processing method, information processing program, and recording medium having information processing program stored therein | |
JP2010205121A (en) | Information processor and portable terminal | |
JP4381216B2 (en) | Content playback device, mobile phone, content playback method, content playback program, and recording medium for recording content playback program | |
US9224069B2 (en) | Program, method and apparatus for accumulating images that have associated text information | |
JP2008160512A (en) | Reproducing device, electronic equipment, reproducing method, and program | |
JP2011165092A (en) | Providing device and acquisition system of document image relevant information | |
JP2017102939A (en) | Authoring device, authoring method, and program | |
JP2006092091A (en) | Document structuring device and document structuring method | |
JP2005269510A (en) | Generation of digest image data | |
JP6408055B2 (en) | Information processing apparatus, method, and program | |
JPH10162024A (en) | Electronic filing method and electronic filing device | |
JP2006185342A (en) | Information processor, method and program for classifying character string, and recording medium | |
JP2007026263A (en) | Character recognition device and computer program | |
JP2006163446A (en) | Information processing apparatus, data retrieval method, program, and recording medium | |
JP2008130050A (en) | Image retrieval device and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070813 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090611 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100914 |