JP2006277108A - Information providing method, document editing device and program - Google Patents
Information providing method, document editing device and program Download PDFInfo
- Publication number
- JP2006277108A JP2006277108A JP2005092659A JP2005092659A JP2006277108A JP 2006277108 A JP2006277108 A JP 2006277108A JP 2005092659 A JP2005092659 A JP 2005092659A JP 2005092659 A JP2005092659 A JP 2005092659A JP 2006277108 A JP2006277108 A JP 2006277108A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- specifying
- extracting
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Editing Of Facsimile Originals (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報を編集および提示する技術に関する。 The present invention relates to a technique for editing and presenting information.
昨今の情報化社会においては、情報の整理や有効活用等を目的として、紙などに印刷された文書をスキャナ装置等で読取って必要な情報を取得するという、いわゆる文書の電子化処理が行われている。電子化処理の一例としては、原文書をデジタル画像データとして取り込み、文字認識処理(いわゆるOCR処理)を行って文字情報(テキストデータ)を抽出し、辞書データや所定のアルゴリズムを用いて文書構造を解析するなどして文字(語句)を他の文字(語句)に置換することにより、ある言語の文書を他の言語の文書に翻訳するという、いわゆる機械翻訳処理がある(例えば特許文献1を参照)。
しかしながら、OCR処理等により原文書から文字情報を漏れなく抽出できたとしても、その情報の全てがユーザにとって必要なものとは限らない。例えば、紙に印刷された観光パンフレットから文字情報を抽出して(必要なら翻訳処理を行って)得られた情報のうち、ユーザが興味のある情報は多数の情報のうちの一部であるという場合が通常である。さらに、観光パンフレットの例でも判るように、翻訳処理された文書を読んだユーザは特定の情報に興味を持った場合、その情報についてはより詳細な情報を取得したいと考える場合も多々ある。この点、従来技術においては、例えばユーザのニーズに応じて文書を編集するといったことができず、結果的に電子化文書を有効に活用することができない。 However, even if character information can be extracted from the original document without omission by OCR processing or the like, all of the information is not necessarily required for the user. For example, among the information obtained by extracting character information from a tourist brochure printed on paper (translation processing if necessary), the information that the user is interested in is a part of many information The case is normal. Further, as can be seen in the example of a tourist brochure, when a user who has read a translated document is interested in specific information, he often wants to acquire more detailed information about the information. In this regard, in the prior art, for example, the document cannot be edited according to the user's needs, and as a result, the digitized document cannot be effectively used.
本発明は上述した背景に鑑みてなされたものであり、原文書に含まれる情報に関連した情報をユーザの要求に応じて提供する方法および装置を提供することを目的とする。 The present invention has been made in view of the above-described background, and an object thereof is to provide a method and apparatus for providing information related to information included in an original document in response to a user request.
上記課題を解決するため、本発明は、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報をデータベースから抽出する関連情報抽出ステップと、前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、を有する情報提供方法を提供する。本発明によれば、ユーザが所望の文書要素に対して所定のアノテーションを付加すると、この付加処理の内容に基づいて関連情報を抽出してユーザに提供することができる。 In order to solve the above problems, the present invention provides a document input step for inputting a document, an additional information extraction step for extracting character information and annotation from the document input in the document input step, and the additional information extraction step. A translation step for performing a translation process on the character information extracted in step 1, a specification step for specifying the content of the annotation extracted in the additional information extraction step and a document element to which the annotation is added, and the specification step A related information extracting step for extracting information corresponding to the annotation content and document element specified in step 1 from the database, information extracted in the related information extracting step, and a document subjected to translation processing in the translating step And an output step of performing an editing process by a predetermined method and outputting the information It provides a test method. According to the present invention, when a user adds a predetermined annotation to a desired document element, related information can be extracted and provided to the user based on the content of the addition process.
本発明の情報提供方法は、他の態様において、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、前記指示内容特定ステップにて特定された指示内容に対応した情報をデータベースから抽出する情報抽出ステップと、前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、を有する。本態様によれば、フォーム構造を持つ文書に付与された情報に対応する情報をユーザに提供することができる。 According to another aspect of the information providing method of the present invention, a document input step for inputting a document, and an extraction for extracting form elements, which are elements forming the form of the document, from the document input in the document input step A step, an additional information specifying step for specifying information added to the form element extracted in the extracting step, and a relationship between the additional information specified in the additional information specifying step or extraction in the extracting step An instruction content specifying step for specifying the instruction content of the document by specifying at least one of the relations between the formed form elements, and information corresponding to the instruction content specified in the instruction content specifying step in the database An information extraction step for extracting the information extracted from the information extraction step and outputting the information extracted in the information extraction step by a predetermined method. Has a step, a. According to this aspect, information corresponding to information given to a document having a form structure can be provided to the user.
本発明は、他の観点において、データベースと、文書を入力する文書入力手段と、前記文書入力手段にて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出手段と、前記付加情報抽出手段にて抽出された文字情報に対し翻訳処理を施す翻訳手段と、前記付加情報抽出手段にて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定手段と、前記特定手段にて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出手段と、前記関連情報抽出手段にて抽出された情報と前記翻訳手段にて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力手段と、を有する文書編集装置を提供する。 In another aspect, the present invention provides a database, document input means for inputting a document, additional information extraction means for extracting character information and annotation from a document input by the document input means, and the additional information extraction A translation means for performing a translation process on the character information extracted by the means, a specification means for specifying the content of the annotation extracted by the additional information extraction means and a document element to which the annotation is added, and the specification Related information extracting means for extracting information corresponding to the annotation content and document element specified by the means from the database, information extracted by the related information extracting means, and translation processing being performed by the translating means There is provided a document editing apparatus having an output means for performing an editing process on a document and outputting it by a predetermined method.
本発明の文書編集装置は、他の態様において、データベースと、文書を入力する文書入力手段と、前記文書入力手段にて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出手段と、前記抽出手段にて抽出されたフォーム要素に付加されている情報を特定する付加情報特定手段と、前記付加情報特定手段にて特定された付加情報間の関係または前記抽出手段にて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定手段と、前記指示内容特定手段にて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出手段と、前記情報抽出手段にて抽出された情報を所定の方法で出力する出力手段とを有する。 According to another aspect of the document editing apparatus of the present invention, a database, a document input unit that inputs a document, and a form element that is an element that forms a form of the document from the document input by the document input unit. An extracting means for extracting; an additional information specifying means for specifying information added to the form element extracted by the extracting means; and a relationship between the additional information specified by the additional information specifying means or the extracting means By specifying at least one of the relationships between the form elements extracted in step 1, the instruction content specifying means for specifying the instruction content of the document and the instruction content specified by the instruction content specifying means Information extraction means for extracting information from the database, and output means for outputting the information extracted by the information extraction means by a predetermined method.
また、本発明は、他の観点において、データベースを有するコンピュータに、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出ステップと、前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、を実行させるコンピュータ読み取り可能なプログラムを提供する。 In another aspect, the present invention provides a document input step for inputting a document to a computer having a database, and an additional information extraction step for extracting character information and annotation from the document input in the document input step. A translation step for performing a translation process on the character information extracted in the additional information extraction step, and a specification for specifying the content of the annotation extracted in the additional information extraction step and a document element to which the annotation is added A related information extracting step for extracting information corresponding to the content of the annotation and the document element specified in the specifying step from the database, and the information extracted in the related information extracting step and the translating step. Edit the document that has undergone translation processing in a predetermined way An output step of outputting Te provides a computer readable program for executing.
本発明のプログラムは、他の態様において、データベースを有するコンピュータに、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、前記指示内容特定ステップにて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出ステップと、前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、を実行させることを特徴とする。 According to another aspect of the program of the present invention, a document input step for inputting a document to a computer having a database, and a form element that forms a form of the document from the document input in the document input step. An extraction step for extracting information, an additional information specification step for specifying information added to the form element extracted in the extraction step, and a relationship between the additional information specified in the additional information specification step or the extraction By specifying at least one of the relationships between the form elements extracted in the step, the instruction content specifying step for specifying the instruction content of the document and the instruction content specified in the instruction content specifying step Information extraction step of extracting the information obtained from the database, and the information extraction step An output step of outputting the issued information in a predetermined manner, characterized in that for the execution.
<実施例>
(第1実施形態)
以下、図面を参照して本発明の好適な実施例を説明する。図1は、本発明の一実施例に係る文書編集装置1の機能構成を表した図である。同図に示すように、文書編集装置1は、制御部10、記憶部11、入力部12、操作部13、表示部14、および出力部15からなる。制御部10は、CPU等の制御用プロセッサを備え、文書編集装置1の各部を制御する。また、制御部10は、文書構造解析部101、アノテーション認識部102、文字情報認識部103、翻訳処理部104および編集処理部105を有する。文書構造解析部101は、入力部12にて取り込まれた画像データとしての文書に対し所定のアルゴリズムを用いてレイアウト解析等を行い、文書のレイアウト構造を決定する。具体的には、文書に文字と文字以外のもの(挿絵、罫線、注記等の付加情報(以下、アノテーションという)など)が含まれているか否かを判定し、文字以外のものがあった場合は、文字部分の領域とその他の部分の領域とを分離する。
<Example>
(First embodiment)
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a functional configuration of a document editing apparatus 1 according to an embodiment of the present invention. As shown in FIG. 1, the document editing apparatus 1 includes a
アノテーション認識部102は、文書構造解析部101にて分離抽出された文字以外の領域の画像データに対し、所定の解析処理を行って、アノテーションの種類およびアノテーションが付加されている対象となっている箇所(語や句といった文書要素)を決定する。抽出されるアノテーション種類とは、例えば、付箋、囲み線、下線、マーカ処理(ハイライト処理)、引き出し線、注記・注釈(原文の行間等に挿入された文字)などである。アノテーションとその付加対象となっている文書要素(語句)に関する情報は、記憶部11に記憶される。文字情報認識部103は、文書構造解析部101にて分離抽出された領域に対して文字認識処理を行って文字情報(字句)を抽出し、記憶部11に記憶する。翻訳処理部104は、文字情報認識部103にて抽出された文字情報に対し、記憶部11に格納される辞書データや所定のアルゴリズムを用いて置換処理などを行うことにより、その文書の言語をユーザから指定された他の言語へ翻訳する翻訳処理を行う。翻訳後の文書データおよび原文中の語句と翻訳文中の語句との関係は、記憶部11に記憶される。文書構造解析部101、アノテーション認識部102、文字情報認識部103および翻訳処理部104により、アノテーションが付加された文書の画像データから、アノテーションと文字部分に対しては翻訳処理が行われ、各アノテーションに対してその種類とアノテーションの付加対象となっている原文中の語句とその翻訳後の語句に関する情報を抽出する機能が実現される。編集処理部105は、原文書から抽出されたアノテーションと当該アノテーションの付加対象の文書要素とを記憶部11から読出すとともに、このアノテーションおよび文書要素に基づいて記憶部11内に格納された翻訳データベース(DB)111から必要な情報を抽出し、これを翻訳処理部104にて得られた翻訳後の文字情報と合成する編集処理を行う機能を有する。この機能の詳細は後述する。制御部10にて行われるこれらの処理の詳細については後述する。なお、制御部10にて実現されるこれら各部の機能は、各々独立したプロセッサによって実現されてもよいし、例えば一つのプロセッサが複数のソフトウェアを実行することにより実現されてもよい。
The
記憶部11は、RAM、ROM、ハードディスク等の記憶装置であって、制御部10にて上述した処理を行う際に必要となる翻訳DB111および関連情報DB112やその他必要なデータが格納される。図1に示すように、翻訳DB111には、翻訳処理の際に使用され得る各種辞書データ(例えば、英単語と日本語の単語を対応付けて登録した英和辞書データ)が格納される。関連情報DB112は、情報と、当該情報に含まれる語句とを対応付けて登録したデータベースであり、複数の単語を指定して当該データベース内を検索すると、当該単語に関連する情報が抽出されるデータ構造を有している。例えば、「A駅」および「電車」をキーとしてDBを検索すると、A駅を通過する電車の運行情報が抽出される。
The
入力部12は、スキャナ装置等であり、紙等に印刷された文書をデジタル画像データとして読み込み、制御部10および記憶部11に供給する装置である。操作部13はキーボードやマウス等の入力デバイスであって、文書編集装置1のユーザが、翻訳対象の文書の指定、アノテーションの付加の指定(詳細は後述)、その他の必要な情報の入力の際に使用されるものである。操作部13を介して入力された指示や情報は、制御部10へ供給される。表示部14は、描画用プロセッサ(図示せず)および液晶ディスプレイ等の表示装置(図示せず)から構成され、制御部10の指示の下、原文書、翻訳処理後の文書、関連情報DB112から抽出された関連情報、その他ユーザへの各種メッセージを画面に表示する。出力部15は、編集処理後の原稿を紙等に印刷するためのプリンタや付加情報編集処理を行って得られた文書データを印刷装置に供給するための通信インターフェース、あるいは文書データをフラッシュメモリやCD−ROM等の記憶媒体に記憶するための記憶装置である。
The
以下、図2および図3を用いて、文書編集装置1の動作の一例を説明する。本実施形態においては、図3の(a)に示すような、日本語で記載され用紙に印刷された観光パンフレット(以下、処理対象文書という)から、ユーザの所望する情報を英語で提供する場合について説明する。図2に示すように、まず、ユーザは所望する情報に応じて、この処理対象文書の所定の箇所(語句)に、鉛筆やペン等の筆記具などを用いて所定のアノテーションを書き込む(ステップS10)。図3(a)は、このパンフレットを読んだユーザが、「蹴上駅」までの電車の乗り換え情報について詳細な情報が欲しいと考えた場合に書き込まれるアノテーションの例を示したものである。同図に示すように、ユーザは、アノテーションの付加対象を指定するため、「蹴上駅」に囲み線を付与し、さらに付加対象とアノテーションとの関係を指定するための引き出し線を入れ、交通手段として電車を指定する文字「Train」を書き込む。加えて、ユーザは蹴上駅周辺の拡大地図が欲しいと考えた場合、処理対象文書の下部に印刷されている地図に表されている蹴上駅に対し四角形の囲み線を書き入れた上で、引き出し線を入れ、所定箇所の拡大を指定する文字「Details」を書き込む。 Hereinafter, an example of the operation of the document editing apparatus 1 will be described with reference to FIGS. 2 and 3. In the present embodiment, information desired by the user is provided in English from a tourist pamphlet (hereinafter referred to as a processing target document) written in Japanese and printed on paper as shown in FIG. Will be described. As shown in FIG. 2, the user first writes a predetermined annotation using a writing instrument such as a pencil or a pen in a predetermined portion (word / phrase) of the processing target document according to desired information (step S10). . FIG. 3A shows an example of annotations that are written when the user who has read this pamphlet wants detailed information about the train transfer information to “Keiage Station”. As shown in the figure, in order to specify the annotation addition target, the user adds a box line to “Keiage Station”, and further inserts a leader line for specifying the relationship between the addition target and the annotation. Write the letter “Train” that specifies the train as a means. In addition, if the user wants an enlarged map around Keage Station, enter a square box for the Keage Station shown on the map printed at the bottom of the document to be processed. A leader line is inserted, and a character “Details” for specifying enlargement of a predetermined portion is written.
図2に戻り、ユーザはこのアノテーションが付与された翻訳対象文書をスキャナ装置にセットし、その文書を取り込んで画像データを取得する(ステップS11)。すると制御部10は、まず当該画像データに対し文書構造解析を行い(ステップS12)、アノテーションと原稿部分(文字情報)とを分離抽出する(ステップS13)。続いて、文字情報に対して翻訳処理を行う(ステップS14)。そして、該分離抽出されたアノテーションの内容(この場合は「蹴上駅」を対象としてアノテーション「Train」が付与されているという事実)を特定する(ステップS15)。同様に、地図の画像に付されたアノテーションは、四角形で囲まれた領域に対応する画像を所定の拡大率で拡大表示する旨を指示するものであることを特定する。続いて、特定されたアノテーション関し、関連情報DB112から情報を検索する。具体的には、「蹴上駅」と「Train」とをキーとして関連情報DB112を検索する。蹴上駅と電車とに関連する情報、すなわち蹴上駅までの主要な電車の路線経路や運賃、所要時間といった情報が抽出される(ステップS16)。その際、この装置が設置されている場所が装置内部に格納されている場合には、その最寄駅から蹴上駅までの経路を選択して、抽出することができる。図3の例では、京都駅もしくはその付近に装置が設置されているものとして、路線などが選択されている。続いて、ステップS14にて得られた翻訳処理後の文章とステップS16にて抽出された情報とを合成する(ステップS17)。図3(b)および(c)は、このようにして編集処理がなされた文書の一例を示したものである((b)と(c)は別のページ)。同図(b)に示すように、(a)に示す原文書中の文章および地図の画像に対応する位置にそれぞれ当該文章の翻訳文および地図が配置されている。そして、同図(c)に示すように、翻訳文章の最後に、抽出された関連情報(この場合は運行情報)が配置され、その下には当該指定された拡大図が付加される。最後に、ユーザは所定の指示を入力すると、表示部に表示されたこの文章をユーザが指定した態様で出力する(ステップS18)。
Returning to FIG. 2, the user sets the document to be translated with the annotation added to the scanner device, and acquires the image data by capturing the document (step S <b> 11). Then, the
このように文書編集装置1によれば、ユーザにより原文書中の所定の箇所(文書要素)を指定して所定のアノテーションが付加されると、当該箇所の情報内容と当該アノテーションの内容とに関連する情報が関連情報DB112から抽出されて翻訳文書と合成された上でユーザに提供される。これにより、文書を読んだユーザに対し、当該ユーザのニーズに応じた関連情報を提供することができる。
As described above, according to the document editing apparatus 1, when a predetermined annotation (document element) in an original document is specified by a user and a predetermined annotation is added, the information content of the portion and the content of the annotation are related. The information to be extracted is extracted from the
(第2実施形態)
図4は、第2実施形態に係る文書編集装置1Aの機能構成を示す図である。同図に示すように、文書編集装置1Aが第1実施形態に係る文書編集装置1と異なる点は、文書構造解析部101、アノテーション認識部102、および翻訳処理部104に替えて、フォーム解析部106およびマーク認識部107を設けた点、および記憶部11内に翻訳DB111に替えてフォームDB113を設けた点である。フォーム解析部106は、(罫線等によって仕切られた領域、チェックボックス、入力ボックス等から構成される構造(以下、フォームという)を持つ文書をスキャンして得られた画像データに対し所定の画像解析処理を行い、フォームの各構成要素(入力ボックスやチェックボックス等;以下、フォーム要素という)の種類や配置位置に関する情報を取得する。マーク認識部107は、フォーム要素と当該フォーム要素に対応する情報(チェックマーク、丸印など;以下単にマークと称する)とを特定する。また、入力ボックス等に関しては、その内側の領域の画像データに対し文字情報認識部103にて文字認識処理が行われ、文字情報(テキストデータ)を抽出する。フォームDB113は、フォーム要素や各フォーム要素の属性等の情報が格納されており、編集処理部105は、フォームDB113を用いて、抽出されたフォーム要素間の関係を特定する。この処理については後述する。このように、文書編集装置1Aの制御部10は、スキャンされた文書からフォーム要素を抽出し、フォーム要素間の関係から当該文書の内容を特定する機能を有する。
(Second Embodiment)
FIG. 4 is a diagram illustrating a functional configuration of the
以下、図5および図6を用いて文書編集装置1Aの動作例について説明する。以下、ユーザは図6(a)に示すようなフォーム構造を有する、用紙に印刷された文書をスキャンする場合を考える。この例では、ユーザが、「交通手段として電車を用いて京都駅から南禅寺まで行く方法に関する情報と、目的地の最寄駅周辺の拡大地図と、使用が想定される日本語での会話の例文であって、道を尋ねる場合、道に迷った場合、およびトイレの場所を尋ねる場合に使用されるものとを指定した場合の例を示している。再び図5に戻り、制御部10にてフォームDB113を用いてフォーム構造の解析が行われ(ステップS30)、フォーム要素と、各フォーム要素に対するマークや文字の情報が抽出される。すなわち、「From:」、入力ボックス、チェックボックス、チェックマーク、「Train」などといった各フォーム要素、マーク、および文字情報が抽出される。続いて、抽出したフォーム要素間の関係を特定してユーザによって指定された情報の内容を特定する(ステップS32)。
Hereinafter, an operation example of the
具体的には、まずその配置関係から各フォーム要素の結合関係が決定される。例えば、「From:」とその隣の入力ボックスの文字「Kyoto station」とが結合していることを判定する。さらに、マークとフォーム要素との位置関係に基づき、各マークとそれに対応するフォーム要素との関係(例えば、フォーム要素「□」にチェックマークが付与されていること)を決定する。さらに、文字情報に対し、そのフォントサイズや配置位置などから、フォーム要素間の従属関係を決定してグループ分けを行う。例えば「□Train」、「□Bus」、「□Taxi」、および「□Other」は、その配置関係から並列の関係であり、またこれらの4つのフォーム要素と「Transportation」、の配置関係から、当該4つの要素は、要素「Transportation」に従属していることを決定する。続いて、各フォーム要素間の共通性を判定して、要素をグループ化する。具体的には、記憶部11内に格納される辞書データ等を用いて、フォーム要素「From:」、「To:」、および「Transportation」についてはその意味内容から交通情報に関係がある単語であるから同一の情報グループに属するものであると決定する。
Specifically, first, the connection relationship of each form element is determined from the arrangement relationship. For example, it is determined that “From:” and the character “Kyoto station” in the adjacent input box are combined. Further, based on the positional relationship between the mark and the form element, the relationship between each mark and the corresponding form element (for example, a check mark is given to the form element “□”) is determined. Further, the subordinate relation between the form elements is determined for the character information from the font size and arrangement position, and the grouping is performed. For example, “□ Train”, “□ Bus”, “□ Taxi”, and “□ Other” are parallel relationships based on the layout relationship, and from the layout relationship between these four form elements and “Transportation”, The four elements are determined to be subordinate to the element “Transportation”. Subsequently, the commonality between the form elements is determined, and the elements are grouped. Specifically, using dictionary data or the like stored in the
このようにして上述した各フォーム要素間の関係を決定すると、制御部10は、「交通手段として電車を用いて京都駅から南禅寺まで行く」という内容の情報がユーザにより指定されたことを特定する。同様に、「Map」、「Large」、「Detail」、両フォーム要素間の点線および当該点線上にあるチェックマークの位置関係から、拡大率200%における目的地周辺の地図の画像が指定されことを特定する。さらに、「Example」、「□Route」、「□Astray」、「□Rest room」、およびチェックマークの位置から、様々なシチュエーションのうち道順を尋ねる場合、道に迷った場合、およびトイレの場所を尋ねる場合に使用される日本語例文が指定されたことを特定する。
When the relationship between the form elements described above is determined in this manner, the
再び図5に戻り、ユーザの指定する情報が特定されると、編集処理部105は特定した情報に対応した情報を関連情報DB112から抽出し(ステップS34)、所定の編集処理を行って(ステップS36)、表示部14の画面に表示しまたは用紙に印刷する(ステップS38)。図6(b)および(c)は、編集処理後の文書の一例である。なお、(c)の文書は(b)の文書の次のページの文書である。同図(b)に示すように、ユーザによって指定された目的地である「Nanzen-ji Temple」が表題部に表示される。そして、その下に、出発地として指定された「京都駅」から南禅寺の最寄駅までの路線情報が表示される。その下には、ユーザが指定した拡大率で地図画像が表示される。そして次ページには、同図(c)で表されるような、ユーザが指定したシチュエーションに対応する例文が英語と日本語の対訳形式で表示される。
Returning to FIG. 5 again, when the information designated by the user is specified, the
このように文書編集装置1Aによれば、ユーザが所定のフォームにて作成した文書からその内容を特定し、その内容に応じた情報を抽出してユーザに提供することができる。
As described above, according to the
<変形例>
本発明は上記実施例に限定されるものでなく、各種の変形を施すことが可能である。図7は、本発明の変形例である情報提供システム200の概略図を示す図である。情報提供システム200は、文書編集装置1Bと情報提供サーバ2と通信網3とから構成される。文書編集装置1Bは、通信網3を介して情報提供サーバ2と通信を行うための通信I/F16を有している点、および関連情報DB112を有していない点においてのみ文書編集装置1Aと異なる。また、情報提供サーバ2は制御部20、ユーザ管理DB21、関連情報DB112、および通信部23を有している。同図から判るように、本変形例においては、ユーザは関連情報を情報提供サーバ2から取得する。より具体的には、文書編集装置1Bはアノテーション情報(アノテーションと対象箇所)を特定すると、制御部10は記憶部11に格納されたユーザIDとこの情報とを含むリクエストを生成し、通信網3を介して情報提供サーバ2へ送信する。情報提供サーバ2はこのリクエストを受信すると、ユーザ管理DB21を参照してユーザ認証あるいは所定の課金処理等を行った後、当該アノテーション情報に対応する関連情報を関連情報DB112から抽出し、文書編集装置1Bへ送信する。
<Modification>
The present invention is not limited to the above embodiments, and various modifications can be made. FIG. 7 is a diagram showing a schematic diagram of an information providing system 200 which is a modified example of the present invention. The information providing system 200 includes a document editing apparatus 1B, an information providing server 2, and a communication network 3. The document editing apparatus 1B is different from the
このような態様によれば、文書編集装置内にデータベースを設ける必要がなくて済む。また、関連情報の提供を行うユーザ認証やそれに基づいた課金、または広告付加による無料化/割引といった付加的な処理を行うことも可能である。例えば、出力後の文章の所定の箇所に当該文書の内容に関係のある広告情報(例えば、原文書が観光案内に関するものであれば、周辺の土産店の広告)などを付加してからユーザに提供する、といったことも可能である。広告情報が表示された文書の例を図8に示す。 According to such an aspect, it is not necessary to provide a database in the document editing apparatus. It is also possible to perform additional processing such as user authentication for providing related information, billing based on it, or free / discount by adding advertisements. For example, advertisement information related to the content of the document (for example, an advertisement of a nearby souvenir shop if the original document relates to tourist information) or the like is added to a predetermined portion of the text after output to the user. It can also be provided. An example of a document in which advertisement information is displayed is shown in FIG.
また、上記実施例においては、用紙等に印刷された文書に対し手書きにてアノテーションやチェックマークを書き込んだものをスキャナで読取る例について説明したが、これに限らず、アノテーションが付加されていないまたはフォームに何も記入されていない文書をスキャンしてその画像を表示部14に表示し、この画面上でマウスやキーボード等を用いてアノテーションの付加やマークおよびフォームへの書き込みを行ってもよいことはいうまでない。要は、ユーザが付与したアノテーションやマークを判別し、これらに対応した情報を取得することができる構成であればよい。
In the above-described embodiment, an example in which a scanner is used to read a document printed on paper or the like with annotations and check marks written by hand. However, the present invention is not limited to this. It is also possible to scan a document in which nothing is filled in the form, display the image on the
1・・・文書編集装置、2・・・情報提供サーバ、3・・・通信網、10・・・制御部、11・・・記憶部、12・・・入力部、13・・・操作部、14・・・表示部、15・・・出力部、16・・・通信I/F、20・・・制御部、21・・・ユーザ管理DB、23・・・通信部、101・・・文書構造解析部、102・・・アノテーション認識部、103・・・文字情報認識部、104・・・翻訳処理部、105・・・編集処理部、106・・・フォーム解析部、107・・・マーク認識部、111・・・翻訳DB、112・・・関連情報DB、113・・・フォームDB、200・・・情報提供システム。
DESCRIPTION OF SYMBOLS 1 ... Document editing apparatus, 2 ... Information provision server, 3 ... Communication network, 10 ... Control part, 11 ... Memory | storage part, 12 ... Input part, 13 ... Operation part , 14 ... Display section, 15 ... Output section, 16 ... Communication I / F, 20 ... Control section, 21 ... User management DB, 23 ... Communication section, 101 ... Document
Claims (6)
前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、
前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、
前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、
前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報をデータベースから抽出する関連情報抽出ステップと、
前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、
を有する情報提供方法。 A document input step for entering a document;
An additional information extraction step of extracting character information and annotation from the document input in the document input step;
A translation step for performing a translation process on the character information extracted in the additional information extraction step;
A specification step for specifying the content of the annotation extracted in the additional information extraction step and the document element to which the annotation is added;
A related information extracting step of extracting information corresponding to the content of the annotation specified in the specifying step and the document element from a database;
An output step in which the information extracted in the related information extraction step and the document subjected to the translation process in the translation step are edited and output in a predetermined method;
A method for providing information.
前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、
前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、
前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、
前記指示内容特定ステップにて特定された指示内容に対応した情報をデータベースから抽出する情報抽出ステップと、
前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、
を有する情報提供方法。 A document input step for entering a document;
An extraction step of extracting a form element that is an element forming a form of the document from the document input in the document input step;
An additional information specifying step for specifying information added to the form element extracted in the extracting step;
Instruction content specifying the instruction content of the document by specifying at least one of the relationship between the additional information specified in the additional information specifying step or the relationship between the form elements extracted in the extraction step Specific steps,
An information extracting step of extracting information corresponding to the instruction content specified in the instruction content specifying step from a database;
An output step of outputting the information extracted in the information extraction step by a predetermined method;
A method for providing information.
文書を入力する文書入力手段と、
前記文書入力手段にて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出手段と、
前記付加情報抽出手段にて抽出された文字情報に対し翻訳処理を施す翻訳手段と、
前記付加情報抽出手段にて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定手段と、
前記特定手段にて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出手段と、
前記関連情報抽出手段にて抽出された情報と前記翻訳手段にて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力手段と、
を有する文書編集装置。 A database,
A document input means for inputting a document;
Additional information extraction means for extracting character information and annotation from the document input by the document input means;
Translation means for performing a translation process on the character information extracted by the additional information extraction means;
Specifying means for specifying the content of the annotation extracted by the additional information extracting means and the document element to which the annotation is to be added;
Related information extracting means for extracting information corresponding to the content of the annotation specified by the specifying means and the document element from the database;
An output means for performing an editing process in a predetermined method and outputting the information extracted by the related information extracting means and the document subjected to the translation process by the translation means;
A document editing apparatus.
文書を入力する文書入力手段と、
前記文書入力手段にて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出手段と、
前記抽出手段にて抽出されたフォーム要素に付加されている情報を特定する付加情報特定手段と、
前記付加情報特定手段にて特定された付加情報間の関係または前記抽出手段にて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定手段と、
前記指示内容特定手段にて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出手段と、
前記情報抽出手段にて抽出された情報を所定の方法で出力する出力手段と、
を有する文書編集装置。 A database,
A document input means for inputting a document;
Extraction means for extracting form elements, which are elements forming the form of the document, from the document input by the document input means;
Additional information specifying means for specifying information added to the form element extracted by the extracting means;
Instruction contents for specifying instruction contents of the document by specifying at least one of the relation between additional information specified by the additional information specifying means or the relation between form elements extracted by the extracting means Specific means,
Information extracting means for extracting information corresponding to the instruction content specified by the instruction content specifying means from the database;
Output means for outputting the information extracted by the information extraction means by a predetermined method;
A document editing apparatus.
文書を入力する文書入力ステップと、
前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、
前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、
前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、
前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出ステップと、
前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、
を実行させるコンピュータ読み取り可能なプログラム。 On the computer with the database
A document input step for entering a document;
An additional information extraction step of extracting character information and annotation from the document input in the document input step;
A translation step for performing a translation process on the character information extracted in the additional information extraction step;
A specification step for specifying the content of the annotation extracted in the additional information extraction step and the document element to which the annotation is added;
A related information extracting step of extracting information corresponding to the content of the annotation specified in the specifying step and the document element from the database;
An output step in which the information extracted in the related information extraction step and the document subjected to the translation process in the translation step are edited and output in a predetermined method;
A computer-readable program that executes
文書を入力する文書入力ステップと、
前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、
前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、
前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、
前記指示内容特定ステップにて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出ステップと、
前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、
を実行させるコンピュータ読み取り可能なプログラム。 On the computer with the database
A document input step for entering a document;
An extraction step of extracting a form element that is an element forming a form of the document from the document input in the document input step;
An additional information specifying step for specifying information added to the form element extracted in the extracting step;
Instruction content specifying the instruction content of the document by specifying at least one of the relationship between the additional information specified in the additional information specifying step or the relationship between the form elements extracted in the extraction step Specific steps,
An information extracting step of extracting information corresponding to the instruction content specified in the instruction content specifying step from the database;
An output step of outputting the information extracted in the information extraction step by a predetermined method;
A computer-readable program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092659A JP2006277108A (en) | 2005-03-28 | 2005-03-28 | Information providing method, document editing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092659A JP2006277108A (en) | 2005-03-28 | 2005-03-28 | Information providing method, document editing device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006277108A true JP2006277108A (en) | 2006-10-12 |
Family
ID=37211835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005092659A Pending JP2006277108A (en) | 2005-03-28 | 2005-03-28 | Information providing method, document editing device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006277108A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016152962A1 (en) * | 2015-03-25 | 2016-09-29 | 株式会社リクルートホールディングス | Computer program, information search system, and control method therefor |
JP2022047314A (en) * | 2020-09-11 | 2022-03-24 | キヤノンマーケティングジャパン株式会社 | Information processing apparatus, information processing method, and program |
-
2005
- 2005-03-28 JP JP2005092659A patent/JP2006277108A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016152962A1 (en) * | 2015-03-25 | 2016-09-29 | 株式会社リクルートホールディングス | Computer program, information search system, and control method therefor |
JP2016181198A (en) * | 2015-03-25 | 2016-10-13 | 株式会社リクルートホールディングス | Computer program, information search system, and control method of the same |
JP2022047314A (en) * | 2020-09-11 | 2022-03-24 | キヤノンマーケティングジャパン株式会社 | Information processing apparatus, information processing method, and program |
JP7231844B2 (en) | 2020-09-11 | 2023-03-02 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US20060217955A1 (en) | Document translation method and document translation device | |
JP4785655B2 (en) | Document processing apparatus and document processing method | |
US7712028B2 (en) | Using annotations for summarizing a document image and itemizing the summary based on similar annotations | |
CN100454293C (en) | Document editing method, document editing device | |
CN101377855B (en) | Document image processing apparatus, and information processing method | |
US20060217956A1 (en) | Translation processing method, document translation device, and programs | |
JP4533273B2 (en) | Image processing apparatus, image processing method, and program | |
JP3178483B2 (en) | Document processing device | |
US5950213A (en) | Input sheet creating and processing system | |
JP4311365B2 (en) | Document processing apparatus and program | |
JP2012203491A (en) | Document processing device and document processing program | |
JP4666996B2 (en) | Electronic filing system and electronic filing method | |
JP2007310501A (en) | Information processor, its control method, and program | |
JP2002073598A (en) | Document processor and method of processing document | |
JP4924990B2 (en) | Document processing apparatus and document processing program | |
JP2009237885A (en) | Document editing device, method, and program | |
JP2006277108A (en) | Information providing method, document editing device and program | |
JP2006119712A (en) | Information management terminal device and program, and document for electronic pen | |
JPH103483A (en) | Information retrieval device | |
US20060218495A1 (en) | Document processing device | |
JP2007286961A (en) | Document attribute extraction device and document attribute extraction program | |
JP2018036794A (en) | Image processing device and program | |
JP7574489B1 (en) | Learning data creation method and learning data creation device | |
JP2010146143A (en) | Document processing apparatus and program |