JP5288617B2 - Document management system, document management method, and computer program - Google Patents
Document management system, document management method, and computer program Download PDFInfo
- Publication number
- JP5288617B2 JP5288617B2 JP2009117572A JP2009117572A JP5288617B2 JP 5288617 B2 JP5288617 B2 JP 5288617B2 JP 2009117572 A JP2009117572 A JP 2009117572A JP 2009117572 A JP2009117572 A JP 2009117572A JP 5288617 B2 JP5288617 B2 JP 5288617B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- divided
- registered
- color information
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書データの中から注目するキーワード群が記述されている領域を容易に把握できるようにするためのインタフェース技術に関する。 The present invention relates to an interface technique for easily grasping an area in which a keyword group of interest is described from document data.
文書データの中からユーザが指定したキーワードを強調表示することにより、その文書データの記述内容の理解を支援するインタフェース技術が提案されている(例えば特許文献1,2)。また、従来のこの種のインタフェース技術を拡張して、複数のキーワードの各々に異なる色を指定し、文書データに存在する複数のキーワードをそれぞれ指定した色で着色して表示する技術も知られている。
There has been proposed an interface technology that supports understanding of the description contents of document data by highlighting a keyword designated by the user from the document data (for example,
従来のインタフェース技術は、指定したキーワードが文書データ中に存在するかどうか、存在する場合は文書データのどこに存在するかを把握するには役に立つものの、文書データ中でキーワードが強調表示されるだけなので、文書データの注目したい記述内容がどこに存在するかまで特定することはできない。 The conventional interface technology is useful for understanding whether or not the specified keyword exists in the document data, and if so, it is only highlighted in the document data. Therefore, it is impossible to specify where the description content to be noticed of the document data exists.
また、複数の文書データが存在する場合において、一方の文書データに記述された内容が他方の文書データのどの部分に対応するのかを把握することもできない。これは、2つの文書データは、多くの場合、異なる筆者により作成されるので、意味としては同様な内容を記載していたとしても、別々の語句で記載されていた場合は、対応箇所を的確に把握することが難しいためである。別々の語句を網羅的に把握できるようにするためには、指定するキーワードの類義語をできるだけ詳細に指定する必要があり、文書対比時間は、利用者のスキルに依存することになる。 In addition, when there are a plurality of document data, it is impossible to grasp which part of the other document data corresponds to the content described in the one document data. This is because the two document data are created by different authors in many cases. Even if the same contents are described in terms of meaning, if the two document data are described in different words, the corresponding portions are accurately identified. This is because it is difficult to grasp. In order to make it possible to comprehensively grasp different words and phrases, it is necessary to specify synonyms of keywords to be specified in as much detail as possible, and the document comparison time depends on the skill of the user.
本発明は、文書データの閲覧性を高めるとともに、複数の文書データの対比のための把握作業の時間を短縮することができる文書管理のインタフェース技術を提供することを、主たる課題とするものである。 SUMMARY OF THE INVENTION The main object of the present invention is to provide a document management interface technology capable of improving the readability of document data and reducing the time required for comparison of a plurality of document data. .
本発明は、色情報の組み合わせであるスペクトルパターンを用いた文書管理システム、スペクトルパターンによる文書管理方法及びコンピュータプログラムにより、上記課題の解決を図る。 The present invention aims to solve the above problems by a document management system using a spectral pattern that is a combination of color information, a document management method using a spectral pattern, and a computer program.
本発明の文書管理システムは、所定順に並ぶ複数のキーワード及び各キーワードに関連付けられた色情報の入力を受け付け、受け付けたキーワード毎に、当該キーワードを識別するためのキーワードID(IDはIdentificationの略、以下同じ)と前記色情報とを関連付けて第1テーブルに登録するキーワード管理手段と、指定された文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて第2テーブルに登録するスペクトル管理手段と、前記文書データを所定の表示装置に表示する際に、当該文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に表示する表示制御手段と、を備える。 The document management system of the present invention accepts input of a plurality of keywords arranged in a predetermined order and color information associated with each keyword, and for each accepted keyword, a keyword ID (ID is an abbreviation of Identification, for identifying the keyword). The same) and the color information are registered in the first table in association with each other, and the designated document data is divided into predetermined areas, and each divided area is registered in the first table. A search is performed for whether or not a keyword exists. If there is a keyword, color information registered in the first table for the keyword, and if not, a spectrum pattern in which unregistered color information is arranged in the predetermined order is displayed for each divided region. The generated spectrum pattern is associated with a division ID for identifying the division region. When the spectrum data is registered in the two tables and the document data is displayed on a predetermined display device, the keywords registered in the first table of the document data are highlighted with color information unique to the keywords. And a display control means for displaying the spectrum pattern registered in association with the division ID in the second table together with the relative position information of the divided area identified by the division ID.
ある実施の態様では、前記第1テーブルに登録されたキーワードの類義語を当該キーワードについてのキーワードIDと関連付けて第3テーブルに登録する類義語管理手段をさらに備えており、前記スペクトル管理手段は、前記第1テーブルに登録されたキーワードは存在しないが前記第3テーブルに当該キーワードのキーワードIDに関連付けられた類義語が存在する分割領域のスペクトルパターンを当該キーワードに固有の色情報に基づいて作成する。 In an embodiment, the system further comprises synonym management means for associating a synonym of a keyword registered in the first table with a keyword ID for the keyword and registering the synonym in a third table. A spectrum pattern of a divided region where a keyword registered in one table does not exist but a synonym associated with the keyword ID of the keyword exists in the third table is created based on color information unique to the keyword.
また、ある実施の態様では、前記第1テーブルに登録された各色情報のパターンと、前記第2テーブルに登録されているすべてのスペクトルパターンとの類似度を判別し、最も類似度の高いスペクトルパターンに関連付けられている分割IDの分割領域を特定する類似領域検索手段をさらに備えるようにする。 In one embodiment, the similarity between each color information pattern registered in the first table and all spectrum patterns registered in the second table is determined, and the spectrum pattern having the highest similarity is determined. Further, a similar area search means for specifying a divided area of the divided ID associated with is provided.
本発明の文書管理方法は、表示装置に接続される文書管理システムが実行する方法であって、前記表示装置に、第1文書データ及び第2文書データを表示させる段階と、表示された第1文書データの記述内容を特徴付けるために所定順に並べられた複数のキーワード及び各キーワードに関連付けられた色情報の入力を受け付け、受け付けたキーワード毎に、当該キーワードを識別するためのキーワードIDと前記色情報とを関連付けて第1テーブルに登録する段階と、前記第2文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて第2テーブルに登録する段階と、前記第1テーブルに登録された各色情報のパターンと、前記第2テーブルに登録されているすべてのスペクトルパターンとの類似度を判別し、最も類似度の高いスペクトルパターンに関連付けられている分割IDの分割領域を特定する段階と、特定した分割領域の文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に前記表示装置に表示させる段階とを有する、スペクトルパターンによる文書管理方法である。 The document management method according to the present invention is a method executed by a document management system connected to a display device, the step of displaying the first document data and the second document data on the display device, and the displayed first A plurality of keywords arranged in a predetermined order for characterizing the description content of the document data and input of color information associated with each keyword are received, and for each received keyword, a keyword ID for identifying the keyword and the color information Are registered in the first table in association with each other, and the second document data is divided into predetermined areas, and a search is performed to determine whether or not the keyword registered in the first table exists in each divided area. If it exists, the color information registered in the first table for the keyword is displayed. A spectral pattern arranged in a fixed order is generated for each divided region, and the generated spectral pattern is registered in the second table in association with a divided ID for identifying the divided region, and registered in the first table. Determining the similarity between each color information pattern and all the spectral patterns registered in the second table, and identifying the division region of the division ID associated with the highest similarity spectral pattern; Spectral patterns registered in association with the division IDs in the second table, while highlighting the keywords registered in the first table in the document data of the identified divided regions with color information unique to the keywords. Is displayed on the display device together with the relative position information of the divided area identified by the division ID. And a step, a document management method according to the spectral pattern.
本発明のコンピュータプログラムは、第1テーブル及び第2テーブルを有するコンピュータを、所定順に並ぶ複数のキーワード及び各キーワードに関連付けられた色情報の入力を受け付け、受け付けたキーワード毎に、当該キーワードを識別するためのキーワードIDと前記色情報とを関連付けて前記第1テーブルに登録するキーワード管理手段、指定された文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて前記第2テーブルに登録するスペクトル管理手段、及び、前記文書データを所定の表示装置に表示する際に、当該文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に表示する表示制御手段、として機能させるコンピュータプログラムである。 The computer program of the present invention receives a plurality of keywords arranged in a predetermined order and color information associated with each keyword, and identifies the keyword for each received keyword. keyword management means for registering in the first table in association keyword ID and the said color information for, with dividing the designated document data for each predetermined region, in each divided area, it is registered in the first table If there is a keyword, the color information registered in the first table for the keyword is found. If not, the spectrum pattern in which the unregistered color information is arranged in the predetermined order is divided into regions. Generate each time, and identify the divided area by the generated spectrum pattern Spectrum management means for registering in association with the divided ID of fit to the second table, and the document data when displaying on a predetermined display device, the keywords registered in the first table of the document data Display control that highlights the color information unique to the keyword and displays the spectral pattern registered in association with the division ID in the second table together with the relative position information of the division area identified by the division ID it is a computer program to function means as.
本発明によれば、キーワードに関連した領域の有無と当該領域の相対位置を視覚的に把握できるので閲覧性が高まるとともに、複数の文書データを対比した場合には、関連領域の有無も容易に把握できるので、文書データ間のの対比や記述内容の把握作業に要する時間を短縮することができるという効果が得られる。 According to the present invention, since the presence / absence of a region related to a keyword and the relative position of the region can be visually grasped, the browsing property is improved, and when a plurality of document data are compared, the presence / absence of a related region is also easy. Since it can be grasped, it is possible to shorten the time required for comparing the document data and grasping the description contents.
以下、図面を参照して、本発明の実施の形態例を説明する。
図1は、本実施形態における文書管理システムの構成図である。この文書管理システム1は、コンピュータ本体10と、ハードディスク等の外部記憶装置20と、キーボード等から成る入力装置30と、例えばOCRやUSBメモリ等からの読取機構等から成る文書データ取込装置40と、液晶ディスプレイ等の表示装置50とを備えて構成される。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a configuration diagram of a document management system according to this embodiment. The
コンピュータ本体10は、外部記憶装置20にインストールされた本発明のコンピュータプログラムを実行することにより、コンピュータ本体を、入出力(I/O)制御部11、キーワード管理部12、類義語管理部13、文書管理部14、スペクトル管理部15、表示制御部16、スペクトル評価部17として機能させる。
The computer
外部記憶装置20には、上記のコンピュータプログラム及び必要なデータのほか、キーワードテーブル21、類義語テーブル22、分割済文書テーブル23、スペクトルテーブル24、文書データベース(以下、データベースを「DB」と称する。)25、及び、類義語辞書26が格納される。
In the
キーワードテーブル21は、「キーワードID」毎に、「キーワード」及び「表示色」を関連付けて記憶する。キーワードIDは、例えば受付番号(通し番号)やキーワード名などである。類義語テーブル22は、「キーワードID」毎に、類義語辞書から取得した類義語を関連付けて記憶する。分割済文書テーブル23は、「文書ID」、「分割ID」及び「分割文書データ」を相互に関連付けて記憶する。スペクトルテーブル24は、「文書ID」、「分割ID」、「スペクトル表示パターン」を相互に関連付けて記憶する。 The keyword table 21 stores “keyword” and “display color” in association with each “keyword ID”. The keyword ID is, for example, a reception number (serial number) or a keyword name. The synonym table 22 stores a synonym acquired from the synonym dictionary in association with each “keyword ID”. The divided document table 23 stores “document ID”, “division ID”, and “divided document data” in association with each other. The spectrum table 24 stores “document ID”, “division ID”, and “spectrum display pattern” in association with each other.
コンピュータ本体10において実現される機能は、以下のようなものである。
[入出力制御部]
入出力(I/O)制御部11は、入力装置30からの処理の指示や検索語等の入力の受付、文書データ取込装置40からの文書データの取込、表示装置50への処理内容又は処理結果の出力、外部記憶装置20へのデータ登録及びその読み出しを制御する。
The functions realized in the computer
[Input / output control unit]
The input / output (I / O) control unit 11 receives processing instructions and input of search terms from the
[キーワード管理部]
キーワード管理部12は、対象となる文書データ中に出現するキーワードとそのキーワードを色によって強調表示させるための色情報とを関連付けてキーワードテーブル21に登録する。この処理は、ユーザから1つ以上のキーワードとそのキーワードを着色するための色情報とを受け付けることにより行う。受け付けたキーワード毎に、「01」、「02」・・・のような連続番号でキーワードIDを割り当て、受け付けた色情報をキーワードIDと関連付けて登録する。
このようにして登録されたキーワードテーブル21の登録例を図2に示す。図2の例では、キーワードID「01」で識別されるキーワード「認識」については「赤」で着色表示することを表している。同様に、キーワードID「02」で識別されるキーワード「画像」については「黄」、キーワードID「03」で識別されるキーワード「障害」については「緑」、キーワードID「04」で識別されるキーワード「センサ」については「紫」で着色表示することを表している。
[Keyword Management Department]
The keyword management unit 12 registers the keyword appearing in the target document data and the color information for highlighting the keyword by color in the keyword table 21 in association with each other. This process is performed by receiving one or more keywords and color information for coloring the keywords from the user. For each accepted keyword, a keyword ID is assigned with a serial number such as “01”, “02”..., And the received color information is registered in association with the keyword ID.
A registration example of the keyword table 21 registered in this way is shown in FIG. In the example of FIG. 2, the keyword “recognition” identified by the keyword ID “01” is colored and displayed in “red”. Similarly, the keyword “image” identified by the keyword ID “02” is identified by “yellow”, the keyword “failure” identified by the keyword ID “03” is identified by “green”, and the keyword ID “04”. The keyword “sensor” indicates that it is colored with “purple”.
[類義語管理部]
類義語管理部13は、キーワードテーブル21に登録された全キーワードを対象として、それぞれ類義語辞書26の検索により類義語を取得し、取得した類義語毎に、検索元キーワードのキーワードIDとの組にして、類義語テーブル22に登録する。
類義語テーブル22の登録例を図3に示す。図3の例では、キーワードID「01」つまり検索元キーワードが「認識」であり、類義語辞書26から「識別」及び「特定」という類義語が検索により得られたため、キーワードID「01」と類義語「識別」、及びキーワードID「01」と類義語「特定」を類義語テーブル22に登録されている。
同様に、検索元キーワードが「画像」であり、類義語辞書26から「イメージ」、「静止画」、「フレーム」という類義語が検索により得られたため、それぞれ、検索元キーワード「画像」のキーワードID「02」との組として類義語テーブル22に登録されている。他の検索元キーワードについても同様の手順で類義語テーブル22に類義語が登録される。
[Synonym Management Department]
The
A registration example of the synonym table 22 is shown in FIG. In the example of FIG. 3, since the keyword ID “01”, that is, the search source keyword is “recognition”, and synonyms “identification” and “specific” are obtained from the
Similarly, since the search source keyword is “image” and the synonyms “image”, “still image”, and “frame” are obtained from the
[文書管理部]
文書管理部14は、文書データの取込、分割、編集、保存及び読み出しを行う。
すなわち、文書データを文書データ取込装置40より取り込み、文書IDと共に、文書DB25に格納する。取り込んだ文書データを、便宜上「元文書データ」と称する。文書IDには、通し番号を用いる。
[Document Management Department]
The
That is, the document data is fetched from the document
文書管理部14は、また、元文書データを所定のルールに基づいて分割する。分割された文書データを、便宜上「分割文書データ」と称する。分割のルールは、例えばパターン抽出により行う。パターン抽出は、例えば特許文書であれば、段落番号の墨付き開き括弧を起点とし、数字、墨付き閉じ括弧、文書、次の段落番号の墨付き開き括弧の直前を終点とするパターンを検出することにより行う。これにより得られる分割文書データは、当該段落番号で識別される領域の文書データとなる。なお、人手により意味のある範囲に分割するようにしても良い。
The
文書管理部14は、上記のようにして得られた分割文書データ毎に分割ID(例えば通し番号)を割り当て、分割元の文書データの文書ID及び分割文書データと共に、分割文書テーブル23に登録する。
例えば文書ID「001」で識別される文書データが、図4のようなものであったとすると、文書分割部14で分割された分割文書データについての分割文書テーブルの内容は、図5のようになる。図5の例では、文書ID「001」の文書データから分割した分割文書データに分割ID「1」、「2」・・・が割り当てられ、文書ID及び各分割IDの組で識別される領域に、分割文書データの内容が関連付けられて記憶されている。
The
For example, if the document data identified by the document ID “001” is as shown in FIG. 4, the contents of the divided document table for the divided document data divided by the
文書管理部14は、また、元文書データにおける各分割文書データの先頭に位置情報を追加するとともに、その位置情報を識別するための位置情報IDを分割IDと関連付けて分割文書テーブル23に登録する。位置情報はHTML文書を例にとれば、アンカータグであり、位置情報IDは、アンカータグの名前属性、例えば、文書IDと分割IDを連結した文字列を用いることができる。
The
文書管理部14は、さらに、元文書データ及び分割文書データにおいて出現する文字列をキーワードテーブル21に登録されている色情報で着色した改変文書データを作成する。この機能については、後述する。
The
[スペクトル管理部]
スペクトル管理部15は、分割文書データ毎に、キーワードが存在するかどうかを所定の順序(例えばキーワード登録順)で調べる。具体的には、図6に示す手順で、スペクトル表示パターンを出力し、スペクトルテーブル24に登録する。
すなわち、全分割文書データを対象として、それぞれ、キーワードテーブル21に登録されたキーワードが存在するかどうかを調べる(ステップS101)。キーワードが存在する場合(ステップS101:Yes)、あるいはキーワードは存在しないが、当該キーワードのキーワードIDに対する類義語が類義語テーブル22に存在する場合(ステップS101:No、S102:Yes)は、キーワードテーブル21においてそのキーワードIDに関連付けられた色情報を出力する(ステップS103)。
一方、キーワードも類義語も存在しない場合(ステップS101:No、S102:No)は、未使用色を出力する(ステップS104)。未使用色は、キーワードテーブル21において指定しない色であればどのような色であっても良いが、本例では説明の都合上、「黒」とした。すべての分割文書データにおいてキーワードが残存する場合はステップS101の処理に戻り(ステップS105:No)、全キーワードの探索が終了した時点で処理を終える(ステップS105:Yes)。
[Spectrum Management Department]
The
That is, it is checked whether or not there is a keyword registered in the keyword table 21 for all divided document data (step S101). If the keyword exists (step S101: Yes), or the keyword does not exist, but the synonym for the keyword ID of the keyword exists in the synonym table 22 (step S101: No, S102: Yes), the keyword table 21 The color information associated with the keyword ID is output (step S103).
On the other hand, when neither a keyword nor a synonym exists (step S101: No, S102: No), an unused color is output (step S104). The unused color may be any color as long as it is not specified in the keyword table 21, but in this example, “black” is used for convenience of explanation. If keywords remain in all the divided document data, the process returns to step S101 (step S105: No), and the process ends when the search for all keywords is completed (step S105: Yes).
これにより、分割文書データ毎に、キーワードテーブル21に登録された色情報の並びで、スペクトル表示パターンが生成される。スペクトル管理部15は、スペクトル表示パターンを、文書ID、分割文書IDと共に、スペクトルテーブル24に登録する。
As a result, a spectrum display pattern is generated for each divided document data in a sequence of color information registered in the keyword table 21. The
図7は、図4に示した分割文書データについて、キーワード(類義語を含む)の抽出前及び抽出後の状態を示した図である。図示の例において、分割IDが1の分割文書データ(段落0015)では、最初に、キーワードテーブル21に登録された5種類のキーワードのうち、最初のキーワード「認識」411が出現するので、出力される色は「赤」となる。キーワードテーブル21に2番目に登録された「画像」は出現しないので、出力される色は「黒」となる。3番目のキーワード「障害」は出現しないが、類義語「トラブル」413が出現するので、出力される色は、「障害」について割り当てられた「緑」となる。4番目に登録されたキーワード「センサ」及び5番目に登録されたキーワード「ICチップ」は当該分割文書データには存在しないので、出力される色は、共に「黒」となる。
同じ元文書データで分割IDが2の分割文書データ(段落0015)についても、最初に、登録されたキーワード「認識」411が出現し、次いで、2番目に登録されたキーワード「画像」415も出現するが、その他のキーワードは存在しないので、出力される色はいずれも「黒」となる。
FIG. 7 is a diagram showing a state before and after extraction of keywords (including synonyms) for the divided document data shown in FIG. In the illustrated example, in the divided document data (paragraph 0015) with the
Also for the divided document data (paragraph 0015) with the same original document data and the
その結果、スペクトルテーブル24には、図8に示すように、分割ID「1」の分割文書データについては「赤、黒、緑、黒、黒」のスペクトル表示パターンが登録され、分割ID「2」の分割文書データについては「赤、黄、黒、黒、黒」のスペクトル表示パターンが登録される。
なお、キーワードに代えて類義語を用いた場合、本例のようにキーワードとその類義語のスペクトル表示パターンにおける位置を同じとしても良いが、両者を区別しても良い。
As a result, as shown in FIG. 8, a spectrum display pattern of “red, black, green, black, black” is registered in the spectrum table 24 for the divided document data with the division ID “1”, and the division ID “2” is registered. As for the divided document data “”, a spectrum display pattern “red, yellow, black, black, black” is registered.
When synonyms are used instead of keywords, the positions of the keywords and the synonyms in the spectrum display pattern may be the same as in this example, but they may be distinguished from each other.
[表示制御部]
表示制御部16は、文書データ(元文書データ及び分割文書データ)とスペクトル表示パターンを表示装置50に表示させるための制御を行う。具体的には、キーワードテーブル21に登録されたキーワード、スペクトルテーブル24に登録されたスペクトル表示パターン、文書DB25に格納された文書データを取得し、指定したキーワードの強調表示に加え、文書データ、及び、その文書データにおけるスペクトル表示パターンを1つの組として、1又は複数の文書データを表示装置50に並列に表示できるようにする。
[Display control unit]
The
[スペクトル評価部]
スペクトル評価部17は、キーワードテーブル21に登録されているキーワードの類義語を並べたスペクトル表示パターンと、各分割文書データのスペクトルテーブル24のスペクトル表示パターンとの距離を算出し、各分割文書データ毎に最も距離が短いスペクトル表示パターンを与える分割文書データの分割IDを特定する。
距離尺度の例としては、例えば、等しい文字数を持つ二つの文字列に対して、対応する位置にある文字同士が、異なった場合の個数を距離として与えるハミング距離を用いても良い。図2を例にとると、赤黄緑紫青のスペクトル表示パターンとの距離が最も短いスペクトル表示パターンを与える分割文書の分割IDを特定する。特定された分割IDは、対応するスペクトル表示位置と共に表示制御部17に伝達される。
なお、指定キーワードに最も類似したスペクトル位置をユーザに通知する形態を採用しても良い。
[Spectrum evaluation section]
The
As an example of the distance scale, for example, for two character strings having the same number of characters, a Hamming distance that gives the number when the characters at corresponding positions are different as the distance may be used. Taking FIG. 2 as an example, the division ID of the division document that gives the spectral display pattern having the shortest distance from the red, yellow, green, violet, and blue spectral display pattern is specified. The identified division ID is transmitted to the
In addition, you may employ | adopt the form which notifies a user the spectrum position most similar to a designated keyword.
[動作]
次に、本実施形態における文書管理システム1の動作を説明する。
ここでは、表示装置50に、二つの特許文献を同時に表示させ、一方の特許文献(第1文書データ)の記述内容に類似する内容が記述された他方の特許文献(第2文書データ)の領域を表示装置50上で強調表示させることにより、特許文献間の関連度を視覚的に把握できるようにしたインタフェースの例を示す。
図9は、この場合に文書管理システム1が実行する処理の手順説明図、図10は、表示装置50における画面表示例である。
[Operation]
Next, the operation of the
Here, two patent documents are simultaneously displayed on the
FIG. 9 is an explanatory diagram of the procedure executed by the
文書管理システム1は、2つの特許文献名とキーワードとを入力するための画面を表示装置50に表示させる。図10の左側は、これらの情報のエントリ領域510であり、特許文献1のファイル名1の入力領域52、他の特許文献のファイル名2の入力領域54、及び複数(図示の例では5つ)のキーワードの入力領域511〜515が形成されている。各キーワードの入力領域511〜515には、予め固有の色情報が割り当てられている。
The
操作者により2つの特許文献が指定されると、文書管理システム1は、指定された各特許文献を取り込み、それぞれ文書IDを付与して文書DB25に格納する(ステップS1)。
When two patent documents are designated by the operator, the
その後、特許文献1を図10の第1文書領域520、特許文献2を第2文書領域540にそれぞれ表示させる(ステップS2)。
Thereafter,
操作者が、表示された特許文献の特許請求の範囲欄521の記述内容を参考にして、当該特許文献1の記述内容を特徴付ける度合いの高い順に、5つのキーワードをエントリ領域511〜515に入力すると、文書管理システム1は、これらのキーワードと、エントリ領域511〜515に割り当てられた色情報とを受け付け、キーワード毎に、当該キーワードを識別するためのキーワードIDと色情報とを関連付けてキーワードテーブル21に登録する(ステップ3)。
When an operator inputs five keywords into the
取り込んだ特許文献1,2をそれぞれ所定ルールで分割するとともに、各分割領域中に、キーワードテーブル21に登録されたキーワードが存在するかどうかをサーチする。存在する場合は当該キーワードについてキーワードテーブル21又は類義語テーブル22に登録されている色情報、存在しない場合は未登録の色情報(黒)を上記の順に並べたスペクトル表示パターンを生成し、生成したスペクトル表示パターンを分割IDと関連付けてスペクトルテーブル24に登録する(ステップS4)。
The
各特許文献の分割及びスペクトルテーブル24への登録後、文書管理システム1は、特許文献1,2をそれぞれの分割文書データの相対位置情報と共に並列に並べて表示装置50に表示させる(ステップS5)。
「特許文献1,2をそれぞれの分割文書データの相対位置情報と共に並列に並べる」とは、図10の例では、第1文書領域520の隣の領域を、特許文献1の1つの分割文書データについて1列となるスペクトル表示パターンを分割文書データの数だけ表示するための第1スペクトル領域530とし、その隣を第2文書領域540とし、さらにその隣を、特許文献2について1つの分割文書データについて1列となるスペクトル表示パターンを分割文書データの数だけ表示するための表示するための第2スペクトル領域550として並べることをいう。第1スペクトル領域530にはスペクトル表示パターンのエレメント531〜535が形成されており、第2スペクトル領域550にも同じ数のエレメント551〜555が形成されている。
After dividing each patent document and registering it in the spectrum table 24, the
“Place the
各スペクトル領域530,550におけるスペクトル表示パターンの配列は、分割文書データにおけるキーワードの存在位置がわかるように、分割IDと指定したキーワードの出現順序に対応する並びとが交差するようにする。例えば、表示装置50の縦軸に分割文書データの相対位置情報、横軸にスペクトル表示パターンのエレメント531〜535,551〜555が2次元配列されるようにする。その際、分割ID毎に、対応する分割文書データの位置情報へのパスを設定する。HTML文書を例にとれば、分割IDに対応した分割文書データへのハイパーリンク(例えばアンカータグ)を張る。
The arrangement of the spectrum display patterns in each
その後、キーワードテーブル21に登録された各色情報のパターンとスペクトルテーブル24に登録されているすべてのスペクトル表示パターンとの類似度をスペクトル評価部17で判別し、最も類似度の高いスペクトル表示パターンに関連付けられている分割IDの分割領域を特定する。そして、特定した分割領域の分割文書データのうち、キーワードテーブル21に登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、スペクトルテーブル24に分割IDと関連付けて登録されているスペクトル表示パターンを、当該分割IDにより識別される分割領域の相対位置情報と共に表示装置50に強調表示させる(ステップS6)。
キーワードの強調表示は、例えばHTML文書であればフォントの属性値で色情報を指定することにより、着色することにより行う。他方、分割領域の相対位置情報の強調表示は、例えば図10において矩形線で区切られた位置536,556が特定できるように他の色で着色したり、あるいはカーソルを重畳表示することにより行う。
Thereafter, the
For example, in the case of an HTML document, keyword highlighting is performed by coloring by specifying color information with a font attribute value. On the other hand, the highlighting of the relative position information of the divided areas is performed by coloring in another color so that the
これにより、例えば、5つのキーワードによって特徴付けられる、第1スペクトル領域530によれば3つめの分割領域536に存在することがわかる特許文献1の特定領域521の記述内容に関連性が高いと思われる特許文献2の記述箇所は、第2スペクトル領域550によれば全体のやや前半領域に位置することがわかる特許文献2の特定領域541であり、その特定領域541のスペクトル表示パターンは分割領域556により確認することができる。
そのため、特許文献1、2の関係の対比を、視覚的に、迅速に把握することができるため、文献対比に要する時間を著しく短縮化することできる。
Thus, for example, the first
Therefore, since the comparison of the relationship between
なお、図10の画面例において、特定のスペクトル表示パターン又はエレメントを選択すると、対応する分割文書データが表示されるようにしても良い。例えば文書ID「001」、分割ID「1」に対応するスペクトルをマウス等で選択すると、文書ID「001」を表示する際に、文書表示位置を分割ID「1」に合わせて表示されるようにしても良い。 In the screen example of FIG. 10, when a specific spectrum display pattern or element is selected, the corresponding divided document data may be displayed. For example, when the spectrum corresponding to the document ID “001” and the division ID “1” is selected with a mouse or the like, the document display position is displayed in accordance with the division ID “1” when the document ID “001” is displayed. Anyway.
さらに、表示装置50に所定のキーワード毎に対応する色情報として、スペクトルが表示された特許文献1、2の分割文書データに対し、利用者から指示があると、文書管理部14は、当該分割文書データの各キーワードを、対応付けられた色で着色したHTMLファイルなどのファイルとして、外部記憶装置20に出力し、図示しない領域に記憶するよにしても良い。これにより、キーワードテーブル21に記憶されている色情報で着色した改変データを作成することで、対比の結果を後に容易に参照することができる。
Further, when the user gives an instruction to the divided document data of
このように、本実施形態の文書管理システム1によれば、対比したい複数の文書データの注目領域のみならず、文書データ間の関連箇所をスペクトル表示により容易に把握可能な、閲覧性に優れたインタフェースを実現することができる。
本実施形態の文書管理システム1は、また、指定したキーワードが対比先の文書データに存在しない場合は、類義語辞書26を用いた類義語展開を行うようにしたので、指定キーワードに対応した意味区間の所在を容易に把握することもできるようになる。
As described above, according to the
The
[変形例]
以上の説明では、第1文書データ及び第2文書データの双方を分割して、スペクトル領域も文書データ数にあわせて2つ形成した場合の例について説明したが、分割は第2文書データのみについて行うようにしても良い。
また、図9の説明では、キーワード群及び固有の色情報をキーワードテーブル21に登録した後に、文書データを分割するようにしたが、この処理は、逆であっても良い。
また、本実施形態では、スペクトル表示パターンを5つの色の組み合わせで説明したが、これは指定されたキーワードを5つにしたためなので、色の組み合わせ数は、キーワードの数に応じて任意に変更が可能なものである。
また、以上の説明では、各キーワードの入力領域511〜515に対する表示色を予め定められたものとしたが、利用者が表示色を画面上で設定するようにしても良い。
さらに、指定したキーワードに対する類義語についても、利用者が画面上で設定できるようにし、指定した類義語だけが強調表示されるようにしても良い。
[Modification]
In the above description, an example in which both the first document data and the second document data are divided and two spectrum regions are formed in accordance with the number of document data has been described. However, the division is performed only on the second document data. You may make it do.
In the description of FIG. 9, the document data is divided after the keyword group and the unique color information are registered in the keyword table 21. However, this process may be reversed.
In this embodiment, the spectrum display pattern has been described with five color combinations. However, since this is because five designated keywords are used, the number of color combinations can be arbitrarily changed according to the number of keywords. It is possible.
In the above description, the display colors for the
Furthermore, the synonym for the designated keyword may be set on the screen by the user, and only the designated synonym may be highlighted.
1・・・文書管理システム、10・・・・コンピュータ本体、11・・・入出力(I/O)制御部、12・・・キーワード管理部、13・・・類義語管理部、14・・・文書管理部、15・・・スペクトル管理部、16・・・表示制御部、17・・・スペクトル評価部、20・・・外部記憶装置、21・・・キーワードテーブル、22・・・類義語テーブル、23・・・分割済文書テーブル、24・・・スペクトルテーブル、25・・・文書DB、26・・・類義語辞書、30・・・入力装置、40・・・文書データ取込装置、50・・・表示装置、52・・・ファイル名1の入力領域、54・・・ファイル名2の入力領域、510・・・エントリ領域、511〜515・・・キーワードの入力領域、520・・・第1文書領域、530・・・第1スペクトル領域、540・・・第2文書領域、550・・・第2スペクトル領域、531〜535,551〜555・・・スペクトル表示パターンのエレメント、536,556・・・分割文書データの相対位置を表す情報。
DESCRIPTION OF
Claims (5)
指定された文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて第2テーブルに登録するスペクトル管理手段と、
前記文書データを所定の表示装置に表示する際に、当該文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に表示させる制御手段と、
を備えて成る、文書管理システム。 A keyword that receives input of a plurality of keywords arranged in a predetermined order and color information associated with each keyword, and registers a keyword ID for identifying the keyword and the color information in the first table for each received keyword Management means;
The designated document data is divided into predetermined areas, and a search is performed to determine whether or not a keyword registered in the first table exists in each divided area. If there is a keyword, the keyword is stored in the first table. A spectral pattern in which registered color information or unregistered color information is arranged in the predetermined order is generated for each divided region, and the generated spectral pattern is associated with a divided ID for identifying the divided region. Spectrum management means to be registered in the second table,
When displaying the document data on a predetermined display device, the keyword registered in the first table in the document data is highlighted with color information unique to the keyword, and is divided into the second table. Control means for displaying the spectrum pattern registered in association with the ID together with the relative position information of the divided area identified by the divided ID;
A document management system comprising:
前記スペクトル管理手段は、
前記第1テーブルに登録されたキーワードは存在しないが前記第3テーブルに当該キーワードのキーワードIDに関連付けられた類義語が存在する分割領域のスペクトルパターンを当該キーワードに固有の色情報に基づいて作成する、
請求項1記載の文書管理システム。 Synonym management means for associating a synonym of the keyword registered in the first table with a keyword ID for the keyword and registering the synonym in the third table;
The spectrum management means includes
Creating a spectral pattern of a divided region in which the keyword registered in the first table does not exist but the synonym associated with the keyword ID of the keyword exists in the third table based on color information unique to the keyword;
The document management system according to claim 1.
請求項2記載の文書管理システム。 The similarity between each color information pattern registered in the first table and all the spectrum patterns registered in the second table is determined, and the division ID associated with the spectrum pattern having the highest similarity is determined. It further comprises a similar area search means for specifying a divided area.
The document management system according to claim 2.
前記表示装置に、第1文書データ及び第2文書データを表示させる段階と、
表示された第1文書データの記述内容を特徴付けるために所定順に並べられた複数のキーワード及び各キーワードに関連付けられた色情報の入力を受け付け、受け付けたキーワード毎に、当該キーワードを識別するためのキーワードIDと前記色情報とを関連付けて第1テーブルに登録する段階と、
前記第2文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて第2テーブルに登録する段階と、
前記第1テーブルに登録された各色情報のパターンと、前記第2テーブルに登録されているすべてのスペクトルパターンとの類似度を判別し、最も類似度の高いスペクトルパターンに関連付けられている分割IDの分割領域を特定する段階と、
特定した分割領域の文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に前記表示装置に表示させる段階とを有する、
スペクトルパターンによる文書管理方法。 A method executed by a document management system connected to a display device, comprising:
Displaying the first document data and the second document data on the display device;
A keyword for identifying a plurality of keywords arranged in a predetermined order for characterizing the description content of the displayed first document data and color information associated with each keyword and identifying the keyword for each received keyword Registering the ID and the color information in the first table in association with each other;
The second document data is divided into predetermined areas, and a search is made as to whether or not a keyword registered in the first table exists in each divided area. If there is a keyword, the keyword is stored in the first table. A spectral pattern in which registered color information or unregistered color information is arranged in the predetermined order is generated for each divided region, and the generated spectral pattern is associated with a divided ID for identifying the divided region. Registering in the second table,
The similarity between each color information pattern registered in the first table and all the spectrum patterns registered in the second table is determined, and the division ID associated with the spectrum pattern having the highest similarity is determined. Identifying a segmented area;
Spectral patterns registered in association with the division IDs in the second table, while highlighting the keywords registered in the first table in the document data of the identified divided regions with color information unique to the keywords. And displaying on the display device together with relative position information of the divided area identified by the division ID,
Document management method by spectral pattern.
所定順に並ぶ複数のキーワード及び各キーワードに関連付けられた色情報の入力を受け付け、受け付けたキーワード毎に、当該キーワードを識別するためのキーワードIDと前記色情報とを関連付けて前記第1テーブルに登録するキーワード管理手段、
指定された文書データを所定領域毎に分割するとともに、各分割領域中に、前記第1テーブルに登録されたキーワードが存在するかどうかをサーチし、存在する場合は当該キーワードについて前記第1テーブルに登録されている色情報、存在しない場合は未登録の色情報を前記所定順に並べたスペクトルパターンを分割領域毎に生成し、生成したスペクトルパターンを、当該分割領域を識別するための分割IDと関連付けて前記第2テーブルに登録するスペクトル管理手段、及び、
前記文書データを所定の表示装置に表示する際に、当該文書データのうち前記第1テーブルに登録されたキーワードを当該キーワードに固有となる色情報で強調表示するとともに、前記第2テーブルに前記分割IDと関連付けて登録されているスペクトルパターンを、当該分割IDにより識別される分割領域の相対位置情報と共に表示する表示制御手段、として機能させる、コンピュータプログラム。 A computer having a first table and a second table;
A plurality of keywords arranged in a predetermined order and input of color information associated with each keyword are received, and for each received keyword, a keyword ID for identifying the keyword and the color information are associated and registered in the first table. Keyword management means,
The designated document data is divided into predetermined areas, and a search is performed to determine whether or not a keyword registered in the first table exists in each divided area. If there is a keyword, the keyword is stored in the first table. A spectral pattern in which registered color information or unregistered color information is arranged in the predetermined order is generated for each divided region, and the generated spectral pattern is associated with a divided ID for identifying the divided region. Spectrum managing means for registering in the second table, and
When displaying the document data on a predetermined display device, the keyword registered in the first table in the document data is highlighted with color information unique to the keyword, and is divided into the second table. A computer program that functions as display control means for displaying a spectrum pattern registered in association with an ID together with relative position information of a divided area identified by the divided ID.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117572A JP5288617B2 (en) | 2009-05-14 | 2009-05-14 | Document management system, document management method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117572A JP5288617B2 (en) | 2009-05-14 | 2009-05-14 | Document management system, document management method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267062A JP2010267062A (en) | 2010-11-25 |
JP5288617B2 true JP5288617B2 (en) | 2013-09-11 |
Family
ID=43363985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009117572A Expired - Fee Related JP5288617B2 (en) | 2009-05-14 | 2009-05-14 | Document management system, document management method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5288617B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5678256B2 (en) * | 2011-05-16 | 2015-02-25 | アイビーリサーチ株式会社 | Intellectual property management device |
JP6301278B2 (en) * | 2015-03-30 | 2018-03-28 | 新日鉄住金ソリューションズ株式会社 | Information processing apparatus, information processing method, and program |
CN111125432B (en) * | 2019-12-25 | 2023-07-11 | 重庆能投渝新能源有限公司石壕煤矿 | Video matching method and training rapid matching system based on same |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0581327A (en) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | Information retrieval supporting processor |
JPH05274314A (en) * | 1992-03-25 | 1993-10-22 | Canon Inc | Document processor |
JPH07146872A (en) * | 1993-11-22 | 1995-06-06 | Nippon Steel Corp | Document retrieval device |
JPH08255163A (en) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | Document retrieval device |
JP2005063283A (en) * | 2003-08-19 | 2005-03-10 | Ricoh Co Ltd | Document browsing device, document browsing method, program and recording medium |
US7793230B2 (en) * | 2006-11-30 | 2010-09-07 | Microsoft Corporation | Search term location graph |
-
2009
- 2009-05-14 JP JP2009117572A patent/JP5288617B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010267062A (en) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4461769B2 (en) | Document retrieval / browsing technique and document retrieval / browsing device | |
US20140304579A1 (en) | Understanding Interconnected Documents | |
US9384268B2 (en) | Information processing device, information processing method and computer program for highlighting content in an electronic document | |
JPH07282063A (en) | Machine translation device | |
JP6514268B2 (en) | Method of detecting correspondence between claim components within the scope of claims and corresponding symbols of component belonging to nouns | |
JP5288617B2 (en) | Document management system, document management method, and computer program | |
JP4724158B2 (en) | Method and apparatus for automatic form filling in mobile devices | |
JP6044800B2 (en) | Color evaluation apparatus, color evaluation method, and computer program | |
JP2007279978A (en) | Document retrieval device and document retrieval method | |
KR101069278B1 (en) | Apparatus and Method for visualization of patent claim | |
CN112149402B (en) | Document matching method, device, electronic equipment and computer readable storage medium | |
JP2004157668A (en) | Retrieval system, retrieval method and retrieval program | |
JP2002132796A (en) | Computer readable recording medium with image feature amount vs keyword dictionary recorded thereon, device and method for constructing image feature amount vs keyword dictionary, device and method for supporting image database construction | |
JP5826148B2 (en) | Drawing management server and drawing management system using the same | |
JP2008176625A (en) | Device and method for managing character recognition result, and computer program | |
KR20100115048A (en) | System for distinguishing copy document and method therefor | |
JPH11232303A (en) | Text retrieval device | |
JP2014199476A (en) | Machine translation device, machine translation method and program | |
JP2014044555A (en) | Image processing apparatus, image processing system, and program | |
JP2005316881A (en) | Program for drawing retrieval, drawing retrieval device, and method for displaying drawing retrieval result | |
JP2008065577A (en) | Document retrieval system, document retrieval program and computer-readable recording medium recorded with document retrieval program | |
JP6048492B2 (en) | Color information storage device, color information storage method, and computer program | |
JP2004295301A (en) | Document retrieval device | |
JP2010262578A (en) | Apparatus for generating form dictionary, apparatus for identifying form, method of generating form dictionary, and program | |
JP4462508B2 (en) | Information processing apparatus and definition information generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5288617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |