JP2006343964A - Document management system, document management method and program - Google Patents

Document management system, document management method and program Download PDF

Info

Publication number
JP2006343964A
JP2006343964A JP2005168449A JP2005168449A JP2006343964A JP 2006343964 A JP2006343964 A JP 2006343964A JP 2005168449 A JP2005168449 A JP 2005168449A JP 2005168449 A JP2005168449 A JP 2005168449A JP 2006343964 A JP2006343964 A JP 2006343964A
Authority
JP
Japan
Prior art keywords
document
document data
group
document management
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005168449A
Other languages
Japanese (ja)
Inventor
Shuichi Morisawa
秀一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005168449A priority Critical patent/JP2006343964A/en
Publication of JP2006343964A publication Critical patent/JP2006343964A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To easily execute a maintenance operation for discard object documents even when a large number of documents are turned into discard objects. <P>SOLUTION: This document management system(document management server 1) for storing and managing document data is configured to discriminate whether or not document data satisfying prescribed discard conditions are stored, and to, when there are a plurality of document data discriminated to satisfy the prescribed discard conditions, group the plurality of document data according to the similarity of document content. Then, the plurality of document data are list-displayed as discard candidates for each of the divided groups. Also, the summary of document content shown by the whole document data belonging to the corresponding group is prepared for each of the divided groups. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書管理システム、文書管理方法、及びプログラムに関し、特に、複数の文書データを、廃棄期限を設けて保管管理する文書管理システム、該文書管理システムに適用される文書管理方法、及び該文書管理方法をコンピュータに実行させるためのプログラムに関する。   The present invention relates to a document management system, a document management method, and a program, and in particular, a document management system that stores and manages a plurality of document data with a disposal time limit, a document management method applied to the document management system, and the program The present invention relates to a program for causing a computer to execute a document management method.

近年、電子文書をインターネット等のネットワークを通じて共有、配信することが盛んに行われているが、電子文書を電子メールに添付するには、データサイズ上の制限がある場合が多い。そのため、電子メールに添付するのではなく、共有の文書管理サーバを設け、該文書管理サーバに、利用する会社や組織に対応したフォルダを登録し、該フォルダを介してファイルをやり取りする文書管理システムが構築されている。そこでは、電子文書のアップロード、コピー、ダウンロードなどの機能を使用して、業務に必要な文書の保管、共有、あるいは配信が行われている。   In recent years, electronic documents have been actively shared and distributed through networks such as the Internet. However, in many cases, there are restrictions on data size in order to attach electronic documents to electronic mail. Therefore, instead of attaching to an e-mail, a document management system is provided in which a shared document management server is provided, a folder corresponding to the company or organization to be used is registered in the document management server, and files are exchanged via the folder Has been built. There, storage, sharing, or distribution of documents necessary for business is performed using functions such as uploading, copying, and downloading electronic documents.

この種の文書管理システムにおいてよく使用される機能に、文書の保管期限をシステムで管理する自動廃棄機能がある。この機能によれば、保管登録後に所定の期間が経過した文書、または所定の廃棄日時に至った文書が存在する場合に、システムがそれを検出してそれらを自動廃棄対象の候補としてリスト表示する。それを参照したユーザは、廃棄対象文書を実際に廃棄する指示を行ったり、廃棄期限のリセットをして保管の延長を行ったりする処置を取る。   A function often used in this type of document management system is an automatic disposal function for managing the storage period of documents by the system. According to this function, when there is a document that has passed a predetermined period after storage registration or a document that has reached a predetermined disposal date, the system detects it and displays it as a candidate for automatic disposal. . The user who refers to it takes an instruction to actually discard the document to be discarded, or to reset the disposal deadline and extend the storage.

ユーザは、このような廃棄候補のリスト表示において表示される文書の名前や書誌情報などを参照して、その文書を廃棄すべきか否かを判定している(例えば、特許文献1参照)。しかし、その文書の内容を確認してから判断したい場合には、いちいちその電子文書にアクセスしてファイルを開き参照する必要があった。
特開平09−006657号公報
The user refers to the document name and bibliographic information displayed in the discard candidate list display to determine whether or not the document should be discarded (for example, see Patent Document 1). However, in order to make a decision after confirming the contents of the document, it is necessary to access the electronic document, open the file, and refer to it.
JP 09-006657 A

しかしながら、上記従来の文書管理システムにおいて、自動廃棄対象の文書が多数存在する場合には、個々の文書ファイルを開いて内容を確かめたり、概要を表示させたりすることは煩わしいことであった。そのため、せっかく自動廃棄機能が存在しても、ユーザはそれらの確認作業や実際の削除作業をつい先延ばしにしてしまいがちであった。その結果、文書管理サーバ上に不要な文書が多数蓄積されてしまい、真に必要とされる文書へのアクセスを妨げる要因となっていた。   However, in the conventional document management system, when there are a large number of documents to be automatically discarded, it is troublesome to open individual document files to check the contents or to display an outline. For this reason, even if there is an automatic discard function, the user tends to postpone the confirmation work and the actual deletion work. As a result, many unnecessary documents are accumulated on the document management server, which is a factor that hinders access to a truly required document.

本発明はこのような問題点に鑑みてなされたものであって、多数の文書が廃棄対象となった場合でも、廃棄対象文書に対するメンテナンス作業を簡便に行えるようにした文書管理システム、文書管理方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of such problems, and a document management system and a document management method that can easily perform maintenance work on a document to be discarded even when a large number of documents are to be discarded. And to provide a program.

上記目的を達成するために、請求項1記載の発明によれば、文書データを保管管理する文書管理システムにおいて、所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別手段と、前記判別手段によって前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピング手段と、前記グルーピング手段によって分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示手段とを有することを特徴とする文書管理システムが提供される。   In order to achieve the above object, according to the first aspect of the present invention, in the document management system for storing and managing document data, the determining means for determining whether or not the document data satisfying a predetermined disposal condition is stored. When there are a plurality of document data determined to satisfy the predetermined disposal condition by the determination unit, the plurality of document data are grouped according to the similarity of the document contents, and the grouping unit There is provided a document management system comprising display means for displaying a list of the plurality of document data as discard candidates for each group.

また、請求項6記載の発明によれば、文書データを保管管理する文書管理システムに適用される文書管理方法において、所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップとを有することを特徴とする文書管理方法が提供される。   According to the sixth aspect of the present invention, in the document management method applied to the document management system for storing and managing document data, the determination step for determining whether or not the document data satisfying a predetermined disposal condition is stored. And when there are a plurality of document data determined to satisfy the predetermined disposal condition in the determination step, the grouping step of grouping the plurality of document data according to the similarity of the document contents, and the grouping step There is provided a document management method comprising a display step of displaying a list of the plurality of document data as discard candidates for each divided group.

さらに、上記文書管理方法をコンピュータに実行させるためのプログラムが提供される。   Furthermore, a program for causing a computer to execute the document management method is provided.

本発明によれば、文書データを保管管理する文書管理システムにおいて、所定の廃棄条件を満たす文書データが保管されているか否かを判別し、前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けする。そして、分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する。また、分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成する。   According to the present invention, in a document management system for storing and managing document data, it is determined whether or not document data satisfying a predetermined discarding condition is stored, and the document data determined to satisfy the predetermined discarding condition is determined. When there are a plurality of documents, the plurality of document data are grouped according to the similarity of the document contents. Then, for each divided group, the plurality of document data are displayed as a list of discard candidates. In addition, for each divided group, a summary of document contents represented by all document data belonging to the corresponding group is created.

これにより、多数の文書データが廃棄対象となった場合でも、グループに属する全文書データの内容を短時間に把握でき、これらの全文書を実際に廃棄してよいか否かの判断が容易に行える。また、グループに属する全文書データに対する削除(保管停止)や廃棄期限の再設定を容易に行うことができ、廃棄対象文書に対するメンテナンス作業、すなわち実際の削除処理や廃棄期限の再設定を簡便に行うことができる。   This makes it possible to quickly grasp the contents of all document data belonging to a group even when a large number of document data is to be discarded, and to easily determine whether or not all these documents can actually be discarded. Yes. In addition, all document data belonging to the group can be easily deleted (storage stopped) and the disposal deadline can be reset, and maintenance work for the documents to be discarded, that is, actual deletion processing and the disposal deadline can be easily reset. be able to.

以下、本発明を実施するための最良の形態について、図面を参照して説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

図1は、本発明の一実施の形態に係る文書管理システムを含む文書管理サーバとクライアントマシンとのネットワークを示すブロック図である。   FIG. 1 is a block diagram showing a network of a document management server including a document management system and a client machine according to an embodiment of the present invention.

文書管理サーバ1にインターネット2を介してクライアントマシン3が接続される。クライアントマシン3は、図1では1つだけ図示するが、複数存在し得る。クライアントマシン3は、インターネット2経由で文書管理サーバ1と文書データのやり取りを行い、文書管理サーバ1に接続された他のクライアントマシンとの間で文書データの共有や配信を行う。また文書管理サーバ1は記憶装置1aを備え、文書データの保管や検索などの管理用途に用いられる。   A client machine 3 is connected to the document management server 1 via the Internet 2. Although only one client machine 3 is shown in FIG. 1, a plurality of client machines 3 may exist. The client machine 3 exchanges document data with the document management server 1 via the Internet 2, and shares and distributes document data with other client machines connected to the document management server 1. The document management server 1 includes a storage device 1a and is used for management purposes such as storage and retrieval of document data.

図2は、文書管理サーバ1に構築される文書管理システムの機能構成を示すブロック図である。   FIG. 2 is a block diagram showing a functional configuration of the document management system constructed in the document management server 1.

文書管理サーバ1は、例えば中央演算装置(CPU)、CPUが実行するプログラムを記憶するROM(Read Only Memory)、CPUが演算に使用するRAM(Random Access Memory)、入出力装置等から構成される。CPUがROMに記憶されたプログラムを実行することにより、図2に示す文書管理システムの各機能が実現される。   The document management server 1 includes, for example, a central processing unit (CPU), a ROM (Read Only Memory) that stores programs executed by the CPU, a RAM (Random Access Memory) used by the CPU for operations, an input / output device, and the like. . Each function of the document management system shown in FIG. 2 is realized by the CPU executing the program stored in the ROM.

文書登録部C20は、クライアントマシン3からインターネット2を経由して送信されるユーザの文書データを、文書管理サーバ1の記憶装置1aの所定の記憶位置に格納するためのものである。   The document registration unit C20 is for storing user document data transmitted from the client machine 3 via the Internet 2 in a predetermined storage location of the storage device 1a of the document management server 1.

文書要約部C21は、文書管理サーバ1の記憶装置1aに格納された文書データの内容を解析し、その要約文を作成するためのものである。文書要約部C21の詳細な構成については、図4を参照して後で説明する。   The document summarization unit C21 analyzes the contents of the document data stored in the storage device 1a of the document management server 1 and creates a summary sentence. A detailed configuration of the document summarizing unit C21 will be described later with reference to FIG.

廃棄期限設定部C22は、文書データを文書管理サーバ1の記憶装置1aに保存しておきたい期限のユーザからの指定を受けて設定するためのものである。この設定された期限に至ると、対応文書は、自動廃棄候補文書として文書管理サーバ1の画像表示装置に表示され、ユーザはその表示画面から実際に削除するか保存期限の再設定を行うかすることができる。廃棄期限設定部C22によって設定可能な廃棄期限の種別としては、指定期間の経過後の廃棄か、指定期日の到来での廃棄か、または無期限の保存かを選択できる。なお、こうした指定期間や指定期日は、文書の登録時に文書登録画面を開いて指定することも、また登録した後で文書の属性表示画面を開いて指定することも可能である。図3は、文書登録画面の一例を示す図であり、文書登録時に保存期限を5年と設定し、登録から5年後に廃棄することを設定している。   The discard period setting unit C22 is for receiving and setting document data from a user whose period is desired to be stored in the storage device 1a of the document management server 1. When the set time limit is reached, the corresponding document is displayed as an automatic discard candidate document on the image display device of the document management server 1, and the user actually deletes it from the display screen or resets the storage time limit. be able to. As the type of the disposal period that can be set by the disposal period setting unit C22, it is possible to select discarding after the lapse of the designated period, disposal when the designated period arrives, or indefinite storage. It is possible to specify such a specified period or specified date by opening a document registration screen when registering a document, or by opening a document attribute display screen after registration. FIG. 3 is a diagram showing an example of a document registration screen, in which the retention period is set to 5 years at the time of document registration and set to be discarded after 5 years from registration.

廃棄期限監視部C23は、上記のように文書データごとに設定された廃棄条件(廃棄期限)を一定時間ごとに参照し、指定期間が経過したり、指定期日が到来したりした文書データがあれば廃棄期限通知部C24に通知する。   The discard period monitoring unit C23 refers to the discard condition (discard period) set for each document data as described above at regular intervals, and there is document data for which the specified period has passed or the specified date has come. In this case, the notification is sent to the disposal period notification unit C24.

廃棄期限通知部C24は、ユーザが文書管理システムにログインすると、廃棄期限監視部C23から通知された文書の中からユーザがアクセス権を持つ文書だけを選別し、廃棄候補文書として文書管理サーバ1の画像表示装置に表示する。   When the user logs in to the document management system, the discard period notification unit C24 selects only the documents to which the user has access right from the documents notified from the discard period monitoring unit C23, and sets the document management server 1 as a discard candidate document. Display on the image display device.

文書削除部C25は、文書管理サーバ1の記憶装置1aに格納されたユーザの文書データを削除するためのものであり、ユーザが文書一覧画面や検索結果画面、廃棄候補一覧画面などから文書を選択して削除の指示を行ったときに実行される。   The document deletion unit C25 is for deleting the user's document data stored in the storage device 1a of the document management server 1, and the user selects a document from the document list screen, search result screen, discard candidate list screen, etc. This is executed when a deletion instruction is issued.

文書検索部C26は、全文検索機能と属性検索機能とを実現する。全文検索機能では、文字列をユーザから指定されることによって、文書管理サーバ1の記憶装置1aから、該指定文字列を含む文書データを検索する。属性検索機能では、文書データや該文書データを収納するフォルダの持つ各種属性をユーザから指定されることによって、文書管理サーバ1の記憶装置1aから、該指定された各種属性に対応する文書データやフォルダを検索する。文書データやフォルダの持つ属性としては、文書名、URL(Uniform Resource Locator)、コメント、作成者、作成日時、更新日時、アクセス日時、データサイズ、親フォルダ名、アクセス権、各種ユーザインデックスなどがある。さらにフォルダ特有の属性としては、廃棄期限設定や更新通知設定などがある。これらは文書管理システム側で自動的に付与するものと、ユーザが文書データの登録時に手作業で入力するものとの両方がある。   The document search unit C26 realizes a full-text search function and an attribute search function. In the full-text search function, when a character string is designated by a user, document data including the designated character string is retrieved from the storage device 1a of the document management server 1. In the attribute search function, when the user specifies various attributes of the document data and the folder storing the document data, the document data corresponding to the specified various attributes are stored in the storage device 1a of the document management server 1. Search for a folder. The attributes of document data and folders include document name, URL (Uniform Resource Locator), comment, creator, creation date / time, update date / time, access date / time, data size, parent folder name, access right, various user indexes, and the like. . Furthermore, the folder-specific attributes include a discard deadline setting and an update notification setting. These are both automatically assigned by the document management system and manually input by the user when registering the document data.

文書更新部C27は、登録された文書データの内容または属性を更新するためのものである。あるユーザが更新中に他のユーザにより同時に更新が行われないように排他制御を行うべく、チェックイン・チェックアウト機能を備える。   The document update unit C27 is for updating the contents or attributes of the registered document data. A check-in / check-out function is provided to perform exclusive control so that a certain user is not updated by another user at the same time during the update.

文書コピー/移動部C28は、ユーザによって指定された文書データを別のフォルダや他のキャビネットにコピーしたり、移動したりするためのものである。   The document copy / move unit C28 is for copying or moving document data designated by the user to another folder or another cabinet.

図4は、文書要約部C21の詳しい内部構成を示すブロック図である。   FIG. 4 is a block diagram showing a detailed internal configuration of the document summarizing unit C21.

要約作成の対象となる文書データが文書入力部C30に入力され、文書入力部C30はこれを受け付けるものであり、文書登録部C20から直接渡されてもよいし、あるいは文書登録後に非同期サーバにより定期的に読み込まれるような実現方法でもよい。そして、文書入力部C30で受け付けた文書データは、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納される。後で述べるようにこの記憶装置1aには、入力文書データから生成された要約文も併せて格納される。   Document data to be summarized is input to the document input unit C30, and the document input unit C30 accepts this, and may be directly passed from the document registration unit C20, or may be periodically sent by an asynchronous server after document registration. It is also possible to implement such a method that is automatically read. The document data received by the document input unit C30 is stored in the storage device 1a of the document management server 1 by the document storage unit C31. As will be described later, a summary sentence generated from the input document data is also stored in the storage device 1a.

文書出力部C32は、生成された要約文を文書管理サーバ1の画像表示装置に出力するものであり、この要約文は、要約表示画面として画像表示装置に表示される。   The document output unit C32 outputs the generated summary sentence to the image display device of the document management server 1, and this summary sentence is displayed on the image display device as a summary display screen.

文書処理部C33は、編集/検索等の一般的な文書処理を実施するとともに、以下に説明する文書解析部C34、文脈ベクトル生成部C35、及び文脈ベクトル比較部C36を制御して、入力文書データの要旨や要約を生成する。   The document processing unit C33 performs general document processing such as editing / searching, and controls a document analysis unit C34, a context vector generation unit C35, and a context vector comparison unit C36 described below to input document data Generate abstracts and summaries.

文書解析部C34は、文書記憶部C31によって記憶装置1aに格納された入力文書データを読み出して解析し、単語、文および段落に分解する。この文書解析部C34において実行される文書解析方法では、形態素解析を行って文書を単語に分解したり、特定の区切りに注目して文書を段落や文に分解したりする。文脈ベクトル生成部C35は、文書解析部C34による文書解析によって得られた段落、文、単語および元の文書における文脈ベクトルを生成する。   The document analysis unit C34 reads and analyzes the input document data stored in the storage device 1a by the document storage unit C31, and decomposes it into words, sentences, and paragraphs. In the document analysis method executed in the document analysis unit C34, the document is decomposed into words by performing morphological analysis, or the document is decomposed into paragraphs and sentences by paying attention to a specific break. The context vector generation unit C35 generates a paragraph, sentence, word, and context vector in the original document obtained by document analysis by the document analysis unit C34.

ここで上記文脈ベクトルの生成について簡単に説明する。   Here, the generation of the context vector will be briefly described.

文脈ベクトルの生成ではまず、要約抽出の対象となる文書の関連する分野における特徴語を挙げて特徴空間を定義する。すなわち、特徴語の種類や分野、個数については任意であり、選択に当たっての厳密さは要求されず、また特徴語の意味する内容が相互にオーバーラップしていても構わない。要約抽出の対象となる文書の分野に特有の特徴語を充実させることによって、この特徴語に基づいて生成される文脈ベクトルの精度が向上して品質の高い要約を抽出できることになる。例えばオフィスにおいて使用される文書に関連する語句ならば、「報告、承認、会議、企画、営業、勤務管理、OA機器、人事異動」などの特徴語を用意することで、要約の精度が向上できる。   In generating a context vector, first, a feature space is defined by enumerating feature words in a related field of a document to be abstracted. That is, the type, field, and number of feature words are arbitrary, and strictness in selection is not required, and the contents that the feature words mean may overlap each other. By enriching feature words peculiar to the field of the document to be abstracted, the accuracy of the context vector generated based on the feature words is improved, and a high-quality summary can be extracted. For example, for words and phrases related to documents used in the office, the summarization accuracy can be improved by preparing characteristic words such as “report, approval, meeting, planning, sales, work management, OA equipment, personnel changes”. .

単語辞書C37は、文脈ベクトルを生成する際に参照すべき単語を格納するとともに、単語辞書C37には、これらの単語の上記特徴語との関連性の有無(または関連性の強度)を表す特徴空間が示される。この特徴空間が単語の文脈ベクトルを示し、この文脈ベクトルは単語に対応付けて単語辞書C37に格納される。   The word dictionary C37 stores words to be referred to when generating a context vector, and the word dictionary C37 includes a feature representing the presence / absence (or strength of relevance) of these words with the feature word. Space is shown. This feature space indicates the context vector of the word, and this context vector is stored in the word dictionary C37 in association with the word.

図5は、単語辞書C37に格納される単語とその文脈ベクトルとの一例を示す図である。   FIG. 5 is a diagram illustrating an example of words stored in the word dictionary C37 and their context vectors.

図5において、各行に1つの単語と、その単語の文脈ベクトルとを示す。この例では単語は「報告、承認、人事異動、OA機器、ネットワーク、コンピュータ、政治、・・・」である。文脈ベクトルを構成する各要素は、各特徴語に対応する。すなわち、図5に示す例では特徴語が単語と一致しており、文脈ベクトルを構成する各要素は、特徴語「報告、承認、人事異動、OA機器、ネットワーク、コンピュータ、政治、・・・」とのそれぞれの関連を示す数字で表される。文脈ベクトルを構成する各要素における数字は、対応する特徴語との関連性(「1」は関連あり、「0」は関連なし。ここでは例示しなかったが、「1」と「0」との間の数字を用いて関連性の強度を表現してもよい)を示す。   FIG. 5 shows one word in each line and the context vector of the word. In this example, the word is “report, approval, personnel change, OA equipment, network, computer, politics,...”. Each element constituting the context vector corresponds to each feature word. That is, in the example shown in FIG. 5, the feature word matches the word, and each element constituting the context vector is the feature word “report, approval, personnel change, OA equipment, network, computer, politics,... It is represented by a number indicating the relationship between and. The number in each element constituting the context vector is related to the corresponding feature word (“1” is related, “0” is not related. Although not illustrated here, “1” and “0” May be used to express the strength of relevance).

具体的には、図5に例示した単語の文脈ベクトルでは以下のことを表現している。すなわち、例えば「承認」という単語は、特徴語「報告、承認、人事異動」とは関連があり、特徴語「OA機器、ネットワーク、コンピュータ、政治」とは関連がないということを表現している。また、例えば「OA機器」という単語は、特徴語「報告、承認、人事異動、政治」とは関連がなく、特徴語「OA機器、ネットワーク、コンピュータ」とは関連があるということを表現している。   Specifically, the following is expressed in the word context vector illustrated in FIG. That is, for example, the word “approval” expresses that it is related to the characteristic word “report, approval, personnel change” and not related to the characteristic word “OA device, network, computer, politics”. . For example, the word “OA device” expresses that it is not related to the feature word “report, approval, personnel change, politics” and related to the feature word “OA device, network, computer”. Yes.

なお、本実施の形態において文脈ベクトルを生成する際に用いる単語は、名詞およびサ変名詞(語尾に「する」と付けるとサ行変格活用動詞になる名詞)だけである。したがって、単語辞書C37に登録されている単語も名詞およびサ変名詞である。   In this embodiment, the only words used when generating the context vector are nouns and sa-variable nouns (nouns that become sa-line modification utilizing verbs when “to” is added to the end of the word). Therefore, the words registered in the word dictionary C37 are also nouns and sa variable nouns.

図4に戻って、文脈ベクトル生成部C35は、単語辞書C37を参照して、文脈解析部C34によって得られた段落、文、単語および元の文書における文脈ベクトルを生成する。すなわち、先ず単語については、単語辞書C37を参照して同一の単語を検索し、対応の文脈ベクトルを求める。文については、該文を構成する各単語の文脈ベクトルを求め、得られた各文脈ベクトルを要素ごとに加算/正規化して、該文の文脈ベクトルを求める。なお、上記文脈ベクトルの正規化とは、文脈ベクトルの長さを一定の値に揃えることである。   Returning to FIG. 4, the context vector generation unit C35 refers to the word dictionary C37 and generates a context vector in the paragraph, sentence, word, and original document obtained by the context analysis unit C34. That is, first, for a word, the same word is searched with reference to the word dictionary C37 to obtain a corresponding context vector. For a sentence, the context vector of each word constituting the sentence is obtained, and the obtained context vector is added / normalized for each element to obtain the context vector of the sentence. Note that the normalization of the context vector means that the length of the context vector is made uniform.

また、段落については、該段落を構成する各文の文脈ベクトルを、上述のようにして求め、得られた各文の文脈ベクトルを要素ごとに加算/正規化して、該段落の文脈ベクトルを求める。同様に、文書については、該文書を構成する各段落の文脈ベクトルを、上述のようにして求め、得られた各段落の文脈ベクトルを要素ごとに加算/正規化して、該文書の文脈ベクトルを求める。   For a paragraph, the context vector of each sentence constituting the paragraph is obtained as described above, and the obtained context vector of each sentence is added / normalized element by element to obtain the context vector of the paragraph. . Similarly, for a document, the context vector of each paragraph constituting the document is obtained as described above, and the obtained context vector of each paragraph is added / normalized element by element to obtain the context vector of the document. Ask.

文脈ベクトル比較部C36は、文脈ベクトル生成部C35によって生成された文書、段落、文、単語の各文脈ベクトルに基づいて、下記のような文脈ベクトルの比較を行う。すなわち、文書の文脈ベクトルと該文書を構成する各段落の文脈ベクトルとの比較、文書の文脈ベクトルと該文書を構成する各段落にそれぞれ含まれる各文の文脈ベクトルとの比較、各段落の文脈ベクトルと各段落内の各文の文脈ベクトルとの段落ごとの比較、文書の文脈ベクトルと該文書を構成する各分の文脈ベクトルとの比較を行って、各文脈ベクトル間の距離を算出する。この2つの文脈ベクトル間の距離の算出は、正規化された両文脈ベクトルの内積を求めることによって行われる。そして、内積値が大きいほど2つの文脈ベクトル間の距離が近いと定義する。   The context vector comparison unit C36 compares the following context vectors based on the document, paragraph, sentence, and word context vectors generated by the context vector generation unit C35. That is, comparison between the context vector of a document and the context vector of each paragraph constituting the document, comparison between the context vector of the document and the context vector of each sentence included in each paragraph constituting the document, context of each paragraph The distance between each context vector is calculated by comparing the vector and the context vector of each sentence in each paragraph for each paragraph, and comparing the context vector of the document with each of the context vectors constituting the document. The distance between the two context vectors is calculated by calculating the inner product of both normalized context vectors. Then, the larger the inner product value, the closer the distance between the two context vectors is defined.

文書処理部C33は、文脈ベクトル比較部C36によって算出された文脈ベクトル間距離の値に基づいて、内容的に文書に近い段落や文、および段落に近い文を選出し、これらを用いて、図6を参照して後述するように入力文書データの要約を生成する。こうして生成された文書の要約は、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納され、必要に応じて文書出力部C32より出力される。   Based on the value of the distance between context vectors calculated by the context vector comparison unit C36, the document processing unit C33 selects a paragraph or sentence that is close to the document in terms of content, and a sentence that is close to a paragraph, and uses these to select a figure. A summary of the input document data is generated as described later with reference to FIG. The summary of the document generated in this way is stored in the storage device 1a of the document management server 1 by the document storage unit C31, and is output from the document output unit C32 as necessary.

図6は、図4に示す文書要約部C21において行われる要約作成処理の手順を示すフローチャートである。   FIG. 6 is a flowchart showing the procedure of the summary creation process performed in the document summarization unit C21 shown in FIG.

ステップS51で、要約生成の対象となる文書データが、文書入力部C30を介して文書要約部C21に入力されて本要約作成処理が実行開始される。この文書データは、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納される。   In step S51, document data to be summarized is input to the document summarization unit C21 via the document input unit C30, and execution of this summary creation process is started. This document data is stored in the storage device 1a of the document management server 1 by the document storage unit C31.

ステップS52で、文書解析部C34が、記憶装置1aから文書デーを読み出して段落単位に分割する。この分割は、例えば改行を段落の区切りとする。   In step S52, the document analysis unit C34 reads the document data from the storage device 1a and divides it into paragraphs. In this division, for example, a line break is used as a paragraph break.

ステップS53で、文書解析部C34が、段落単位に分割された文書データを文単位に分割する。この分割は、例えば句点を文の区切りとする。   In step S53, the document analysis unit C34 divides the document data divided into paragraphs into sentence units. In this division, for example, a punctuation is used as a sentence break.

ステップS54で、文書解析部C34は、文単位に分割された文書データを、形態素解析によって単語に分解する。そして、得られた単語のうち名詞およびサ変名詞(以下、両者を単に単語という)のみを、ステップS51において入力された文書、ステップS52において分割された各段落、およびステップS53において分割された各文の単位で文脈ベクトル生成部C35に送出する。   In step S54, the document analysis unit C34 decomposes the document data divided into sentence units into words by morphological analysis. Then, among the obtained words, only the nouns and the savory nouns (hereinafter, both are simply referred to as words), the document input in step S51, each paragraph divided in step S52, and each sentence divided in step S53. To the context vector generation unit C35.

ステップS55で、文脈ベクトル生成部C35が、文書の文脈ベクトル、各段落の文脈ベクトル、および各文の文脈ベクトルを次のようにして生成する。すなわち、先ず、文書を構成する各単語、各段落を構成する各単語、および各文を構成する各単語の文脈ベクトルを、単語辞書C37を参照して求める。次に、各文を構成する各単語の文脈ベクトルを要素ごとに加算し正規化して、各文の文脈ベクトルを算出する。同様に、各段落を構成する各単語の文脈ベクトルを加算し正規化して、各段落の文脈ベクトルを算出し、文書を構成する各単語の文脈ベクトルを加算し正規化して、文書の文脈ベクトルを算出する。   In step S55, the context vector generation unit C35 generates the context vector of the document, the context vector of each paragraph, and the context vector of each sentence as follows. That is, first, the context vector of each word constituting each document, each word constituting each paragraph, and each word constituting each sentence is obtained with reference to the word dictionary C37. Next, the context vector of each word constituting each sentence is added and normalized for each element to calculate the context vector of each sentence. Similarly, the context vector of each word constituting each paragraph is added and normalized to calculate the context vector of each paragraph, the context vector of each word constituting the document is added and normalized, and the context vector of the document is calculated. calculate.

ステップS56で、文書ベクトル比較部C36が、ステップS55で算出された文書の文脈ベクトルと各段落の文脈ベクトルとを比較し、文書と各段落との文脈ベクトル間距離を算出する。また、文書の文脈ベクトルと各段落を構成する各文の文脈ベクトルとを段落毎に比較し、文書と各文との文脈ベクトル間距離を算出する。また、各段落の文脈ベクトルと各段落内の各文の文脈ベクトルとを比較し、各段落と各段落を構成する各文との文脈ベクトル間距離を算出する。さらに、文書の文脈ベクトルと該文書を構成する各文の文脈ベクトルとを比較し、文書と該文書を構成する各文との文脈ベクトル間距離を算出する。   In step S56, the document vector comparison unit C36 compares the context vector of the document calculated in step S55 with the context vector of each paragraph, and calculates the distance between the context vectors of the document and each paragraph. Further, the context vector of the document and the context vector of each sentence constituting each paragraph are compared for each paragraph, and the distance between the document and each context vector is calculated. Further, the context vector of each paragraph and the context vector of each sentence in each paragraph are compared, and the distance between the context vectors between each paragraph and each sentence constituting each paragraph is calculated. Further, the context vector of the document is compared with the context vector of each sentence constituting the document, and the distance between the context vectors of the document and each sentence constituting the document is calculated.

ステップS57で、文書処理部C33は、ステップS56で算出された文書と各段落との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する段落を選出する。この選出された段落を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。   In step S57, the document processing unit C33 refers to the distance between context vectors between the document and each paragraph calculated in step S56, and selects the paragraph having the context vector closest to the document context vector. The selected paragraph is stored in the storage device 1a of the document management server 1 by the document storage unit C31, and the document output unit C32 reads out from the storage device 1a and outputs it as necessary.

ステップS58で、文書処理部C33は、ステップS56で算出された文書と各段落を構成する各文との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する各段落の文を選出する。この選出された段落毎の文を対応の段落の順番に並べて得た文章を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。   In step S58, the document processing unit C33 refers to the distance between context vectors between the document calculated in step S56 and each sentence constituting each paragraph, and the sentence of each paragraph having the context vector closest to the context vector of the document. Is elected. Sentences obtained by arranging the sentences for each selected paragraph in the order of the corresponding paragraphs are stored in the storage device 1a of the document management server 1 by the document storage unit C31, and the document output unit C32 stores the storage device 1a as necessary. Read from and output.

ステップS59で、文書処理部C33は、ステップS56で算出された各段落と各段落内の各文との文脈ベクトル間距離を参照し、各段落の文脈ベクトルに最も近い文脈ベクトルを有する各段落内の文をそれぞれ選出する。この選出された各段落内の文を対応の段落の順番に並べて得た文章を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。   In step S59, the document processing unit C33 refers to the distance between the context vectors between each paragraph calculated in step S56 and each sentence in each paragraph, and in each paragraph having the context vector closest to the context vector of each paragraph. Select each sentence. Sentences obtained by arranging the sentences in each selected paragraph in the order of the corresponding paragraphs are stored in the storage device 1a of the document management server 1 by the document storage unit C31, and the document output unit C32 stores the storage device as necessary. Read from 1a and output.

ステップS60で、文書処理部C33は、ステップS56で算出された文書と該文章を構成する各文との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する文から、文脈ベクトルが順に遠くなる所定数の文までを選出する。この選出された複数文を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。   In step S60, the document processing unit C33 refers to the distance between context vectors between the document calculated in step S56 and each sentence constituting the sentence, and determines the context from the sentence having the context vector closest to the context vector of the document. Select up to a predetermined number of sentences whose vectors are farther away. The selected plural sentences are stored in the storage device 1a of the document management server 1 by the document storage unit C31, and the document output unit C32 reads out from the storage device 1a and outputs it as necessary.

ステップS61で、ステップS57〜S60で記憶装置1aにそれぞれ格納された文章を文書出力部C32が読み出して出力し、文書処理部C33が、これらを合成して要約を作成する。   In step S61, the document output unit C32 reads and outputs the text stored in the storage device 1a in steps S57 to S60, and the document processing unit C33 combines them to create a summary.

ステップS62で、本要約作成処理を終了する。   In step S62, the summary creation process ends.

なお、ステップS61で、文書出力部C32が、ステップS57〜S60で記憶装置1aにそれぞれ格納された文章のうち一部を選択的に用いて合成し、要約を作成するようにしてもよい。また、ステップS57〜S60のうち1つのステップだけを備え、該ステップで記憶装置1aに格納された文章を要約として、文書出力部C32が読み出して出力するようにしてもよい。その場合には、ステップS61も不要である。   In step S61, the document output unit C32 may selectively synthesize a part of the sentences stored in the storage device 1a in steps S57 to S60 to create a summary. Alternatively, only one of the steps S57 to S60 may be provided, and the document output unit C32 may read and output the sentence stored in the storage device 1a at that step as a summary. In that case, step S61 is also unnecessary.

ところで、廃棄の対象となる文書が複数個存在する場合について考察して見ると、同時期、同日時に廃棄対象となる文書群は、登録時にも同じタイミングで登録されたか、あるいは内容的に類似していて互いに関連性があることが多いと考えられる。本実施の形態では後者に着目して、複数の廃棄候補文書を、その文書内容の類似性に基づいてグループ分けし、グループに属する全文書をまとめて処理できるようにする。   By the way, when considering the case where there are a plurality of documents to be discarded, a group of documents to be discarded at the same time and at the same time are registered at the same timing at the time of registration or similar in content. Are often related to each other. In the present embodiment, focusing on the latter, a plurality of discard candidate documents are grouped based on the similarity of the document contents so that all documents belonging to the group can be processed together.

すなわち、本実施の形態では、廃棄候補となる複数の文書を文書内容に応じてグループ分けして、廃棄候補文書一覧表にリスト表示するとともに、グループごとに、グループに属する全文書の内容を概観できるグループ要約を作成して表示できるようにし、さらにグループごとに実際の削除指定や廃棄期限のリセット等を一括して行えるようにする。   That is, in the present embodiment, a plurality of documents that are candidates for disposal are grouped according to the document contents, displayed in a list of candidate documents for disposal, and the contents of all the documents belonging to the group are overviewed for each group. A group summary that can be created can be created and displayed, and in addition, an actual deletion designation and a resetting of the disposal time limit can be collectively performed for each group.

文書管理システムは、所定の時間の経過ごとに廃棄候補文書の発生を監視しており、廃棄文書の発生を検知すると、廃棄候補の対象となった全文書をグルーピングする下記のようなグルーピング処理およびグループ文書要約作成処理を行う。   The document management system monitors the generation of discard candidate documents every predetermined time. When the generation of a discard document is detected, the document management system groups all the documents that are candidates for discard as described below. Perform group document summary creation processing.

グルーピング処理では、廃棄候補の対象となった全文書のうちの2つの文書の文脈ベクトル間の距離を計算し、距離が予め定められた値以下ならば、それら2つの文書は同じグループに属すると見なし、距離がそれより大きい場合には、異なるグループに属すると決める。この処理を廃棄候補の全文書に対して行うことにより、廃棄候補となった全文書はいくつかのグループに類別され、各文書はそれぞれ1つのグループに必ず属することになる。このようにして、廃棄候補となった全文書を、内容の近いものどうしをまとめた複数のグループにグルーピングできる。もちろん結果的に全ての廃棄候補が同じグループに分類されることもあり得、そのような場合には1つのグループのみが作成される。   In the grouping process, the distance between the context vectors of two documents among all the documents that are candidates for discarding is calculated. If the distance is equal to or less than a predetermined value, the two documents belong to the same group. It is considered that if the distance is larger than that, it belongs to a different group. By performing this process on all documents that are candidates for discarding, all documents that are candidates for discarding are classified into several groups, and each document always belongs to one group. In this way, all the documents that are candidates for discarding can be grouped into a plurality of groups in which documents with similar contents are grouped together. Of course, as a result, all discard candidates may be classified into the same group. In such a case, only one group is created.

続いて、上記のようにして作成された各グループにそれぞれ属する文書全体の内容の要約を作成するグループ文書要約作成処理について、図7を参照して説明する。このグループ文書要約作成処理も、図2に示す文書要約部C21において行われる。   Next, group document summary creation processing for creating a summary of the contents of the entire document belonging to each group created as described above will be described with reference to FIG. This group document summary creation processing is also performed in the document summary section C21 shown in FIG.

図7は、文書要約部C21において行われるグループ文書要約作成処理の手順を示すフローチャートである。   FIG. 7 is a flowchart showing the procedure of the group document summary creation process performed in the document summary unit C21.

まず、廃棄候補の全文書を構成する各単語の文脈ベクトルを求める。そして、それら全ての文脈ベクトルを要素ごとに加算し正規化して、廃棄候補の全文書の文脈ベクトルを算出する(ステップS72)。   First, a context vector of each word constituting all documents to be discarded is obtained. Then, all these context vectors are added for each element and normalized to calculate the context vectors of all documents that are candidates for discarding (step S72).

続いて、グループに属する各文書を構成する各単語の文脈ベクトルを求める。そして、グループ毎に、グループに属する全ての単語の文脈ベクトルを要素ごとに加算し正規化して、各グループの文脈ベクトルを算出する(ステップS73)。なお、各グループ内に含まれる各文書の文脈ベクトルと、各文書を構成する各文の文脈ベクトルとは、図6に示す処理によって算出されているものとする。   Subsequently, a context vector of each word constituting each document belonging to the group is obtained. Then, for each group, the context vectors of all words belonging to the group are added and normalized for each element to calculate the context vector of each group (step S73). It is assumed that the context vector of each document included in each group and the context vector of each sentence constituting each document are calculated by the process shown in FIG.

つぎに、全てのグループにおいて、グループの文脈ベクトルと該グループに属する各文書の文脈ベクトルとを比較し、グループと該グループ内の各文書との文脈ベクトル間距離を算出する(ステップS74)。そして、この文脈ベクトル間距離に基づき、グループの文脈ベクトルに最も近い文脈ベクトルを有するグループ内の文書を重要文書に決定する(ステップS75)。   Next, in all groups, the context vector of the group is compared with the context vector of each document belonging to the group, and the distance between the context vectors between the group and each document in the group is calculated (step S74). Then, based on the distance between the context vectors, a document in the group having the context vector closest to the group context vector is determined as an important document (step S75).

このように決定されたグループ内の重要文書を構成する各文と該グループとの文脈ベクトル間距離を算出し、グループの文脈ベクトルに最も近い文脈ベクトルを有するグループ内の所定数の文を選出する。そして、これらの選出された所定数の文を出力する(ステップS76)。これらの出力された所定数の文を適宜合成して、グループに属する文書全体の内容を表す要約とする(ステップS77)。   A distance between context vectors between each sentence constituting the important document in the group determined in this way and the group is calculated, and a predetermined number of sentences in the group having a context vector closest to the context vector of the group are selected. . Then, the selected predetermined number of sentences are output (step S76). A predetermined number of these output sentences are appropriately combined to form a summary representing the contents of the entire document belonging to the group (step S77).

こうして得られたグループに属する文書全体の要約は、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納され、必要に応じて文書出力部C32から出力される。   The summary of all the documents belonging to the group thus obtained is stored in the storage device 1a of the document management server 1 by the document storage unit C31, and is output from the document output unit C32 as necessary.

次に、文書管理システムにおいて廃棄候補文書が存在する場合に、文書管理サーバ1の画像表示装置に表示される各種画面について説明する。   Next, various screens displayed on the image display device of the document management server 1 when there is a discard candidate document in the document management system will be described.

図8は、ユーザが文書管理システムにログインしたときに、文書管理サーバ1の画像表示装置に表示されるメイン画面10を示す図である。   FIG. 8 is a diagram showing a main screen 10 displayed on the image display device of the document management server 1 when the user logs in to the document management system.

メイン画面10は、フォルダ階層表示部11とフォルダ内文書表示部13とからなり、フォルダ階層表示部11は、文書管理システムが管理する複数の文書を格納する各フォルダを表示する。フォルダ内文書表示部13は、フォルダ階層表示部11において選択されたフォルダ12(例えば、フォルダ「契約書」)に格納される文書を表示する。   The main screen 10 includes a folder hierarchy display unit 11 and an in-folder document display unit 13. The folder hierarchy display unit 11 displays each folder storing a plurality of documents managed by the document management system. The in-folder document display unit 13 displays a document stored in the folder 12 (for example, the folder “contract”) selected in the folder hierarchy display unit 11.

ユーザが文書管理システムにログインしたときに、該文書管理システムにおいて廃棄候補文書が存在する場合、廃棄候補文書が存在する旨を示す吹き出しアイコン14が、メイン画面10の上部に表示される。ユーザが任意のタイミングにおいて該吹き出しアイコン14をクリックすると、図9に示すような廃棄候補文書の一覧画面が、文書管理サーバ1の画像表示装置に表示される。   When the user logs in to the document management system and there is a discard candidate document in the document management system, a balloon icon 14 indicating that the discard candidate document exists is displayed at the top of the main screen 10. When the user clicks the balloon icon 14 at an arbitrary timing, a discard candidate document list screen as shown in FIG. 9 is displayed on the image display device of the document management server 1.

図9は、図8に示す吹き出しアイコン14がクリックされたときに、文書管理サーバ1の画像表示装置に表示される廃棄候補文書の一覧画面の一例を示す図である。この廃棄候補文書一覧画面は、廃棄候補文書のうちで、ログインを行ったユーザがアクセス権限を持つ文書に対して、グルーピング処理およびグループ文書要約作成処理が行われた結果を表示している。   FIG. 9 is a diagram showing an example of a discard candidate document list screen displayed on the image display device of the document management server 1 when the balloon icon 14 shown in FIG. 8 is clicked. This discard candidate document list screen displays a result of grouping processing and group document summary creation processing performed on documents for which the logged-in user has access authority among the discard candidate documents.

図9において、廃棄候補は全部で9文書存在し、それらは3つのグループに分類され、それぞれ区分して表示される。第1のグループには3文書が属し、第2のグループには4文書、第3のグループには2文書が属している。各文書には文書名、格納フォルダ名、文書作成者、文書作成日、コメントなどの属性情報が表示されており、さらに廃棄文書選択用のチェックボックスが先頭に表示される。チェックボックスには2種類あり、各グループに1個存在するチェックボックスにチェックを入力すると、対応グループの全文書を選択したことになる。また文書ごとに1個ずつ存在するチェックボックスにチェックを入力すると、対応文書だけを選択したことになる。   In FIG. 9, there are a total of nine discard candidates, which are classified into three groups, and are displayed separately. Three documents belong to the first group, four documents belong to the second group, and two documents belong to the third group. Each document displays attribute information such as a document name, a storage folder name, a document creator, a document creation date, and a comment, and a check box for selecting a discarded document is displayed at the top. There are two types of check boxes. When a check is entered in a check box that exists in each group, all documents in the corresponding group are selected. If a check is entered in a check box that exists for each document, only the corresponding document is selected.

廃棄候補文書一覧画面の右上には機能ボタンが配置され、チェックボックスにて選択した文書または文書グループに対して各操作を実行させるためのものである。例えば、要約ボタン21を押下すると、選択した文書または文書グループの要約が別画面にて表示される。削除ボタン22を押下すると、選択された文書または選択された文書グループに属する全文書が文書管理サーバ1の記憶装置1aから削除される。再設定ボタン23を押下すると、廃棄期限の再設定画面が文書管理サーバ1の画像表示装置に表示される。   Function buttons are arranged on the upper right of the discard candidate document list screen, and are used to execute each operation on the document or document group selected by the check box. For example, when the summary button 21 is pressed, a summary of the selected document or document group is displayed on another screen. When the delete button 22 is pressed, the selected document or all documents belonging to the selected document group are deleted from the storage device 1a of the document management server 1. When the reset button 23 is pressed, a discard deadline reset screen is displayed on the image display device of the document management server 1.

図10は、図9に示す廃棄候補文書一覧画面にて第3の文書グループに対応するチェックボックスにチェックを入力して要約ボタン21を押下したときに、文書管理サーバ1の画像表示装置に表示されるグループ文書要約画面の一例を示す図である。   FIG. 10 shows a display on the image display device of the document management server 1 when a check is input to the check box corresponding to the third document group and the summary button 21 is pressed on the discard candidate document list screen shown in FIG. It is a figure which shows an example of the group document summary screen performed.

図11は、図9に示す廃棄候補文書一覧画面にて第1の文書グループに対応するチェックボックスにチェックを入力して削除ボタン22を押下したときに、文書管理サーバ1の画像表示装置に表示される削除確認画面の一例を示す図である。   11 is displayed on the image display device of the document management server 1 when a check is input to the check box corresponding to the first document group and the delete button 22 is pressed on the discard candidate document list screen shown in FIG. It is a figure which shows an example of the deletion confirmation screen.

この画面には、第1の文書グループに属する文書のリストが表示される。各文書名の先頭に配置されたチェックボックスには、デフォルトではすべてのチェックボックスにチェックが表示された状態となっている。ユーザはこれらを確認し、必要に応じて選択を解除し、実行ボタン31を押下することにより、選択した文書だけが実際に削除される。   On this screen, a list of documents belonging to the first document group is displayed. In the check box arranged at the head of each document name, the check is displayed in all the check boxes by default. The user confirms these, cancels the selection as necessary, and presses the execution button 31 so that only the selected document is actually deleted.

図12は、図9に示す廃棄候補文書一覧画面にて再設定ボタン23を押下したときに、文書管理サーバ1の画像表示装置に表示される廃棄期限の再設定画面の一例を示す図である。   FIG. 12 is a diagram showing an example of a discard deadline reset screen displayed on the image display device of the document management server 1 when the reset button 23 is pressed on the discard candidate document list screen shown in FIG. .

この廃棄期限の再設定画面において、選択した文書または文書グループに対する廃棄期限を新たに設定できる。本画面にて設定後、OKボタン32の押下により図9の廃棄候補文書一覧画面に戻る。この廃棄候補文書一覧画面では、文書または文書グループに対する新たに再設定された廃棄期限に基づき表示が行われる。この表示ではグレーアウトされ、機能ボタンが操作されても機能実行がされないように制御される。   In this discard deadline resetting screen, a new discard deadline for the selected document or document group can be set. After setting on this screen, pressing the OK button 32 returns to the discard candidate document list screen of FIG. In this discard candidate document list screen, display is performed based on the newly reset discard deadline for the document or document group. This display is grayed out, and control is performed so that the function is not executed even if the function button is operated.

以上説明したように、所定の廃棄期限の到来した文書が複数存在する場合、それらの文書が、文書内容に応じて適宜グルーピングされ、グループごとにリスト表示される。そして各グループ単位で選択され、各種処理が行われ得る。これにより、ユーザは個々の文書単位ではなく、内容的にまとまりのある文書グループ単位で要旨を把握でき、削除してよいか否かの判断や実際の削除作業をスピーディに行うことができる。   As described above, when there are a plurality of documents that have reached the predetermined disposal deadline, these documents are appropriately grouped according to the document contents, and displayed as a list for each group. Each group is selected and various processes can be performed. Thus, the user can grasp the gist not in units of individual documents but in units of document groups that are organized in content, and can quickly determine whether or not to delete and perform actual deletion operations.

〔他の実施の形態〕
また、本発明の目的は、上記の実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
[Other Embodiments]
Another object of the present invention is to supply a storage medium storing software program codes for realizing the functions of the above embodiments to a system or apparatus, and a computer (or CPU, MPU, etc.) of the system or apparatus. It is also achieved by reading and executing the program code stored in the storage medium.

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code and the storage medium storing the program code constitute the present invention.

また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。   Examples of the storage medium for supplying the program code include a floppy (registered trademark) disk, a hard disk, a magneto-optical disk, a CD-ROM, a CD-R, a CD-RW, a DVD-ROM, a DVD-RAM, and a DVD. -RW, DVD + RW, magnetic tape, nonvolatile memory card, ROM, etc. can be used. Alternatively, the program code may be downloaded via a network.

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) running on the computer based on the instruction of the program code. A case where part or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing is also included.

更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。   Further, after the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. This includes the case where the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も、本発明に含まれることは言うまでもない。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also the OS running on the computer based on the instruction of the program code performs actual processing. Needless to say, the present invention also includes a case where the functions of the above-described embodiment are realized by performing part or all of the above-described processing.

この場合、上記プログラムは、該プログラムを記憶した記憶媒体から直接、又はインターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続された不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。   In this case, the program is supplied by downloading directly from a storage medium storing the program or from another computer or database (not shown) connected to the Internet, a commercial network, a local area network, or the like.

本発明の一実施の形態に係る文書管理システムを含む文書管理サーバとクライアントマシンとのネットワークを示すブロック図である。1 is a block diagram illustrating a network between a document management server including a document management system according to an embodiment of the present invention and a client machine. 文書管理サーバに構築される文書管理システムの機能構成を示すブロック図である。It is a block diagram which shows the function structure of the document management system constructed | assembled by the document management server. 文書登録画面の一例を示す図である。It is a figure which shows an example of a document registration screen. 文書要約部の詳しい内部構成を示すブロック図である。It is a block diagram which shows the detailed internal structure of a document summary part. 単語辞書に格納される単語とその文脈ベクトルとの一例を示す図である。It is a figure which shows an example of the word stored in a word dictionary, and its context vector. 図4に示す文書要約部において行われる要約作成処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the summary preparation process performed in the document summary part shown in FIG. 文書要約部において行われるグループ文書要約作成処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the group document summary creation process performed in a document summary part. ユーザが文書管理システムにログインしたときに、文書管理サーバの画像表示装置に表示されるメイン画面を示す図である。It is a figure which shows the main screen displayed on the image display apparatus of a document management server, when a user logs in to a document management system. 図8に示す吹き出しアイコンがクリックされたときに、文書管理サーバの画像表示装置に表示される廃棄候補文書の一覧画面の一例を示す図である。FIG. 9 is a diagram showing an example of a discard candidate document list screen displayed on the image display device of the document management server when the balloon icon shown in FIG. 8 is clicked. 図9に示す廃棄候補文書一覧画面にて第3の文書グループに対応するチェックボックスにチェックを入力して要約ボタンを押下したときに、文書管理サーバの画像表示装置に表示されるグループ文書要約画面の一例を示す図である。A group document summary screen displayed on the image display device of the document management server when a check is input to the check box corresponding to the third document group and the summary button is pressed on the discard candidate document list screen shown in FIG. It is a figure which shows an example. 図9に示す廃棄候補文書一覧画面にて第1の文書グループに対応するチェックボックスにチェックを入力して削除ボタンを押下したときに、文書管理サーバの画像表示装置に表示される削除確認画面の一例を示す図である。When a check is input to the check box corresponding to the first document group on the discard candidate document list screen shown in FIG. 9 and the delete button is pressed, the delete confirmation screen displayed on the image display device of the document management server is displayed. It is a figure which shows an example. 図9に示す廃棄候補文書一覧画面にて再設定ボタンを押下したときに、文書管理サーバの画像表示装置に表示される廃棄期限の再設定画面の一例を示す図である。FIG. 10 is a diagram illustrating an example of a discard deadline reset screen displayed on the image display device of the document management server when a reset button is pressed on the discard candidate document list screen illustrated in FIG. 9.

符号の説明Explanation of symbols

1 文書管理サーバ(文書管理システム、判別手段、グルーピング手段、表示手段)
1a 記憶装置
2 インターネット
3 クライアントマシン
C21 文書要約部
C30 文書入力部
C31 文書記憶部
C32 文書出力部
C33 文書処理部
C34 文書解析部
C35 文脈ベクトル生成部
C36 文脈ベクトル比較部
C37 単語辞書
1 Document management server (document management system, discrimination means, grouping means, display means)
DESCRIPTION OF SYMBOLS 1a Memory | storage device 2 Internet 3 Client machine C21 Document summary part C30 Document input part C31 Document storage part C32 Document output part C33 Document processing part C34 Document analysis part C35 Context vector generation part C36 Context vector comparison part C37 Word dictionary

Claims (11)

文書データを保管管理する文書管理システムにおいて、
所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別手段と、
前記判別手段によって前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピング手段と、
前記グルーピング手段によって分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示手段と
を有することを特徴とする文書管理システム。
In a document management system that stores and manages document data,
Determining means for determining whether document data satisfying a predetermined disposal condition is stored;
Grouping means for grouping the plurality of document data according to the similarity of the document contents when there are a plurality of document data determined to satisfy the predetermined disposal condition by the determination means;
A document management system, comprising: a display unit configured to display a list of the plurality of document data as discard candidates for each group divided by the grouping unit.
前記判別手段は、前記所定の廃棄条件として、保管開始後に所定の期間が経過した文書データであるか、または所定の廃棄日時に至った文書データであるかを判別することを特徴とする請求項1記載の文書管理システム。   The discriminating unit determines whether the predetermined discarding condition is document data for which a predetermined period has elapsed after the start of storage or document data that has reached a predetermined discarding date and time as the predetermined discarding condition. 1. The document management system according to 1. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成するグループ要約作成手段を更に有することを特徴とする請求項1記載の文書管理システム。   2. The document management system according to claim 1, further comprising group summary creation means for creating a summary of document contents represented by all document data belonging to a corresponding group for each group divided by the grouping means. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた削除指示に従って、該全文書データを削除する削除手段を更に有することを特徴とする請求項1記載の文書管理システム。   2. The apparatus according to claim 1, further comprising: a deleting unit that deletes all document data in accordance with a deletion instruction issued by a user to all document data belonging to a corresponding group for each group divided by the grouping unit. 1. The document management system according to 1. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた廃棄期限の再設定指示に従って、該全文書データに対して既に設定されている廃棄期限の再設定を行う廃棄期限再設定手段を更に有することを特徴とする請求項1記載の文書管理システム。   For each group divided by the grouping means, according to the discard deadline resetting instruction made by the user for all document data belonging to the corresponding group, the discard deadline already set for the all document data The document management system according to claim 1, further comprising a discard period resetting unit for resetting. 文書データを保管管理する文書管理システムに適用される文書管理方法において、
所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、
前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、
前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップと
を有することを特徴とする文書管理方法。
In a document management method applied to a document management system for storing and managing document data,
A determination step for determining whether or not document data satisfying a predetermined disposal condition is stored;
A grouping step of grouping the plurality of document data according to the similarity of the document contents when there are a plurality of document data determined to satisfy the predetermined disposal condition in the determination step;
A document management method comprising: displaying a plurality of document data as discard candidates for each group divided in the grouping step.
前記判別ステップは、前記所定の廃棄条件として、保管開始後に所定の期間が経過した文書データであるか、または所定の廃棄日時に至った文書データであるかを判別することを特徴とする請求項6記載の文書管理方法。   The discriminating step determines, as the predetermined discarding condition, whether the document data has passed a predetermined period after starting storage or the document data has reached a predetermined discarding date and time. 6. The document management method according to 6. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成するグループ要約作成ステップを更に有することを特徴とする請求項6記載の文書管理方法。   7. The document management method according to claim 6, further comprising a group summary creation step of creating a summary of document contents represented by all document data belonging to a corresponding group for each group divided in the grouping step. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた削除指示に従って、該全文書データを削除する削除ステップを更に有することを特徴とする請求項6記載の文書管理方法。   2. The method according to claim 1, further comprising a deletion step of deleting all document data in accordance with a deletion instruction issued by a user to all document data belonging to a corresponding group for each group divided in the grouping step. 6. The document management method according to 6. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた廃棄期限の再設定指示に従って、該全文書データに対して既に設定されている廃棄期限の再設定を行う廃棄期限再設定ステップを更に有することを特徴とする請求項6記載の文書管理方法。   For each group divided in the grouping step, according to the discard deadline resetting instruction made by the user for all the document data belonging to the corresponding group, the disposal deadline already set for the all document data The document management method according to claim 6, further comprising a resetting deadline resetting step for resetting. 文書データを保管管理する文書管理システムに適用される文書管理方法を、コンピュータに実行させるためのプログラムにおいて、
所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、
前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、
前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップと
を有することを特徴とするプログラム。
In a program for causing a computer to execute a document management method applied to a document management system for storing and managing document data,
A determination step for determining whether or not document data satisfying a predetermined disposal condition is stored;
A grouping step of grouping the plurality of document data according to the similarity of the document contents when there are a plurality of document data determined to satisfy the predetermined disposal condition in the determination step;
A display step of displaying a list of the plurality of document data as discard candidates for each group divided in the grouping step.
JP2005168449A 2005-06-08 2005-06-08 Document management system, document management method and program Pending JP2006343964A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005168449A JP2006343964A (en) 2005-06-08 2005-06-08 Document management system, document management method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005168449A JP2006343964A (en) 2005-06-08 2005-06-08 Document management system, document management method and program

Publications (1)

Publication Number Publication Date
JP2006343964A true JP2006343964A (en) 2006-12-21

Family

ID=37640896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005168449A Pending JP2006343964A (en) 2005-06-08 2005-06-08 Document management system, document management method and program

Country Status (1)

Country Link
JP (1) JP2006343964A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107959A (en) * 2009-11-17 2011-06-02 Ricoh Co Ltd Document management system, document management device, interface device and document management method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107959A (en) * 2009-11-17 2011-06-02 Ricoh Co Ltd Document management system, document management device, interface device and document management method

Similar Documents

Publication Publication Date Title
US8356045B2 (en) Method to identify common structures in formatted text documents
JP5512489B2 (en) File management apparatus and file management method
US20090313539A1 (en) Information processor, information processing method, and recording medium
JP6008693B2 (en) Information processing apparatus, control method therefor, and program
KR101103126B1 (en) Information processing apparatus, information processing method, and computer program
JP5424798B2 (en) METADATA SETTING METHOD, METADATA SETTING SYSTEM, AND PROGRAM
US20070185832A1 (en) Managing tasks for multiple file types
JP2021089666A (en) Information processing apparatus and program
JP2014010758A (en) File management device, file management method, and program
JP5224532B2 (en) Reputation information classification device and program
JP7293780B2 (en) Information processing device, document management system and program
JP2021089664A (en) Information processing apparatus and program
KR102463120B1 (en) Patent document searching server providing user customized flle name generating function when dowloading document and patent document searching method using thereof
JP2020064482A (en) Attribute extraction device and attribute extraction method
JP2006343964A (en) Document management system, document management method and program
JP3531344B2 (en) Information retrieval device
JP2002014971A (en) Extracting device of information on person related with designated word and computer readable recording medium with recorded extraction program of information on person related with designated word
JP2009223679A (en) Electronic document search device and electronic document search program
JP2011086156A (en) System and program for tracking of leaked information
JP2002049638A (en) Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program
JP3933407B2 (en) Document processing apparatus, document processing method, and storage medium storing document processing program
JP2006072705A (en) Document search device and method
JP7284371B2 (en) Information processing device, information processing method, and program
JP2003044331A (en) Knowledge analysis system, cluster base display method and display control program
JP2004234582A (en) Dictionary construction method, system, and screen

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626