JP6135327B2 - Information processing apparatus, document data organizing apparatus, document presentation method, and computer program - Google Patents
Information processing apparatus, document data organizing apparatus, document presentation method, and computer program Download PDFInfo
- Publication number
- JP6135327B2 JP6135327B2 JP2013129635A JP2013129635A JP6135327B2 JP 6135327 B2 JP6135327 B2 JP 6135327B2 JP 2013129635 A JP2013129635 A JP 2013129635A JP 2013129635 A JP2013129635 A JP 2013129635A JP 6135327 B2 JP6135327 B2 JP 6135327B2
- Authority
- JP
- Japan
- Prior art keywords
- documents
- interest
- document
- difference
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書を取り扱う装置および方法に関する。 The present invention relates to an apparatus and method for handling documents.
従来、ユーザが指定した単語を検索クエリ(検索キー)として文書の検索を行う技術が普及している。 2. Description of the Related Art Conventionally, a technique for searching for a document using a word specified by a user as a search query (search key) has been widely used.
近年、ローカルのコンピュータにもインターネット上のコンピュータにも文書のデータがますます多く記憶されている。よって、非常に多くの文書が検索によってヒットすることがある。ヒットする文書が多いと、ユーザは、さらに、自分に必要な文書を、ヒットした文書の中から絞り込まなければならない。 In recent years, more and more document data is stored in both local computers and computers on the Internet. Therefore, a very large number of documents may be hit by the search. If there are many hit documents, the user must further narrow down documents necessary for the user from the hit documents.
したがって、文書の検索を容易に行えることがユーザから求められる。このための方法として、幾つかの方法が考えられる。 Therefore, the user is required to easily search for documents. Several methods are conceivable as methods for this purpose.
例えば、文書を予め分類しておくことが、考えられる。これにより、検索の範囲を限定することができる。 For example, it is conceivable to classify documents in advance. Thereby, the range of search can be limited.
また、多数の文書のうちの互いに類似する複数の文書を階層的に分類する方法が提案されている(特許文献1)。 A method of hierarchically classifying a plurality of similar documents among a large number of documents has been proposed (Patent Document 1).
また、いわゆるバージョン違いの複数の文書のうちの1つを代表文書として検索結果に表わす方法が提案されている(特許文献2)。 Further, a method has been proposed in which one of a plurality of documents having different versions is represented as a representative document in a search result (Patent Document 2).
しかし、ユーザによっては、互いに類似する複数の文書の1つのみの存在を知ればよいこともあれば、すべての文書の存在を知りたいこともある。 However, some users may need to know only one of a plurality of similar documents, or may want to know the existence of all documents.
本発明は、このような課題に鑑み、互いに類似する複数の文書を、従来よりもユーザの好みに合わせて提示することを、目的とする。 The present invention has been made in view of such problems, and an object thereof is to present a plurality of documents that are similar to each other in accordance with user preferences.
本発明の一形態に係る情報処理装置は、互いに類似する複数の文書のうちの一部または全部の存在を知らせる情報処理装置であって、前記複数の文書同士の差分を抽出する差分抽出手段と、興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分に表われているか否かを判別する、条件適否判別手段と、前記興味キーワードが前記所定の条件を満たすように前記差分に表われている場合は、前記複数の文書の全部の存在を提示し、そうでない場合は、前記複数の文書のうちの一部の存在を優先的に提示する、存在提示手段と、を有する。 An information processing apparatus according to an aspect of the present invention is an information processing apparatus that notifies the existence of some or all of a plurality of similar documents, and includes a difference extraction unit that extracts differences between the plurality of documents. A condition suitability judging means for judging whether or not an interest keyword representing an item of interest to the user, which is stored in advance in the interest keyword storage means, is represented in the difference so as to satisfy a predetermined condition; If the interest keyword appears in the difference so as to satisfy the predetermined condition, the presence of all of the plurality of documents is presented; otherwise, the existence of a part of the plurality of documents Presence presenting means for preferentially presenting.
好ましくは、検索のキーとして使用する検索キーワードを受け付ける検索キーワード受付手段、を有し、前記複数の文書は、前記検索キーワードに基づいて検索されたものである。 Preferably, a search keyword receiving unit that receives a search keyword used as a search key is included, and the plurality of documents are searched based on the search keyword.
または、前記所定の条件は、前記興味キーワードが前記差分に1回以上、表われることである。または、前記興味キーワード記憶手段には、前記興味キーワードが複数、記憶されており、かつ、当該複数の興味キーワードそれぞれに点数が与えられており、前記所定の条件は、前記興味キーワードそれぞれの、前記差分に表われる回数と前記点数との積の和が閾値以上であることである。または、前記興味キーワード記憶手段には、複数の単語からなるペアが前記興味キーワードとして複数、記憶されており、かつ、当該複数のペアそれぞれに点数が与えられており、前記所定の条件は、前記ペアそれぞれの、前記差分に表われる回数と前記点数との積の和が閾値以上であることである。 Alternatively, the predetermined condition is that the keyword of interest appears at least once in the difference. Alternatively, the interest keyword storage means stores a plurality of the interest keywords, and a score is given to each of the plurality of interest keywords, and the predetermined condition is that each of the interest keywords The sum of the products of the number of times represented by the difference and the score is equal to or greater than a threshold value. Alternatively, the interest keyword storage means stores a plurality of pairs of words as the interest keyword, and a score is given to each of the plurality of pairs, and the predetermined condition is: The sum of the product of the number of times that appears in the difference and the score of each pair is equal to or greater than a threshold value.
または、前記存在提示手段は、前記興味キーワードが前記所定の条件を満たすように前記差分に表われていない場合に、前記複数の文書のうちの一部の存在を、当該一部の識別子を表示し残りの識別子を表示しないことによって、優先的に提示する。または、前記存在提示手段は、前記興味キーワードが前記所定の条件を満たすように前記差分に表われていない場合に、前記複数の文書のうちの一部の存在を、当該一部の識別子を残りの識別子よりも目立つように表示することによって、優先的に提示する。 Alternatively, the presence presenting means displays a part of the plurality of documents and a part of the identifier when the interested keyword is not represented in the difference so as to satisfy the predetermined condition. However, the remaining identifiers are preferentially presented by not displaying them. Alternatively, if the interest keyword is not represented in the difference so that the predetermined keyword satisfies the predetermined condition, the presence presenting means leaves a part of the plurality of documents as a remaining identifier. It is presented preferentially by displaying it conspicuously than the identifier.
または、前記興味キーワードが前記所定の条件を満たすように前記差分に表われていない場合に、前記複数の文書のうちの前記存在提示手段によって優先的に提示された文書のデータを残しそれ以外の文書のデータを削除する処理を行う、文書データ整理手段、を有する。 Or, when the interested keyword is not represented in the difference so as to satisfy the predetermined condition, the data of the document preferentially presented by the presence presenting means among the plurality of documents is left, and the others A document data organizing unit that performs processing for deleting document data;
本発明によると、互いに類似する複数の文書を、従来よりもユーザの好みに合わせて提示することができる。 According to the present invention, a plurality of documents that are similar to each other can be presented in accordance with the user's preference as compared with the related art.
図1は、文書管理システム1の全体的な構成の例を示す図である。図2は、ユーザコンピュータ2のハードウェア構成の例を示す図である。図3は、ユーザコンピュータ2の機能的構成の例を示す図である。
FIG. 1 is a diagram illustrating an example of the overall configuration of the
図1の文書管理システム1は、種々の情報、特に文書(ドキュメント)を管理しユーザに提供するためのシステムである。文書管理システム1は、企業、役所、または学校などの組織に設置され、組織のメンバーによって用いられる。以下、ある企業において文書管理システム1が用いられる場合を例に説明する。よって、この企業の従業員が文書管理システム1のユーザである。各ユーザには、ユニークなID(identification)であるユーザコードが1つずつ与えられている。
The
文書管理システム1は、複数台のユーザコンピュータ2、文書サーバ3、および通信回線4などによって構成される。各ユーザコンピュータ2および文書サーバ3は、通信回線4を介して通信を行うことができる。通信回線4として、インターネット、いわゆるLAN(Local Area Network)回線、公衆回線、または専用線などが用いられる。
The
文書サーバ3は、この企業の複数の従業員(ユーザ)で共用する文書の文書データ50を記憶する。そして、ユーザコンピュータ2からの要求に応じて文書データ50を提供する。以下、説明の簡単のため、文書データ50へのアクセスの制限が設定されていない場合を例に説明する。
The
文書サーバ3として、市販されている文書管理用のサーバが用いられる。NAS(Network Attached Storage)を用いてもよい。文書データ50のフォーマットとして、テキストフォーマットまたはPDF(Portable Document Format)のほか、文書作成用のアプリケーションのフォーマットなどが用いられる。
As the
ユーザコンピュータ2は、文書サーバ3に保存されている文書データ50へユーザがアクセスするためのコンピュータである。ユーザコンピュータ2として、パーソナルコンピュータ、タブレットコンピュータ、またはスマートフォンなどが用いられる。以下、ユーザコンピュータ2としてパーソナルコンピュータが用いられる場合を例に説明する。
The
ユーザコンピュータ2は、図2に示すようにCPU(Central Processing Unit)20a、RAM(Random Access Memory)20b、ROM(Read Only Memory)20c、大容量記憶装置20d、タッチパネルディスプレイ20e、キーボード20f、ポインティングデバイス20g、およびNIC(Network Interface Card)20hなどによって構成される。
As shown in FIG. 2, the
タッチパネルディスプレイ20eは、ユーザに対してメッセージを与えるための画面、処理の結果を示す画面、またはユーザが指令を入力するための画面などを表示する。また、タッチパネルディスプレイ20eは、タッチされた位置を検知し、CPU20aにその位置を通知する。
The
キーボード20fおよびポインティングデバイス20gは、指令および条件などをユーザが入力するために用いられる。
The
NIC20hは、TCP/IPなどのプロトコルで文書サーバ3などの装置と通信を行う。
The
大容量記憶装置20dには、検索ソフトウェア2P1が記憶されている。また、大容量記憶装置20dの特定のディレクトリには、複数の文書データ50が記憶されている。以下、この特定のディレクトリを「ローカル文書データベース2B1」と記載する。
The
検索ソフトウェア2P1は、文書サーバ3またはローカル文書データベース2B1に文書データ50が記憶されている文書を検索するためのソフトウェアである。検索ソフトウェア2P1によると、図3に示す個人プロファイルデータ生成部201、個人プロファイルデータ記憶部202、ユーザコード受付部203、検索キーワード受付部204、文書検索部205、類似文書選出部206、差分抽出部207、関心有無判別部208、および検索結果提示部209などの機能が実現される。
The search software 2P1 is software for searching for documents in which the
次に、図3に示すユーザコンピュータ2の個人プロファイルデータ生成部201ないし検索結果提示部209の詳細を、図4〜図14を参照しながら説明する。
Next, details of the personal profile
〔検索の作業前の準備〕
図4は、興味キーワード入力画面61の例を示す図である。図5は、個人プロファイルデータ52の例を示す図である。
[Preparation before search work]
FIG. 4 is a diagram illustrating an example of the interest
個人プロファイルデータ生成部201は、予め、ユーザごとの個人プロファイルデータ52を生成する。個人プロファイルデータ52は、ユーザのプロファイルを示すが、本実施形態では特に、ユーザの興味を表わす単語を興味キーワードとして示す。個人プロファイルデータ生成部201は、個人プロファイルデータ52を例えば次のように生成する。
The personal profile
プロファイルの作成のモードがユーザによって選択されると、個人プロファイルデータ生成部201は、図4のような興味キーワード入力画面61をタッチパネルディスプレイ20eに表示する。ここで、ユーザは、自分のユーザコードを入力する。さらに、自分の興味のある物事を表わす単語を入力する。複数の単語がある場合は、1つ1つをカンマで区切って入力する。そして、「OK」ボタンを押す。
When the profile creation mode is selected by the user, the personal profile
すると、個人プロファイルデータ生成部201は、入力されたユーザコードおよび単語を示す個人プロファイルデータ52を生成する。
Then, the personal profile
個人プロファイルデータ52は、個人プロファイルデータ記憶部202に記憶される。これにより、個人プロファイルデータ記憶部202には、図5に示すように、ユーザごとの個人プロファイルデータ52が記憶される。
The
〔検索時の処理〕
図6は、ユーザコード入力画面62の例を示す図である。図7は、検索キーワード入力画面63の例を示す図である。図8は、2つの類似文書7A1、7A2の例を示す図である。図9は、差分7B1、7B2の例を示す図である。図10は、関心有無判別処理の流れの例を説明するフローチャートである。図11は、検索結果提示処理の流れの例を説明するフローチャートである。
[Process during search]
FIG. 6 is a diagram illustrating an example of the user
ユーザコード受付部203は、検索を指示するユーザのユーザコードを受け付けるための処理を次のように行う。
The user
検索のモードがユーザによって選択されると、ユーザコード受付部203は、図6のようなユーザコード入力画面62をタッチパネルディスプレイ20eに表示する。ここで、ユーザは、自分のユーザコードを入力し、「OK」ボタンを押す。
When the search mode is selected by the user, the user
すると、ユーザコード受付部203は、入力されたユーザコードを、検索を指示するユーザのユーザコードとして受け付ける。
Then, the user
または、既にユーザ認証に成功し、現在、ユーザがユーザコンピュータ2にログイン中である場合は、ユーザコード受付部203は、ユーザコードを、ユーザコード入力画面62で受け付ける代わりに、オペレーティングシステムに問い合わせるなどして取得してもよい。
Alternatively, when user authentication has already been successful and the user is currently logged in to the
検索キーワード受付部204は、ユーザコードがユーザコード受付部203によって受け付けられると、検索のキー(検索クエリ)とする語句(以下、「検索キーワード」と記載する。)を受け付けるための処理を次のように行う。検索キーワード受付部204は、図7のような検索キーワード入力画面63をタッチパネルディスプレイ20eに表示する。ここで、ユーザは、検索キーワードとする語句を入力し、「検索」ボタンを押す。
When the user code is received by the user
すると、検索キーワード受付部204は、入力された語句を検索キーワードとして受け付ける。
Then, the search
文書検索部205は、ローカル文書データベース2B1に文書データ50が記憶されている文書および文書サーバ3に文書データ50が記憶されている文書の中から、受け付けられた検索キーワードを含む文書を検索する。検索は、公知の方法で行うことができる。なお、文書サーバ3の文書からの検索については、検索キーワードを文書サーバ3へ通知し、文書サーバ3に実行させてもよい。そして、ユーザコンピュータ2は、見つかった(ヒットした)文書の文書データ50を文書サーバ3から取得すればよい。
The
類似文書選出部206は、文書検索部205によって複数の文書が見つかった場合に、これらの文書の中から互いに類似するもの(以下、「類似文書」と記載する。)を選出する。類似文書の選出は、公知の方法によって行うことができる。例えば、ある2つ以上の文書の一致する部分の文字数が所定の数以上であれば、これらの文書を類似文書として選出する。または、特開2004−318527号公報に記載されるような、ある2つ以上の文書の類似度を算出し、その類似度が所定の値以上であれば、これらの文書を類似文書として選出してもよい。
When a plurality of documents are found by the
差分抽出部207は、類似文書選出部206によって選出された複数の類似文書から差分を抽出する。差分の抽出は、公知の方法によって行えばよい。
The
例えば、図8に示す2つの類似文書7A1、7A2が選出された場合は、差分抽出部207は、図9に示す差分7B1、7B2を抽出する。
For example, when two similar documents 7A1 and 7A2 shown in FIG. 8 are selected, the
関心有無判別部208は、類似文書選出部206によって選出された複数の類似文書に対してユーザが関心を有するか否かを判別する。この処理は、例えば、図10に示す手順で実行される。
The
関心有無判別部208は、ユーザコード受付部203によって受け付けられたユーザコードを示す個人プロファイルデータ52を個人プロファイルデータ記憶部202(図5参照)から読み出す(図10の#801)。差分抽出部207によって抽出されたいずれかの差分に、この個人プロファイルデータ52に示される興味キーワードが含まれているか否かをチェックする(#802)。そして、含まれていれば(#803でYes)、類似文書に対してユーザが興味を有すると、判別する(#804)。含まれていなければ(#803でNo)、興味がないと判別する(#805)。
The
例えば、図8に示す2つの類似文書7A1、7A2の差分として、図9に示す差分7B1、7B2が抽出され、かつ、個人プロファイルデータ52に「技術,材料,合成,温度」が示される場合は、「温度」という興味キーワードが差分7B2に含まれるので、類似文書7A1、7A2に対して関心があると、判別する。一方、「商品,販売,ニーズ,人気」が個人プロファイルデータ52に示される場合は、いずれの興味キーワードも差分7B1にも7B2にも含まれないので、関心がないと、判別する。
For example, when the differences 7B1 and 7B2 shown in FIG. 9 are extracted as the differences between the two similar documents 7A1 and 7A2 shown in FIG. 8, and “technology, material, composition, temperature” is shown in the
3つ以上の類似文書が選出された場合は、これらの類似文書それぞれから差分を抽出すればよい。そして、いずれかの差分にいずれかの興味キーワードが含まれて(表われて)いれば、関心があると判別すればよい。なお、ある類似文書の「差分」は、他のいずれかの類似文書とは異なる部分を意味する。 When three or more similar documents are selected, a difference may be extracted from each of these similar documents. Then, if any interest keyword is included (represented) in any difference, it may be determined that there is interest. The “difference” of a certain similar document means a portion different from any other similar document.
検索結果提示部209は、文書検索部205による検索の結果、つまり、見つかった文書を提示する。この処理は、例えば、図11に示す手順で実行される。
The search
検索結果提示部209は、文書検索部205によって見つかった文書の文書名の配置を次のように決定する。類似文書選出部206によって選出された類似文書については(図11の#811でYes)、ユーザが関心を有すると関心有無判別部208によって判別された場合は(#812でYes)、それぞれの類似文書の文書名を同等(同列、同順位)に配置する(#813)。しかし、関心を有しないと判別された場合は(#812でNo)、これらの類似文書のうちの1つを代表として選出し、その文書名を優先的に配置する(#814)。優先的な配置の例および代表の選出の例は、後に説明する。
The search
一方、類似文書選出部206によって選出されなかった文書(以下、「非類似文書」と記載する。)の文書名については(#815でYes)、他の文書の文書名と同等に配置する(#816)。 On the other hand, the document names of documents that are not selected by the similar document selection unit 206 (hereinafter referred to as “dissimilar documents”) (Yes in # 815) are arranged in the same manner as the document names of other documents ( # 816).
そして、上述の通り文書名を配置した検索結果画面64をタッチパネルディスプレイ20eに表示する(#817)。
Then, the
なお、文書名の代わりに、文書データ50のデータ名(ファイル名)を表示してもよい。または、文書名とともにデータ名を表示してもよい。さらに、文書データ50の保存場所とともに表示してもよい。
Note that the data name (file name) of the
図12〜図14は、検索結果画面64の例を示す図である。図15は、類似文書のグループが2組ある場合の検索結果画面64の例を示す図である。
12 to 14 are diagrams showing examples of the
ここで、文書検索部205および類似文書選出部206の処理によって、類似文書として「AAAAA1」という文書名の文書および「AAAAA2」という文書名の文書が見つかり、非類似文書として「BBBBB」という文書名の文書が見つかった場合を例に、優先的な配置の仕方を説明する。
Here, by the processing of the
類似文書に関心がないと関心有無判別部208によって判別された場合は、検索結果提示部209は、例えば、図12(A)のように、類似文書の代表のみの文書名と非類似文書の文書名とを、同等に配置する。類似文書のうち、代表以外の文書名は、この時点では、除去しておく。また、類似文書の文書名の直後にアイコン64cを配置する。そして、アイコン64cが押されたら、関心有無判別部208は、検索結果画面64を、図12(B)のように、代表以外の(残りの)類似文書の文書名を新たに、インデントを付けて(字下げして)配置した状態で、表示し直す。
When the interest presence /
なお、図12(A)および(B)の例では、類似文書の代表の文書名および非類似文書の文書名の順番は、任意に決めればよい。例えば、アルファベットの降順または昇順にしてもよい。または、作成日時の降順または昇順にしてもよい。検索結果画面64を、最初から、図12(B)のように代表以外の類似文書の文書名を下位に配置して表示してもよい。下位の類似文書の文書名のフォントのサイズを、代表の文書名のフォントのサイズよりも小さくしてもよい。
In the examples of FIGS. 12A and 12B, the order of the representative document name of the similar document and the document name of the dissimilar document may be arbitrarily determined. For example, it may be in descending or ascending order of the alphabet. Alternatively, the creation date may be in descending order or ascending order. From the beginning, the
一方、類似文書に関心があると関心有無判別部208によって判別された場合は、検索結果提示部209は、図13のように、すべての類似文書および非類似文書それぞれの文書名を同等に配置する。この場合も、文書名の順番は、任意に決めればよい。
On the other hand, if the
または、類似文書に関心がないと判別された場合に、検索結果提示部209は、図14(A)のように、複数の類似文書の集合を表わすアイコン64sおよび代表の文書名と、単独の非類似文書を表わすアイコン64t1およびその文書名とを、配置してもよい。そして、アイコン64sが押されたら、図14(B)のように、類似文書それぞれのアイコン64t2、64t3をそれぞれの文書名とともに配置してもよい。
Alternatively, when it is determined that there is no interest in similar documents, the search
また、検索結果提示部209は、類似文書の代表を次のように選出すればよい。例えば、作成日時が最新のものを代表として選出すればよい。または、更新日時が最新のものを選出してもよい。または、アクセスの回数が最多であるものを選出してもよい。または、文字数が最多であるものを選出してもよい。代表は、2つ以上であってもよい、特に、類似文書が多数ある場合は、そのうちの数個を代表として選出してもよい。
Further, the search
なお、検索結果画面64において文書名またはアイコンが選択されたら、ユーザコンピュータ2は、従来通り、それに対応する文書データ50をローカル文書データベース2B1または文書サーバ3から読み出し、所定のアプリケーションによってオープンする。
When a document name or an icon is selected on the
類似文書が複数組、選出されることがある。この場合は、関心有無判別部208および検索結果提示部209は、次のように処理を行えばよい。
Multiple sets of similar documents may be selected. In this case, the interest presence /
関心有無判別部208は、それぞれの組の類似文書について、関心の有無を判別する。検索結果提示部209は、それぞれの組の類似文書について、関心有無判別部208による判別結果に応じて代表を優先的に配置するのかすべてを同等に配置するのかを決め、検索結果画面64を表示する。
The interest presence /
例えば、文書名がそれぞれ「AAAAA1」および「AAAAA2」の1組の類似文書と、文書名がそれぞれ「CCCCC1」および「CCCCC2」の1組の類似文書が選出され、さらに、どちらの組の類似文書にも類似しない「BBBBB」という文書が選出された場合は、次のように処理が行われる。関心有無判別部208は、2つの組それぞれについて関心の有無を判別する。検索結果提示部209は、関心のある組については、図15(A)または(B)に一点鎖線で示すように、類似文書の文書名を同等に配置する。関心のない組については、二点鎖線で示すように、代表の文書名を優先的に配置する。
For example, a set of similar documents with document names “AAAAAA1” and “AAAAAA2” and a set of similar documents with document names “CCCCC1” and “CCCCC2” are selected, respectively, and which set of similar documents If a document “BBBBB” that is not similar to the above is selected, the following processing is performed. The interest presence /
図16は、検索処理の流れの例を説明するフローチャートである。次に、ユーザコンピュータ2の全体的な処理の流れを、図16のフローチャートを参照しながら説明する。
FIG. 16 is a flowchart illustrating an example of the flow of search processing. Next, the overall processing flow of the
ユーザコンピュータ2は、検索者であるユーザのユーザコードを受け付け(図16の#11)、検索キーワードを受け付ける(#12)。検索キーワードを含む文書をローカル文書データベース2B1および文書サーバ3それぞれから検索し(#13)、互いに類似する複数の文書(類似文書)を選出する(#14)。
The
類似文書を選出できた場合は、ユーザコンピュータ2は、類似文書同士の差分を抽出し(#15)、このユーザが類似文書に対して関心を有するか否かを判別する(#16)。判別の方法は、図10で説明した通りである。
If a similar document can be selected, the
そして、ユーザコンピュータ2は、各文書の文書名をステップ#13〜#16の処理の結果に基づいて配置することによって検索結果画面64(図12〜図14参照)を生成し、表示する(#17)。この処理の手順は、図11で説明した通りである。
Then, the
本実施形態によると、互いに類似する複数の文書(類似文書)を、従来よりもユーザごとの好みに合わせて提示することができる。例えば、ユーザが技術職であれば、技術的な単語が興味キーワードとして登録されているので、類似文書が技術的なものであれば、これらをすべて提示される傾向が強くなる。しかし、ユーザが営業職であれば、技術的な類似文書は、代表的なものだけ提示される傾向が強くなる。 According to the present embodiment, a plurality of documents (similar documents) similar to each other can be presented in accordance with the preference of each user as compared with the related art. For example, if the user is a technical profession, technical words are registered as interest keywords, so if similar documents are technical, there is a strong tendency to present them all. However, if the user is a sales person, only technical representative documents are more likely to be presented.
次に、図3に示すユーザコンピュータ2の各部の処理の変形例を、図17〜図29を参照しながら順次説明する。
Next, modified examples of the processing of each unit of the
〔個人プロファイルデータの生成および管理の変形例〕
上述の実施形態では、個人プロファイルデータ生成部201は、興味キーワードを、興味キーワード入力画面61(図4参照)を介してユーザに入力させることによって取得し、個人プロファイルデータ52(図5参照)を生成した。しかし、他の方法によって取得してもよい。
[Variation of personal profile data generation and management]
In the above-described embodiment, the personal profile
例えば、個人プロファイルデータ生成部201は、ユーザが過去にアクセスした各文書から、単語およびその登場回数を分析する。そして、登場回数が所定の回数以上の単語を興味キーワードとして選出し、個人プロファイルデータ52を生成する。または、登場回数が多い順に所定の個数だけ単語を興味キーワードとして選出し、個人プロファイルデータ52を生成してもよい。
For example, the personal profile
個人プロファイルデータ52を文書サーバ3またはその他のサーバにおいて一元的に管理し、複数のユーザコンピュータ2において共用してもよい。この場合に、ユーザコンピュータ2の関心有無判別部208は、ユーザコード受付部203によって受け付けられたユーザコードをサーバへ通知し、これを示す個人プロファイルデータ52をサーバからダウンロードすればよい。
The
〔差分の抽出の変形例〕
図17は、類似文書7C1、7C2および差分7E1、7E2の例を示す図である。
[Modification of difference extraction]
FIG. 17 is a diagram illustrating examples of similar documents 7C1 and 7C2 and differences 7E1 and 7E2.
上述の実施形態では、図8および図9に示した通り、差分抽出部207は、文字の単位で差分を抽出した。しかし、この単位で抽出すると、類似文書によっては、差分が少ししか取れないことがある。例えば、図17(A)に示す2つの類似文書7C1、7C2から、差分として、数文字の文字列からなる差分7D1、7D2しか抽出されない。そうすると、関心有無判別部208は、興味キーワードとのマッチングを十分に行うことができず、類似文書に対するユーザの関心の有無を十分適切に判別することができないことがある。
In the above-described embodiment, as illustrated in FIGS. 8 and 9, the
そこで、差分抽出部207は、もう少し大きい単位で差分を抽出してもよい。例えば、文(センテンス)の単位で抽出してもよい。この場合は、図17(A)の類似文書7C1、7C2から、図17(B)のように差分7E1、7E2が抽出される。または、段落の単位で抽出してもよい。または、文頭または1つの読点から次の読点または句点までの文字列の単位で抽出してもよい。または、文字の単位で差分を抽出し、興味キーワードとのマッチングの範囲を、差分の前後の所定の範囲(例えば、前後30文字の範囲)まで広げてもよい。
Therefore, the
〔類似文書に対する関心の有無の判別の第一の変形例〕
図18は、個人プロファイルデータ53の例を示す図である。図19は、関心有無判別処理の流れの変形例を説明するフローチャートである。図20は、差分7F1、7F2の例を示す図である。
[First modified example of determination of interest in similar documents]
FIG. 18 is a diagram illustrating an example of the
上述の実施形態では、関心有無判別部208は、類似文書へのユーザの関心の有無を、いずれかの類似文書の差分にこのユーザの興味キーワード(図5参照)が含まれているか否かだけで判別した。関心の有無をより正確に判別するために、次のように判別してもよい。
In the above-described embodiment, the interest presence /
個人プロファイルデータ記憶部202に、個人プロファイルデータ52の代わりに、図18に示すような個人プロファイルデータ53を記憶させておく。個人プロファイルデータ53には、個人プロファイルデータ52と同様、ユーザコードとともに、ユーザが興味を有する事項の単語が興味キーワードとして示されている。さらに、個人プロファイルデータ53は、興味キーワードごとに、ユーザにとっての重要性または興味深さを表わす点数が示されている。点数は、ユーザが付けてもよいし、ユーザが過去にアクセスした各文書における登場回数に基づいて決定してもよい。
Instead of the
関心有無判別部208は、類似文書に対する関心の有無を、個人プロファイルデータ52の代わりに個人プロファイルデータ53を用いて判別する。ここで、判別の方法を、図19を参照しながら説明する。
An interest presence /
関心有無判別部208は、ユーザコード受付部203によって受け付けられたユーザコードを示す個人プロファイルデータ53を個人プロファイルデータ記憶部202から読み出す(図19の#821)。類似文書選出部206によって選出された類似文書の、差分抽出部207によって抽出された差分に、個人プロファイルデータ53に示される興味キーワードが含まれるか否かをチェックするとともに、含まれる場合は興味キーワードそれぞれの登場回数をカウントする(#822)。
The
興味キーワードが含まれる場合は(#823でYes)、関心有無判別部208は、各興味キーワードの登場回数と個人プロファイルデータ53に示される点数との積の合計値を、重要度として算出する(#824)。そして、算出した重要度が閾値α以上である場合は(#825でYes)、類似文書に対する関心があると判別する(#826)。閾値α未満である場合は(#826でNo)、類似文書に対する関心がないと判別する(#827)。興味キーワードが1つも含まれない場合も(#823でNo)、類似文書に対する関心がないと判別する(#827)。
When an interest keyword is included (Yes in # 823), the interest presence /
例えば、2つの類似文書の差分が図20に示す差分7F1、7F2であり、閾値αが「8.0」である場合において、図18(A)の個人プロファイルデータ53を用いると、「成分」が4回登場し、「温度」が3回登場するので、重要度として、4.0×4+3.0×3=25.0、が算出される。よって、「関心あり」と、判別される。一方、図18(C)の個人プロファイルデータ53を用いると、「温度」が3回登場するので、重要度として、2.0×3=6.0、が算出される。よって、「関心なし」と、判別される。
For example, when the difference between two similar documents is the difference 7F1 and 7F2 shown in FIG. 20 and the threshold value α is “8.0”, using the
なお、ステップ#824において、重要度として、積の合計値の代わりに積の平均値を算出してもよい。次に説明する第二の変形例においても、同様である。
In
〔類似文書に対する関心の有無の判別の第二の変形例〕
図21は、個人プロファイルデータ54の例を示す図である。図22は、関心有無判別処理の流れの変形例を説明するフローチャートである。
[Second modification of determination of interest in similar documents]
FIG. 21 is a diagram illustrating an example of the
キーワード同士の関連性に鑑み、類似文書に対するユーザの関心の有無を次のように判別してもよい。 In view of the relevance between keywords, the user's interest in similar documents may be determined as follows.
個人プロファイルデータ記憶部202に、個人プロファイルデータ52の代わりに、図21に示すような個人プロファイルデータ54を記憶させておく。個人プロファイルデータ54には、ユーザコードとともに、ユーザが興味を有する事項を表わす2つの単語のペアが興味ペアキーワードとして示されている。さらに、個人プロファイルデータ54は、興味ペアキーワードごとに、ユーザにとっての重要性または興味深さを表わす点数が示されている。または、興味ペアキーワードを構成する2つの単語同士の関連性の深さを表わす点数を示してもよい。
Instead of the
興味ペアキーワードおよびその点数は、予め、ユーザが個々に入力すればよい。または、ユーザが過去にアクセスした各文書の所定の単位の塊(例えば、一文または一段落など)から、2つの単語同士の組合せを検索し、その登場回数をカウントすることによって、取得してもよい。 The user may input the interest pair keyword and its score individually in advance. Alternatively, it may be obtained by searching for a combination of two words from a predetermined unit block (for example, one sentence or one paragraph) of each document accessed by the user in the past and counting the number of appearances. .
関心有無判別部208は、類似文書に対する関心の有無を、個人プロファイルデータ52の代わりに個人プロファイルデータ54を用いて判別する。ここで、判別の方法を、図22を参照しながら説明する。
The interest presence /
関心有無判別部208は、ユーザコード受付部203によって受け付けられたユーザコードを示す個人プロファイルデータ54を個人プロファイルデータ記憶部202から読み出す(図22の#831)。類似文書選出部206によって選出された類似文書の、差分抽出部207によって抽出された差分に、個人プロファイルデータ54に示される興味ペアキーワードが含まれるか否かをチェックするとともに、含まれる場合は興味ペアキーワードそれぞれの登場回数をカウントする(#832)。
The
なお、「興味ペアキーワードが差分に含まれる」とは、興味ペアキーワードに係る2つの単語が1つの差分の中の任意の位置に含まれていることとしてもよいが、両単語の位置が相当離れていると、両単語がペアであると認め難いことがある。そこで、両単語が同じ1つの文(センテンス)に含まれている場合を、興味ペアキーワードが差分に含まれることとしてもよい。 “Interested pair keyword is included in the difference” means that two words related to the interested pair keyword may be included in any position in one difference, but the positions of both words are equivalent. When separated, it may be difficult to recognize that both words are a pair. Therefore, when both words are included in the same sentence (sentence), the interest pair keyword may be included in the difference.
興味ペアキーワードが含まれる場合は(#833でYes)、関心有無判別部208は、各興味ペアキーワードの登場回数と個人プロファイルデータ54に示される点数との積の合計を、重要度として算出する(#834)。そして、算出した重要度が閾値β以上である場合は(#835でYes)、類似文書に対する関心があると判別する(#836)。閾値β未満である場合は(#835でNo)、類似文書に対する関心がないと判別する(#837)。興味ペアキーワードが1つも含まれない場合も(#833でNo)、類似文書に対する関心がないと判別する(#837)。
When the interest pair keyword is included (Yes in # 833), the interest presence /
本変形例では、2つの単語同士を1つのペアにしたが、3つ以上の単語同士を1つのペアにしてもよい。 In this modification, two words are made into one pair, but three or more words may be made into one pair.
〔3つ以上の類似文書がある場合の変形例〕
図23は、類似文書7G1〜7G3の例を示す図である。図24は、検索処理の流れの変形例を説明するフローチャートである。図25は、差分7H1、7H2および差分7J2、7J3の例を示す図である。図26は、第二の検索結果提示処理の流れの例を説明するフローチャートである。図27は、検索結果画面64の例を示す図である。
[Variation when there are three or more similar documents]
FIG. 23 is a diagram illustrating an example of similar documents 7G1 to 7G3. FIG. 24 is a flowchart illustrating a modified example of the flow of search processing. FIG. 25 is a diagram illustrating an example of the differences 7H1 and 7H2 and the differences 7J2 and 7J3. FIG. 26 is a flowchart illustrating an example of the flow of the second search result presentation process. FIG. 27 is a diagram illustrating an example of the
1組の類似文書が、ベースが同じであるが版(バージョン、エディション)が異なることが、ある。つまり、いわゆる版違いであることが、ある。例えば、3つの類似文書のうちの1つ目がドラフト版(第1版)であり、2つ目が改訂版(第2版)であり、3つ目が正式版(第3版)である、というケースである。なお、版違いであることは、各類似文書の文書データ50のプロパティを参照すれば、分かる。例えば、表題が同一であるが版番が異なれば、版違いであると判別することができる。または、版を管理するシステム(例えば、特開2006−127029号公報に記載されるシステム)に問い合わせてもよい。
A set of similar documents may have the same base but different versions (versions, editions). In other words, there is a so-called version difference. For example, the first of three similar documents is a draft version (first version), the second is a revised version (second version), and the third is an official version (third version). This is the case. Note that the version difference can be understood by referring to the property of the
1組に類似文書が3つ以上であり、かつ、これらの類似文書が版違いである場合は、版が隣り合う2つの類似文書同士で関心の有無を判別し、その結果に応じて一部の類似文書の文書名のみを優先的に提示してもよい。以下、図23に示す3つの類似文書7G1、7G2、および7G3が類似文書選出部206によって選出された場合を例に、図24のフローチャートなどを参照しながら本変形例を説明する。なお、類似文書7G1、7G2、および7G3は、それぞれ、第1版、第2版、および第3版である。
If there are three or more similar documents in one set and these similar documents are of different versions, the presence or absence of interest is discriminated between two similar documents whose versions are adjacent to each other. Only the document names of similar documents may be presented with priority. Hereinafter, this modification will be described with reference to the flowchart of FIG. 24 and the like, taking as an example the case where the three similar documents 7G1, 7G2, and 7G3 shown in FIG. 23 are selected by the similar
ユーザコンピュータ2の各部は、図16のステップ#11〜#14と同様、ユーザコードおよび検索キーワードを受け付け(図24の#21、#22)、文書を検索し(#23)、類似文書を選出する(#24)。これらの処理において、上述の変形例を用いてもよい。
Each part of the
3つ以上の類似文書が1組として選出された場合は、差分抽出部207は、版が隣り合う2つの類似文書同士をペアとして、各ペアについて差分を抽出し、関心有無判別部208は、各ペアの関心の有無を判別する(#25〜#28)。関心の有無の判別方法は、図10で説明した通りである。または、上述の変形例を用いてもよい。差分の抽出も、上述の変形例を用いてもよい。
When three or more similar documents are selected as one set, the
図23の例では、類似文書7G1および7G2のペアについて、図25(A)のように差分7H1および7H2を抽出し、関心の有無を判別する。さらに、類似文書7G2および7G3のペアについて、図25(B)のように差分7J2および7J3を抽出し、関心の有無を判別する。 In the example of FIG. 23, differences 7H1 and 7H2 are extracted from a pair of similar documents 7G1 and 7G2 as shown in FIG. Further, for the pair of similar documents 7G2 and 7G3, differences 7J2 and 7J3 are extracted as shown in FIG.
そして、検索結果提示部209は、ステップ#23〜#28の結果に基づいて検索結果画面64をタッチパネルディスプレイ20eに表示する(#29)。表示の処理は、図26に示す手順で行われる。
Then, the search
検索結果提示部209は、類似文書7G1〜7G3のうち(#841でYes)、関心があるとステップ#26において少なくとも1回でも判別されたことのある類似文書に対して(#842でYes)、上位の優先度を与える(#843)。
The search
例えば、類似文書7G2が、類似文書7G1とのペアについての判別処理では「関心なし」と判別されたが、類似文書7G3とのペアについての判別処理では「関心あり」と判別された場合は、類似文書7G2に上位の優先度を与える。 For example, when the similar document 7G2 is determined as “no interest” in the determination process for the pair with the similar document 7G1, but is determined as “interested” in the determination process for the pair with the similar document 7G3, A higher priority is given to the similar document 7G2.
一方、関心があると一度も判別されなかった類似文書に対しては(#842でNo)、検索結果提示部209は、下位の優先度を与える(#844)。
On the other hand, for similar documents that have never been identified as being interested (No in # 842), the search
そして、検索結果提示部209は、類似文書7G1〜7G3のうち上位の優先度の類似文書の文書名を優先的に配置する(#845)。このような類似文書が複数ある場合は、それぞれの文書名を同等に配置する。ただし、すべての類似文書の優先度が下位である場合は、代表を1つ選出し、代表の文書名を優先的に配置する。
Then, the search
非類似文書の文書名の配置の方法は、図11で説明した方法と同様である。つまり、他の文書の文書名と同等に配置する(#846でYes、#847)。 The method of arranging the document names of dissimilar documents is the same as the method described with reference to FIG. That is, they are arranged in the same way as the document names of other documents (Yes in # 846, # 847).
そして、このように文書名を配置した検索結果画面64をタッチパネルディスプレイ20eに表示する(#848)。
Then, the
例えば、類似文書7G1、7G2、および7G3の文書名がそれぞれ「EEEEE1」、「EEEEE2」、および「EEEEE3」であり、類似文書7G1の優先度が下位であり、類似文書7G2および7G3の優先度が下位であり、非類似文書の文書名が「DDDDD」である場合は、検索結果提示部209は、図27(A)のように文書名を配置した検索結果画面64を表示する。そして、アイコン64cが押されたら、図27(B)のように類似文書7G3の文書名を類似文書7G1および7G2の各文書名よりも下位に配置して検索結果画面64を表示し直す。
For example, the document names of the similar documents 7G1, 7G2, and 7G3 are “EEEEEE1”, “EEEEEE2”, and “EEEEEE3”, respectively. When the document name of the lower-order and dissimilar document is “DDDDD”, the search
〔文書の整理(データベースのクレンジング)〕
図28は、ユーザコンピュータ2の機能的構成の変形例を示す図である。図29は、検索結果画面64の変形例を示す図である。
[Document organization (database cleansing)]
FIG. 28 is a diagram illustrating a modification of the functional configuration of the
上述の実施形態および変形例は、検索キーワードに合う文書の存在をユーザに知らせるために用いられるが、文書の整理のために応用することができる。具体的には、互いに類似する複数の文書(類似文書)のうち1つのみを残し、それ以外を削除するためにも、用いられる。以下、この仕組みを、図28および図29を参照しながら説明する。 The above-described embodiments and modifications are used to inform the user of the existence of a document that matches the search keyword, but can be applied to organize documents. Specifically, it is also used to leave only one of a plurality of similar documents (similar documents) and delete the other documents. Hereinafter, this mechanism will be described with reference to FIGS. 28 and 29. FIG.
図28に示すように、さらに文書データ削除部211を設ける。個人プロファイルデータ生成部201ないし検索結果提示部209の機能は基本的に上述の実施形態または変形例と同様である。
As shown in FIG. 28, a document
ただし、文書検索部205は、検索の範囲を限定してもよい。例えば、ローカル文書データベース2B1に文書データ50が保存されている文書に限定してもよい。または、ユーザコード受付部233によってユーザコードが受け付けられたユーザのみが所有者である文書に限定してもよい。または、検索の範囲をユーザに指定させてもよい。または、文書が幾つかのカテゴリのうちのいずれかに予め分類されている場合は、ユーザが選択したカテゴリを検索の範囲としてもよい。
However, the
また、検索結果提示部209は、文書検索部205、類似文書選出部206、および関心有無判別部208による処理の結果に基づいて検索結果画面64を表示するが、図29(A)または(B)のように、文書の整理ができる旨のメッセージおよび「削除」ボタンを配置した状態で表示する。
The search
ここで、ユーザは、関心がないと関心有無判別部208によって判別された類似文書を、代表のみを残して削除してもよい場合は、「削除」ボタンを押す。
Here, when the user can delete the similar document determined by the
すると、文書データ削除部211は、関心がないと判別された類似文書のうちの代表以外の類似文書の文書データ50を、現在の保存場所から削除する。
Then, the document
文書の整理の機能を備えた場合の、ユーザコンピュータ2の全体的な処理の流れは、基本的に図16または図24で説明した通りである。ただし、ユーザコンピュータ2は、図16のステップ#17または図24のステップ#29の後、ユーザが「削除」ボタンを押した場合に、上述の通り類似文書の文書データ50を削除する処理を実行する。
The overall processing flow of the
このように、文書データ削除部211によると、ローカル文書データベース2B1または文書サーバ3のメンテナンスにおける類似文書のクレンジングを行うことができる。
As described above, the document
なお、文書データ削除部211は、検索結果画面64を表示することなく削除の処理を実行してもよい。または、検索結果提示部209は、類似文書の文書名を所定の順序(例えば、興味キーワードが多く含まれる順)で一覧として表示し、文書データ削除部211は、一覧の中からユーザが選択した文書の文書データ50のみを削除してもよい。
Note that the document
その他、文書管理システム1、ユーザコンピュータ2の全体または各部の構成、処理内容、処理順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。
In addition, the configuration of the entire
2 ユーザコンピュータ(情報処理装置、文書データ整理装置)
202 個人プロファイルデータ記憶部(興味キーワード記憶手段)
204 検索キーワード受付部(検索キーワード受付手段)
207 差分抽出部(差分抽出手段)
208 関心有無判別部(条件適否判別手段)
209 検索結果提示部(存在提示手段)
211 文書データ削除部(文書データ整理手段、文書データ削除手段)
50 文書データ
64 検索結果画面
2 User computer (information processing device, document data organizing device)
202 Personal profile data storage unit (interest keyword storage means)
204 Search keyword receiving unit (search keyword receiving means)
207 Difference extraction unit (difference extraction means)
208 Interest presence / absence discriminating section (condition suitability judging means)
209 Search result presentation unit (presentation means)
211 Document data deletion unit (document data organizing means, document data deleting means)
50
Claims (12)
前記複数の文書同士の差分を抽出する差分抽出手段と、
興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分に表われているか否かを判別する、条件適否判別手段と、
前記興味キーワードが前記所定の条件を満たすように前記差分に表われている場合は、前記複数の文書の全部の存在を提示し、そうでない場合は、前記複数の文書のうちの一部の存在を優先的に提示する、存在提示手段と、
を有することを特徴とする情報処理装置。 An information processing apparatus that notifies the presence of some or all of a plurality of similar documents,
Difference extracting means for extracting differences between the plurality of documents;
A condition suitability judging means for judging whether or not an interest keyword representing an item of interest to the user, which is stored in advance in the interest keyword storage means, is represented in the difference so as to satisfy a predetermined condition;
If the interest keyword appears in the difference so as to satisfy the predetermined condition, the presence of all of the plurality of documents is presented; otherwise, the existence of a part of the plurality of documents Presence presenting means for preferentially presenting
An information processing apparatus comprising:
前記複数の文書は、前記検索キーワードに基づいて検索されたものである、
請求項1に記載の情報処理装置。 Search keyword receiving means for receiving a search keyword used as a search key;
The plurality of documents are searched based on the search keyword.
The information processing apparatus according to claim 1.
請求項1または請求項2に記載の情報処理装置。 The predetermined condition is that the keyword of interest appears at least once in the difference.
The information processing apparatus according to claim 1 or 2.
前記所定の条件は、前記興味キーワードそれぞれの、前記差分に表われる回数と前記点数との積の和が閾値以上であることである、
請求項1または請求項2に記載の情報処理装置。 The interest keyword storage means stores a plurality of the interest keywords, and a score is given to each of the plurality of interest keywords.
The predetermined condition is that a sum of products of the number of times expressed in the difference and the score of each of the interested keywords is equal to or greater than a threshold value.
The information processing apparatus according to claim 1 or 2.
前記所定の条件は、前記ペアそれぞれの、前記差分に表われる回数と前記点数との積の和が閾値以上であることである、
請求項1または請求項2に記載の情報処理装置。 The interest keyword storage means stores a plurality of pairs of words as the interest keyword, and a score is given to each of the plurality of pairs,
The predetermined condition is that the sum of the product of the number of times expressed in the difference and the score of each pair is equal to or greater than a threshold value.
The information processing apparatus according to claim 1 or 2.
請求項1ないし請求項5のいずれかに記載の情報処理装置。 The presence presenting means displays the presence of a part of the plurality of documents, the identifier of the part, and the remainder when the interest keyword is not represented in the difference so as to satisfy the predetermined condition By preferentially presenting by not displaying the identifier of
The information processing apparatus according to any one of claims 1 to 5.
請求項1ないし請求項5のいずれかに記載の情報処理装置。 When the interest keyword is not represented in the difference so that the predetermined keyword satisfies the predetermined condition, the presence presenting means indicates the presence of a part of the plurality of documents, the partial identifier as a remaining identifier, Present it preferentially by displaying it more prominently,
The information processing apparatus according to any one of claims 1 to 5.
請求項1ないし請求項7のいずれかに記載の情報処理装置。 If the keyword of interest is not represented in the difference so as to satisfy the predetermined condition, the data of the document preferentially presented by the presence presenting means among the plurality of documents is left, and the other documents A document data organizing means for performing processing for deleting data;
The information processing apparatus according to claim 1.
前記複数の文書同士の差分を抽出する差分抽出手段と、
興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分またはその前後の所定の範囲に表われているか否かを判別する、条件適否判別手段と、
前記興味キーワードが前記所定の条件を満たすように前記差分または前記所定の範囲に表われている場合は、前記複数の文書の全部の存在を提示し、そうでない場合は、前記複数の文書のうちの一部の存在を優先的に提示する、存在提示手段と、
を有することを特徴とする情報処理装置。 An information processing apparatus that notifies the presence of some or all of a plurality of similar documents,
Difference extracting means for extracting differences between the plurality of documents;
Determining whether or not an interest keyword that is stored in advance in the interest keyword storage means and represents an item that the user is interested in is represented in the difference or a predetermined range before and after the difference so as to satisfy a predetermined condition; A condition adequacy determination means;
If the keyword of interest appears in the difference or the predetermined range so as to satisfy the predetermined condition, the presence of all of the plurality of documents is presented; otherwise, out of the plurality of documents Presence presenting means for preferentially presenting the presence of a part of
An information processing apparatus comprising:
前記複数の文書同士の差分を抽出する差分抽出手段と、
興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分に表われているか否かを判別する、条件適否判別手段と、
前記興味キーワードが前記所定の条件を満たすように前記差分に表われていない場合に、前記複数の文書のうちの一部の文書のデータを残しそれ以外の文書のデータを削除する処理を実行する、文書データ削除手段と、
を有することを特徴とする文書データ整理装置。 A document data organizing apparatus for organizing data of a plurality of similar documents,
Difference extracting means for extracting differences between the plurality of documents;
A condition suitability judging means for judging whether or not an interest keyword representing an item of interest to the user, which is stored in advance in the interest keyword storage means, is represented in the difference so as to satisfy a predetermined condition;
When the interested keyword is not represented in the difference so as to satisfy the predetermined condition, a process is performed in which data of a part of the plurality of documents is left and data of the other documents is deleted. , Document data deletion means,
An apparatus for organizing document data.
コンピュータに、
前記複数の文書同士の差分を抽出する抽出処理を実行させ、
興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分に表われているか否かを判別する、判別処理を実行させ、
前記興味キーワードが前記所定の条件を満たすように前記差分に表われている場合は、前記複数の文書の全部の存在を提示し、そうでない場合は、前記複数の文書のうちの一部の存在を優先的に提示する、提示処理を実行させる、
ことを特徴とする文書提示方法。 A document presentation method for notifying the existence of some or all of a plurality of similar documents,
On the computer,
Causing an extraction process to extract differences between the plurality of documents,
A determination process for determining whether or not an interest keyword representing an item of interest to the user, which is stored in advance in the interest keyword storage means, is represented in the difference so as to satisfy a predetermined condition;
If the interest keyword appears in the difference so as to satisfy the predetermined condition, the presence of all of the plurality of documents is presented; otherwise, the existence of a part of the plurality of documents , Preferentially present, execute the presentation process,
A document presentation method characterized by the above.
前記コンピュータに、
前記複数の文書同士の差分を抽出する抽出処理を実行させ、
興味キーワード記憶手段に予め記憶されている、ユーザが興味を有する事項を表わす興味キーワードが、所定の条件を満たすように前記差分に表われているか否かを判別する、判別処理を実行させ、
前記興味キーワードが前記所定の条件を満たすように前記差分に表われている場合は、前記複数の文書の全部の存在を提示し、そうでない場合は、前記複数の文書のうちの一部の存在を優先的に提示する、提示処理を実行させる、
ことを特徴とするコンピュータプログラム。 A computer program used in a computer for informing the existence of some or all of a plurality of similar documents,
In the computer,
Causing an extraction process to extract differences between the plurality of documents,
A determination process for determining whether or not an interest keyword representing an item of interest to the user, which is stored in advance in the interest keyword storage means, is represented in the difference so as to satisfy a predetermined condition;
If the interest keyword appears in the difference so as to satisfy the predetermined condition, the presence of all of the plurality of documents is presented; otherwise, the existence of a part of the plurality of documents , Preferentially present, execute the presentation process,
A computer program characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013129635A JP6135327B2 (en) | 2013-06-20 | 2013-06-20 | Information processing apparatus, document data organizing apparatus, document presentation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013129635A JP6135327B2 (en) | 2013-06-20 | 2013-06-20 | Information processing apparatus, document data organizing apparatus, document presentation method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015005112A JP2015005112A (en) | 2015-01-08 |
JP6135327B2 true JP6135327B2 (en) | 2017-05-31 |
Family
ID=52300962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013129635A Expired - Fee Related JP6135327B2 (en) | 2013-06-20 | 2013-06-20 | Information processing apparatus, document data organizing apparatus, document presentation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6135327B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859896B (en) * | 2019-04-01 | 2022-11-25 | 长鑫存储技术有限公司 | Formula document detection method and device, computer readable medium and electronic equipment |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3139658B2 (en) * | 1993-05-06 | 2001-03-05 | シャープ株式会社 | Document display method |
JP5227146B2 (en) * | 2008-11-27 | 2013-07-03 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Clustering result display apparatus, method and program thereof |
-
2013
- 2013-06-20 JP JP2013129635A patent/JP6135327B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015005112A (en) | 2015-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | Tiara: a visual exploratory text analytic system | |
KR20160106527A (en) | System and method for online handwriting recognition in web queries | |
CN103430172A (en) | Search apparatus, search method, and program | |
JP6529133B2 (en) | Apparatus, program and method for analyzing the evaluation of topics in multiple regions | |
JP6664599B2 (en) | Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program | |
WO2014206186A1 (en) | Method and device for generating entry information | |
JP2012178026A (en) | Search device, search method, search program, and computer-readable recording medium for storing the same program | |
JP2017117021A (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
JP6135327B2 (en) | Information processing apparatus, document data organizing apparatus, document presentation method, and computer program | |
TW201523305A (en) | Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium | |
CN112487159A (en) | Search method, search device, and computer-readable storage medium | |
JP5508131B2 (en) | Shared reading data retrieval apparatus and method | |
JP6163143B2 (en) | Information providing apparatus, information providing method, and information providing program | |
JP2005128872A (en) | Document retrieving system and document retrieving program | |
JP3702268B2 (en) | Information search system, information search method and program | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP5491446B2 (en) | Topic word acquisition apparatus, method, and program | |
CN110888894A (en) | Patent search method, server and computer readable medium | |
CN110795943B (en) | Topic representation generation method and system for event | |
KR20080028031A (en) | System extracting and displaying keyword and contents related with the keyword and method using the system | |
JP4675986B2 (en) | Information sharing apparatus and information sharing program | |
WO2017134760A1 (en) | Information search method, information search device and information search system | |
WO2013015811A1 (en) | Search query generation using query segments and semantic suggestions | |
KR101440385B1 (en) | Device for managing information using indicator | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6135327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |