JP2020071534A - 情報処理システム、情報処理方法及び情報処理プログラム - Google Patents
情報処理システム、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP2020071534A JP2020071534A JP2018203212A JP2018203212A JP2020071534A JP 2020071534 A JP2020071534 A JP 2020071534A JP 2018203212 A JP2018203212 A JP 2018203212A JP 2018203212 A JP2018203212 A JP 2018203212A JP 2020071534 A JP2020071534 A JP 2020071534A
- Authority
- JP
- Japan
- Prior art keywords
- document
- short sentence
- information
- processing unit
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 121
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 423
- 230000005540 biological transmission Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims description 136
- 230000008569 process Effects 0.000 claims description 102
- 239000000470 constituent Substances 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 169
- 238000004891 communication Methods 0.000 description 60
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000005054 agglomeration Methods 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 101150116173 ver-1 gene Proteins 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】決定事項を含む文書が形成される経緯、根拠、背景などの議論が短文で行われる場合に、短文と文書とを容易に関連付けを行うことができる情報処理システム、情報処理方法、及び情報処理プログラムを提供する。【解決手段】情報処理システムは、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理部と、前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理部と、を備える。【選択図】図1
Description
本発明は、情報処理システム、情報処理方法、及び情報処理プログラムに関する。
近年、電子メールや電子掲示板のメッセージなどを用いて、ある項目が決定される経緯などの話題に関する知識について、当該知識の共有化の促進を図る情報処理システムが知られている(例えば、特許文献1参照)。
しかしながら、特許文献1においては、電子メールや電子掲示板などの短文から構成されるメッセージの共有化のために、当該メッセージの内容を整理し、要約したまとめとなる文書をユーザによって作成する必要があった。そのため、ユーザによって当該メッセージのまとめが作成されない限り、関連する項目が決定される経緯や背景などの情報が関連付けられない、という課題があった。
本発明は、上記の課題を解決すべくなされたもので、その目的は、短文と文書とを容易に関連付けを行うことができる情報処理システム、情報処理方法、及び情報処理プログラムを提供することにある。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理部と、前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理部と、を備える情報処理システムである。
また、本発明の一態様は、上記の情報処理システムにおいて、前記短文は、更に発信者及び発信対象者に関する情報を含み、前記短文処理部は、前記発信者及び前記発信対象者に更に基づいて、前記短文を複数の前記クラスタに分類するようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記短文処理部は、前記短文の内容に更に基づいて、前記短文を複数の前記クラスタに分類するようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記関連付け処理部は、前記関連付けを閲覧するユーザの情報に更に基づいて前記関連付けを行うようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記関連付け処理部は、版の異なる複数の前記文書がある場合に、前記版が異なる複数の前記文書を含んで構成される前記文書に対して、前記関連付けを行うようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記関連付け処理部は、前記文書の構成単位毎に、前記関連付けを行うようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記文書には、第1文書と、前記第1文書と異なる第2文書が含まれ、前記情報処理システムは、更に、複数の前記文書を前記文書の類似度に基づいて文書間関連付けを行う文書情報処理部を備え、前記文書情報処理部が前記第1文書と前記第2文書の前記類似度に基づいて文書間関連付けを行わない場合であって、前記第1文書及び前記第2文書が、同一の前記クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われている場合に、前記関連付け処理部は、前記第1文書と前記第2文書とを関連付けるようにしてもよい。
また、本発明の一態様は、上記の情報処理システムにおいて、前記クラスタには、第1クラスタと、前記第1クラスタと異なる第2クラスタが含まれ、前記関連付け処理部は、前記第1クラスタと前記第2クラスタについて、前記第1クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われた前記文書が、前記第2クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われている場合に、前記第1クラスタと前記第2クラスタとを関連付けるようにしてもよい。
また、本発明の一態様は、短文処理部が、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理ステップと、関連付け処理部が、前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理ステップとを含む、情報処理方法である。
また、本発明の一態様は、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理ステップと、前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理ステップとをコンピュータに実行させる、情報処理プログラムである。
本発明によれば、短文と文書とを容易に関連付けを行うことができる。
以下、本発明の第1の実施形態による情報処理システム及び情報処理方法について、図面を参照して説明する。
(第1の実施形態)
図1は、本実施形態に係る情報処理システム1の一例を示すブロック図である。
図1に示すように、情報処理システム1は、複数のユーザ端末10−1〜10−N、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40を備えている。
なお、本実施形態では、説明の都合上、以下では、ユーザ端末10−1〜10−Nについて、個々のユーザ端末10−1〜10−Nを区別せずに、単にユーザ端末10と呼称する。
図1は、本実施形態に係る情報処理システム1の一例を示すブロック図である。
図1に示すように、情報処理システム1は、複数のユーザ端末10−1〜10−N、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40を備えている。
なお、本実施形態では、説明の都合上、以下では、ユーザ端末10−1〜10−Nについて、個々のユーザ端末10−1〜10−Nを区別せずに、単にユーザ端末10と呼称する。
また、ユーザ端末10、文書ファイル格納装置20、短文ログ格納装置30、及び関連付け処理装置40とは、ネットワークNWを介して接続されている。
また、情報処理システム1は、装置間で、例えば、文書や短文などに関する情報の送受信を行うシステムである。
また、情報処理システム1は、装置間で、例えば、文書や短文などに関する情報の送受信を行うシステムである。
ここで、文書とは、組織内の活動に関する成果物、報告書など、何らかの決定事項を記載した書類を示す。また、短文とは、文書が形成される経緯、根拠、背景などを含む議論などを含む文章であって、発信時刻、発信者や発信対象者などの情報をメタデータとして含む文章である。短文は、例えば、SNS(Social Networking Service)などのメッセージ交換サービスにおけるメッセージや、電子メールなどである。
ネットワークNWは、例えば、携帯電話網、PHS(Personal Handy−phone System)網、VPN(Virtual Private Network)網、専用通信回線網、WAN(Wide Area Network)、LAN(Local Area Network)、PSTN(Public Switched Telephone Network;公衆交換電話網)などによって構成される情報通信ネットワークであり、または、これらの組み合わせである。
ユーザ端末10は、例えばパーソナルコンピュータなどの端末装置である。ユーザ端末10は、例えば、テレビ、パーソナルコンピュータ、携帯電話、タブレット、スマートフォン、PHS(Personal Handy−phone System)、またはPDA(Personal Digital Assistant)などである。ユーザ端末10は、ネットワークNW1を介して、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40と接続可能である。また、ユーザ端末10は、文書や短文の検索や選択に関する情報を、ネットワークNWを介して、関連付け処理装置40に送信する。また、ユーザ端末10は、文書や短文の検索結果や、ユーザ端末10が選択した文書や短文の詳細に関する情報を、ネットワークNWを介して、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40から受信する。
ユーザ端末10は、通信部11、入力部12、表示部13、記憶部14及び処理部15を備える。
ユーザ端末10は、通信部11、入力部12、表示部13、記憶部14及び処理部15を備える。
通信部11は、有線LAN(Local Area Network)通信、無線LAN通信などを利用してネットワークNWに接続し、ネットワークNWを介して各種通信を行う。通信部11は、例えば、ネットワークNWを介して、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40に接続し、文書ファイル格納装置20、短文ログ格納装置30又は関連付け処理装置40との間で、各種通信を行う。
入力部12は、例えば、キーボードやタッチパネルなどの入力装置であり、ユーザ端末10のユーザによって、文書や短文の入力、文書や短文の検索語句の入力及び文書や短文の選択肢の選択などのユーザの入力情報を受け付ける。入力部12は、受け付けたユーザの入力情報を処理部15に出力する。
表示部13は、例えば、液晶ディスプレイ装置などであり、各種情報を表示する。表示部13は、例えば、各種操作画面や情報の入力画面、ユーザ端末10が受信した検索結果などの各種情報を表示する。
表示部13は、例えば、液晶ディスプレイ装置などであり、各種情報を表示する。表示部13は、例えば、各種操作画面や情報の入力画面、ユーザ端末10が受信した検索結果などの各種情報を表示する。
記憶部14は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)などを備え、ファームウェアやアプリケーションプログラムなど、ユーザ端末10が備えるCPUが実行するための各種プログラムやCPUが実行した処理の結果などを記憶する。また、記憶部14は、ネットワーク等を介して接続された複数の装置から実現されてもよい。
処理部15は、例えば、CPU(Central Processing Unit)などを含むプロセッサであり、ユーザ端末10の統括的な制御処理を行う。処理部15は、例えば、文書や短文の入力画面、検索画面及び検索結果の表示処理などの各種処理を実行する。また、処理部15は、入力される文書に関する各種情報(以下、「文書ファイル」とも称する。文書の一例)を、通信部11を介して、文書ファイル格納装置20に送信する。処理部15は、文書ファイルを記憶部14に記憶した後、通信部11を介して、文書ファイル格納装置20に送信してもよい。ここで、文書ファイルは、文書の分類、要約に用いられる単語や短いフレーズであるタグをメタデータとして含む。また、処理部15は、入力される短文に関する各種情報(以下、「短文情報」とも称する)を、通信部11を介して、短文ログ格納装置30に送信する。短文情報は、短文と、短文のメタデータを含む。短文のメタデータは、例えば、発信時刻、発信者、発信対象などの情報である。処理部15は、短文情報を記憶部14に記憶した後、通信部11を介して、短文ログ格納装置30に送信してもよい。また、処理部15は、入力される文書や短文の検索に関する各種情報を、通信部11を介して、関連付け処理装置40に送信する。また、処理部15は、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40から、文書や短文の検索結果に関する各種情報を受信して、受信した情報を表示部13に表示させる。
文書ファイル格納装置20は、例えば、ファイルサーバなどのサーバ装置である。文書ファイル格納装置20は、ネットワークNWを介して、ユーザ端末10及び関連付け処理装置40と接続可能である。また、文書ファイル格納装置20は、ネットワークNWを介して、ユーザ端末10から、文書ファイルを受信する。文書ファイル格納装置20は、文書ファイルを識別する文書ID、文書ファイルの作成者、作成時刻などの情報をメタデータとして含めて、受信した文書ファイルを記憶する。また、文書ファイル格納装置20は、ネットワークNWを介して、関連付け処理装置40から、文書ファイルに関する情報を受信する。文書ファイル格納装置20は、受信した情報に基づいて、関連付け処理装置40に該当する文書ファイルを送信する。
文書ファイル格納装置20は、通信部21、記憶部22及び処理部23を備える。
文書ファイル格納装置20は、通信部21、記憶部22及び処理部23を備える。
通信部21は、有線LAN通信、無線LAN通信などを利用してネットワークNWに接続し、ネットワークNWを介して各種通信を行う。通信部21は、例えば、ネットワークNWを介して、ユーザ端末10及び関連付け処理装置40に接続し、ユーザ端末10又は関連付け処理装置40との間で、各種通信を行う。
記憶部22は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAMなどを備え、ファームウェアやアプリケーションプログラムなど、文書ファイル格納装置20が備えるCPUが実行するための各種プログラムやCPUが実行した処理の結果などを記憶する。記憶部22には、通信部21を介して、ユーザ端末10から受信した文書ファイルが記憶される。また、記憶部22は、ネットワーク等を介して接続された複数の装置から実現されてもよい。
処理部23は、例えば、CPUなどを含むプロセッサであり、文書ファイル格納装置20の統括的な制御処理を行う。処理部23は、例えば、文書ファイルの送受信処理、記憶処理などの各種処理を実行する。また、処理部23は、文書ファイルを、通信部11を介して、ユーザ端末10から受信し、受信した情報を記憶部22に記憶させる。また、処理部23は、文書ファイルに関する情報を、通信部11を介して、関連付け処理装置40から受信し、受信した情報に基づいて、該当する文書ファイルを関連付け処理装置40に送信する。
短文ログ格納装置30は、例えば、メールサーバやSNSメッセージサーバなどのサーバ装置である。短文ログ格納装置30は、ネットワークNWを介して、ユーザ端末10及び関連付け処理装置40と接続可能である。また、短文ログ格納装置30は、ネットワークNWを介して、ユーザ端末10から、短文情報を受信し、受信した短文情報を短文ログとして記憶する。ここで、短文ログ(短文の一例)は、短文情報のうち、短文が発信されるシステム(メールシステム、SNSシステムなど)特有の情報を含まない情報である。短文ログは、例えば、短文の内容、発信時刻、発信者、発信対象などの情報を含む。また、短文ログ格納装置30は、ネットワークNWを介して、関連付け処理装置40から、短文ログに関する情報を受信する。短文ログ格納装置30は、受信した情報に基づいて、関連付け処理装置40に該当する短文ログを送信する。
短文ログ格納装置30は、通信部31、記憶部32及び処理部33を備える。
短文ログ格納装置30は、通信部31、記憶部32及び処理部33を備える。
通信部31は、有線LAN通信、無線LAN通信などを利用してネットワークNWに接続し、ネットワークNWを介して各種通信を行う。通信部31は、例えば、ネットワークNWを介して、ユーザ端末10及び関連付け処理装置40に接続し、ユーザ端末10又は関連付け処理装置40との間で、各種通信を行う。
記憶部32は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAMなどを備え、ファームウェアやアプリケーションプログラムなど、短文ログ格納装置30が備えるCPUが実行するための各種プログラムやCPUが実行した処理の結果などを記憶する。記憶部32には、通信部21を介して、ユーザ端末10から受信した短文ログが記憶される。また、記憶部32は、ネットワーク等を介して接続された複数の装置から実現されてもよい。
記憶部32は、例えば、ユーザ端末10から受信した短文情報を短文ログとして記憶する。記憶部32は、例えば、図2に示すように、短文ログに関する情報を記憶する。
図2は、本実施形態に係る記憶部32が記憶する短文ログのデータ例を示す図である。図2に示すように、記憶部32は、「短文ID」と、「時刻」と、「発信者」と、「発信対象」と、「内容」とを対応付けて記憶する。
ここで、「短文ID」は短文を識別する識別情報を示す。また、「時刻」は短文が発信された時刻である発信時刻を示す時刻情報を示す。また、「発信者」は短文の発信者を示す。「発信者」は、例えば、メールの送信者や、SNSの発信者を識別する情報を示す。また、「発信対象」は、例えば、メールの受信者や、SNSの発信対象又は返信対象を識別する情報を示す。メールの受信者は、例えば、メールの宛先に含まれる受信者のみであってもよく、CC(Carbon Copy)やBCC(Blind Carbon Copy)などの同期送信に含まれる受信者も含めてもよい。また、SNSなどのように発信対象が明確でない場合には、「発信対象」は特に情報を含まなくてもよい。また、「内容」は、短文の内容を示す。
図2に示す例では、「短文ID」が“M0001”に対応する「時刻」は“20180611T11:24:14”であり、「発信者」が“A”であり、「発信対象」が“B”であり、「内容」が“Bさん,○○機能の××エラー時のメッセージって定義してました?”であることを示す。
再び図1の説明に戻り、処理部33は、例えば、CPUなどを含むプロセッサであり、短文ログ格納装置30の統括的な制御処理を行う。処理部33は、例えば、短文情報の受信処理、短文ログに関する送受信処理などの各種処理を実行する。また、処理部33は、短文情報を、通信部31を介して、ユーザ端末10から受信し、受信した短文情報を記憶部32に記憶させる。また、処理部33は、受信した短文情報に基づいて短文ログを作成し、記憶部32に記憶させる。また、処理部33は、短文ログに関する情報を、通信部31を介して、関連付け処理装置40から受信し、受信した情報に基づいて、該当する短文ログを関連付け処理装置40に送信する。
関連付け処理装置40は、例えば、サーバ装置である。関連付け処理装置40は、ネットワークNWを介して、ユーザ端末10、文書ファイル格納装置20及び短文ログ格納装置30と接続可能である。また、関連付け処理装置40は、ネットワークNWを介して、文書ファイル格納装置20及び短文ログ格納装置30から、文書ファイル及び短文ログを受信し、受信した文書ファイル及び短文ログに基づいて、文書と短文との関連付け処理を行う。関連付け処理については後述する。また、関連付け処理装置40は、ネットワークNWを介して、ユーザ端末10から、文書や短文の検索に関する情報を受信し、受信した検索情報に基づいて、文書や短文の検索処理を行う。検索処理については後述する。また、関連付け処理装置40は、ネットワークNWを介して、検索結果に必要な文書や短文の情報を、文書ファイル格納装置20又は短文ログ格納装置30から受信する。関連付け処理装置40は、受信した文書や短文ログを含む、検索結果に関する情報を、ネットワークNWを介して、ユーザ端末10に送信する。
関連付け処理装置40は、通信部41、記憶部42及び処理部43を備える。
関連付け処理装置40は、通信部41、記憶部42及び処理部43を備える。
通信部41は、有線LAN通信、無線LAN通信などを利用してネットワークNWに接続し、ネットワークNWを介して各種通信を行う。通信部41は、例えば、ネットワークNWを介して、ユーザ端末10、文書ファイル格納装置20及び短文ログ格納装置30に接続し、ユーザ端末10、文書ファイル格納装置20又は短文ログ格納装置30との間で、各種通信を行う。
記憶部42は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAMなどを備え、ファームウェアやアプリケーションプログラムなど、関連付け処理装置40が備えるCPUが実行するための各種プログラムやCPUが実行した処理の結果など、関連付け処理装置40が利用する各種情報を記憶する。記憶部42は、文書情報データベース421、短文スレッドデータベース422及び関連付けデータベース423を備える。
文書情報データベース421は、例えば、文書ファイル格納装置20から受信した文書ファイルの文書情報や、文書ファイル間の関連性に関するメタデータなどを対応付けて記憶する。文書情報データベース421は、例えば、図3に示すように、文書ファイルに関する情報を記憶する。
図3は、本実施形態に係る文書情報データベース421のデータ例を示す図である。図3に示すように、文書情報データベース421は、「文書ID」と、「タグ」と、「関連文書」と、「文書内位置」と、「文書内容」とを関連付けて記憶する。ここで、「文書ID」は文書ファイルを識別するための識別情報で、文書ファイル格納装置20が記憶する文書ファイルのメタデータである文書IDと同一である。また、「タグ」は、文書ファイルの分類、要約に用いられる単語や短いフレーズであり、文書ファイル格納装置20が記憶する文書ファイルのメタデータであるタグを含む。「タグ」は、文書間関連付け処理の際に追加されるものがあってもよい。文書間関連付け処理については後述する。また、「関連文書」は、文書間関連付け処理において、「文書ID」が示す文書と関連付けられた文書の識別情報を示す。また、「文書内位置」は、文書が部、章、頁、版などの構造を持っている場合に、当該構造を識別する情報を示す。また、「文書内容」は、「文書内位置」に含まれる文章に関する情報を示す。
図3に示す例では、「文書ID」が“D0001”に対応する、「タグ」は“提案書”、“AA案件”、“予算”、“日程”などであり、「関連文書」は“D0002”であることを示す。また、「文書ID」が“D0001”には複数の「文書内位置」と「文書内容」が対応し、例えば、「文書内位置」が“p1”である位置には、“XXX”という「文書内容」が記載されている。また、「文書ID」が“D0002”である文書は、他に1つ以上のバージョンが存在しており、当該文書が第1版であることを示す“ver1”がタグに含まれている。
なお、文書情報データベース421は、取得した文書ファイルのサムネイル画像を取得し記憶してもよい。例えば、文書ファイルのサムネイル画像とは、文書の第1頁を表示したときに表示部に表示される画像などである。
なお、文書情報データベース421は、取得した文書ファイルのサムネイル画像を取得し記憶してもよい。例えば、文書ファイルのサムネイル画像とは、文書の第1頁を表示したときに表示部に表示される画像などである。
再び図1の説明に戻り、短文スレッドデータベース422は、例えば、短文スレッド作成処理を行った結果である短文スレッドに関する情報を記憶する。ここで、短文スレッド作成処理は、短文ログ格納装置30から受信した短文ログに基づいて、短文を複数のクラスタに分類し集約する処理である。短文スレッド作成処理については後述する。短文スレッドは、複数の短文を、階層構造をもつクラスタとして集約した情報を含む。短文スレッドデータベース422は、例えば、図4に示すように、短文スレッドに関する情報を記憶する。
図4は、本実施形態に係る短文スレッドデータベース422のデータ例を示す図である。
図4(A)は、短文スレッドデータベース422が記憶する短文スレッドのスレッド全体に関する情報のデータ例を示す。図4(A)に示すように、短文スレッドデータベース422は、「スレッドID」と、「開始時刻」と、「終了時刻」と、「内容」とを対応付けて記憶する。ここで、「スレッドID」とは、スレッドを識別するための識別情報を示す。また、「開始時刻」はスレッドに含まれる短文のうち発信時刻が最も早い短文の発信時刻、すなわち、スレッドに含まれる複数の短文による会話が開始した時刻を示す。また、「終了時刻」は、スレッドに含まれる短文のうち発信時刻が最も遅い短文の発信時刻、すなわち、スレッドに含まれる複数の短文による会話が終了した時刻を示す。「内容」はスレッドに含まれる全ての短文について、まず、短文の発信者と短文の内容を連結子で連結し、連結した短文を他の短文と接続し、一連の文章としたものを含む。
図4(A)は、短文スレッドデータベース422が記憶する短文スレッドのスレッド全体に関する情報のデータ例を示す。図4(A)に示すように、短文スレッドデータベース422は、「スレッドID」と、「開始時刻」と、「終了時刻」と、「内容」とを対応付けて記憶する。ここで、「スレッドID」とは、スレッドを識別するための識別情報を示す。また、「開始時刻」はスレッドに含まれる短文のうち発信時刻が最も早い短文の発信時刻、すなわち、スレッドに含まれる複数の短文による会話が開始した時刻を示す。また、「終了時刻」は、スレッドに含まれる短文のうち発信時刻が最も遅い短文の発信時刻、すなわち、スレッドに含まれる複数の短文による会話が終了した時刻を示す。「内容」はスレッドに含まれる全ての短文について、まず、短文の発信者と短文の内容を連結子で連結し、連結した短文を他の短文と接続し、一連の文章としたものを含む。
図4(A)に示す例では、「スレッドID」が“THREAD1”に対応する、「開始時刻」は“20180611T11:24:14”であり、「終了時刻」は“20180611T11:58:22”であり、「内容」が“A:Bさん・・・、B:まだ・・・、A:なるほど・・・、・・・”であることを示す。
図4(B)は、短文スレッドデータベース422が記憶する短文スレッドのスレッド詳細に関する情報のデータ例を示す。短文スレッドデータベース422は、スレッド毎に、スレッドが含むクラスタに関する情報を、関連付けて記憶する。図4(B)に示すように、短文スレッドデータベース422は、「クラスタID」と、「含まれる短文」と、「距離」とを対応付けて記憶する。ここで、「クラスタID」とは、短文を集約したクラスタを識別するための識別情報を示す。また、「含まれる短文」はクラスタに含まれる、クラスタ及び短文を識別する識別情報(クラスタID、短文ID)を示す。クラスタは階層構造を形成しており、「含まれる短文」には「クラスタID」の直下の階層に存在するクラスタ又は短文を識別する情報を含む。また、「距離」は後述する短文スレッド作成処理内で行われる短文のクラスタリングにおいて算出される、クラスタ又は短文間の類似度を表す指標の値を示す。
図4(B)に示す例では、「クラスタID」が“CL0001”に対応する、「含まれる短文」は“M0001”及び“M0003”であり、「距離」は“0.75”であることを示す。また、「クラスタID」が“CL0002”に対応する「含まれる短文」は“CL0001”及び“M0002”である。従って、対応するスレッドは、M0001、M0003で識別される短文から構成される第1クラスタと、第1クラスタとM0002で識別される短文から構成され、第1クラスタよりも上位階層に位置する第2クラスタから構成されていることを示している。
再び図1の説明に戻り、関連付けデータベース423は、例えば、文書と短文スレッドとを関連付けた関連情報を記憶する。関連付け処理については後述する。関連付けデータベース423は、例えば、図5に示すように、関連情報を記憶する。
図5は、本実施形態に係る関連付けデータベース423のデータ例を示す図である。図5に示すように、関連付けデータベース423は、「文書ID」と、「位置」と、「スレッドID」と、「クラスタID」と、「関連度」とを対応付けて記憶する。ここで、「位置」は文書IDが示す文書の文書内の位置に関する情報を示し、図2における「文書内位置」と対応する。また、「スレッドID」及び「クラスタID」は文書IDに関連する短文スレッドのスレッドID及びクラスタIDを示す。また、「関連度」は文書ID及び文書内位置で示される文書内容と、スレッドID及びクラスタIDで示される短文内容との類似度を評価した情報を示す。類似度の評価は、後述する関連付け処理内で行われる。関連付けは複数の文書(又は文書内位置)に対し、複数の短文スレッド(又は短文クラスタ)が対応する。
図5に示す例では、「文書ID」が“D0001”で「位置」が“p2”に対応する、「スレッドID」が“THREAD4”であり、「クラスタID」が“CL0011”であり、「類似度」が“8.0”であることを示す。
再び図1の説明に戻り、処理部43は、例えば、CPUなどを含むプロセッサであり、関連付け処理装置40の統括的な制御処理を行う。処理部43は、通信部41を介して、文書ファイル格納装置20から文書ファイルを受信し、受信した情報に基づいて、文書間関連付け処理を行う。処理部43は、例えば、文書間関連付け処理の結果を、文書情報データベース421に記憶させる。処理部43は、例えば、通信部41を介して、短文ログ格納装置30から、短文ログを受信し、受信した情報に基づいて、短文スレッド作成処理を行う。処理部43は、例えば、作成した短文スレッドに関する情報を短文スレッドデータベース422に記憶させる。処理部43は、例えば、文書情報データベース421から、文書ファイルを読み出す。また、処理部43は、短文スレッドデータベース422から、短文スレッドを読み出す。処理部43は、読み出した文書ファイルと短文スレッドとに基づいて、文書と短文スレッドとを関連付ける、関連付け処理を行う。処理部43は、関連付け処理の結果、文書と短文スレッドとを関連付けた情報を、関連付けデータベース423に記憶させる。処理部43は、例えば、通信部41を介して、ユーザ端末10から、文書や短文の検索に関する情報を取得する。処理部43は、取得した情報に基づいて文書や短文の検索に関する処理を行う。処理部43は、例えば、検索結果を表示するための情報として、文書ファイル格納装置20及び短文ログ格納装置30と、検索結果に含まれる文書や短文に関する情報の送受信に関する処理を行う。処理部43は、例えば、受信した情報に基づき、検索結果を表示するための情報を作成し、通信部41を介してユーザ端末10に送信する。
処理部43は、情報取得部431、出力処理部432、文書情報処理部433、短文処理部434、関連付け処理部435及び検索処理部436を備える。
なお、以降の説明では、文書間関連付け処理を含む文書情報処理、及び短文スレッド作成処理は、一定時間間隔毎に行われるバッチ処理である例を説明する。
処理部43は、情報取得部431、出力処理部432、文書情報処理部433、短文処理部434、関連付け処理部435及び検索処理部436を備える。
なお、以降の説明では、文書間関連付け処理を含む文書情報処理、及び短文スレッド作成処理は、一定時間間隔毎に行われるバッチ処理である例を説明する。
情報取得部431は、ユーザ端末10、文書ファイル格納装置20又は短文ログ格納装置30から入力された各種情報を取得し、記憶部42に記憶させる。情報取得部431は、例えば、文書ファイル格納装置20から文書ファイルに関する情報を取得し、記憶部42に記憶させる。情報取得部431は、例えば、短文ログ格納装置30から短文ログに関する情報を取得し、記憶部42に記憶させる。情報取得部431は、例えば、ユーザ端末10から文書又は短文の検索に関する情報を取得し、記憶部42に記憶させる。
出力処理部432は、ユーザ端末10、文書ファイル格納装置20及び短文ログ格納装置30に送信する各種情報を、通信部41を介して送信する処理を行う。出力処理部432は、例えば、まだ文書情報データベース421に記憶されていない文書ファイルの情報を要求する情報を、文書ファイル格納装置20に送信する。出力処理部432は、例えば、まだ短文スレッドデータベース422に記憶されていない短文ログの情報を要求する情報を、短文ログ格納装置30に送信する。出力処理部432は、例えば、ユーザ端末10の検索結果に含まれる、文書ファイル又は短文ログの情報を要求する情報を、文書ファイル格納装置20又は短文ログ格納装置30に送信する。出力処理部432は、例えば、検索結果に関する情報を、ユーザ端末10に送信する。
文書情報処理部433は、記憶部42に記憶された文書ファイルに基づいて、文書情報処理を行う。文書情報処理部433は、例えば、文書情報処理対象となる文書ファイル(以降、「未処理文書ファイル」とも称する)の情報を、文書ファイル格納装置20に要求する情報を出力処理部432に出力する。文書情報処理部433は、例えば、未処理文書ファイルの情報を記憶部42から取得する。ここで記憶部42に記憶される未処理文書ファイルは、文書ファイル格納装置20から通信部41を介して情報取得部431が受信し、記憶部42に記憶した文書ファイルであって、文書情報処理部433が前回の文書情報処理時以降に作成又は更新が行われた文書ファイルである。
文書情報処理部433は、未処理文書ファイルの文書から情報を抽出する。文書情報処理部433は、例えば、未処理文書ファイルの構造(部、章、頁、版など)の情報に基づいて、構造毎の文書の内容を取得する。文書の内容は、構造毎に含まれる文章のみであってもよいし、その他の情報を含んでもよい。例えば、含まれる画像を解析し、含まれる内容を文章化したものであってもよい。文書情報処理部433は、取得した文書の内容を、上述した図3に示すように、文書情報データベース421に記憶させる。
文書情報処理部433は、抽出した文章内容をもとに、文書間関連付け処理を行う。文書情報処理部433は、文書に含まれる全ての文章内容に基づいて、文書間の類似度を計算する。
類似度の計算は、例えば、まず、文章を単語に分割し、単語ごとに文章内の単語の重み付けを行う。重み付けは、例えば、TF−IDF(Term Frequency−Inverse Document Frequency)などの手法を用いて行う。次に、文章を、重み付けされた各単語をベクトルとする特徴ベクトルとして表現する。最後に、特徴ベクトルで表現された各文書の文章を、例えば、コサイン類似度などの手法を用いて類似度を算出する。
類似度の計算は、例えば、まず、文章を単語に分割し、単語ごとに文章内の単語の重み付けを行う。重み付けは、例えば、TF−IDF(Term Frequency−Inverse Document Frequency)などの手法を用いて行う。次に、文章を、重み付けされた各単語をベクトルとする特徴ベクトルとして表現する。最後に、特徴ベクトルで表現された各文書の文章を、例えば、コサイン類似度などの手法を用いて類似度を算出する。
文書情報処理部433は、例えば、類似度の算出結果が、所定の値よりも大きいとき、当該2つの文書が類似している、すなわち関連性があると判定する。文書情報処理部433は、関連性があると判定した文書の情報を、上述した図3に示すように、文書情報データベース421に、関連文書として記憶させる。
なお、類似度の算出は上述した方法には限られない。例えば、文書情報処理部433は、Doc2Vecなどの手法を用いて、文章を特徴ベクトルとして表現してもよい。また、文書情報処理部433は、単語の重み付けにOkapi BM25などの手法を用いてもよい。また、類似度の算出には、文書のメタデータであるタグ、作成ユーザ、作成時刻などの情報を用いてもよい。また、類似度の算出に用いる情報に優先度が設定されていてもよい。例えば、文書内容、作成ユーザ、作成時刻の情報を用いて類似度を算出する場合、文書内容、作成ユーザ、作成時刻を示す特徴ベクトルが文書内容、作成ユーザ、作成時刻の順に重み付けされていてもよい。
短文処理部434は、記憶部42に記憶された短文ログに基づいて、短文スレッド作成処理を行う。短文処理部434は、例えば、スレッド作成対象となる短文ログ(以降、「未処理短文ログ」とも称する)の情報を要求する情報を出力処理部432に出力する。短文処理部434は、例えば、未処理短文ログの情報を記憶部42から取得する。ここで記憶部42に記憶される未処理短文ログは、短文ログ格納装置30から通信部41を介して情報取得部431が受信し、記憶部42に記憶した短文ログであって、短文処理部434が前回の短文スレッド作成時以降に作成又は更新が行われた短文ログである。
短文処理部434は、受信した未処理短文ログに基づいて、短文スレッドの作成処理を行う。短文スレッドの作成処理については、後述する。短文処理部434は、短文スレッド作成処理が終了すると、処理結果である短文スレッドに関する情報を、上述した図4に示すように、短文スレッドデータベース422に記憶させる。
関連付け処理部435は、文書情報データベース421に記憶された文書情報と、短文スレッドデータベース422に記憶された短文スレッドとに基づいて、文書と短文スレッドとの関連付け処理を行う。関連付け処理部435は、関連付けが既に行われた短文スレッドの情報を、関連付けデータベース423から取得する。関連付け処理部435は、まだ関連付けが行われていない短文スレッドに関する情報を、短文スレッドデータベース422から取得する。関連付け処理部435は、文書情報データベース421から文書情報を取得する。ここで、取得する文書情報は、関連付けを行う時刻から一定期間前までの文書ファイルの文書情報であってもよいし、存在する全ての文書情報であってもよい。
関連付け処理部435は、取得した情報に基づいて、文書情報と短文スレッドの関連付けを行う。関連付け処理部435は、文書情報に含まれる文書内容と、短文スレッドに含まれる全ての短文の文章とに基づいて、両者の類似度を計算する。類似度の計算は、文書間関連付けと同様であるので、ここでは説明を省略する。関連付け処理部435は、類似度の値に基づいた関連度を算出する。ここで、関連度は、類似度の値と同じであってもよいし、類似度の値に基づいて表記を変換したものであってもよい。例えば、図5で示す例では、関連度は、類似度がコサイン類似度で算出されている場合に、類似度が“0”であるものを関連度“0”、類似度が“1”であるものを関連度“10”とするような変換を行った値である。なお、文書間関連付けと同様、類似度にはある閾値が予め設定され、閾値以下の類似度である文書と短文スレッドの組み合わせについては、類似していないと判定し、関連付けデータベース423には記憶しない。また、関連度は、例えば、ある閾値以上の類似度の場合、類似度に基づいて、数段階に分類した結果を示したものであってもよい。
なお、関連付け処理部435は、文書と短文スレッドとの間でユーザ名についての類似度を計算する場合、短文スレッドに含まれる発信者または発信対象の延べ人数を計算し、延べ人数のうち、文書のユーザ(作成者または更新者)が含まれる割合を算出し類似度を求めてもよい。また、関連付け処理部435は、時刻情報を用いて類似度を計算する場合、類似度として、例えば、文書の作成時刻と、短文スレッドの開始時刻との差の情報に基づいて類似度を算出する。なお、使用する時刻の情報はこれには限られない。例えば、文書の更新時刻を用いてもよいし、短文スレッドの終了時刻を用いてもよい。
なお、関連付け処理部435は、文書と短文スレッドとの間でユーザ名についての類似度を計算する場合、短文スレッドに含まれる発信者または発信対象の延べ人数を計算し、延べ人数のうち、文書のユーザ(作成者または更新者)が含まれる割合を算出し類似度を求めてもよい。また、関連付け処理部435は、時刻情報を用いて類似度を計算する場合、類似度として、例えば、文書の作成時刻と、短文スレッドの開始時刻との差の情報に基づいて類似度を算出する。なお、使用する時刻の情報はこれには限られない。例えば、文書の更新時刻を用いてもよいし、短文スレッドの終了時刻を用いてもよい。
なお、関連付け処理部435は、文書の構造毎の文書内容と、短文スレッドとの間で関連付け処理を行ってもよい。また、関連付け処理部435は、文書の構造毎の文書内容と、短文スレッドに含まれるクラスタとの間で関連付け処理を行ってもよい。図5に示す例では、文書の構造毎の文書内容と、短文スレッドに含まれるクラスタとの間で関連付け処理を行った結果を示す。
関連付け処理部435は、関連付け処理が終了すると、関連付けの結果を、図5に示すように、関連付けデータベース423に記憶させる。
関連付け処理部435は、関連付け処理が終了すると、関連付けの結果を、図5に示すように、関連付けデータベース423に記憶させる。
検索処理部436は、ユーザ端末10から入力された情報に基づいて、文書又は短文の検索処理を行う。
検索処理部436は、例えば、検索条件に関する情報を記憶部42から取得する。ここで、検索条件に関する情報とは、ユーザ端末10から通信部41を介して情報取得部431が受信した情報であって、検索語句などが含まれる情報である。
検索処理部436は、例えば、検索条件に関する情報を記憶部42から取得する。ここで、検索条件に関する情報とは、ユーザ端末10から通信部41を介して情報取得部431が受信した情報であって、検索語句などが含まれる情報である。
検索処理部436は、検索条件に関する情報、文書情報データベース421及び情報取得部431に基づいて、検索条件を満たす文書(以下、「該当文書」とも称する)及び短文スレッド(以下、「該当短文スレッド」とも称する)の情報を取得する。ここで該当文書とは、文書に含まれる文章や、文書のメタデータに検索条件に含まれる単語(以下、「検索語句」とも称する)が含まれる文書である。また、該当短文スレッドとは、短文スレッドに含まれる短文の内容、発信者、発信対象などに検索語句が含まれる短文スレッドである。なお、検索処理部436は検索条件に検索語句以外の検索条件がある場合、その条件に従って、上述した処理を行う。例えば、検索処理部436は、検索条件に時刻に関する条件がある場合、検索条件に定められた時刻を満たす文書又は短文スレッドを検索する。
検索処理部436は、該当文書、該当短文スレッドを含む検索結果を表示する情報を生成し、出力処理部432に出力する。
検索処理部436は、該当文書、該当短文スレッドを含む検索結果を表示する情報を生成し、出力処理部432に出力する。
また、検索処理部436は、ユーザ端末10から特定の文書または短文スレッドの選択を示す情報(以下、「選択情報」とも称する)を記憶部42から取得する。選択情報は、ユーザ端末10から、通信部41を介して情報取得部431が受信し、記憶部42に記憶した情報であって、ユーザが閲覧したい文書又は短文スレッドを示す情報である。
検索処理部436は、選択情報に含まれる文書又は短文スレッドの識別情報を取得する。検索処理部436は、取得した識別情報と、関連付けデータベース423とに基づいて、選択情報に関連付けられている文書や短文スレッド(以降、「関連文書」「関連短文スレッド」とも称する)に関する情報を取得する。検索処理部436は、選択情報が文書を示す情報である場合、文書情報データベース421を参照し、選択された文書の関連文書に関する情報を取得する。
検索処理部436は、取得した情報に含まれる関連文書に関する情報を、文書ファイル格納装置20に要求する情報を、出力処理部432に出力する。また、検索処理部436は、取得した情報に含まれる関連短文スレッドに含まれる短文ログに関する情報を、短文ログ格納装置30に要求する情報を、出力処理部432に出力する。
検索処理部436は、関連文書の文書ファイル、及び関連短文スレッドの短文ログを記憶部42から取得する。ここで、記憶部42が記憶する情報は、通信部41を介して情報取得部431が受信した情報である。検索処理部436は、取得した情報に基づいて、取得した情報の表示に関する表示情報を生成する。検索処理部436は、取得した情報、表示情報を、ユーザ端末10に送信する情報を、出力処理部432に出力する。
検索処理部436は、関連文書の文書ファイル、及び関連短文スレッドの短文ログを記憶部42から取得する。ここで、記憶部42が記憶する情報は、通信部41を介して情報取得部431が受信した情報である。検索処理部436は、取得した情報に基づいて、取得した情報の表示に関する表示情報を生成する。検索処理部436は、取得した情報、表示情報を、ユーザ端末10に送信する情報を、出力処理部432に出力する。
次に、図面を参照して、本実施形態に係る情報処理システム1の動作について説明する。
まず、図6を参照して、本実施形態に係る文書情報処理部433が行う文書間関連付け処理の一例について説明する。
図6は、本実施形態に係る文書情報処理部433が行う文書情報処理の一例を示すフローチャートである。
図6は、本実施形態に係る文書情報処理部433が行う文書情報処理の一例を示すフローチャートである。
図6に示すように、まず、関連付け処理装置40の文書情報処理部433は、未処理文書ファイルの情報を文書ファイル格納装置20から取得する(ステップS100)。関連付け処理装置40は取得処理が終わると、処理をステップS102に進める。
続いて、文書情報処理部433は、未処理文書ファイルの文書から情報を抽出する(ステップS102)。文書情報処理部433は、抽出処理が終了すると、処理をステップS104に進める。
続いて、文書情報処理部433は、文書間関連付け処理を行う(ステップS104)。文書情報処理部433は、関連付け処理が終了すると、文書情報処理を終了する。
次に、図7を参照して、本実施形態に係る短文処理部434が行う短文スレッド作成処理について説明する。
図7は、本実施形態に係る短文処理部434が行う短文スレッド作成処理の一例を示すフローチャートである。
図7は、本実施形態に係る短文処理部434が行う短文スレッド作成処理の一例を示すフローチャートである。
図7に示すように、まず、関連付け処理装置40の短文処理部434は、未処理短文ログの情報を、短文ログ格納装置30から取得する(ステップS200)。関連付け処理装置40は取得処理が終わると、処理をステップS202に進める。
短文処理部434は、スレッド作成処理に短文の内容を利用するか否かを判定する(ステップS202)。短文の内容を利用しない場合(ステップS202:NO)、短文処理部434は処理をステップS204に進める。短文の内容を利用する場合(ステップS202:YES)、短文処理部434は、処理をステップS240に進める。
短文処理部434は、スレッド作成処理に、短文の発信者及び発信対象の情報(以下、「短文のユーザ情報」とも称する)を利用するか否かを判定する(ステップS204)。短文のユーザ情報を利用しない場合(ステップS204:NO)、短文処理部434は、処理をステップS206に進める。短文のユーザ情報を利用する場合(ステップS204:YES)、短文処理部434は、処理をステップS220に進める。
短文処理部434は、短文の発信時刻に基づいて、短文間のクラスタリングを行う(ステップS206)。短文処理部434は、例えば、凝集型のクラスタリング手法を用いて、クラスタリングを行う。凝集型のクラスタリング手法は、まず、クラスタリングを行う対象となる全ての短文(短文数をNとする)を1つの短文を構成単位とするN個のクラスタに分類する。次に、クラスタ間の類似度を算出し、最も類似度の高い、すなわち関連度の高い2つのクラスタを集約し、1つの上位(上階層)クラスタを作成する。ここで、同じ類似度のクラスタが3つ以上ある場合には、同じ類似度となる全てのクラスタを集約する。続いて、上位クラスタと他のクラスタ間の類似度を算出し、先ほどの類似度と合わせて、最も類似度の高い、2つ(以上)のクラスタを集約し、1つの上位クラスタを作成する。この処理を繰り返し、最終的にクラスタが1つになった場合に、クラスタリングを終了する。なお、類似度の算出には、Ward法、最短距離法、最長距離法、群平均法などの手法を用いる。短文処理部434は、クラスタリングが終了すると、処理をステップS208に進める。
短文処理部434は、クラスタリングされた短文について、所定の閾値以上の距離にあるクラスタについて、それらを分割し、分割した個々のクラスタを短文スレッドとする(ステップS208)。短文処理部434は処理が終了すると、処理をステップS210に進める。
短文処理部434は、短文スレッド毎に、短文スレッドの情報を短文スレッドデータベース422に記憶させる(ステップS210)。短文処理部434は、短文スレッドの開始時刻、終了時刻、発信者及び発信内容を、図4(A)に示すように、短文スレッドデータベース422に記憶させる。また、短文処理部434は、図4(B)に示すような、短文スレッドに含まれるクラスタの情報についても、短文スレッドデータベース422に記憶させる。短文処理部434は、処理が終了すると、短文スレッド作成処理を終了する。
短文処理部434は、短文のユーザ情報をスレッド作成に利用する場合、まず、ユーザ情報に基づいて、短文のクラスタリングを行う。まず、短文処理部434は、未処理短文ログの個々の短文ログを1つのグループ(以降、「会話」とも称する)に分類し、変数(N、CONV)を初期化する(ステップS220)。ここで、会話は、1つ以上の短文ログが集約され、ユーザ情報に基づき、同一の話題についての発言(会話)を行っていると判定された短文ログを含む。また、短文処理部434は、変数Nに短文数を設定し、変数CONVに1を設定する。変数Nはユーザ情報によるクラスタリング過程において存在する会話の数、変数CONVはクラスタリング処理によって生じた、複数の短文ログを含む会話の数を示す変数である。また、短文処理部434は、会話に対して1から順に番号を付ける。短文処理部434は、番号付けを会話に含まれる短文ログの発言時刻などに基づいて行う。短文処理部434は、上述で設定した情報を記憶部42に記憶させる。初期化が終了すると、短文処理部434は処理をステップS222に進める。
短文処理部434は、変数CONVの値が変数Nの値よりも小さいか否かを判定する(ステップS222)。変数CONVの値が変数Nの値より小さい場合(ステップS222:YES)、短文処理部434は処理をステップS224に進める。
変数CONVの値が変数Nの値より小さくない場合(ステップS222:NO)、短文処理部434は、未処理短文ログのユーザ情報によるクラスタリングが終了したと判定する。この時、各会話をそれぞれ1つのクラスタとし、短文処理部434は処理をステップS206に進める。その後、ステップS206からステップS210の処理を行う。具体的には、クラスタ毎に、クラスタの時刻情報に基づいて、クラスタリング処理を行い、スレッドを作成する。
変数CONVの値が変数Nの値より小さくない場合(ステップS222:NO)、短文処理部434は、未処理短文ログのユーザ情報によるクラスタリングが終了したと判定する。この時、各会話をそれぞれ1つのクラスタとし、短文処理部434は処理をステップS206に進める。その後、ステップS206からステップS210の処理を行う。具体的には、クラスタ毎に、クラスタの時刻情報に基づいて、クラスタリング処理を行い、スレッドを作成する。
短文処理部434は、これまでに作成した会話に、(CONV+1)番目の会話が追加可能かどうかを判定する(ステップS224)。具体的には、短文処理部434は、「(CONV)番目の会話に含まれる発言者が(CONV+1)番目の会話の発言内容に含まれているか否か」、又は、「(CONV+1)番目の会話の発言者が(CONV)番目の会話に含まれているか否か」を判定する。上述した条件の少なくとも1つを満たす場合、短文処理部434は、これまでに作成した会話に、(CONV+1)番目の会話が追加可能であると判定し(ステップS224:YES)、処理をステップS226に進める。どちらの条件も満たさない場合、短文処理部434は、これまでに作成した会話に、(CONV+1)番目の会話が追加可能ではないと判定し(ステップS224:NO)、処理をステップS232に進める。
短文処理部434は、これまでに作成した会話に、(CONV+1)番目の会話が追加できる場合、これまでに作成した会話に、(CONV+1)番目の会話を追加する(ステップS226)。具体的には、短文処理部434は、(CONV)番目の会話に、(CONV+1)番目の会話を追加する。短文処理部434は、追加すると処理をステップS228に進める。
短文処理部434は、(CONV+2)番目からN番目までの会話の、会話の番号をそれぞれ1減少させる(ステップS228)。具体的には、(CONV+2)番目の会話を、(CONV+1)番目の会話とし、N番目の会話を、(N−1)番目の会話とする。なお、変更する会話が存在しない場合、短文処理部434は特に処理を行わない。短文処理部434は、処理が終了すると、処理をステップS230に進める。
短文処理部434は、次の会話の処理のために、変数Nの値を変更する。具体的には、短文処理部434は、変数Nに(N−1)の値を更新値として代入する。短文処理部434は、処理が終了すると、ステップS222に戻る。
短文処理部434は、(CONV+2)番目からN番目までの会話の、会話の番号をそれぞれ1減少させる(ステップS228)。具体的には、(CONV+2)番目の会話を、(CONV+1)番目の会話とし、N番目の会話を、(N−1)番目の会話とする。なお、変更する会話が存在しない場合、短文処理部434は特に処理を行わない。短文処理部434は、処理が終了すると、処理をステップS230に進める。
短文処理部434は、次の会話の処理のために、変数Nの値を変更する。具体的には、短文処理部434は、変数Nに(N−1)の値を更新値として代入する。短文処理部434は、処理が終了すると、ステップS222に戻る。
短文処理部434は、これまでに作成した会話に、(CONV+1)番目の会話が追加できない場合、次の会話の処理のために、変数CONVの値を変更する(ステップS232)。具体的には、短文処理部434は、変数CONVに(CONV+1)の値を更新値として代入する。短文処理部434は、処理が終了すると、ステップS222に戻る。
短文処理部434は、スレッド作成に短文の内容も利用する場合、短文の内容に含まれる名詞を抽出する(ステップS240)。抽出が終わると、短文処理部434は処理をステップS242に進める。
短文処理部434は、任意の2つの短文ログについて、短文ログ間の距離を算出する(ステップS242)。具体的には、まず、短文処理部434は、2つの短文ログに出現する名詞の共通度(dw)を算出する。名詞の共通度は、例えば、jaccard係数を用いてもよいし、Dice係数やSimpson係数を用いてもよい。続いて短文処理部434は、2つの短文ログの発信時刻の差(dt)を算出する。短文処理部434は、2つの短文ログの意味距離としてdw/dtを算出する。短文処理部434は、意味距離の算出が終了すると、処理をステップS244に進める。なお、意味距離の算出方法はこの方法に限られない。
短文処理部434は、意味距離に基づいて、短文ログのクラスタリングを行う(ステップS244)。クラスタリング手法は、ステップS206で述べた方法と同様であるので、ここではその説明を省略する。短文処理部434は、クラスタリングが終了すると、処理をステップS208に進める。
なお、スレッド作成処理に、短文の内容を利用するか否か、及び短文のユーザ情報を利用するか否かは、予め定められていてもよい。また、例えば、どの情報を利用するか、優先度が定められていてもよい。この場合、例えば、スレッドに含まれない会話が所定の閾値以上存在するなどの条件を満たすなど、時刻情報のみでのスレッド生成がうまく行えない場合、短文のユーザ情報を用いてスレッド作成が再度行われる。更に、それでもスレッド作成がうまくいかない場合に、短文の内容を利用したスレッド作成が行われる。なお、優先度の順はこれには限られない。また、ある手法でスレッド作成を行った場合に、スレッドに含まれない短文が所定の閾値以上存在する場合に、当該短文に対して、別の手法によるスレッド作成が行われてもよい。
次に、図8を参照して、本実施形態に係る関連付け処理部435が行う関連付け処理について説明する。
図8は、本実施形態に係る関連付け処理部435が行う関連付け処理の一例を示すフローチャートである。
図8は、本実施形態に係る関連付け処理部435が行う関連付け処理の一例を示すフローチャートである。
図8に示すように、まず、関連付け処理装置40の関連付け処理部435は、文書情報と、文書情報に関連付けが行われていない短文スレッドの情報を、記憶部42を参照して取得する(ステップS300)。関連付け処理部435は、取得処理が終了すると、処理をステップS302に進める。
関連付け処理部435は、取得した情報に基づいて、文書情報と短文スレッドの関連付けを行う(ステップS302)。関連付け処理部435は、関連付け処理が終了すると、関連付けの結果を、関連付けデータベース423に記憶させる。関連付け処理部435は、上記の処理が終了すると、関連付け処理を終了する。
次に、図9を参照して、本実施形態に係る情報処理システム1が行う検索に関する動作の一例について説明する。
図9は、本実施形態に係る情報処理システム1が行う検索に関する動作の一例を示すフロー図である。図9に示す例は、ユーザ端末10から、文書や短文スレッドの検索条件が入力され、関連付け処理装置40が該当する文書や短文スレッドを検索し、検索結果をユーザ端末10の表示部13に表示させる場合の動作を示す。
図9は、本実施形態に係る情報処理システム1が行う検索に関する動作の一例を示すフロー図である。図9に示す例は、ユーザ端末10から、文書や短文スレッドの検索条件が入力され、関連付け処理装置40が該当する文書や短文スレッドを検索し、検索結果をユーザ端末10の表示部13に表示させる場合の動作を示す。
図9に示すように、まず、ユーザ端末10は、入力部12を介して、ユーザ端末10のユーザから、検索条件の入力を受け付ける(ステップS400)。ユーザ端末10は、受け付けた情報を、関連付け処理装置40に送信する(ステップS402)。関連付け処理装置40は、検索条件を受信すると、処理をステップS404に進める。
次に、関連付け処理装置40は、取得した検索条件に基づいて、文書情報及び短文スレッドを検索し、検索条件を満たす文書又は短文スレッドを取得する(ステップS404)。関連付け処理装置40は、検索処理が終了すると、処理をステップS406に進める。
関連付け処理装置40は、検索結果をユーザ端末10に送信する(ステップS406)。ユーザ端末10は、検索結果を受信すると、表示部13に検索結果を表示させる。ユーザ端末10は、例えば、図10に示すように、検索結果を表示する。図10は、本実施形態に係るユーザ端末10の表示画面D100の一例である。
表示画面D100は、検索語句入力欄TB101、検索ボタンBT102、検索メニューM103、検索結果表示部D104、検索結果である該当文書のサムネイルTM105、該当短文スレッドのサムネイルTM106を含んで構成される。
検索語句入力欄TB101は、検索語句を受け入れる。検索ボタンBT102は、検索語句入力欄TB101に入力された検索語句を用いて検索を行うことを指示するボタンである。ユーザ端末10は、検索ボタンBT102を押下する入力を入力部12から受け入れると、検索語句入力欄TB101に入力された検索語句を含む検索条件を、通信部11を介して関連付け処理装置40に送信する。図10に示す例は、検索語句として「AA」が検索語句入力欄TB101に入力され、検索ボタンBT102が押された場合の検索結果の表示画面D100である。
検索メニューM103は、予め定められた検索語句を検索するリンクを複数含む。予め定められた検索語句は、例えば、タグに頻繁に用いられる語句などであってもよい。例えば、図10に示す例では、4つのリンク(「要求仕様」「外部設計」「内部設計」「詳細設計」)が示されている。ユーザ端末10は、例えば、「要求仕様」のリンクを押下する入力を受け入れると、“要求仕様”を検索語句とする検索条件を、通信部11を介して関連付け処理装置40に送信する。
検索結果表示部D104は、検索結果である該当文書や該当短文スレッドを表示する表示部である。図10に示す例では、複数の該当文書のサムネイルTM105と、複数の該当短文スレッドのサムネイルTM106が表示されている。短文スレッドのサムネイルは、例えば、該当する短文スレッドの情報を所定のサムネイルフォーマットに含めたものである。なお、検索結果表示部D104の表示方法は、これには限られない。例えば、該当文書のタイトルや、該当短文スレッドのスレッド名のみを一覧表示するものであってもよいし、サムネイルと、検索語句が含まれる文章や、その近傍の文章などを表示するものであってもよい。また、表示順序も、図10に示したような順には限られない。例えば、検索語句が多く出現する順に表示してもよいし、その他の手法によってもよい。
図9の説明に戻って、ユーザ端末10のユーザは、表示部13が表示した検索結果から、閲覧したい文書又は短文スレッドを選択する入力を行う(ステップS408)。ユーザ端末10は、入力された情報を受け入れ、受け入れた情報を含む選択情報を、通信部11を介して、関連付け処理装置40に送信する(ステップS410)。
関連付け処理装置40は、選択情報を受け入れ、選択情報に含まれる情報に基づいて、関連情報の検索を行う(ステップS412)。関連付け処理装置40は検索処理が終了すると、処理をステップS414に進める。
関連付け処理装置40は、関連短文スレッドに含まれる、短文ログを要求する情報を、短文ログ格納装置30に送信する(ステップS414)。短文ログ格納装置30は、受信した情報に基づいて、該当する短文ログを記憶部から読み出し、関連付け処理装置40に送信する(ステップS416)。また、関連付け処理装置40は、関連文書に含まれる文書の文書ファイルを要求する情報を、文書ファイル格納装置20に送信する(ステップS418)。文書ファイル格納装置20は、受信した情報に基づいて、該当する文書ファイルを記憶部から読み出し、関連付け処理装置40に送信する(ステップS420)。関連付け処理装置40は、文書ファイル格納装置20及び短文ログ格納装置30からの情報の受信が完了すると、処理をステップS422に進める。
なお、関連付け処理装置40は、短文ログの読み込み(ステップS416からステップS418)と、文書ファイルの読み込み(ステップS420からステップS422)の順については上記には限られない。先に文書ファイルの読み込みを行ってもよい。また、読み込みが必要ない場合には、関連付け処理装置40は、上述した処理を省略する。
なお、関連付け処理装置40は、短文ログの読み込み(ステップS416からステップS418)と、文書ファイルの読み込み(ステップS420からステップS422)の順については上記には限られない。先に文書ファイルの読み込みを行ってもよい。また、読み込みが必要ない場合には、関連付け処理装置40は、上述した処理を省略する。
関連付け処理装置40は、選択情報、関連文書、関連短文スレッド、及び表示情報を、ユーザ端末10に送信する(ステップS422)。ユーザ端末10は、受信した情報に基づき、表示部13に選択情報、関連文書、関連短文スレッドを表示する(ステップS424)。以下では、まず、ステップS408においてユーザによって文書が選択された場合について説明する。
ユーザ端末10は、例えば、図11に示すように、選択された文書に関する結果を表示する。図11は、本実施形態に係るユーザ端末10の選択文書の詳細表示画面D200の一例である。
詳細表示画面D200は、選択文書表示部D201、タグ表示部D202、関連スレッド表示部D203、関連文書表示部D204を含んで構成される。
詳細表示画面D200は、選択文書表示部D201、タグ表示部D202、関連スレッド表示部D203、関連文書表示部D204を含んで構成される。
選択文書表示部D201は、選択された文書を表示する。選択文書表示部D201は、選択された文書が複数頁にわたる場合や、表示部で全てを表示することが不可能な場合に、スクロールバーなどを表示し、ユーザの入力に応じて、選択文書表示部D201の表示を適宜変更する。図11の例では、ユーザの操作が行われていない初期状態として、選択された文書の最初の頁が表示されている。なお、選択文書表示部D201の初期状態の表示は上記に限られない。例えば、検索語句が初出する部分を含んで表示するようであってもよい。
タグ表示部D202は、選択文書のメタデータであるタグの情報を表示する。図11の例では、タグとして「提案書」「AA案件」「予算」「日程」などのタグが表示されている。また、タグはタグに表示されている語句を検索語句とする検索を行うためのリンクであってもよい。この場合、ユーザ端末10は、タグの押下が入力されると、そのタグに入力されている語句を検索語句とする検索条件を、関連付け処理装置40に送信する。
関連スレッド表示部D203は、関連短文スレッドをスレッド毎に表示する。ユーザ端末10は、関連短文スレッドが多い場合など、所定の場合に、関連スレッド表示部D203の表示の初期状態として、関連スレッドのスレッドIDのみを表示してもよい。この場合、ユーザ端末10は、関連短文スレッドの詳細である、発言内容、発言者などの情報を表示する詳細表示部の表示と非表示を切り替えるボタンBT205(BT205−1、BT205−2・・・)をスレッド毎に表示する。図11の例では、スレッドIDが“THREAD4”の関連短文スレッドは、詳細表示部が非表示のままである。一方、スレッドIDが“THREAD10”の関連短文スレッドは、ユーザによってBT205−2の押下が入力され、詳細表示部が表示されている。図11に示す例では、詳細表示部は、短文スレッドに含まれる短文ログの発信者と内容と対応付けて発信順に表示する。例えば、図11では、THREAD10の詳細として、最初に、発信者“C”の“Dさん、提案書の・・・”という内容の短文ログが表示されている。また、続けて、発信者“D”の“<@C>その点ですが、BB案件の・・・”という内容が対応づけて表示されている。ここで、短文内容の“<@C>”は短文の発信対象を示す表記であり、ここでは“C”が発信対象であることを示す。なお、詳細の表示方法はこれには限られない。例えば、個々の短文ログの時刻を表示してもよい。また、発信対象を表示しなくてもよい。
関連文書表示部D204は、関連文書を表示する。例えば、図11の例では、ユーザ端末10は、関連文書をリスト形式で表示しているが、これには限られない。例えば、関連文書をサムネイルで表示してもよいし、サムネイル画像と関連文書の内容の一部を合わせて表示してもよい。
なお、例えば、関連付け処理装置40が、文書の構造毎の内容と短文スレッドとの関連付けを行う場合、ユーザ端末10はその情報に基づいて、関連スレッド表示部D203の表示を行ってもよい。この場合、ユーザ端末10は当該関連付け情報を、関連付け処理装置40から更に受信する。ユーザ端末10の表示部13は、選択された文書の表示の変更に応じて、表示される部分の文書内容に対応する関連短文スレッドを表示する。図12は、本実施形態に係る、文書の表示位置が変更された場合の、ユーザ端末10の選択文書の詳細表示画面D200の一例を示す図である。
ユーザ端末10は、例えば、図12に示すように、選択された文書の表示位置が変更された場合、関連スレッド表示部D203の表示を変更する。図12に示す例では、選択文書表示部D201は“p3”、つまり3頁目を表示している。この場合、ユーザ端末10は、選択された文書の“p3”に関連付けられた関連スレッドである“THREAD10”、“THREAD5”などを、関連スレッド表示部D203に表示し、“p3”に関連付けられていない“THREAD4”などの情報の表示を中止する。
また、例えば、関連付け処理装置40が、文書の構造毎の内容と短文スレッドに含まれるクラスタとの関連付けを行う場合、ユーザ端末10はその情報を詳細表示部に表示してもよい。図12に示す例では、選択文書表示部D201には、提案内容として“XXX”が含まれている。例えば、関連付け処理装置40が、この頁に短文スレッド“THREAD10”に含まれるクラスタの1つである“CL0030”を関連付けている場合、ユーザ端末10は、クラスタIDが“CL0030”であるクラスタに含まれる短文ログを詳細表示部に表示する。図12では、当該短文ログとして、発言者“D”の“XXXの箇所、・・・”という内容を含む短文ログと、発言者“E”の“<@D>その提案については、・・・”という内容を含む短文ログを詳細表示部に表示する。なお、関連スレッド表示部は、詳細表示部に関連短文スレッドのうち、関連付けられているクラスタのみを表示してもよいし、関連付けられているクラスタを含む関連短文スレッド全てを表示してもよい。
ところで、関連付けされた文書又は短文スレッドの表示は、ユーザ端末10のユーザの業務や役職によっては、必ずしも有用であるとは限らない。例えば、経理担当者が閲覧する場合、例えば、システム設計の詳細に関する短文スレッドなどは、不要である。そこで、ユーザ端末10のユーザによって、関連短文スレッドの表示を中止する処理が実行可能であってもよい。図13は、本実施形態に係る、ユーザによる関連短文スレッドの表示の中止を行うことができる、ユーザ端末10の選択文書の詳細表示画面D200の一例を示す図である。ユーザ端末10の詳細表示画面D200は、更に、ユーザ表示部U205と、スレッド非表示ボタンBT206とを更に含んで構成される。
この場合、関連付け処理装置40は、更にユーザ端末10のユーザに関するユーザ情報を記憶部42に記憶する。ユーザ情報は、例えば、ユーザのログインID、ログインパスワード、所属などの情報を含む。ユーザ端末10は、図9に示す検索処理を行う前に、表示部13にログイン画面を表示する。ユーザ端末10は、入力された情報を、通信部11を介して、関連付け処理装置40に送信する。関連付け処理装置40は受信した情報に基づいて、ログイン処理を行う。この場合、関連付け処理装置40は、検索処理実行時に、ユーザに関する情報をユーザ端末10に送信する。
ユーザ表示部U205は、上述したログインを行ったユーザを識別する情報を表示する。図13に示す例では、ユーザ表示部U205に、ログインしているユーザの情報として、“経理部K”を表示している。
スレッド非表示ボタンBT206は、個々の短文スレッドに表示されるボタンである。スレッド非表示ボタンBT206が押下されると、ユーザ端末10は、対応する関連短文スレッドを非表示にする。また、ユーザ端末10は、非表示にした関連短文スレッドの情報を、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を記憶部42に記憶し、以後、検索結果に同じスレッドが関連短文スレッドに含まれていた場合でも、当該スレッドの情報をユーザ端末10に表示させない、又は、ユーザ端末10に当該スレッドの情報を送信しない。
スレッド非表示ボタンBT206は、個々の短文スレッドに表示されるボタンである。スレッド非表示ボタンBT206が押下されると、ユーザ端末10は、対応する関連短文スレッドを非表示にする。また、ユーザ端末10は、非表示にした関連短文スレッドの情報を、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を記憶部42に記憶し、以後、検索結果に同じスレッドが関連短文スレッドに含まれていた場合でも、当該スレッドの情報をユーザ端末10に表示させない、又は、ユーザ端末10に当該スレッドの情報を送信しない。
なお、関連付け処理装置40は、非表示にしたスレッドの情報と、ユーザ情報に基づいて、他のユーザについても非表示にするスレッドを設定してもよい。例えば、“THREAD5”が、“経理部K”によって非表示にされた場合、他の経理部のユーザに対しても
“THREAD5”は非表示にする設定を行う。また、“THREAD5”に含まれる内容に基づいて、同様の内容を含む他の短文スレッドに対しても非表示にする処理を行ってもよい。また、ユーザ端末10は、関連文書についても、非表示にするボタンを表示してもよい。
“THREAD5”は非表示にする設定を行う。また、“THREAD5”に含まれる内容に基づいて、同様の内容を含む他の短文スレッドに対しても非表示にする処理を行ってもよい。また、ユーザ端末10は、関連文書についても、非表示にするボタンを表示してもよい。
続いて、図10のステップS408において、短文スレッドが選択された場合について説明する。
ユーザ端末10は、例えば、図14に示すように、選択された短文スレッドに関する結果を表示する。図14は、本実施形態に係るユーザ端末10の選択短文スレッドの詳細表示画面D300の一例である。
ユーザ端末10は、例えば、図14に示すように、選択された短文スレッドに関する結果を表示する。図14は、本実施形態に係るユーザ端末10の選択短文スレッドの詳細表示画面D300の一例である。
詳細表示画面D300は、選択スレッド表示部D301、関連文書表示部D302を含んで構成される。
選択スレッド表示部D301は、選択された短文スレッドを表示する。選択スレッド表示部D301は、選択された短文スレッドが表示部で全てを表示することが不可能な場合に、スクロールバーなどを表示し、ユーザの入力に応じて、選択スレッド表示部D301の表示を適宜変更する。図14の例では、ユーザの操作が行われていない初期状態として、選択された短文スレッドの最初の頁が表示されている。なお、選択スレッド表示部D301の初期状態の表示は上記に限られない。例えば、検索語句が初出する部分を含んで表示するようであってもよい。
関連文書表示部D302は、関連文書を表示する。例えば、図14の例では、ユーザ端末10は、全ての関連文書について、表示部に全ての内容が表示しきれない場合には、スクロールバーなどを表示し、関連文書表示部D302内で確認できる形式で表示しているが、これには限られない。例えば、関連文書の一部だけを同様の形式で表示し、それ以外の関連文書については、リスト形式、サムネイル形式、サムネイル画像と文書内容の一部を表示する形式、などの形式、又はこれらを組み合わせた形式で表示し、当該文書が選択された場合に当該文書の全ての内容が確認できる表示画面へのリンクが含まれるようにしてもよい。また、表示順は、関連度の高い順に表示しているが、これには限られない。例えば、作成時刻又は更新時刻が新しい順であってもよい。
関連文書表示部D302は、検索語句を含まない文書についても、表示を行ってもよい。例えば、図14の例では、文書表示部D303で示される文書は、BB案件に関する文書であって、検索語句である“AA”は当該文書に含まれないが、選択されたスレッドである“THREAD10”との関連性が高いため、関連文書表示部D302に表示される。
関連文書表示部D302は、検索語句を含まない文書についても、表示を行ってもよい。例えば、図14の例では、文書表示部D303で示される文書は、BB案件に関する文書であって、検索語句である“AA”は当該文書に含まれないが、選択されたスレッドである“THREAD10”との関連性が高いため、関連文書表示部D302に表示される。
図9の説明に戻って、ユーザ端末10は、上記のように、選択された文書又は短文スレッドに関する情報を表示部13に表示させる処理を終了すると、関連文書や関連スレッドの選択の入力、検索語句の再入力などを待機する。ユーザ端末10は、選択が行われず検索の終了を指示する入力が行われた場合には、処理を終了する。また、ユーザ端末10は、関連文書や関連スレッドを選択する入力が行われた場合、ステップS408に戻り、その後の処理を行う。また、検索語句の入力が行われ、検索を行う指示が入力された場合には、ステップS400に戻り、その後の処理を行う。
以上説明したように、本実施形態に係る情報処理システム1は、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理部434と、同一又は類似の前記クラスタ内の複数の前記短文の内容と、文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理部435とを備える。
これにより、本実施形態に係る情報処理システム1は、例えば、短文ログ格納装置30に保存された短文ログを、その発言時刻に基づいて予め関連付け、複数の短文として扱うことができ、単独の短文よりも単語数などが多くなる。そのため、本実施形態による情報処理システム1は、文書と、短文とを容易に関連付けを行うことができる。
また、本実施形態に係る情報処理システム1の短文ログ格納装置30は、短文ログとして、発信者及び発信対象者に関する情報を含み、短文処理部434は、発信者及び発信対象者に更に基づいて、短文ログを複数のクラスタに分類する。
これにより、本実施形態に係る情報処理システム1は、発信時刻が離れている場合でも、発信者や発信対象の情報に基づいて、複数の短文を関連付けることができ、単独の短文よりも単語数などが多くなる。そのため、本実施形態による情報処理システム1は、文書が形成される経緯、根拠、背景などの議論が長時間の間隔をあけて行われる場合でも、文書と短文とを容易に関連付けを行うことができる。
これにより、本実施形態に係る情報処理システム1は、発信時刻が離れている場合でも、発信者や発信対象の情報に基づいて、複数の短文を関連付けることができ、単独の短文よりも単語数などが多くなる。そのため、本実施形態による情報処理システム1は、文書が形成される経緯、根拠、背景などの議論が長時間の間隔をあけて行われる場合でも、文書と短文とを容易に関連付けを行うことができる。
また、本実施形態に係る情報処理システム1の短文処理部434は、発信内容に更に基づいて、短文ログを複数のクラスタに分類する。
これにより、本実施形態に係る情報処理システム1は、例えば、担当者が変わるなどの発信者が変更され、更に発信時刻が離れているような場合でも、発信内容の情報に基づいて、複数の短文を関連付けることができ、単独の短文よりも単語数などが多くなる。そのため、短文と文書とを容易に関連付けを行うことができる。
これにより、本実施形態に係る情報処理システム1は、例えば、担当者が変わるなどの発信者が変更され、更に発信時刻が離れているような場合でも、発信内容の情報に基づいて、複数の短文を関連付けることができ、単独の短文よりも単語数などが多くなる。そのため、短文と文書とを容易に関連付けを行うことができる。
また、本実施形態に係る情報処理システム1の、関連付け処理部435は、前記関連付けを閲覧するユーザの情報に更に基づいて関連付けを行う。
これにより、本実施形態に係る情報処理システム1は、例えば部署の異なるユーザにとって不必要な情報を関連付けないようにすることができる。そのため、ユーザが必要だと思う議論を含む短文が多くなり、文書が形成される経緯、根拠、背景などの議論を含む短文のうちユーザが望む短文と文書とを容易に関連付けを行うことができる。
これにより、本実施形態に係る情報処理システム1は、例えば部署の異なるユーザにとって不必要な情報を関連付けないようにすることができる。そのため、ユーザが必要だと思う議論を含む短文が多くなり、文書が形成される経緯、根拠、背景などの議論を含む短文のうちユーザが望む短文と文書とを容易に関連付けを行うことができる。
また、本実施形態に係る情報処理システム1の、関連付け処理部435は、文書の構成単位毎に、関連付けを行う。
これにより、本実施形態に係る情報処理システム1は、文書が様々な内容を含む場合に、関連している部分に限定して、短文と文書との関連づけを行うことができる。そのため、様々な内容を含む文書に対しても、短文と文書とを容易に関連付けを行うことができる。
これにより、本実施形態に係る情報処理システム1は、文書が様々な内容を含む場合に、関連している部分に限定して、短文と文書との関連づけを行うことができる。そのため、様々な内容を含む文書に対しても、短文と文書とを容易に関連付けを行うことができる。
(第2の実施形態)
本実施形態では、ある文書に、版の異なる複数の文書が存在する場合の変形例について説明する。
本実施形態では、ある文書に、版の異なる複数の文書が存在する場合の変形例について説明する。
図15は、第2の実施形態による情報処理システム1aの一例を示すブロック図である。
図15に示すように、情報処理システム1aは、ユーザ端末10、文書ファイル格納装置20、短文ログ格納装置30、及び関連付け処理装置40aを備える。
なお、この図において、上述した図1と同一の構成には、同一の符号を付与して、ここでの説明を省略する。
図15に示すように、情報処理システム1aは、ユーザ端末10、文書ファイル格納装置20、短文ログ格納装置30、及び関連付け処理装置40aを備える。
なお、この図において、上述した図1と同一の構成には、同一の符号を付与して、ここでの説明を省略する。
関連付け処理装置40aは、ネットワークNWを介して、ユーザ端末10、文書ファイル格納装置20及び短文ログ格納装置30と接続可能なサーバ装置であり、基本的な機能は第1の実施形態の関連付け処理装置40と同様である。関連付け処理装置40aは、通信部41、記憶部42及び処理部43aを備える。
処理部43aは、関連付け処理装置40aの統括的な制御処理を行う。処理部43aの基本的な機能は、第1の実施形態の処理部43と同様である。処理部43aは、情報取得部431、出力処理部432、文書情報処理部433、短文処理部434、関連付け処理部435a及び検索処理部436aを備える。
関連付け処理部435aは、第1の実施形態における関連付け処理を行う前に、関連付けを行う文書に、他の版があるか否かを検索する。関連付け処理部435aは、例えば、文書情報データベース421を参照して、関連付けを行う文書と関連性が高い文書について、関連性が高い文書が版の違う文書であるか否かを判定する。関連付け処理部435aは、版が異なる文書が存在しない場合には、以降の処理は第1の実施形態と同様であるので、ここでは説明を省略する。版が異なる文書が存在する場合、関連付け処理部435aは、例えば、文書情報データベース421を参照し、全文書の情報から、版違いに該当する文書に関する情報を取得する。関連付け処理部435aは、全ての版の文書について、それらが版違いの文書である情報を関連付けデータベース423に記憶させる。関連付け処理部435aは、全ての版の文書を1つの文書として、短文スレッドとの関連付けを行う。関連付け処理については、第1の実施形態と同様であるので、ここでは説明を省略する。
検索処理部436aは、ユーザ端末10から入力された文書又は短文の検索条件に関する情報に基づいて、文書又は短文の検索処理を行う。検索条件に基づく処理については、第1の実施形態と同様であるので、ここでは説明を省略する。
また、検索処理部436aは、記憶部42から選択情報を取得する。選択情報が文書情報を含む場合、検索処理部436aは、関連付けデータベース423を参照し、関連短文スレッドの情報を取得する。取得の処理は第1の実施形態と同様であるので、説明を省略する。また、検索処理部436aは、関連付けデータベース423を参照し、選択情報が含む文書情報に他の版がある場合、他の版の文書の情報を取得する。続いて、検索処理部436aは、文書情報データベース421を参照し、選択情報が含む文書情報について、関連する文書の情報を取得する。他の版の文書がある場合には、その文書についても関連する文書の情報を取得する。検索処理部436aは取得した情報に基づき、文書ファイル格納装置20又は短文ログ格納装置30に関連文書及び選択文書の文書ファイル、関連短文スレッドの短文ログを要求する情報を出力処理部432に出力する。
検索処理部436aは、文書ファイル格納装置20又は短文ログ格納装置30から受信し記憶部42に記憶された情報に基づいて、表示情報を生成する。検索処理部436aは、取得した情報、表示情報を、ユーザ端末10に送信する情報を、出力処理部432に出力する。
また、検索処理部436aは、選択情報が短文スレッドを含む場合、検索処理部436aは、関連付けデータベース423を参照し、選択情報に関連する文書の情報を取得する。取得の処理は第1の実施形態と同様であるので、説明を省略する。検索処理部436aは、関連文書に他の版の情報がある場合には、他の版の文書についても関連文書として情報を取得する。検索処理部436aは取得した情報に基づき、文書ファイル格納装置20又は短文ログ格納装置30に関連文書の文書ファイル、選択短文スレッドの短文ログを要求する情報を出力処理部432に出力する。
図16は、本実施形態に係る、ユーザ端末10の選択文書の詳細画面の一例を示す図である。ユーザ端末10は表示部13に、詳細表示画面D400を表示させる。詳細表示画面D400は、複数文書表示部D401、関連短文スレッド表示部D402、及び関連情報表示部R403を含んで構成される。
複数文書表示部D401は、ユーザが選択した文書と、版違いの文書とを表示する。図16に示す例では、複数文書表示部D401は、版の新しい順(“ver.3”、“ver.2”・・・の順)に上から文書を表示する。
関連短文スレッド表示部D402は、複数文書表示部D401に表示される文書に関連する短文スレッドを表示する。図16に示す例では、関連短文スレッド表示部D402は、短文スレッドの終了時刻の新しい順に上から表示する。
関連情報表示部R403は、複数文書表示部D401に表示される文書と関連短文スレッド表示部D402に表示される短文スレッドとの間の関連性を表示する。図16に示す例では、関連情報表示部R403は、関連する文書と短文スレッドとを線を引いて示す。
なお、文書や短文スレッドの表示順は上述した方法には限られない。また、関連情報表示部R403は、関連度に応じて表示を変更してもよい。例えば、関連度の値に応じて、線の色、線の太さ、線の種類(点線、二重線など)を変更して、又はこれらの組み合わせによって表示してもよい。
関連短文スレッド表示部D402は、複数文書表示部D401に表示される文書に関連する短文スレッドを表示する。図16に示す例では、関連短文スレッド表示部D402は、短文スレッドの終了時刻の新しい順に上から表示する。
関連情報表示部R403は、複数文書表示部D401に表示される文書と関連短文スレッド表示部D402に表示される短文スレッドとの間の関連性を表示する。図16に示す例では、関連情報表示部R403は、関連する文書と短文スレッドとを線を引いて示す。
なお、文書や短文スレッドの表示順は上述した方法には限られない。また、関連情報表示部R403は、関連度に応じて表示を変更してもよい。例えば、関連度の値に応じて、線の色、線の太さ、線の種類(点線、二重線など)を変更して、又はこれらの組み合わせによって表示してもよい。
なお、上記した実施形態においては、版の異なる文書については、個別に文書間関連付けを行ったが、文書間関連付けの方法は、これには限られない。例えば、文書情報処理部433は、版の異なる複数の文書をまとめて1つの文書として取り扱い、文書間関連付けを行ってもよい。また、関連付け処理部435aが短文スレッドとの関連付けを行う場合に、版が異なる文書を合わせて取り扱い関連付けを行う例を説明したが、これには限られない。例えば、検索処理部436aが選択情報に含まれる文書情報を受け取った時点で、版の違う文書が存在するかどうかを検索し、関連付けを関連付け処理部435aに依頼してもよい。
以上説明したように、本実施形態による情報処理システム1aは、関連付け処理部435aは、版の異なる複数の前記文書がある場合に、前記版が異なる複数の前記文書を含んで構成される前記文書に対して、前記関連付けを行う。
これにより、例えば、決定事項を含む文書に複数の版がある場合に、特定の版の文書には関連付けが行われていない短文であっても、それ以外の版の文書が形成される経緯、根拠、背景などの議論が行われる短文についても、文書と容易に関連付けることができる。
これにより、例えば、決定事項を含む文書に複数の版がある場合に、特定の版の文書には関連付けが行われていない短文であっても、それ以外の版の文書が形成される経緯、根拠、背景などの議論が行われる短文についても、文書と容易に関連付けることができる。
(第3の実施形態)
次に、図面を参照しながら本発明の第3の実施形態について説明する。
本実施形態では、ユーザが選択した文書である第1文書と、直接関連していない文書である第2文書が、同一の短文スレッドと関連付けられているような場合、あるいは、ユーザが選択した短文スレッドである第1短文スレッドと、直接関連していない短文スレッドである第2短文スレッドが、同一の文書と関連付けられているような場合の、処理の変形例について説明する。
次に、図面を参照しながら本発明の第3の実施形態について説明する。
本実施形態では、ユーザが選択した文書である第1文書と、直接関連していない文書である第2文書が、同一の短文スレッドと関連付けられているような場合、あるいは、ユーザが選択した短文スレッドである第1短文スレッドと、直接関連していない短文スレッドである第2短文スレッドが、同一の文書と関連付けられているような場合の、処理の変形例について説明する。
図17は、第3の実施形態による情報処理システム1bの一例を示すブロック図である。
図17に示すように、情報処理システム1bは、ユーザ端末10、文書ファイル格納装置20、短文ログ格納装置30、及び関連付け処理装置40bを備える。
なお、この図において、上述した図1と同一の構成には、同一の符号を付与して、ここでの説明を省略する。
図17に示すように、情報処理システム1bは、ユーザ端末10、文書ファイル格納装置20、短文ログ格納装置30、及び関連付け処理装置40bを備える。
なお、この図において、上述した図1と同一の構成には、同一の符号を付与して、ここでの説明を省略する。
関連付け処理装置40bは、ネットワークNWを介して、ユーザ端末10、文書ファイル格納装置20及び短文ログ格納装置30と接続可能なサーバ装置であり、基本的な機能は第1の実施形態の関連付け処理装置40と同様である。関連付け処理装置40bは、通信部41、記憶部42及び処理部43bを備える。
処理部43bは、関連付け処理装置40bの統括的な制御処理を行う。処理部43bの基本的な機能は、第1の実施形態の処理部43と同様である。処理部43bは、情報取得部431、出力処理部432、文書情報処理部433、短文処理部434、関連付け処理部435b及び検索処理部436bを備える。
関連付け処理部435bは、関連付け処理を行う。関連付け処理については、第1の実施形態と同様であるので、ここでは説明を省略する。関連付け処理部435bは、関連付け処理が終了した後、文書情報データベース421を参照し、関連付け処理を行った文書(以降、「第1文書」とも称する)の関連文書情報を取得する。また、関連付け処理部435bは、関連付けデータベース423を参照し、第1文書に関連付けられた短文スレッドに関連付けられている他の文書の情報(以降、「第2文書群」とも称する)を取得する。関連付け処理部435bは、第2文書群のうち、第1文書の関連文書に含まれない文書について、2次関連文書として、第1文書と関連付ける情報を、関連付けデータベース423に記憶させる。なお、第2文書群については、予め定められた閾値に基づいて、第1文書に関連付けられた短文スレッドとの関連度が閾値以上の文書に限って上記の処理を行ってもよい。
関連付け処理部435bは、関連付けが終了したあと、関連付け処理を行った短文スレッド(以降、「第1短文スレッド」とも称する)に関連付けられた文書に関連付けられている他の短文スレッド(以降、「第2短文スレッド群」とも称する)に関する情報を取得する。関連付け処理部435bは、第2短文スレッド群の情報を、2次関連短文スレッドとして、第1短文スレッドに関連付ける。なお、関連付け処理部435bは、第1短文スレッドと第2短文スレッド群に属する短文スレッドとの間の距離を計算し、予め定められた閾値に基づいて、距離が閾値以下の短文スレッドについて上記の処理を行ってもよい。
検索処理部436bは、ユーザ端末10から入力された文書又は短文の検索条件に関する情報に基づいて、文書又は短文の検索処理を行う。検索条件に基づく処理については、第1の実施形態と同様であるので、ここでは説明を省略する。
また、検索処理部436bは、記憶部42から選択情報を取得する。検索処理部436bは、選択情報と、関連付けデータベース423とに基づいて、選択情報の関連情報(関連短文スレッド又は関連文書)及び、2次関連文書又は2次関連短文スレッドに関する情報を取得する。
検索処理部436bは、文書ファイル格納装置20又は短文ログ格納装置30に選択分与、関連文書、及び2次関連文書の文書ファイル、選択短文スレッド、関連短文スレッド、2次関連短文スレッドの短文ログを要求する情報を出力処理部432に出力する。
検索処理部436bは、文書ファイル格納装置20又は短文ログ格納装置30に選択分与、関連文書、及び2次関連文書の文書ファイル、選択短文スレッド、関連短文スレッド、2次関連短文スレッドの短文ログを要求する情報を出力処理部432に出力する。
検索処理部436bは、文書ファイル格納装置20又は短文ログ格納装置30から受信し記憶部42に記憶された情報に基づいて、表示情報を生成する。検索処理部436bは、取得した情報、表示情報を、ユーザ端末10に送信する情報を、出力処理部432に出力する。
以下では、ユーザ端末10が検索結果から、文書を選択した場合の詳細画面の例を説明する。
図18は、本実施形態に係る、ユーザ端末10の選択文書の詳細画面の一例を示す図である。ユーザ端末10は表示部13に、詳細表示画面D500を表示させる。詳細表示画面D500は、選択文書表示部D501、タグ表示部D502、関連情報表示部D503を含んで構成される。
図18は、本実施形態に係る、ユーザ端末10の選択文書の詳細画面の一例を示す図である。ユーザ端末10は表示部13に、詳細表示画面D500を表示させる。詳細表示画面D500は、選択文書表示部D501、タグ表示部D502、関連情報表示部D503を含んで構成される。
選択文書表示部D501は、選択された文書を表示する。選択文書表示部D501は基本的に、第1の実施形態における選択文書表示部D201と同様の表示を行うので、ここでは説明を省略する。
タグ表示部D502は、選択文書のメタデータであるタグの情報を表示する。タグ表示部D502は基本的に、第1の実施形態におけるタグ表示部D202と同様の表示を行うので、ここでは説明を省略する。
タグ表示部D502は、選択文書のメタデータであるタグの情報を表示する。タグ表示部D502は基本的に、第1の実施形態におけるタグ表示部D202と同様の表示を行うので、ここでは説明を省略する。
関連情報表示部D503は、関連情報を表示する。ここでは、関連情報は、関連短文スレッド、関連文書、及び2次関連文書に関する情報である。図18の例では、関連短文スレッドとして“THREAD4”が表示されている。また、2次関連文書として、“BB案件提案書”が表示されている。なお、表示方法、表示順は図示した方法には限られない。例えば、リスト形式、サムネイル形式、サムネイル画像と関連短文スレッドもしくは関連文書の内容を合わせて表示する形式、あるいはこれらの組み合わせであってもよい。また、関連短文スレッドや関連文書の表示方法と、2次関連文書の表示方法が異なっていてもよい。
なお、短文スレッドを選択した場合の詳細画面については、図14において、関連文書表示部D302の代わりに、関連文書、2次関連短文スレッドに関する関連情報を表示する関連情報表示部D503を含んで構成されるので、ここでは説明を省略する。
なお、上述した方法では、関連付け処理部435bが、2次文書及び2次短文スレッド検索を行ったが、これには限られない。例えば、検索処理部436bが、選択情報を取得後、選択情報に含まれる文書情報又は短文スレッド情報に基づいて、選択情報の2次文書又は2次短文スレッドを検索する依頼を関連付け処理部435bに行ってもよい。
以上説明したように、本実施形態において、文書には、第1文書と、第1文書と異なる第2文書が含まれ、情報処理システム1bは、更に、複数の文書を文書の類似度に基づいて文書間関連付けを行う文書情報処理部433を備え、文書情報処理部433が第1文書と第2文書の類似度に基づいて文書間関連付けを行わない場合であって、第1文書及び第2文書が、同一のクラスタに含まれる複数の短文のいずれかに関連付けが行われている場合に、関連付け処理部435bは、前記第1文書と前記第2文書とを関連付ける。
これにより、例えば、文書が形成される経緯、根拠、背景などの議論が短文で行われる場合に、その短文を経由して他の文書についての関連性を見出すことで、文書と短文との新たな視点からの関連付けを容易に行うことができる。
これにより、例えば、文書が形成される経緯、根拠、背景などの議論が短文で行われる場合に、その短文を経由して他の文書についての関連性を見出すことで、文書と短文との新たな視点からの関連付けを容易に行うことができる。
また、本実施形態において、前記クラスタには、第1クラスタと、第1クラスタと異なる第2クラスタが含まれ、情報処理システム1bの関連付け処理部435bは、第1クラスタと第2クラスタについて、第1クラスタに含まれる複数の短文のいずれかに関連付けが行われた文書が、第2クラスタに含まれる複数の短文のいずれかに関連付けが行われている場合に、第1クラスタと第2クラスタとを関連付ける。
これにより、例えば、文書が形成される経緯、根拠、背景などの議論が短文で行われる場合に、その文書を経由して他の短文についての関連性を見出すことで、文書と短文との新たな視点からの関連付けを容易に行うことができる。
これにより、例えば、文書が形成される経緯、根拠、背景などの議論が短文で行われる場合に、その文書を経由して他の短文についての関連性を見出すことで、文書と短文との新たな視点からの関連付けを容易に行うことができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上記の各実施形態において、関連付け処理装置40(40a、40b)を1つのサーバ装置として構成する例を説明したが、これに限定されるものではなく、複数のサーバ装置により構成するようにしてもよい。例えば、関連付け処理装置40(40a、40b)は、文書情報データベース421及び文書情報処理部433を備える例を説明したが、外部に文章情報処理装置として文書情報データベース421及び文書情報処理部433を備えるようにしてもよい。また、関連付け処理装置40(40a、40b)は、短文スレッドデータベース422及び短文処理部434を備える例を説明したが、外部に短文スレッド処理装置として短文スレッドデータベース422及び短文処理部434を備えるようにしてもよい。また、関連付け処理装置40(40a、40b)は、検索処理部436を備える例を説明したが、外部に検索処理装置として検索処理部436を備えるようにしてもよい。
また、上記の各実施形態において、文書ファイル格納装置20は、文書情報処理を行わない例を説明したが、文書情報データベース421及び文書情報処理部433を備え、文書情報処理を行うようにしてもよい。また、上記の各実施形態において、短文ログ格納装置30は、短文スレッド作成処理を行わない例を説明したが、短文スレッドデータベース422及び短文処理部434を備え、短文スレッド作成処理を行うようにしてもよい。
また、上記の各実施形態において、関連文書及び関連短文スレッドなどの情報を、関連付け処理装置40(40a、40b)が一度受信してから、ユーザ端末10にまとめて送信する例を説明したが、ユーザ端末10への送信方法はこれには限られない。例えば、文書ファイル格納装置20及び短文ログ格納装置30は、関連付け処理装置40(40a、40b)から要求された情報を、直接ユーザ端末10に送信してもよい。この場合、関連付け処理装置40(40a、40b)は表示に関する情報をユーザ端末10に送信する。また、ユーザ端末10の処理部15は、文書ファイル格納装置20、短文ログ格納装置30及び関連付け処理装置40(40a、40b)から受信した情報を組み合わせて、表示部13に受信した情報を表示させる。
また、上記の各実施形態において、文書の関連付け処理は、関連付け処理装置40の文書情報処理部433が行う例を説明したが、ユーザ端末10のユーザによって関連付けが行われてもよい。
この場合、まずユーザ端末10はユーザからの入力を受け入れ、文書ファイル格納装置20から文書ファイルを取得する。又は、ユーザ端末10はユーザによって作成された文書ファイルを取得してもよい。続いてユーザ端末10は、取得した情報を表示部13に表示させる。ユーザ端末10のユーザによって、関連付けを行う文書の入力が行われると、ユーザ端末10は入力された情報を受け入れ、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を文書情報データベース421に記憶させる。
この場合、まずユーザ端末10はユーザからの入力を受け入れ、文書ファイル格納装置20から文書ファイルを取得する。又は、ユーザ端末10はユーザによって作成された文書ファイルを取得してもよい。続いてユーザ端末10は、取得した情報を表示部13に表示させる。ユーザ端末10のユーザによって、関連付けを行う文書の入力が行われると、ユーザ端末10は入力された情報を受け入れ、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を文書情報データベース421に記憶させる。
また、文書情報処理部433は、受信した情報に基づいて、関連付けが行われた文書間の類似度を算出し、その情報を記憶部42に記憶してもよい。文書情報処理部433は、ユーザによって関連付けが行われた文書から求めた類似度の値に応じて、記憶部42に記憶した閾値の値を変更してもよい。例えば、文書情報処理部433は、上述した方法で求めた類似度の分布を取得し、分布の第1四分位数や最小値などを閾値に設定する、などの処理を行う。
また、文書情報処理部433は文書間関連付けを行う場合に、全ての文書間で関連付けを行わなくてもよい。この場合、類似度算出を行う文書の範囲を設定し、その範囲外にあたる文書については、類似度算出を行わない、すなわち文書間関連付けを行わない。文書情報処理部433は、例えば、範囲としてある一定の期間などを設定する。この場合、文書情報データベース421は、文書の時刻情報(作成時刻又は更新時刻)を更に記憶する。また、文書情報処理部433は、文書ファイル格納装置20から取得した文書ファイルの時刻情報を更に取得し、時刻情報の差が一定の範囲内の文書についてのみ類似度算出を行う。範囲の設定の仕方はこれには限られない。
また、上記の各実施形態において、短文ログのクラスタリング及びスレッド作成処理は関連付け処理装置40の短文処理部434が行う例を説明したが、ユーザ端末10のユーザなどによって処理されてもよい。
この場合、まずユーザ端末10はユーザからの入力を受け入れ、短文ログ格納装置30から短文ログを取得する。続いてユーザ端末10は、取得した情報を表示部13に表示させる。ユーザ端末10のユーザによって、スレッドにまとめる短文ログの入力が行われると、ユーザ端末10は入力された情報を受け入れ、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を短文スレッドデータベース422に記憶させる。
この場合、まずユーザ端末10はユーザからの入力を受け入れ、短文ログ格納装置30から短文ログを取得する。続いてユーザ端末10は、取得した情報を表示部13に表示させる。ユーザ端末10のユーザによって、スレッドにまとめる短文ログの入力が行われると、ユーザ端末10は入力された情報を受け入れ、関連付け処理装置40に送信する。関連付け処理装置40は、受信した情報を短文スレッドデータベース422に記憶させる。
また、短文処理部434は、受信した情報に基づいて、スレッドにまとめられた短文ログのクラスタリングを行う。クラスタリングが終了すると、短文処理部434は、クラスタリングの結果を、短文スレッドデータベース422に記憶させる。また、処理部43は、学習部を更に設け、当該スレッドを教示データとして、クラスタリングされた情報をスレッドに分割する場合のパラメータを学習する。パラメータは、例えば、スレッドに含まれる短文の期間(開始時刻から終了時刻までの間の時間)、スレッドの大きさ(スレッドに含まれる短文ログの数)、同一スレッドに含まれやすい短文ログのユーザの組み合わせなどの情報である。記憶部42は学習済みモデルを更に設け、学習部は学習した情報を学習済みモデルに記憶させる。
短文処理部434は、学習済みモデルに学習した情報が記憶されている場合、学習済みモデルに記憶されたパラメータを参照し、スレッド作成処理を行ってもよい。短文処理部434は、複数のパラメータが記憶されている場合には、記憶部42に別途記憶される、パラメータの適用順序などの情報に基づいてスレッド作成処理を行う。
短文処理部434は、学習済みモデルに学習した情報が記憶されている場合、学習済みモデルに記憶されたパラメータを参照し、スレッド作成処理を行ってもよい。短文処理部434は、複数のパラメータが記憶されている場合には、記憶部42に別途記憶される、パラメータの適用順序などの情報に基づいてスレッド作成処理を行う。
なお、上述したユーザによるクラスタリングは、例えば、短文処理部434によって短文スレッド作成処理が行われた場合に、うまくクラスタに集約することができなかった短文ログについて行うものであってもよいし、短文処理部434によるクラスタリングに関係なく行われるものであってもよい。
また、短文処理部434は、クラスタリングされた短文ログをスレッドに分割する場合のパラメータの値を、短文ログに関連する案件のサイズの情報に応じて変更してもよい。ここで、案件のサイズとは、案件が開始されてから終了するまでの期間の長さに関する情報であってもよいし、案件に関与するユーザの数に関する情報であってもよい。例えば、案件が長い期間に及ぶ案件の場合、短期間の案件に比べて、短文スレッドに含まれる短文ログの上限値を大きくする、などのようにパラメータの設定を変更する。
また、文書情報処理部433や、関連付け処理部435は、文書ファイル格納装置20に保存されている文書ファイルが削除された場合、削除された情報に基づいて、文書情報データベース421や関連付けデータベース423の更新を行ってもよい。
また、上記の各実施形態において、文書情報処理部433や短文処理部434は処理をある一定間隔で行う例を説明したが、これには限られない。例えば、文書間関連付け処理は、文書ファイルが作成されるごとに行われてもよい。また、文書情報処理部433や短文処理部434が行う処理の時間間隔は一定でなくともよい。この場合、例えば、新たに作成、更新される文書ファイルの数や合計サイズ、短文ログを格納するファイルのサイズなどを閾値として設定し、所定の閾値を超えた場合に、文書ファイル格納装置20や短文ログ格納装置30が、関連付け処理装置40に処理を依頼するようになっていてもよい。
また、上記の各実施形態は、何らかの決定事項を記載した書類である文書と、文書が形成される経緯、根拠、背景などを含む議論などを含む文章である短文とを例に説明したが、情報処理システム1はこれ以外の場合にも適用可能である。例えば、短文を、文書のレビューに関するコメントとしてもよい。また、総務系の手続きに関する書類を文書とし、手続きのために個人が提出する書類を短文としてもよい。また、例えば、文書を長期間保存する文書、短文を短時間しか保存しない文書としてもよい。
また、上述した各実施形態における情報処理システム1(1a、1b)の一部、例えば、処理部15、処理部43(43a、43b)などをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した機能の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能部は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1、1a、1b・・・情報処理システム、10、10−1、10−N・・・ユーザ端末、11、21、31、41・・・通信部、12・・・入力部、13・・・表示部、14、22、32、42・・・記憶部、15、23、33、43、43a、43b・・・処理部、20・・・文書ファイル格納装置、30・・・短文ログ格納装置、40、40a、40b・・・関連付け処理装置、421・・・文書情報データベース、422・・・短文スレッドデータベース、423・・・関連付けデータベース、431・・・情報取得部、432・・・出力処理部、433・・・文書情報処理部、434・・・短文処理部、435、435a、435b・・・関連付け処理部、436、436a、436b・・・検索処理部
Claims (10)
- 発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理部と、
前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理部と、
を備える情報処理システム。 - 前記短文は、更に発信者及び発信対象者に関する情報を含み、
前記短文処理部は、前記発信者及び前記発信対象者に更に基づいて、前記短文を複数の前記クラスタに分類する、
請求項1に記載の情報処理システム。 - 前記短文処理部は、前記短文の内容に更に基づいて、前記短文を複数の前記クラスタに分類する、
請求項1又は請求項2に記載の情報処理システム。 - 前記関連付け処理部は、前記関連付けを閲覧するユーザの情報に更に基づいて前記関連付けを行う、
請求項1から請求項3のいずれか一項に記載の情報処理システム。 - 前記関連付け処理部は、版の異なる複数の前記文書がある場合に、前記版が異なる複数の前記文書を含んで構成される前記文書に対して、前記関連付けを行う、
請求項1から請求項4のいずれか一項に記載の情報処理システム。 - 前記関連付け処理部は、前記文書の構成単位毎に、前記関連付けを行う、
請求項1から請求項5のいずれか一項に記載の情報処理システム。 - 前記文書には、第1文書と、前記第1文書と異なる第2文書が含まれ、
前記情報処理システムは、
更に、複数の前記文書を前記文書の類似度に基づいて文書間関連付けを行う文書情報処理部を備え、
前記文書情報処理部が前記第1文書と前記第2文書の前記類似度に基づいて文書間関連付けを行わない場合であって、前記第1文書及び前記第2文書が、同一の前記クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われている場合に、前記関連付け処理部は、前記第1文書と前記第2文書とを関連付ける、
請求項1から請求項6のいずれか一項に記載の情報処理システム。 - 前記クラスタには、第1クラスタと、前記第1クラスタと異なる第2クラスタが含まれ、
前記関連付け処理部は、前記第1クラスタと前記第2クラスタについて、前記第1クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われた前記文書が、前記第2クラスタに含まれる複数の前記短文のいずれかに前記関連付けが行われている場合に、前記第1クラスタと前記第2クラスタとを関連付ける、
請求項1から請求項7のいずれか一項に記載の情報処理システム。 - 短文処理部が、発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理ステップと、
関連付け処理部が、前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理ステップと、
を含む、情報処理方法。 - 発信時刻を含むメッセージである短文を、前記発信時刻に基づいて複数のクラスタに分類する短文処理ステップと、
前記クラスタ内の複数の前記短文の内容と、前記短文に基づき作成される文書の内容とに基づいて、前記クラスタ内の複数の前記短文と前記文書との関連付けを行う関連付け処理ステップと、
をコンピュータに実行させるための、情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018203212A JP2020071534A (ja) | 2018-10-29 | 2018-10-29 | 情報処理システム、情報処理方法及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018203212A JP2020071534A (ja) | 2018-10-29 | 2018-10-29 | 情報処理システム、情報処理方法及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020071534A true JP2020071534A (ja) | 2020-05-07 |
Family
ID=70547797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018203212A Pending JP2020071534A (ja) | 2018-10-29 | 2018-10-29 | 情報処理システム、情報処理方法及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020071534A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022082522A (ja) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | 機械学習基盤アイテムを分類する方法および装置 |
JP7378869B2 (ja) | 2021-10-21 | 2023-11-14 | データ・サイエンティスト株式会社 | 体感距離情報生成プログラム、体感距離情報生成方法および体感距離情報生成装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002015005A (ja) * | 2000-06-29 | 2002-01-18 | Fujitsu Ltd | 情報提供方法及びシステム |
JP2002140323A (ja) * | 2000-10-31 | 2002-05-17 | Toshiba Corp | 情報管理方法および情報管理装置 |
US20050022177A1 (en) * | 2000-05-25 | 2005-01-27 | Mccaleb Jed | Intelligent patch checker |
JP2010152694A (ja) * | 2008-12-25 | 2010-07-08 | Toshiba Corp | 情報交換支援管理システム |
JP2010170324A (ja) * | 2009-01-22 | 2010-08-05 | Toshiba Corp | 知識共有支援装置とその方法及びプログラム |
JP2014524089A (ja) * | 2011-06-28 | 2014-09-18 | マイクロソフト コーポレーション | 会話スレッドの要約 |
-
2018
- 2018-10-29 JP JP2018203212A patent/JP2020071534A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050022177A1 (en) * | 2000-05-25 | 2005-01-27 | Mccaleb Jed | Intelligent patch checker |
JP2002015005A (ja) * | 2000-06-29 | 2002-01-18 | Fujitsu Ltd | 情報提供方法及びシステム |
JP2002140323A (ja) * | 2000-10-31 | 2002-05-17 | Toshiba Corp | 情報管理方法および情報管理装置 |
JP2010152694A (ja) * | 2008-12-25 | 2010-07-08 | Toshiba Corp | 情報交換支援管理システム |
JP2010170324A (ja) * | 2009-01-22 | 2010-08-05 | Toshiba Corp | 知識共有支援装置とその方法及びプログラム |
JP2014524089A (ja) * | 2011-06-28 | 2014-09-18 | マイクロソフト コーポレーション | 会話スレッドの要約 |
Non-Patent Citations (1)
Title |
---|
北川 涼太 ほか: "議論掲示板におけるスレッド構造と時系列を考慮した自動要約", 情報処理学会研究報告 知能システム(ICS) 2015−ICS−181 [ONLINE], JPN6022003293, 15 December 2015 (2015-12-15), JP, pages 1 - 6, ISSN: 0004833693 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022082522A (ja) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | 機械学習基盤アイテムを分類する方法および装置 |
JP7351544B2 (ja) | 2020-11-23 | 2023-09-27 | エムロ・カンパニー・リミテッド | 機械学習基盤アイテムを分類する方法および装置 |
JP7378869B2 (ja) | 2021-10-21 | 2023-11-14 | データ・サイエンティスト株式会社 | 体感距離情報生成プログラム、体感距離情報生成方法および体感距離情報生成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10423656B2 (en) | Tag suggestions for images on online social networks | |
US11086873B2 (en) | Query-time analytics on graph queries spanning subgraphs | |
CN106612372B (zh) | 消息提供方法和装置以及显示控制方法和装置 | |
US20180246978A1 (en) | Providing actions for onscreen entities | |
US9183282B2 (en) | Methods and systems for inferring user attributes in a social networking system | |
CN102648462B (zh) | 用于管理电子消息的方法及系统 | |
US20170249309A1 (en) | Interpreting and Resolving Conditional Natural Language Queries | |
US20210073469A1 (en) | Contextual document recall | |
US20130304469A1 (en) | Information processing method and apparatus, computer program and recording medium | |
US20190180098A1 (en) | Content based transformation for digital documents | |
US11558334B2 (en) | Multi-message conversation summaries and annotations | |
US20140279803A1 (en) | Disambiguating data using contextual and historical information | |
US8041738B2 (en) | Strongly typed tags | |
US10523621B2 (en) | Display method of exchanging messages among users in a group | |
JP2020071534A (ja) | 情報処理システム、情報処理方法及び情報処理プログラム | |
JP2009187077A (ja) | 推薦情報提供装置、推薦情報提供方法、推薦情報提供システムおよび推薦情報提供プログラム | |
JP2014052809A (ja) | 情報分類プログラム及び情報処理装置 | |
JP2021135602A (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JP2018073396A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4331177B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JP6891542B2 (ja) | 人脈情報作成装置、人脈情報作成プログラム及び人脈情報作成方法 | |
KR102181579B1 (ko) | 환자정보 스티커 서비스 제공방법 및 이를 위한 치과용 보험청구 시스템 | |
JP2011180646A (ja) | 情報処理装置、通信端末、興味情報提供方法および興味情報提供プログラム | |
US10747800B2 (en) | Clustering search results in an enterprise search system | |
JP2010224941A (ja) | 関連情報検索装置、関連情報検索方法、および関連情報検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220726 |