JP2017194774A

JP2017194774A - 文書判断装置

Info

Publication number: JP2017194774A
Application number: JP2016083497A
Authority: JP
Inventors: 柊高橋; Hiiragi Takahashi; 悠菊地; Yu Kikuchi; 健榎園; Ken Enokizono; 佑介深澤; Yusuke Fukazawa
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2017-10-26

Abstract

【課題】作成された文書の重要性を判断可能な文書判断装置を提供する。【解決手段】文書判断装置１は、ユーザにより作成された治安関連文書の重要性を判断する。治安関連文書を含み、かつ、ユーザにより作成された文書から構成される第１文書グループの、ユーザにより作成された文書であって、第１文書グループを構成する文書とは異なる文書から構成される第２文書グループに対する特異性を示す特異度ｕｎｉを計算する計算部６と、特異度ｕｎｉを用いて、治安関連文書の重要性を判断する判断部７と、判断部７の判断結果を出力する出力部８と、を備える。【選択図】図１

Description

本発明は、文書判断装置に関する。

従来、マイクロブログサービスにおいて、予め用意された辞書とのキーワードマッチングにより、投稿された文書の中から任意のカテゴリに含まれる文書を抽出する手法がある。例えば、特許文献１には、地名データベースを参照し、投稿された文書の中から地名情報が含まれる文書を抽出する装置が記載されている。

特開２０１４−１３７６３２号公報

例えば、爆破事件といった希少な事象が発生した際に、マイクロブログサービスに投稿された文書の中から、その現場に居合わせたユーザが投稿した文書を抽出することが望まれている。しかしながら、上述の手法により「爆破」という単語を含む文書を抽出した場合、抽出された文書には、抽出すべき重要な文書以外に、ニュース等からの伝聞情報に基づき作成された文書、及びゲーム、映画等の非現実世界について作成された文書等が含まれ、これらの重要性を判断することができない。

本発明は、作成された文書の重要性を判断可能な文書判断装置を提供することを目的とする。

上記の目的を達成するために、本発明に係る文書判断装置は、ユーザにより作成された第１文書の重要性を判断する文書判断装置であって、第１文書を含み、かつ、ユーザにより作成された文書から構成される第１文書グループを入力するとともに、ユーザにより作成された文書であって、第１文書グループを構成する文書とは異なる文書から構成される第２文書グループを入力し、第１文書グループの第２文書グループに対する特異性を示す特異度を計算する計算手段と、特異度を用いて、第１文書の重要性を判断する判断手段と、判断手段の判断結果を出力する出力手段と、を備える。

本発明に係る文書判断装置は、重要性の判断の対象となる第１文書を含む第１文書グループの、同じユーザにより投稿された第２文書グループに対する特異度を計算し、特異度を用いて第１文書の重要性を判断する。例えば、「爆破」という単語を含む文書が、普段からゲームについて「爆破」という単語を含む文書を作成しているユーザにより作成されたものである場合と、普段は「爆破」という単語を含む文書を作成していないユーザにより作成されたものである場合とでは、後者の場合の方が、爆破事件が発生した際に、その現場に居合わせたユーザにより作成された抽出すべき重要な文書である可能性が高い。特異度は、前者の場合で高く、後者の場合で低くなる。したがって、特異度を用いることにより、作成された文書の重要性を判断することができる。

本発明に係る文書判断装置では、第１文書グループ及び第２文書グループのそれぞれは、ユーザにより作成された複数の文書から構成されてもよい。この場合、第１文書グループ及び第２文書グループのそれぞれに含まれる単語数を、特異度の計算精度を保つために必要な数に保つことができる。

本発明に係る文書判断装置では、第１文書グループ及び第２文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上であってもよい。この場合、第１文書グループ及び第２文書グループのそれぞれに含まれる単語数を、特異度の計算精度を保つために必要な数に保つことができる。

本発明に係る文書判断装置は、ユーザにより作成された複数の文書を取得する取得手段と、複数の文書を、作成時刻に応じて第１文書グループと第２文書グループとに分類した後、第２文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段を更に備え、計算手段は、予め定められた単語の第１文書グループにおける出現頻度、及び複数のサブグループのうち単語を含むサブグループの数に基づいて、特異度を計算してもよい。この場合、例えば、一つの事象について短時間で連続的に投稿された複数の文書を一つの文書グループに分類することができ、特異度を適切に計算することができる。

本発明に係る文書判断装置では、判断手段は、第１文書グループに含まれる文書の作成時刻の平均間隔を更に用いて判断してもよい。この構成によれば、第１文書グループに含まれる文書の作成時刻の平均間隔を判断手段による判断結果に反映させることができる。

本発明に係る文書判断装置では、判断手段は、画像が第１文書に付随されているか否かを検出し、その検出結果を更に用いて判断してもよい。この構成によれば、画像の付随の有無を、判断手段による判断結果に反映させることができる。

本発明に係る文書判断装置では、判断手段は、第１文書が作成された位置を示す位置情報が第１文書に付随されているか否かを検出し、その検出結果を更に用いて判断してもよい。この構成によれば、位置情報の付随の有無を、判断手段による判断結果に反映させることができる。

本発明では、作成された文書の重要性を判断可能である。

実施形態に係る文書判断装置のブロック図である。図１の文書判断装置のハードウェア構成を示す図である。治安関連文書記憶部により記憶される治安関連文書の例を示す図である。分類部による文書の分類処理について説明するための図である。文書判断装置の動作を示すフローチャートである。重要性の判断結果を本実施形態と従来方式とで比較して示す図である。

以下、図面と共に本発明に係る文書判断装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、実施形態に係る文書判断装置のブロック図である。文書判断装置１は、ユーザにより作成された文書の重要性を判断するための装置である。本実施形態では、文書判断装置１は、各ユーザにより作成され、Ｔｗｉｔｔｅｒ（登録商標）等のマイクロブログサービスに投稿された文書、即ちマイクロブログをテキスト解析し、その中から、まず、特定のカテゴリに関連する文書である特定カテゴリ関連文書を抽出する。文書判断装置１は、抽出された特定カテゴリ関連文書ごとにその重要性を判断し、重要性の高い特定カテゴリ関連文書を更に抽出する。マイクロブログとは、１行１５０文字程度の短い文章で記述されたブログである。以下では、特定カテゴリ関連文書が治安に関連する文書である治安関連文書であるとして説明する。文書判断装置１は、例えば、爆破事件といった治安に関連する希少な事象が発生した際に、マイクロブログサービスに投稿された文書の中から、その現場に居合わせたと考えられるユーザが投稿した文書を重要性の高い治安関連文書として抽出する。文書判断装置１は、このような抽出処理を例えば１時間ごとに行う。これにより、重要性の高い治安関連文書をリアルタイムに検出することができる。この結果、マイクロブログのみに存在する情報を得ることができる。

図１に示されるように、文書判断装置１は、第１取得部２と、抽出部３、第２取得部４と、分類部５と、計算部６と、判断部７と、出力部８と、治安関連文書データベース２１と、を備えている。文書判断装置１は、投稿データベース１１、事象辞書データベース１２、及び事象データベース１３のそれぞれとインターネット等のネットワークを介して接続されている。

図２は、文書判断装置のハードウェア構成を示す図である。図２に示されるように、文書判断装置１は、１つ以上のＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置等のハードウェア１０５を備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図１の文書判断装置１の各機能要素による機能が発揮される。なお、文書判断装置１は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図１に示される各機能要素及び各データベースについて説明する。

投稿データベース１１は、各ユーザにより作成され、投稿された複数の文書を記憶する装置である。投稿データベース１１は、各文書と、各文書を作成したユーザを示すユーザＩＤと、各文書の作成時刻を示す作成時刻情報とを対応付けて記憶している。ここでは、文書がマイクロブログサービスに投稿された時刻を、その文書の作成時刻とする。なお、文書には、画像が付随されていてもよいし、その文書が作成された位置を示す、例えば緯度経度からなる位置情報が付随されていてもよい。画像及び位置情報は、ユーザの投稿時の操作により文書に付随（追加）される。マイクロブログサービスでは、このように文書に付随して画像及び位置情報が投稿された場合、文書とともに画像及び位置情報が閲覧できる状態とされる。事象辞書データベース１２は、治安に関連するキーワードである治安関連キーワードを記憶する装置である。事象辞書データベース１２は、予め治安関連キーワードとして、例えば、爆破、火事、事故、テロ等の単語を記憶している。事象データベース１３は、重要性の高い治安関連文書として文書判断装置１により抽出された治安関連文書を記憶する装置である。

第１取得部２は、インターネット等のネットワークを介して、投稿データベース１１から文書を取得する機能を有する。第１取得部２は、例えば、１時間ごとに、その前の１時間で作成された文書を取得する。第１取得部２は、このように予め定められた所定のタイミングで文書を取得してもよいし、それ以外のタイミングで文書を取得してもよい。また、第１取得部２は、このように作成時刻が予め定められた所定範囲に含まれる文書を取得してもよいし、それ以外の文書を取得してもよい。第１取得部２は、取得した文書を抽出部３に送出する。

抽出部３は、第１取得部２により取得された文書の中から、治安関連文書を抽出する機能を有する。具体的には、抽出部３は、第１取得部２から文書を入力するとともに、事象辞書データベース１２から治安関連キーワードを入力する。抽出部３は、キーワードマッチング等の手法により、検索語集合となる治安関連キーワードを含む文書を治安関連文書として抽出し、抽出した治安関連文書を治安関連文書データベース２１に記憶させる。治安関連文書は、文書判断装置１による重要性の判断対象となる文書である。

治安関連文書データベース２１は、抽出部３により抽出された治安関連文書を記憶する機能を有する。図３に示されるように、治安関連文書データベース２１は、治安関連文書と、ユーザＩＤと、作成時刻とを対応付けて記憶している。

第２取得部４は、同一ユーザにより作成された複数の文書を取得する取得手段である。第２取得部４は、治安関連文書データベース２１から治安関連文書と、それに対応するユーザＩＤ及び作成時刻とを入力し、治安関連文書を作成したユーザにより作成された複数の文書を投稿データベース１１から取得する。即ち、第２取得部４によれば、同一ユーザにより作成された複数の文書が取得される。複数の治安関連文書が治安関連文書データベース２１に記憶されている場合、第２取得部４は、入力した治安関連文書ごとに、治安関連文書を作成したユーザを特定し、特定したユーザごとに、ユーザにより作成された複数の文書を投稿データベース１１から取得する。第２取得部４は、同一ユーザにより作成された複数の文書を投稿データベース１１から取得する際に、投稿データベース１１に記憶された全文書のうち、作成時刻が治安関連文書の作成時刻以前である文書を対象として複数の文書を取得する。図３の例では、例えば、第２取得部４は、「東京駅爆破迫力あった！」という治安関連文書に対し、ユーザＩＤが「user01」のユーザを特定し、投稿データベース１１から当該ユーザが「４月１日１５時５０分」以前に作成した複数の文書を取得する。即ち、複数の文書には、治安関連文書とそれより過去に投稿された文書（過去文書、過去投稿）とが含まれる。第２取得部４は、このようにして取得した複数の文書を分類部５に送出する。

分類部５は、複数の文書を、作成時刻に応じて第１文書グループと第２文書グループとに分類した後、第２文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段である。分類部５は、第２取得部４から複数の文書を入力し、入力した複数の文書を分類する。第１文書グループは、治安関連文書を含む。第２文書グループは、第１文書グループを構成する文書とは異なる文書から構成される。第１文書グループ及び第２文書グループのそれぞれは、同一ユーザにより作成された１又は複数の文書から構成される。第１文書グループ及び第２文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上である。閾値は１以上である。

図４を参照し、分類部５による文書の分類処理について説明する。図４において、横軸は時間を示している。上述のようにマイクロブログは短い文章で記述されているため、１つの話題が複数の文書に分散されるという特徴がある。そこで、分類部５は、作成頻度に着目してユーザの作成した文書を複数の文書グループ（チャンク）に分類（分割、チャンキング）する。ここでは、あるユーザの作成した文書Ｄ１〜Ｄ９を分類する例について説明する。文書Ｄ１〜Ｄ９の作成時刻ｔ１〜ｔ９は、文書Ｄ１〜Ｄ９の順に古くなっている。

文書判断装置１では、文書グループを構成する文書数の最小値である最小構成数（minisize）、及び文書グループを構成する文書数の最大値である最大構成数（maxsize）が予め設定されている。最小構成数は、各文書グループに含まれる単語数を、後に行われる特異度の計算の際に、特異度の計算精度を保つために必要な数に保つように設定されている。ここでは、最小構成数が１、最大構成数が５に設定されている。まず、文書Ｄ１を含む第１文書グループＣ１が作成される。なお、この時点では、第１文書グループＣ１の内容は確定されていない。次に、文書Ｄ２〜Ｄ９の第１文書グループＣ１及び第２文書グループＣ２への分類処理が、文書Ｄ２〜Ｄ９の順に順次行われる。

続いて、分類の対象となる文書の作成時刻と、その文書の直前の文書の作成時刻とのなす間隔である作成間隔が予め設定された閾値Ｔ以下、又は第１文書グループＣ１を構成する文書数が最小構成数未満であれば、第１文書グループＣ１に分類の対象となる文書が追加される。ここでは、作成間隔であるｔ１−ｔ２が閾値Ｔ以下であるため、文書Ｄ２が第１文書グループＣ１に追加される。続いて、文書Ｄ３を分類の対象となる文書として、同様の処理が繰り返し行われる。この処理は、第１文書グループＣ１を構成する文書数が最大構成数に達しない限り、繰り返し行われる。この結果、文書Ｄ４までが第１文書グループＣ１に追加される。

文書Ｄ５は、作成間隔であるｔ４−ｔ５が閾値Ｔよりも大きいため、第１文書グループＣ１に追加されない。分類の対象となる文書が追加されなかった時点で、第１文書グループＣ１の内容が確定される。続いて、文書Ｄ５〜Ｄ９により構成されるものとして、第２文書グループＣ２が作成され、第２文書グループＣ２の内容がこれで確定される。

次に、第２文書グループに含まれる文書Ｄ５〜Ｄ９を、作成時刻に応じて複数のサブグループに分類する処理が行われる。まず、文書Ｄ５を含む第１サブグループＣ２１が作成される。なお、この時点では、第１サブグループＣ２１の内容は確定されていない。続いて、文書Ｄ６〜Ｄ９の各サブグループへの分類処理が、文書Ｄ６〜Ｄ９の順に順次行われる。作成間隔が閾値Ｔ以下、又は第１サブグループＣ２１を構成する文書数が最小構成数未満であれば、第１サブグループＣ２１に分類の対象となる文書が追加される。作成間隔であるｔ５−ｔ６が閾値Ｔ以下であるため、文書Ｄ６が第１サブグループＣ２１に追加される。文書Ｄ７は、作成間隔ｔ６−ｔ７が閾値Ｔよりも大きいため、第１サブグループＣ２１に追加されない。分類の対象となる文書が追加されなかった時点で、第１サブグループＣ２１の内容が確定される。これと同時に新たなサブグループとして、文書Ｄ７を含む第２サブグループＣ２２が作成される。なお、この時点では、第２サブグループＣ２２の内容は確定されていない。

文書Ｄ８は、作成間隔であるｔ７−ｔ８が閾値Ｔよりも大きいため、第２サブグループＣ２２に追加されない。これにより、第２サブグループＣ２２の内容が確定される。これと同時に新たなサブグループとして、文書Ｄ８を含む第３サブグループＣ２３が作成される。文書Ｄ９は、作成間隔であるｔ８−ｔ９が閾値Ｔ以下であるため、第３サブグループＣ２３に追加される。最後の文書である文書Ｄ９が分類された時点で、最後のサブグループである第３サブグループＣ２３の内容が確定される。

分類部５は、以上のようにして作成した第１文書グループ、各サブグループを計算部６に送出する。

計算部６は第１文書グループ及び第２文書グループを入力し、第１文書グループの第２文書グループに対する特異性を示す特異度を計算する計算手段である。特異度は、第１文書グループと第２文書グループとの類似性に関連するパラメータである。第１文書グループと第２文書グループとが類似していれば、特異度が低く、第１文書グループと第２文書グループとが非類似であれば、特異度が高くなる。計算部６は、計算した特異度を判断部７に送出する。計算部６は、例えばｔｆ・ｉｄｆ法により、予め定められた単語Ｗの第１文書グループにおける出現頻度、及び複数のサブグループのうち単語Ｗを含むサブグループの数に基づいて、特異度を計算する。ここで、単語Ｗは、治安関連文書に含まれる治安関連キーワードであり、例えば「爆破」である。ｔｆ・ｉｄｆ法によれば、予め定められた単語Ｗに着目した場合の文書グループの特異度が得られる。例えば、第１文書グループでは単語Ｗの出現頻度が高く、かつ第２文書グループでは単語Ｗの出現頻度が低い場合、特異度が高くなる。第１文書グループの特異度が高い場合、ユーザは普段「爆破」という単語Ｗを含む文書を作成していないと言える。

具体的には、計算部６は、まず、第１文書グループと、第２文書グループとしての各サブグループを入力する。続いて、計算部６は、第１文書グループに含まれる文書を一まとめにして扱う。計算部６は、各サブグループに含まれる文書についても同様に一まとめにして扱う。このように一まとめにして扱われる文書グループの数をＮ、第１文書グループにおける単語Ｗの出現頻度をｔｆ、単語Ｗを含む文書グループの数をｄｆとし、計算部６は、第１文書グループの第２文書グループに対する特異度ｕｎｉを下式（１）により求め、求めた特異度ｕｎｉを判断部７に送出する。
ｕｎｉ=ｔｆ・ｌｏｇ（Ｎ／ｄｆ）（１）

判断部７は、特異度を用いて、治安関連文書の重要性を判断する判断手段である。判断部７は、計算部６から特異度ｕｎｉを入力する。判断部７は、特異度ｕｎｉに加え、特異度ｕｎｉに重み付けをするための重み係数ｗｅｉｇｈｔを更に用いて、治安関連文書の重要性を判断する。一般に、希少な事象が発生した際に、その現場に居合わせたユーザは、短期間に連続して文書を作成し、例えばマイクロブログサービスに投稿する傾向がある。また、このようなユーザは、現場を写した写真等の画像が付随された文書を作成する可能性が高い。更に、このようなユーザは、位置情報が付随された文書を作成する可能性が高い。すなわち、特異な経験についての文書を投稿する場合、経験した位置情報をユーザが投稿する文書に付随させる傾向があると考えられる。そこで、判断部７は、第１文書グループに含まれる文書の作成時間の平均間隔を更に用いて判断する。具体的には、判断部７は、第１文書グループに含まれる文書の作成時刻の平均間隔に対する各文書グループに含まれる文書の作成時刻の平均間隔の総平均の比ｒａｔ（＝（各文書グループに含まれる文書の作成時刻の平均間隔の総平均）／（第１文書グループに含まれる文書の作成時刻の平均間隔））を計算する。例えば、第１文書グループに含まれる文書が通常よりも短時間に連続して作成された場合、この比ｒａｔは１よりも大きくなる。続いて、判断部７は、画像が治安関連文書に付随されているか否かを検出し、その検出結果に応じて画像係数ｉｍｇを設定する。具体的には、画像が付随されていれば、画像係数ｉｍｇを１、そうでなければ０に設定する。続いて、判断部７は、治安関連文書が作成された位置を示す位置情報が治安関連文書に付随されているか否かを検出し、その検出結果に応じて位置係数ｇｅｏを設定する。具体的には、位置情報が付随されていれば位置係数ｇｅｏを１、そうでなければ０に設定する。続いて、判断部７は、α、βを正の数である任意のパラメータとして、下式（２）により重み係数ｗｅｉｇｈｔを求める。
ｗｅｉｇｈｔ＝ｒａｔ＋α・ｉｍｇ＋β・ｇｅｏ（２）

続いて、判断部７は、単語Ｗに着目した場合の第１グループの重要度ｉｍｐを下式（３）によりを求める。
ｉｍｐ＝ｗｅｉｇｈｔ・ｕｎｉ（３）

判断部７は、上記式（３）により求められた重要度ｉｍｐに基づいて治安関連文書の重要性を判断する。判断部７は、例えば、重要度ｉｍｐが予め定められた閾値よりも大きければ、治安関連文書の重要性が高いと判断し、重要度ｉｍｐが予め定められた閾値以下であれば、治安関連文書の重要性が低いと判断する。重要度ｉｍｐは特異度ｕｎｉ及び重み係数ｗｅｇｉｈｔを用いて求められるので、判断部７は、特異度ｕｎｉを用いて治安関連文書の重要性を判断していると言え、比ｒａｔ、画像係数ｉｍｇ、位置係数ｇｅｏを更に用いて、治安関連文書の重要性を判断していると言える。判断部７は、判断結果を出力部８に送出する。

出力部８は、判断手段の判断結果を出力する出力手段である。出力部８は、判断部７から判断結果を入力する。具体的には、出力部８は、重要性が高い治安関連文書と判断された文書のみを事象データベース１３に記憶させる。なお、出力部８は、これ以外の手段で判断結果を出力してもよい。

図５は、文書判断装置の動作を示すフローチャートである。図５に示されるように、文書判断装置１は、まず第１取得部２により、文書を投稿データベース１１から取得する（Ｓ１１）。続いて、文書判断装置１は、抽出部３により、治安関連文書を抽出する（Ｓ１２）。続いて、文書判断装置１は、治安関連文書データベース２１により、治安関連文書を記憶する（Ｓ１３）。続いて、文書判断装置１は、第２取得部４により、治安関連文書を作成したユーザにより作成された複数の文書を投稿データベース１１から取得する（Ｓ１４）。続いて、文書判断装置１は、分類部５により、複数の文書を分類する（Ｓ１５）。続いて、文書判断装置１は、計算部６により、特異度ｕｎｉを計算する（Ｓ１６）。続いて、文書判断装置１は、判断部７により、治安関連文書の重要性を判断する（Ｓ１７）。文書判断装置１は、出力部８により、重要性が高い治安関連文書を事象データベースに記憶させる（Ｓ１８）。

図６は、重要性の判断結果を本実施形態と従来方式とで比較して示す図である。例えば、図６に示されるユーザＩＤが「user01」のユーザは、映画を見て「爆破」という単語を含む文書を作成し、ユーザＩＤが「user02」のユーザは、爆破事件の現場に居合わせて「爆破」という単語を含む文書を作成したとする。つまり、両者はいずれも治安関連文書を作成しているものの、前者の治安関連文書の重要性は低く、後者の治安関連文書の重要性が高い。このような場合において、従来方式は、検索語集合として治安関連キーワードを用いて、治安関連キーワードを含む文書を治安関連文書として抽出することしかできない。つまり、従来方式は、治安関連文書の重要性を判断して、重要性の低い治安関連文書を排除することができない。これに対して、本実施形態では、前者は過去に類似した文書を作成しているため、前者の治安関連文書の重要性は低いと判断され、後者は過去に類似した文書を作成していないため、後者の治安関連文書の重要性は高いと判断される。このように、本実施形態によれば、検索語集合を用いて治安関連文書を抽出するだけでなく、治安関連文書を作成したユーザが作成した過去文書を用い、治安関連文書の重要性を評価することができる。これにより、重要性の低い治安関連文書を排除することができる。

以上説明したように、文書判断装置１は、重要性の判断の対象となる治安関連を含む第１文書グループの、同じユーザにより投稿された第２文書グループに対する特異度ｕｎｉを計算し、特異度ｕｎｉを用いて治安関連文書の重要性を判断する。例えば、「爆破」という単語を含む文書が、普段からゲームについて「爆破」という単語を含む文書を作成しているユーザにより作成されたものである場合と、普段は「爆破」という単語を含む文書を作成していないユーザにより作成されたものである場合とでは、後者の場合の方が、爆破事件が発生した際に、その現場に居合わせたと考えられるユーザにより作成された抽出すべき重要な文書である可能性が高い。特異度ｕｎｉは、前者の場合で高く、後者の場合で低くなる。したがって、特異度ｕｎｉを用いることにより、作成された文書の重要性を判断することができる。

また、文書判断装置１は、同一ユーザにより作成された複数の文書を文書グループに分類して特異度を計算するので、例えば、一つの事象について短時間で連続的に投稿された複数の文書を一つの文書グループに分類することができる。これにより、特異度を適切に計算することができる。また、文書判断装置１は、上式（２）により求められる重み係数ｗｅｉｇｈｔを用いて治安関連文書の重要性を判断するので、第１文書グループに含まれる文書の作成時刻の平均間隔を用いて算出された比ｒａｔ、治安関連文書に画像が付随されているか否か有無の検出結果に対応する画像係数ｉｍｇ、及び位置情報が付随されているか否かの検出結果に対応する位置係数ｇｅｏを、判断結果に反映させることができる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、または他のものに適用したものであってもよい。

例えば、第１文書グループは、１つの文書（即ち、治安関連文書）のみで構成されていてもよい。同様に、第２文書グループは、１つの文書のみで構成されていてもよい。また、第２取得部４は、投稿データベースに含まれる全文書を対象として、ユーザにより作成された複数の文書を取得してもよい。また、文書判断装置１による判断の対象となる文書は、マイクロブログサービスに投稿された治安関連文書に限らず、ユーザにより作成された文書であればよい。また、文書判断装置１では、治安関連文書を作成したユーザが作成した過去文書を用い、治安関連文書の重要性を評価するが、用いる文書は、過去文書に限らず、同一ユーザが作成した文書であればよい。

１…文書判断装置、２…第１取得部、３…抽出部、４…第２取得部、５…分類部、６…計算部、７…判断部、８…出力部。

Claims

ユーザにより作成された第１文書の重要性を判断する文書判断装置であって、
前記第１文書を含み、かつ、前記ユーザにより作成された文書から構成される第１文書グループを入力するとともに、前記ユーザにより作成された文書であって、前記第１文書グループを構成する文書とは異なる文書から構成される第２文書グループを入力し、前記第１文書グループの前記第２文書グループに対する特異性を示す特異度を計算する計算手段と、
前記特異度を用いて、前記第１文書の重要性を判断する判断手段と、
前記判断手段の判断結果を出力する出力手段と、
を備える、文書判断装置。
前記第１文書グループ及び前記第２文書グループのそれぞれは、前記ユーザにより作成された複数の文書から構成される、請求項１に記載の文書判断装置。
前記第１文書グループ及び前記第２文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上である、請求項１又は２に記載の文書判断装置。
前記ユーザにより作成された複数の文書を取得する取得手段と、
前記複数の文書を、作成時刻に応じて前記第１文書グループと前記第２文書グループとに分類した後、前記第２文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段を更に備え、
前記計算手段は、予め定められた単語の前記第１文書グループにおける出現頻度、及び前記複数のサブグループのうち前記単語を含むサブグループの数に基づいて、前記特異度を計算する、請求項１〜３のいずれか一項に記載の文書判断装置。
前記判断手段は、前記第１文書グループに含まれる文書の作成時刻の平均間隔を更に用いて判断する、請求項１〜４のいずれか一項に記載の文書判断装置。
前記判断手段は、画像が前記第１文書に付随されているか否かを検出し、その検出結果を更に用いて判断する、請求項１〜５のいずれか一項に記載の文書判断装置。
前記判断手段は、前記第１文書が作成された位置を示す位置情報が前記第１文書に付随されているか否かを検出し、その検出結果を更に用いて判断する、請求項１〜６のいずれか一項に記載の文書判断装置。