JP2017194774A - 文書判断装置 - Google Patents

文書判断装置 Download PDF

Info

Publication number
JP2017194774A
JP2017194774A JP2016083497A JP2016083497A JP2017194774A JP 2017194774 A JP2017194774 A JP 2017194774A JP 2016083497 A JP2016083497 A JP 2016083497A JP 2016083497 A JP2016083497 A JP 2016083497A JP 2017194774 A JP2017194774 A JP 2017194774A
Authority
JP
Japan
Prior art keywords
document
documents
created
group
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016083497A
Other languages
English (en)
Inventor
柊 高橋
Hiiragi Takahashi
柊 高橋
悠 菊地
Yu Kikuchi
悠 菊地
健 榎園
Ken Enokizono
健 榎園
佑介 深澤
Yusuke Fukazawa
佑介 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016083497A priority Critical patent/JP2017194774A/ja
Publication of JP2017194774A publication Critical patent/JP2017194774A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】作成された文書の重要性を判断可能な文書判断装置を提供する。【解決手段】文書判断装置1は、ユーザにより作成された治安関連文書の重要性を判断する。治安関連文書を含み、かつ、ユーザにより作成された文書から構成される第1文書グループの、ユーザにより作成された文書であって、第1文書グループを構成する文書とは異なる文書から構成される第2文書グループに対する特異性を示す特異度uniを計算する計算部6と、特異度uniを用いて、治安関連文書の重要性を判断する判断部7と、判断部7の判断結果を出力する出力部8と、を備える。【選択図】図1

Description

本発明は、文書判断装置に関する。
従来、マイクロブログサービスにおいて、予め用意された辞書とのキーワードマッチングにより、投稿された文書の中から任意のカテゴリに含まれる文書を抽出する手法がある。例えば、特許文献1には、地名データベースを参照し、投稿された文書の中から地名情報が含まれる文書を抽出する装置が記載されている。
特開2014−137632号公報
例えば、爆破事件といった希少な事象が発生した際に、マイクロブログサービスに投稿された文書の中から、その現場に居合わせたユーザが投稿した文書を抽出することが望まれている。しかしながら、上述の手法により「爆破」という単語を含む文書を抽出した場合、抽出された文書には、抽出すべき重要な文書以外に、ニュース等からの伝聞情報に基づき作成された文書、及びゲーム、映画等の非現実世界について作成された文書等が含まれ、これらの重要性を判断することができない。
本発明は、作成された文書の重要性を判断可能な文書判断装置を提供することを目的とする。
上記の目的を達成するために、本発明に係る文書判断装置は、ユーザにより作成された第1文書の重要性を判断する文書判断装置であって、第1文書を含み、かつ、ユーザにより作成された文書から構成される第1文書グループを入力するとともに、ユーザにより作成された文書であって、第1文書グループを構成する文書とは異なる文書から構成される第2文書グループを入力し、第1文書グループの第2文書グループに対する特異性を示す特異度を計算する計算手段と、特異度を用いて、第1文書の重要性を判断する判断手段と、判断手段の判断結果を出力する出力手段と、を備える。
本発明に係る文書判断装置は、重要性の判断の対象となる第1文書を含む第1文書グループの、同じユーザにより投稿された第2文書グループに対する特異度を計算し、特異度を用いて第1文書の重要性を判断する。例えば、「爆破」という単語を含む文書が、普段からゲームについて「爆破」という単語を含む文書を作成しているユーザにより作成されたものである場合と、普段は「爆破」という単語を含む文書を作成していないユーザにより作成されたものである場合とでは、後者の場合の方が、爆破事件が発生した際に、その現場に居合わせたユーザにより作成された抽出すべき重要な文書である可能性が高い。特異度は、前者の場合で高く、後者の場合で低くなる。したがって、特異度を用いることにより、作成された文書の重要性を判断することができる。
本発明に係る文書判断装置では、第1文書グループ及び第2文書グループのそれぞれは、ユーザにより作成された複数の文書から構成されてもよい。この場合、第1文書グループ及び第2文書グループのそれぞれに含まれる単語数を、特異度の計算精度を保つために必要な数に保つことができる。
本発明に係る文書判断装置では、第1文書グループ及び第2文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上であってもよい。この場合、第1文書グループ及び第2文書グループのそれぞれに含まれる単語数を、特異度の計算精度を保つために必要な数に保つことができる。
本発明に係る文書判断装置は、ユーザにより作成された複数の文書を取得する取得手段と、複数の文書を、作成時刻に応じて第1文書グループと第2文書グループとに分類した後、第2文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段を更に備え、計算手段は、予め定められた単語の第1文書グループにおける出現頻度、及び複数のサブグループのうち単語を含むサブグループの数に基づいて、特異度を計算してもよい。この場合、例えば、一つの事象について短時間で連続的に投稿された複数の文書を一つの文書グループに分類することができ、特異度を適切に計算することができる。
本発明に係る文書判断装置では、判断手段は、第1文書グループに含まれる文書の作成時刻の平均間隔を更に用いて判断してもよい。この構成によれば、第1文書グループに含まれる文書の作成時刻の平均間隔を判断手段による判断結果に反映させることができる。
本発明に係る文書判断装置では、判断手段は、画像が第1文書に付随されているか否かを検出し、その検出結果を更に用いて判断してもよい。この構成によれば、画像の付随の有無を、判断手段による判断結果に反映させることができる。
本発明に係る文書判断装置では、判断手段は、第1文書が作成された位置を示す位置情報が第1文書に付随されているか否かを検出し、その検出結果を更に用いて判断してもよい。この構成によれば、位置情報の付随の有無を、判断手段による判断結果に反映させることができる。
本発明では、作成された文書の重要性を判断可能である。
実施形態に係る文書判断装置のブロック図である。 図1の文書判断装置のハードウェア構成を示す図である。 治安関連文書記憶部により記憶される治安関連文書の例を示す図である。 分類部による文書の分類処理について説明するための図である。 文書判断装置の動作を示すフローチャートである。 重要性の判断結果を本実施形態と従来方式とで比較して示す図である。
以下、図面と共に本発明に係る文書判断装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1は、実施形態に係る文書判断装置のブロック図である。文書判断装置1は、ユーザにより作成された文書の重要性を判断するための装置である。本実施形態では、文書判断装置1は、各ユーザにより作成され、Twitter(登録商標)等のマイクロブログサービスに投稿された文書、即ちマイクロブログをテキスト解析し、その中から、まず、特定のカテゴリに関連する文書である特定カテゴリ関連文書を抽出する。文書判断装置1は、抽出された特定カテゴリ関連文書ごとにその重要性を判断し、重要性の高い特定カテゴリ関連文書を更に抽出する。マイクロブログとは、1行150文字程度の短い文章で記述されたブログである。以下では、特定カテゴリ関連文書が治安に関連する文書である治安関連文書であるとして説明する。文書判断装置1は、例えば、爆破事件といった治安に関連する希少な事象が発生した際に、マイクロブログサービスに投稿された文書の中から、その現場に居合わせたと考えられるユーザが投稿した文書を重要性の高い治安関連文書として抽出する。文書判断装置1は、このような抽出処理を例えば1時間ごとに行う。これにより、重要性の高い治安関連文書をリアルタイムに検出することができる。この結果、マイクロブログのみに存在する情報を得ることができる。
図1に示されるように、文書判断装置1は、第1取得部2と、抽出部3、第2取得部4と、分類部5と、計算部6と、判断部7と、出力部8と、治安関連文書データベース21と、を備えている。文書判断装置1は、投稿データベース11、事象辞書データベース12、及び事象データベース13のそれぞれとインターネット等のネットワークを介して接続されている。
図2は、文書判断装置のハードウェア構成を示す図である。図2に示されるように、文書判断装置1は、1つ以上のCPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置等のハードウェア105を備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図1の文書判断装置1の各機能要素による機能が発揮される。なお、文書判断装置1は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図1に示される各機能要素及び各データベースについて説明する。
投稿データベース11は、各ユーザにより作成され、投稿された複数の文書を記憶する装置である。投稿データベース11は、各文書と、各文書を作成したユーザを示すユーザIDと、各文書の作成時刻を示す作成時刻情報とを対応付けて記憶している。ここでは、文書がマイクロブログサービスに投稿された時刻を、その文書の作成時刻とする。なお、文書には、画像が付随されていてもよいし、その文書が作成された位置を示す、例えば緯度経度からなる位置情報が付随されていてもよい。画像及び位置情報は、ユーザの投稿時の操作により文書に付随(追加)される。マイクロブログサービスでは、このように文書に付随して画像及び位置情報が投稿された場合、文書とともに画像及び位置情報が閲覧できる状態とされる。事象辞書データベース12は、治安に関連するキーワードである治安関連キーワードを記憶する装置である。事象辞書データベース12は、予め治安関連キーワードとして、例えば、爆破、火事、事故、テロ等の単語を記憶している。事象データベース13は、重要性の高い治安関連文書として文書判断装置1により抽出された治安関連文書を記憶する装置である。
第1取得部2は、インターネット等のネットワークを介して、投稿データベース11から文書を取得する機能を有する。第1取得部2は、例えば、1時間ごとに、その前の1時間で作成された文書を取得する。第1取得部2は、このように予め定められた所定のタイミングで文書を取得してもよいし、それ以外のタイミングで文書を取得してもよい。また、第1取得部2は、このように作成時刻が予め定められた所定範囲に含まれる文書を取得してもよいし、それ以外の文書を取得してもよい。第1取得部2は、取得した文書を抽出部3に送出する。
抽出部3は、第1取得部2により取得された文書の中から、治安関連文書を抽出する機能を有する。具体的には、抽出部3は、第1取得部2から文書を入力するとともに、事象辞書データベース12から治安関連キーワードを入力する。抽出部3は、キーワードマッチング等の手法により、検索語集合となる治安関連キーワードを含む文書を治安関連文書として抽出し、抽出した治安関連文書を治安関連文書データベース21に記憶させる。治安関連文書は、文書判断装置1による重要性の判断対象となる文書である。
治安関連文書データベース21は、抽出部3により抽出された治安関連文書を記憶する機能を有する。図3に示されるように、治安関連文書データベース21は、治安関連文書と、ユーザIDと、作成時刻とを対応付けて記憶している。
第2取得部4は、同一ユーザにより作成された複数の文書を取得する取得手段である。第2取得部4は、治安関連文書データベース21から治安関連文書と、それに対応するユーザID及び作成時刻とを入力し、治安関連文書を作成したユーザにより作成された複数の文書を投稿データベース11から取得する。即ち、第2取得部4によれば、同一ユーザにより作成された複数の文書が取得される。複数の治安関連文書が治安関連文書データベース21に記憶されている場合、第2取得部4は、入力した治安関連文書ごとに、治安関連文書を作成したユーザを特定し、特定したユーザごとに、ユーザにより作成された複数の文書を投稿データベース11から取得する。第2取得部4は、同一ユーザにより作成された複数の文書を投稿データベース11から取得する際に、投稿データベース11に記憶された全文書のうち、作成時刻が治安関連文書の作成時刻以前である文書を対象として複数の文書を取得する。図3の例では、例えば、第2取得部4は、「東京駅爆破迫力あった!」という治安関連文書に対し、ユーザIDが「user01」のユーザを特定し、投稿データベース11から当該ユーザが「4月1日15時50分」以前に作成した複数の文書を取得する。即ち、複数の文書には、治安関連文書とそれより過去に投稿された文書(過去文書、過去投稿)とが含まれる。第2取得部4は、このようにして取得した複数の文書を分類部5に送出する。
分類部5は、複数の文書を、作成時刻に応じて第1文書グループと第2文書グループとに分類した後、第2文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段である。分類部5は、第2取得部4から複数の文書を入力し、入力した複数の文書を分類する。第1文書グループは、治安関連文書を含む。第2文書グループは、第1文書グループを構成する文書とは異なる文書から構成される。第1文書グループ及び第2文書グループのそれぞれは、同一ユーザにより作成された1又は複数の文書から構成される。第1文書グループ及び第2文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上である。閾値は1以上である。
図4を参照し、分類部5による文書の分類処理について説明する。図4において、横軸は時間を示している。上述のようにマイクロブログは短い文章で記述されているため、1つの話題が複数の文書に分散されるという特徴がある。そこで、分類部5は、作成頻度に着目してユーザの作成した文書を複数の文書グループ(チャンク)に分類(分割、チャンキング)する。ここでは、あるユーザの作成した文書D1〜D9を分類する例について説明する。文書D1〜D9の作成時刻t1〜t9は、文書D1〜D9の順に古くなっている。
文書判断装置1では、文書グループを構成する文書数の最小値である最小構成数(minisize)、及び文書グループを構成する文書数の最大値である最大構成数(maxsize)が予め設定されている。最小構成数は、各文書グループに含まれる単語数を、後に行われる特異度の計算の際に、特異度の計算精度を保つために必要な数に保つように設定されている。ここでは、最小構成数が1、最大構成数が5に設定されている。まず、文書D1を含む第1文書グループC1が作成される。なお、この時点では、第1文書グループC1の内容は確定されていない。次に、文書D2〜D9の第1文書グループC1及び第2文書グループC2への分類処理が、文書D2〜D9の順に順次行われる。
続いて、分類の対象となる文書の作成時刻と、その文書の直前の文書の作成時刻とのなす間隔である作成間隔が予め設定された閾値T以下、又は第1文書グループC1を構成する文書数が最小構成数未満であれば、第1文書グループC1に分類の対象となる文書が追加される。ここでは、作成間隔であるt1−t2が閾値T以下であるため、文書D2が第1文書グループC1に追加される。続いて、文書D3を分類の対象となる文書として、同様の処理が繰り返し行われる。この処理は、第1文書グループC1を構成する文書数が最大構成数に達しない限り、繰り返し行われる。この結果、文書D4までが第1文書グループC1に追加される。
文書D5は、作成間隔であるt4−t5が閾値Tよりも大きいため、第1文書グループC1に追加されない。分類の対象となる文書が追加されなかった時点で、第1文書グループC1の内容が確定される。続いて、文書D5〜D9により構成されるものとして、第2文書グループC2が作成され、第2文書グループC2の内容がこれで確定される。
次に、第2文書グループに含まれる文書D5〜D9を、作成時刻に応じて複数のサブグループに分類する処理が行われる。まず、文書D5を含む第1サブグループC21が作成される。なお、この時点では、第1サブグループC21の内容は確定されていない。続いて、文書D6〜D9の各サブグループへの分類処理が、文書D6〜D9の順に順次行われる。作成間隔が閾値T以下、又は第1サブグループC21を構成する文書数が最小構成数未満であれば、第1サブグループC21に分類の対象となる文書が追加される。作成間隔であるt5−t6が閾値T以下であるため、文書D6が第1サブグループC21に追加される。文書D7は、作成間隔t6−t7が閾値Tよりも大きいため、第1サブグループC21に追加されない。分類の対象となる文書が追加されなかった時点で、第1サブグループC21の内容が確定される。これと同時に新たなサブグループとして、文書D7を含む第2サブグループC22が作成される。なお、この時点では、第2サブグループC22の内容は確定されていない。
文書D8は、作成間隔であるt7−t8が閾値Tよりも大きいため、第2サブグループC22に追加されない。これにより、第2サブグループC22の内容が確定される。これと同時に新たなサブグループとして、文書D8を含む第3サブグループC23が作成される。文書D9は、作成間隔であるt8−t9が閾値T以下であるため、第3サブグループC23に追加される。最後の文書である文書D9が分類された時点で、最後のサブグループである第3サブグループC23の内容が確定される。
分類部5は、以上のようにして作成した第1文書グループ、各サブグループを計算部6に送出する。
計算部6は第1文書グループ及び第2文書グループを入力し、第1文書グループの第2文書グループに対する特異性を示す特異度を計算する計算手段である。特異度は、第1文書グループと第2文書グループとの類似性に関連するパラメータである。第1文書グループと第2文書グループとが類似していれば、特異度が低く、第1文書グループと第2文書グループとが非類似であれば、特異度が高くなる。計算部6は、計算した特異度を判断部7に送出する。計算部6は、例えばtf・idf法により、予め定められた単語Wの第1文書グループにおける出現頻度、及び複数のサブグループのうち単語Wを含むサブグループの数に基づいて、特異度を計算する。ここで、単語Wは、治安関連文書に含まれる治安関連キーワードであり、例えば「爆破」である。tf・idf法によれば、予め定められた単語Wに着目した場合の文書グループの特異度が得られる。例えば、第1文書グループでは単語Wの出現頻度が高く、かつ第2文書グループでは単語Wの出現頻度が低い場合、特異度が高くなる。第1文書グループの特異度が高い場合、ユーザは普段「爆破」という単語Wを含む文書を作成していないと言える。
具体的には、計算部6は、まず、第1文書グループと、第2文書グループとしての各サブグループを入力する。続いて、計算部6は、第1文書グループに含まれる文書を一まとめにして扱う。計算部6は、各サブグループに含まれる文書についても同様に一まとめにして扱う。このように一まとめにして扱われる文書グループの数をN、第1文書グループにおける単語Wの出現頻度をtf、単語Wを含む文書グループの数をdfとし、計算部6は、第1文書グループの第2文書グループに対する特異度uniを下式(1)により求め、求めた特異度uniを判断部7に送出する。
uni=tf・log(N/df) (1)
判断部7は、特異度を用いて、治安関連文書の重要性を判断する判断手段である。判断部7は、計算部6から特異度uniを入力する。判断部7は、特異度uniに加え、特異度uniに重み付けをするための重み係数weightを更に用いて、治安関連文書の重要性を判断する。一般に、希少な事象が発生した際に、その現場に居合わせたユーザは、短期間に連続して文書を作成し、例えばマイクロブログサービスに投稿する傾向がある。また、このようなユーザは、現場を写した写真等の画像が付随された文書を作成する可能性が高い。更に、このようなユーザは、位置情報が付随された文書を作成する可能性が高い。すなわち、特異な経験についての文書を投稿する場合、経験した位置情報をユーザが投稿する文書に付随させる傾向があると考えられる。そこで、判断部7は、第1文書グループに含まれる文書の作成時間の平均間隔を更に用いて判断する。具体的には、判断部7は、第1文書グループに含まれる文書の作成時刻の平均間隔に対する各文書グループに含まれる文書の作成時刻の平均間隔の総平均の比rat(=(各文書グループに含まれる文書の作成時刻の平均間隔の総平均)/(第1文書グループに含まれる文書の作成時刻の平均間隔))を計算する。例えば、第1文書グループに含まれる文書が通常よりも短時間に連続して作成された場合、この比ratは1よりも大きくなる。続いて、判断部7は、画像が治安関連文書に付随されているか否かを検出し、その検出結果に応じて画像係数imgを設定する。具体的には、画像が付随されていれば、画像係数imgを1、そうでなければ0に設定する。続いて、判断部7は、治安関連文書が作成された位置を示す位置情報が治安関連文書に付随されているか否かを検出し、その検出結果に応じて位置係数geoを設定する。具体的には、位置情報が付随されていれば位置係数geoを1、そうでなければ0に設定する。続いて、判断部7は、α、βを正の数である任意のパラメータとして、下式(2)により重み係数weightを求める。
weight=rat+α・img+β・geo (2)
続いて、判断部7は、単語Wに着目した場合の第1グループの重要度impを下式(3)によりを求める。
imp=weight・uni (3)
判断部7は、上記式(3)により求められた重要度impに基づいて治安関連文書の重要性を判断する。判断部7は、例えば、重要度impが予め定められた閾値よりも大きければ、治安関連文書の重要性が高いと判断し、重要度impが予め定められた閾値以下であれば、治安関連文書の重要性が低いと判断する。重要度impは特異度uni及び重み係数wegihtを用いて求められるので、判断部7は、特異度uniを用いて治安関連文書の重要性を判断していると言え、比rat、画像係数img、位置係数geoを更に用いて、治安関連文書の重要性を判断していると言える。判断部7は、判断結果を出力部8に送出する。
出力部8は、判断手段の判断結果を出力する出力手段である。出力部8は、判断部7から判断結果を入力する。具体的には、出力部8は、重要性が高い治安関連文書と判断された文書のみを事象データベース13に記憶させる。なお、出力部8は、これ以外の手段で判断結果を出力してもよい。
図5は、文書判断装置の動作を示すフローチャートである。図5に示されるように、文書判断装置1は、まず第1取得部2により、文書を投稿データベース11から取得する(S11)。続いて、文書判断装置1は、抽出部3により、治安関連文書を抽出する(S12)。続いて、文書判断装置1は、治安関連文書データベース21により、治安関連文書を記憶する(S13)。続いて、文書判断装置1は、第2取得部4により、治安関連文書を作成したユーザにより作成された複数の文書を投稿データベース11から取得する(S14)。続いて、文書判断装置1は、分類部5により、複数の文書を分類する(S15)。続いて、文書判断装置1は、計算部6により、特異度uniを計算する(S16)。続いて、文書判断装置1は、判断部7により、治安関連文書の重要性を判断する(S17)。文書判断装置1は、出力部8により、重要性が高い治安関連文書を事象データベースに記憶させる(S18)。
図6は、重要性の判断結果を本実施形態と従来方式とで比較して示す図である。例えば、図6に示されるユーザIDが「user01」のユーザは、映画を見て「爆破」という単語を含む文書を作成し、ユーザIDが「user02」のユーザは、爆破事件の現場に居合わせて「爆破」という単語を含む文書を作成したとする。つまり、両者はいずれも治安関連文書を作成しているものの、前者の治安関連文書の重要性は低く、後者の治安関連文書の重要性が高い。このような場合において、従来方式は、検索語集合として治安関連キーワードを用いて、治安関連キーワードを含む文書を治安関連文書として抽出することしかできない。つまり、従来方式は、治安関連文書の重要性を判断して、重要性の低い治安関連文書を排除することができない。これに対して、本実施形態では、前者は過去に類似した文書を作成しているため、前者の治安関連文書の重要性は低いと判断され、後者は過去に類似した文書を作成していないため、後者の治安関連文書の重要性は高いと判断される。このように、本実施形態によれば、検索語集合を用いて治安関連文書を抽出するだけでなく、治安関連文書を作成したユーザが作成した過去文書を用い、治安関連文書の重要性を評価することができる。これにより、重要性の低い治安関連文書を排除することができる。
以上説明したように、文書判断装置1は、重要性の判断の対象となる治安関連を含む第1文書グループの、同じユーザにより投稿された第2文書グループに対する特異度uniを計算し、特異度uniを用いて治安関連文書の重要性を判断する。例えば、「爆破」という単語を含む文書が、普段からゲームについて「爆破」という単語を含む文書を作成しているユーザにより作成されたものである場合と、普段は「爆破」という単語を含む文書を作成していないユーザにより作成されたものである場合とでは、後者の場合の方が、爆破事件が発生した際に、その現場に居合わせたと考えられるユーザにより作成された抽出すべき重要な文書である可能性が高い。特異度uniは、前者の場合で高く、後者の場合で低くなる。したがって、特異度uniを用いることにより、作成された文書の重要性を判断することができる。
また、文書判断装置1は、同一ユーザにより作成された複数の文書を文書グループに分類して特異度を計算するので、例えば、一つの事象について短時間で連続的に投稿された複数の文書を一つの文書グループに分類することができる。これにより、特異度を適切に計算することができる。また、文書判断装置1は、上式(2)により求められる重み係数weightを用いて治安関連文書の重要性を判断するので、第1文書グループに含まれる文書の作成時刻の平均間隔を用いて算出された比rat、治安関連文書に画像が付随されているか否か有無の検出結果に対応する画像係数img、及び位置情報が付随されているか否かの検出結果に対応する位置係数geoを、判断結果に反映させることができる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、または他のものに適用したものであってもよい。
例えば、第1文書グループは、1つの文書(即ち、治安関連文書)のみで構成されていてもよい。同様に、第2文書グループは、1つの文書のみで構成されていてもよい。また、第2取得部4は、投稿データベースに含まれる全文書を対象として、ユーザにより作成された複数の文書を取得してもよい。また、文書判断装置1による判断の対象となる文書は、マイクロブログサービスに投稿された治安関連文書に限らず、ユーザにより作成された文書であればよい。また、文書判断装置1では、治安関連文書を作成したユーザが作成した過去文書を用い、治安関連文書の重要性を評価するが、用いる文書は、過去文書に限らず、同一ユーザが作成した文書であればよい。
1…文書判断装置、2…第1取得部、3…抽出部、4…第2取得部、5…分類部、6…計算部、7…判断部、8…出力部。

Claims (7)

  1. ユーザにより作成された第1文書の重要性を判断する文書判断装置であって、
    前記第1文書を含み、かつ、前記ユーザにより作成された文書から構成される第1文書グループを入力するとともに、前記ユーザにより作成された文書であって、前記第1文書グループを構成する文書とは異なる文書から構成される第2文書グループを入力し、前記第1文書グループの前記第2文書グループに対する特異性を示す特異度を計算する計算手段と、
    前記特異度を用いて、前記第1文書の重要性を判断する判断手段と、
    前記判断手段の判断結果を出力する出力手段と、
    を備える、文書判断装置。
  2. 前記第1文書グループ及び前記第2文書グループのそれぞれは、前記ユーザにより作成された複数の文書から構成される、請求項1に記載の文書判断装置。
  3. 前記第1文書グループ及び前記第2文書グループのそれぞれに含まれる文書の数は、予め定められた閾値以上である、請求項1又は2に記載の文書判断装置。
  4. 前記ユーザにより作成された複数の文書を取得する取得手段と、
    前記複数の文書を、作成時刻に応じて前記第1文書グループと前記第2文書グループとに分類した後、前記第2文書グループに含まれる文書を、作成時刻に応じて複数のサブグループに分類する分類する分類手段を更に備え、
    前記計算手段は、予め定められた単語の前記第1文書グループにおける出現頻度、及び前記複数のサブグループのうち前記単語を含むサブグループの数に基づいて、前記特異度を計算する、請求項1〜3のいずれか一項に記載の文書判断装置。
  5. 前記判断手段は、前記第1文書グループに含まれる文書の作成時刻の平均間隔を更に用いて判断する、請求項1〜4のいずれか一項に記載の文書判断装置。
  6. 前記判断手段は、画像が前記第1文書に付随されているか否かを検出し、その検出結果を更に用いて判断する、請求項1〜5のいずれか一項に記載の文書判断装置。
  7. 前記判断手段は、前記第1文書が作成された位置を示す位置情報が前記第1文書に付随されているか否かを検出し、その検出結果を更に用いて判断する、請求項1〜6のいずれか一項に記載の文書判断装置。

JP2016083497A 2016-04-19 2016-04-19 文書判断装置 Pending JP2017194774A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016083497A JP2017194774A (ja) 2016-04-19 2016-04-19 文書判断装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016083497A JP2017194774A (ja) 2016-04-19 2016-04-19 文書判断装置

Publications (1)

Publication Number Publication Date
JP2017194774A true JP2017194774A (ja) 2017-10-26

Family

ID=60155932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016083497A Pending JP2017194774A (ja) 2016-04-19 2016-04-19 文書判断装置

Country Status (1)

Country Link
JP (1) JP2017194774A (ja)

Similar Documents

Publication Publication Date Title
US10673966B2 (en) System and method for continuously monitoring and searching social networking media
US9910723B2 (en) Event detection through text analysis using dynamic self evolving/learning module
Castillo Big crisis data: social media in disasters and time-critical situations
US10915539B2 (en) Apparatus, systems and methods for scoring and distributing the reliablity of online information
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
US9177254B2 (en) Event detection through text analysis using trained event template models
US9984427B2 (en) Data ingestion module for event detection and increased situational awareness
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
WO2019076191A1 (zh) 关键词提取方法和装置、存储介质及电子装置
US20150095320A1 (en) Apparatus, systems and methods for scoring the reliability of online information
AU2017355420A1 (en) Systems and methods for event detection and clustering
CN113826092A (zh) 使用实况数据流和/或搜索查询来确定关于发展中的事件的信息
US20140181109A1 (en) System and method for analysing text stream message thereof
CN109582847B (zh) 一种信息处理方法及装置、存储介质
EP2896162A1 (en) Determining additional information associated with geographic location information
Koswatte et al. VGI and crowdsourced data credibility analysis using spam email detection techniques
CN109660621A (zh) 一种内容推送方法及服务设备
US8209323B2 (en) Methods and apparatuses for dynamically searching for electronic mail messages
CN109145261B (zh) 一种生成标签的方法和装置
CN111125369A (zh) 一种默契度检测方法、设备、服务器及可读存储介质
CN113010664B (zh) 一种数据处理方法、装置及计算机设备
KR101804020B1 (ko) 공간 정보를 사용한 sns 봇 검출 방법
JP2017194774A (ja) 文書判断装置
JP2017204169A (ja) 事象判断装置
CN114254112A (zh) 用于敏感信息预分类的方法、系统、装置和介质