JP2017215803A

JP2017215803A - 特徴語抽出装置

Info

Publication number: JP2017215803A
Application number: JP2016109357A
Authority: JP
Inventors: 山田　尚志; Hisashi Yamada; 尚志山田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2017-12-07

Abstract

【課題】不要な投稿文を特定するための特徴語を新たに追加することができる特徴語抽出装置を提供する。【解決手段】サーバ１０では、ユーザ特定部１３が、大量投稿ユーザを特定して、期間特定部１４は、ユーザの投稿数に基づいて、抽出期間を特定して、抽出部１７が、当該期間中に上記ユーザによる投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。このように、不要な投稿文を特定するための特徴語を新たに追加することができる。【選択図】図１

Description

本発明は、特徴語を抽出する装置に関する。

あるキーワードに対応する投稿文（例えば、ツイッター（登録商標）等の短文投稿）を検索する技術がある。このような投稿文には、不特定多数に大量に投稿されるスパム情報や広告情報も含まれる。よって、上記のようにキーワードに対応する投稿文を検索した結果、スパム情報や広告情報を含む投稿文まで検索されてしまうという問題点がある。このような問題点を解決する方法として、特許文献１には、スパムメールを特定するためのＵＲＩ（Uniform Resource Identifier）を予め記憶しておき、当該ＵＲＩを含むメールをスパムメールと特定することが記載されている。

特開２００５−１２８９２２号公報

特許文献１に記載されているように、予めスパム情報を特定するための情報を記憶しておけば、スパム情報等の不要な情報（不要な投稿文）を特定することができる。上記のようなスパム情報や広告情報は、日々新たな情報が配信されるため、スパム情報や広告情報を特定するための情報を適宜追加する必要がある。

本発明は、上記に鑑みてなされたものであり、不要な投稿文を特定するための特徴語を新たに追加することができる特徴語抽出装置を提供することを目的とする。

本発明に係る特徴語抽出装置は、検索キーワードを含む投稿文を投稿したユーザのうち、所定の条件を満たした不正投稿ユーザを特定するユーザ特定手段と、条件を満たす不正投稿ユーザによる投稿文の特徴を示す特徴語を検索キーワードに対応付けて記憶する記憶手段と、ユーザ特定手段により特定された不正投稿ユーザの投稿数に基づいて、特徴語を新たに抽出する期間を特定する期間特定手段と、期間特定手段により特定された期間中に、ユーザ特定手段により特定された不正投稿ユーザにより投稿され、検索キーワード及び記憶手段に記憶された特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する抽出手段と、抽出手段によって新たに抽出された特徴語を記憶手段へ追加する編集手段と、を備える。

この発明によれば、所定の条件を満たしたユーザを特定し、そのユーザの投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。このように、上記条件を満たす不正投稿ユーザ（例えば、大量にニュース、広告等を投稿するユーザ）による投稿文（不要な投稿文）を特定するための特徴語を新たに追加することができる。

また、この特徴語抽出装置において、編集手段は、記憶手段に記憶されている特徴語の数が、閾値に達している場合、記憶手段に記憶されている特徴語に代えて、抽出手段によって抽出された特徴語を前記記憶手段へ追加してもよい。

この発明によれば、投稿状況に応じた特徴語を優先して追加することができる。

また、この特徴語抽出装置において、ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて不正投稿ユーザを特定してもよい。

この発明によれば、投稿数に基づいて不正投稿ユーザを特定するので、投稿数が多いユーザ（例えば、広告、ニュースを提供するユーザ）を正確に特定することができる。

また、この特徴語抽出装置において、ユーザ特定手段は、投稿文の文字列長に基づいて不正投稿ユーザを特定してもよい。

この発明によれば、広告を提供するユーザは、投稿文の文字列が長いという傾向に基づいてユーザを特定することができるので、当該ユーザを正確に特定することができる。

また、この特徴語抽出装置において、抽出手段は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出してもよい。

この発明によれば、投稿が多いユーザによる投稿文の文字列が長いという傾向を考慮して、投稿文から新たな特徴語を抽出するので、不正投稿ユーザによる投稿を特定することができる特徴語を抽出することができる。

本発明によれば、不要な投稿文を特定するための特徴語を新たに追加することができる。

本発明の実施形態に係るサーバのブロック図である。サーバ１０のハードウェア構成を示す図である。マイクロブログ記憶部１２が記憶する情報のデータ構造を示す図である。ユーザ特定結果記憶部１５が記憶する情報のデータ構造を示す図である。特徴語記憶部１６が記憶する情報のデータ構造を示す図である。抽出例を示す図である。特徴語記憶部１６で記憶されているデータの変化を示す図である。大量投稿ユーザを特定する処理を示すフローチャートである。特徴語を登録する処理を示すフローチャートである。変形例における大量投稿ユーザを特定するフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明は省略する。

図１に本実施形態に係るサーバ１０（特徴語抽出装置）を示す。サーバ１０は、スパム投稿や広告投稿等を投稿するユーザ（不正投稿ユーザ）による投稿文（例えば、マイクロブログ）から特徴語を抽出する装置である。特徴語とは、不正投稿するユーザ（例えば、ニュース、広告等を大量に投稿するユーザである大量投稿ユーザ）により投稿されたマイクロブログの特徴を示す語である。例えば、不正投稿ユーザにより投稿されるマイクロブログに頻繁に含まれる語である。

サーバ１０は、インターネット等のネットワークに接続されるサーバ装置である。本実施形態では、特徴語の選択は、例えば、Ｔｗｉｔｔｅｒ（登録商標）等のマイクロブログのデータを利用して行われる。本実施形態では、Ｔｗｉｔｔｅｒを例として説明する。

Ｔｗｉｔｔｅｒは、各ユーザがマイクロブログを投稿するシステムである。投稿されたマイクロブログには、ユーザの行動内容や、ユーザが使用・購入したサービス、商品の感想を示す情報が含まれる。Ｔｗｉｔｔｅｒにおける各ユーザ（アカウント）には、ユーザを特定する情報であるユーザＩＤが付与されている。よって、上記のマイクロブログには、ユーザＩＤが関連付けられている。

引き続いて、本実施形態に係るサーバ１０の機能について詳細に説明する。サーバ１０は、特徴語を抽出するためのデータを取得（受信）できるように、Ｔｗｉｔｔｅｒのサービスを提供するサーバとインターネット等のネットワークを介して接続されている。図１に示すように、サーバ１０は、データ取得部１１と、マイクロブログ記憶部１２と、ユーザ特定部１３（ユーザ特定手段）と、期間特定部１４（期間特定手段）と、ユーザ特定結果記憶部１５と、特徴語記憶部１６（記憶手段）と、抽出部１７（抽出手段）と、編集部１８（編集手段）とを備えて構成される。

図２は、サーバ１０のハードウェア構成図である。図２に示すように、サーバ１０は、ＣＰＵ１０１、主記憶装置であるＲＡＭ（Random Access Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図１に示す各機能要素による機能が発揮される。なお、サーバ１０は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図１に示す各機能要素について説明する。

データ取得部１１は、特徴語を抽出するために必要なデータを取得する部分である。データ取得部１１は、特徴語を抽出するために必要なデータとして、各ユーザによって投稿されたマイクロブログを取得する。データ取得部１１は、例えば、インターネット経由でＴｗｉｔｔｅｒのサーバに対してデータを要求することで、上記のマイクロブログを取得する。

なお、データ取得部１１は、各ユーザのマイクロブログ全てを取得することとしてもよいし、例えば、過去一か月分等の一定期間に投稿されたマイクロブログのみを取得することとしてもよい。

マイクロブログ記憶部１２は、マイクロブログを記憶するデータベースである。ここで、マイクロブログ記憶部１２が記憶するマイクロブログのテキスト部分を図３に示す。マイクロブログ記憶部１２は、図３に示すテキスト部分以外に、当該テキストを投稿したユーザを示すユーザＩＤと、投稿した時刻とを対応付けた情報を記憶している。

ユーザ特定部１３は、ユーザによって投稿された検索キーワードを含む投稿文の数である投稿数に基づいて大量投稿ユーザを特定する部分である。ここで、検索キーワードとは、商品の名称、サービス名等のマイクロブログを検索するためのキーワードである。ユーザ特定部１３は、新たに特徴語を抽出するタイミング（例えば、予め設定されているタイミングであり、１週間で１回）で、大量投稿ユーザを特定する処理を行なう。ユーザ特定部１３は、マイクロブログ記憶部１２に記憶されているマイクロブログのテキストを参照して、ユーザ毎に、予め設定されている基準時刻（上記タイミングより前の時刻）から処理対象時間幅（Window幅）内における検索キーワードを含むマイクロブログの数を算出する。上記処理対象時間幅は、例えば１時間である。ユーザ特定部１３は、算出した数が予め設定している投稿数閾値を超えるユーザ（所定の条件を満たしたユーザ）を大量投稿ユーザとして特定し、特定したユーザＩＤ及び当該ユーザの投稿数を期間特定部１４へ送出する。

期間特定部１４は、ユーザ特定部１３により特定されたユーザの投稿数に基づいて、特徴語を新たに抽出する期間（抽出期間）を特定する部分である。期間特定部１４は、ユーザ特定部１３からユーザＩＤ及び投稿数を取得すると、当該投稿数に基づいて抽出期間を特定する。期間特定部１４は、投稿数が少ない場合、抽出期間を長くし、投稿数が多い場合、抽出期間を短く設定する。期間特定部１４は、抽出期間を特定すると、ユーザＩＤ、投稿数、及び抽出期間を対応付けた情報をユーザ特定結果記憶部１５へ記憶する。また、期間特定部１４は、当該情報をユーザ特定結果記憶部１５へ記憶した後に、抽出部１７へその旨を通知する。

ユーザ特定結果記憶部１５は、ユーザ特定部１３により特定されたユーザと、当該ユーザの投稿数と、期間特定部１４により特定された抽出期間とを対応付けた情報を記憶する部分である。ユーザ特定結果記憶部１５が記憶する情報の例を図４に示す。図４に示すように、ユーザＩＤを示す「ユーザＩＤ」と、投稿数を示す「投稿数」と、抽出期間を示す「抽出期間」とを対応付けて記憶している。例えば、ユーザＩＤが「3389921590」であるユーザの投稿数が３５５件であり、抽出期間が４０分であることを示している。また、ユーザＩＤが「4908481970」であるユーザの投稿数が２９０件であり、抽出期間が４５分であることを示している。このように、投稿数が少ない場合の方が、抽出期間が長く設定されている。

特徴語記憶部１６は、大量投稿ユーザの投稿文の特徴を示す特徴語を検索キーワードに対応付けて記憶する部分である。特徴語記憶部１６が記憶する情報の例を図５に示す。図５に示すように、特徴語記憶部１６は、検索キーワードと特徴語とスコアとを対応付けて記憶している。ここでスコアは、特徴語の出現度を示す値である。図５に示す情報は、「ＡＢＣ」という検索キーワードを含むマイクロブログには、「Ｂｏｔ」又は「ニュースサイト」という特徴語が含まれる傾向が高いことを示している。なお、特徴語記憶部１６に記憶される特徴語とスコアは、抽出部１７による新たな特徴語が抽出される前に、ユーザの入力操作等により予め入力されているものとする。

抽出部１７は、抽出期間中に、ユーザ特定部１３により特定されたユーザにより投稿され、検索キーワード及び特徴語記憶部１６に記憶された特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する部分である。抽出部１７は、期間特定部１４からユーザ特定結果記憶部１５へ情報を記憶した旨の通知を受け取ると、ユーザ特定結果記憶部１５を参照し、ユーザＩＤ及び期間を取得する。また、抽出部１７は、特徴語記憶部１６を参照し、検索キーワードに対応する特徴語を取得する。続いて、抽出部１７は、ユーザ毎に、基準となる抽出タイミングから各ユーザの抽出期間内に投稿されたマイクロブログの内、検索キーワード及び特徴語を含むマイクロブログをマイクロブログ記憶部１２から取得する。なお、抽出部１７は、検索キーワード及び特徴語を含むマイクロブログであって、文字列長が１４０文字以上であるマイクロブログを取得するようにしてもよい。文字列長が１４０文字以上であるマイクロブログを取得する方法として、マイクロブログのテキスト部分の末尾が「．．．」であるマイクロブログを取得する方法がある。ここで、特徴語を含むとは、特徴語記憶部１６に記憶されている、上記検索キーワードに対応する特徴語の何れか一つを含むことを意味する。

抽出部１７は、取得したマイクロブログの形態素解析をして、それぞれの形態素（用語）のスコアを算出する。例えば、抽出部１７は、同一の形態素毎にＴＦ値をスコアとして算出する。ＴＦ値とは、取得したマイクロブログにおける形態素の出現回数に、取得したマイクロブログに出現する単語数を割ることにより算出される値であり、文書中の単語出現頻度である。抽出部１７は、算出したスコアが予め定めたスコア閾値（例えば、０．５）以上である場合、当該形態素を特徴語として抽出し、検索キーワードと共に、当該特徴語及び当該特徴語のスコアを編集部１８へ送出する。なお、抽出部１７は、検索キーワードと合致する形態素を抽出対象から除去する。また、抽出部１７は、スコア算出対象の形態素の品詞を絞るようにしてもよい。例えば、抽出部１７は、スコア算出対象の形態素の品詞を設定しておくことにより、当該品詞に絞って形態素のスコアを算出してもよい。

例えば、図６に説明するように、特徴語候補を抽出して、当該特徴語候補のｔｆ値を算出した場合、スコアがスコア閾値以上である「http」、「夢」、「おやすみ」、及び「素数」を特徴語として抽出する。

編集部１８は、抽出部１７によって新たに抽出された特徴語を特徴語記憶部１６へ追加する部分である。編集部１８は、抽出部１７から検索キーワードと共に特徴語及びスコアを取得すると、当該特徴語の追加処理を行なう。編集部１８は、特徴語記憶部１６を参照し、検索キーワードに対応する特徴語が予め定められている記憶上限数（閾値）に達しているか否かを判断する。編集部１８は、記憶上限数に達していない場合、新たな特徴語を特徴語記憶部１６へ追加登録する。また、編集部１８は、既に登録されている特徴語を抽出部１７によって抽出されている場合、当該特徴語のスコアを抽出部１７から取得したスコアに変更する。

一方、抽出部１７によって新たに抽出された特徴語を特徴語記憶部１６へ追加すると、記憶上限数に達してしまう場合、特徴語記憶部１６に記憶されている特徴語に代えて、抽出部１７によって新たに抽出された特徴語及び当該特徴語のスコアを検索キーワード共に特徴語記憶部１６へ追加する。

ここで、図７に示す図を用いて、特徴語記憶部１６で記憶されている情報（特徴語及びスコア）が更新される例を示す。なお、記憶上限数を２０件とする。まず、図７（Ａ）に示すように、最初に「http」という特徴語があるものとする。この後、抽出部１７によって、図７（Ｂ）に示すように、「http」、「夢」、「おやすみ」、及び「素数」が特徴語として抽出される。なお、「やすみ」は、スコアがスコア閾値未満であるため、特徴語として抽出されない。編集部１８は、上記抽出部１７によって抽出された特徴語及びスコアを取得すると、記憶上限数に達しているか否かを判断する。編集部１８は、当該判断した結果、記憶上限数に達していないため、図７（Ｃ）に示すように、抽出された全ての特徴語を特徴語記憶部１６へ登録し、「http」のスコアを最新のスコアに変更する。

上記のように、編集部１８が、抽出部１７によって抽出された特徴語を特徴語記憶部１６へ繰り返して追加登録した結果、図７（Ｄ）に示すように、記憶上限数に達したものとする。ここで、抽出部１７によって、図７（Ｅ）に示す特徴語が抽出され、閾値以上である「うん」と「おはよ」が編集部１８に送出される。

この場合、編集部１８は、図７（Ｆ）に示すように、既に登録されている特徴語及び当該特徴語のスコアを削除して、抽出部１７から取得した特徴語及び当該特徴語のスコアを追加する。

このように、編集部１８は、特徴語記憶部１６に記憶されている特徴語に代えて、抽出部１７によって新たに抽出された特徴語及び当該特徴語のスコアを特徴語記憶部１６へ追加する。この結果、新たに抽出された特徴語が特徴語記憶部１６に記憶される。なお、抽出部１７によって新たに抽出された特徴語を特徴語記憶部１６へ追加すると、記憶上限数に達してしまうか否かに関わらず、特徴語記憶部１６に記憶されている特徴語に代えて、抽出部１７によって新たに抽出された特徴語及び当該特徴語のスコアを検索キーワード共に特徴語記憶部１６へ追加するようにしてもよい。サーバ１０が、検索キーワードを含み、且つ特徴語記憶部１６に記憶された特徴語の何れも含まないマイクロブログを検索すれば、大量投稿ユーザによって投稿されたマイクロブログを検索することを回避することができる。この結果、当該検索キーワードを含む、一般ユーザ（大量投稿ユーザ以外のユーザ）によるマイクロブログを検索することができる。

続いて、図８及び図９のフローチャートを用いて、サーバ１０が実行する処理手順の説明をする。図８に示すフローチャートは、大量投稿ユーザを特定する処理を示すフローチャートである。まず、ユーザ特定部１３は、各ユーザにおける一定期間内のマイクロブログの投稿数から大量投稿ユーザを抽出する（ステップＳ１）。期間特定部１４は、投稿数に基づいて抽出期間を特定する（ステップＳ２）。期間特定部１４は、ユーザＩＤ、投稿数、及び抽出期間をユーザ特定結果記憶部１５へ登録する（ステップＳ３）。

続いて、図９に示すフローチャートの説明をする。図９に示すフローチャートは、特徴語を追加登録する処理を示すフローチャートである。まず、抽出部１７は、大量投稿ユーザにより一定期間内に投稿されたマイクロブログの内、予め記憶されている特徴語及び検索キーワードを含むマイクロブログを取得する（ステップＳ１１）。続いて、抽出部１７は、取得したマイクロブログを形態素解析して、それぞれの形態素のスコアを算出する（ステップＳ１２）。抽出部１７は、スコアが閾値以上である形態素を特徴語として特定する（ステップＳ１３）。編集部１８は、記憶上限数を超える場合（ステップＳ１４；ＹＥＳ）、登録済の特徴語の内、スコアが低い特徴語を削除して（ステップＳ１５）、抽出した特徴語を登録する（ステップＳ１６）。一方、記憶上限数を超えていない場合（ステップＳ１４；ＮＯ）、抽出された全ての特徴語を登録する（ステップＳ１６）。

上述の実施形態では、ユーザ特定部１３が投稿数に基づいて不正投稿ユーザを特定する場合について述べたが、ユーザ特定部１３は、ユーザ毎における、検索キーワードを含む投稿文の文字列長に基づいて不正投稿ユーザを特定してもよい。例えば、１４０文字以上の投稿が多いユーザを不正投稿ユーザとしてもよい。

ここで、図１０を用いて、投稿文の文字列長に基づいて不正投稿ユーザを特定する処理手順を示す。まず、ユーザ特定部１３は、マイクロブログ記憶部１２を参照して、１４０文字以上のマイクロブログを投稿するユーザを特定する（ステップＳ２１）。続いて、ユーザ特定部１３は、抽出対象の期間に抽出ユーザによって投稿されているマイクロブログＸ件のうち、１４０文字列長以上の投稿がＹ％（予めユーザ特定部１３で設定されている閾値であって、例えば、５０％）以上であるユーザを不正投稿ユーザとして抽出する（ステップＳ２２）。

抽出した後の処理は、ステップＳ２以降の処理と同様である。このように、不正投稿するユーザ（例えば、広告ユーザ、アフィリエイト目的のユーザ）による投稿文の文字列が長いという傾向に即してユーザを特定することができるので、不正投稿ユーザを正確に特定することができる。なお、ステップＳ１で抽出したユーザによって、抽出対象期間中に投稿されているマイクロブログＸ件のうち、１４０文字列長以上の投稿がＹ％以上であるユーザを不正投稿ユーザとして抽出してもよい。

上述の実施形態では、データ取得部１１が、取得したマイクロブログをそのままマイクロブログ記憶部１２へ登録する場合について記載したが、取得したマイクロブログのテキストの内、ハッシュタグ、ＵＲＬ、及び各種記号を除いたマイクロブログを登録するようにしてもよい。

続いて、作用効果について説明する。ユーザ特定部１３が、大量投稿ユーザを特定する。期間特定部１４が、ユーザの投稿数に基づいて抽出期間を特定する。続いて、抽出部１７が、当該期間中に上記ユーザによる投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。編集部１８が、新たな特徴語を特徴語記憶部１６へ追加する。このように、不要な投稿文（例えば、広告、ニュース等の投稿文）を特定するための特徴語を新たに追加することができる。検索キーワードを含むマイクロブログの内、当該特徴語を含まないマイクロブログを検索すれば、大量投稿ユーザによって投稿されたマイクロブログを検索してしまうことを回避することができる。

また、編集部１８は、ユーザ特定結果記憶部１５に記憶されている特徴語の数が、予め設定されている特徴語の記憶上限数に達している場合、ユーザ特定結果記憶部１５に記憶されている特徴語に代えて、抽出部１７によって抽出された特徴語を特徴語記憶部１６へ追加する。この場合、投稿状況に応じた特徴語を優先して追加することができる。すなわち、特徴語を常に最新化することができる。

また、ユーザ特定部１３は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて大量投稿ユーザを特定するので、投稿数に基づいて、大量投稿ユーザを正確に特定することができる。

また、抽出部１７は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出してもよい。この場合、大量投稿するユーザによる投稿文の文字列が長いという傾向があるので、当該傾向に即した投稿文から新たな特徴語を抽出することにより、大量投稿ユーザによる投稿を特定することができる特徴語を抽出することができる。

１０…サーバ、１１…データ取得部、１２…マイクロブログ記憶部、１３…ユーザ特定部、１４…期間特定部、１５…ユーザ特定結果記憶部、１６…特徴語記憶部、１７…抽出部、１８…編集部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置。

Claims

検索キーワードを含む投稿文を投稿したユーザのうち、所定の条件を満たした不正投稿ユーザを特定するユーザ特定手段と、
前記条件を満たす不正投稿ユーザによる投稿文の特徴を示す特徴語を前記検索キーワードに対応付けて記憶する記憶手段と、
前記ユーザ特定手段により特定された不正投稿ユーザの投稿数に基づいて、前記特徴語を新たに抽出する期間を特定する期間特定手段と、
前記期間特定手段により特定された期間中に、前記ユーザ特定手段により特定された不正投稿ユーザにより投稿され、前記検索キーワード及び当該検索キーワードに対応付けられた特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する抽出手段と、
前記抽出手段によって新たに抽出された特徴語を前記記憶手段へ追加する編集手段と、
を備える、特徴語抽出装置。
前記編集手段は、前記記憶手段に記憶されている特徴語の数が、閾値に達している場合、前記記憶手段に記憶されている特徴語に代えて、前記抽出手段によって抽出された特徴語を前記記憶手段へ追加する、請求項１に記載の特徴語抽出装置。
前記ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて不正投稿ユーザを特定する、請求項１又は２に記載の特徴語抽出装置。
前記ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の文字列長に基づいて不正投稿ユーザを特定する、請求項１〜３の何れか一項に記載の特徴語抽出装置。
前記抽出手段は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出する、請求項１〜４の何れか一項に記載の特徴語抽出装置。