JP2017215803A - 特徴語抽出装置 - Google Patents

特徴語抽出装置 Download PDF

Info

Publication number
JP2017215803A
JP2017215803A JP2016109357A JP2016109357A JP2017215803A JP 2017215803 A JP2017215803 A JP 2017215803A JP 2016109357 A JP2016109357 A JP 2016109357A JP 2016109357 A JP2016109357 A JP 2016109357A JP 2017215803 A JP2017215803 A JP 2017215803A
Authority
JP
Japan
Prior art keywords
user
feature word
unit
feature
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016109357A
Other languages
English (en)
Inventor
山田 尚志
Hisashi Yamada
尚志 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016109357A priority Critical patent/JP2017215803A/ja
Publication of JP2017215803A publication Critical patent/JP2017215803A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】不要な投稿文を特定するための特徴語を新たに追加することができる特徴語抽出装置を提供する。【解決手段】サーバ10では、ユーザ特定部13が、大量投稿ユーザを特定して、期間特定部14は、ユーザの投稿数に基づいて、抽出期間を特定して、抽出部17が、当該期間中に上記ユーザによる投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。このように、不要な投稿文を特定するための特徴語を新たに追加することができる。【選択図】図1

Description

本発明は、特徴語を抽出する装置に関する。
あるキーワードに対応する投稿文(例えば、ツイッター(登録商標)等の短文投稿)を検索する技術がある。このような投稿文には、不特定多数に大量に投稿されるスパム情報や広告情報も含まれる。よって、上記のようにキーワードに対応する投稿文を検索した結果、スパム情報や広告情報を含む投稿文まで検索されてしまうという問題点がある。このような問題点を解決する方法として、特許文献1には、スパムメールを特定するためのURI(Uniform Resource Identifier)を予め記憶しておき、当該URIを含むメールをスパムメールと特定することが記載されている。
特開2005−128922号公報
特許文献1に記載されているように、予めスパム情報を特定するための情報を記憶しておけば、スパム情報等の不要な情報(不要な投稿文)を特定することができる。上記のようなスパム情報や広告情報は、日々新たな情報が配信されるため、スパム情報や広告情報を特定するための情報を適宜追加する必要がある。
本発明は、上記に鑑みてなされたものであり、不要な投稿文を特定するための特徴語を新たに追加することができる特徴語抽出装置を提供することを目的とする。
本発明に係る特徴語抽出装置は、検索キーワードを含む投稿文を投稿したユーザのうち、所定の条件を満たした不正投稿ユーザを特定するユーザ特定手段と、条件を満たす不正投稿ユーザによる投稿文の特徴を示す特徴語を検索キーワードに対応付けて記憶する記憶手段と、ユーザ特定手段により特定された不正投稿ユーザの投稿数に基づいて、特徴語を新たに抽出する期間を特定する期間特定手段と、期間特定手段により特定された期間中に、ユーザ特定手段により特定された不正投稿ユーザにより投稿され、検索キーワード及び記憶手段に記憶された特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する抽出手段と、抽出手段によって新たに抽出された特徴語を記憶手段へ追加する編集手段と、を備える。
この発明によれば、所定の条件を満たしたユーザを特定し、そのユーザの投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。このように、上記条件を満たす不正投稿ユーザ(例えば、大量にニュース、広告等を投稿するユーザ)による投稿文(不要な投稿文)を特定するための特徴語を新たに追加することができる。
また、この特徴語抽出装置において、編集手段は、記憶手段に記憶されている特徴語の数が、閾値に達している場合、記憶手段に記憶されている特徴語に代えて、抽出手段によって抽出された特徴語を前記記憶手段へ追加してもよい。
この発明によれば、投稿状況に応じた特徴語を優先して追加することができる。
また、この特徴語抽出装置において、ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて不正投稿ユーザを特定してもよい。
この発明によれば、投稿数に基づいて不正投稿ユーザを特定するので、投稿数が多いユーザ(例えば、広告、ニュースを提供するユーザ)を正確に特定することができる。
また、この特徴語抽出装置において、ユーザ特定手段は、投稿文の文字列長に基づいて不正投稿ユーザを特定してもよい。
この発明によれば、広告を提供するユーザは、投稿文の文字列が長いという傾向に基づいてユーザを特定することができるので、当該ユーザを正確に特定することができる。
また、この特徴語抽出装置において、抽出手段は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出してもよい。
この発明によれば、投稿が多いユーザによる投稿文の文字列が長いという傾向を考慮して、投稿文から新たな特徴語を抽出するので、不正投稿ユーザによる投稿を特定することができる特徴語を抽出することができる。
本発明によれば、不要な投稿文を特定するための特徴語を新たに追加することができる。
本発明の実施形態に係るサーバのブロック図である。 サーバ10のハードウェア構成を示す図である。 マイクロブログ記憶部12が記憶する情報のデータ構造を示す図である。 ユーザ特定結果記憶部15が記憶する情報のデータ構造を示す図である。 特徴語記憶部16が記憶する情報のデータ構造を示す図である。 抽出例を示す図である。 特徴語記憶部16で記憶されているデータの変化を示す図である。 大量投稿ユーザを特定する処理を示すフローチャートである。 特徴語を登録する処理を示すフローチャートである。 変形例における大量投稿ユーザを特定するフローチャートである。
以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明は省略する。
図1に本実施形態に係るサーバ10(特徴語抽出装置)を示す。サーバ10は、スパム投稿や広告投稿等を投稿するユーザ(不正投稿ユーザ)による投稿文(例えば、マイクロブログ)から特徴語を抽出する装置である。特徴語とは、不正投稿するユーザ(例えば、ニュース、広告等を大量に投稿するユーザである大量投稿ユーザ)により投稿されたマイクロブログの特徴を示す語である。例えば、不正投稿ユーザにより投稿されるマイクロブログに頻繁に含まれる語である。
サーバ10は、インターネット等のネットワークに接続されるサーバ装置である。本実施形態では、特徴語の選択は、例えば、Twitter(登録商標)等のマイクロブログのデータを利用して行われる。本実施形態では、Twitterを例として説明する。
Twitterは、各ユーザがマイクロブログを投稿するシステムである。投稿されたマイクロブログには、ユーザの行動内容や、ユーザが使用・購入したサービス、商品の感想を示す情報が含まれる。Twitterにおける各ユーザ(アカウント)には、ユーザを特定する情報であるユーザIDが付与されている。よって、上記のマイクロブログには、ユーザIDが関連付けられている。
引き続いて、本実施形態に係るサーバ10の機能について詳細に説明する。サーバ10は、特徴語を抽出するためのデータを取得(受信)できるように、Twitterのサービスを提供するサーバとインターネット等のネットワークを介して接続されている。図1に示すように、サーバ10は、データ取得部11と、マイクロブログ記憶部12と、ユーザ特定部13(ユーザ特定手段)と、期間特定部14(期間特定手段)と、ユーザ特定結果記憶部15と、特徴語記憶部16(記憶手段)と、抽出部17(抽出手段)と、編集部18(編集手段)とを備えて構成される。
図2は、サーバ10のハードウェア構成図である。図2に示すように、サーバ10は、CPU101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図1に示す各機能要素による機能が発揮される。なお、サーバ10は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図1に示す各機能要素について説明する。
データ取得部11は、特徴語を抽出するために必要なデータを取得する部分である。データ取得部11は、特徴語を抽出するために必要なデータとして、各ユーザによって投稿されたマイクロブログを取得する。データ取得部11は、例えば、インターネット経由でTwitterのサーバに対してデータを要求することで、上記のマイクロブログを取得する。
なお、データ取得部11は、各ユーザのマイクロブログ全てを取得することとしてもよいし、例えば、過去一か月分等の一定期間に投稿されたマイクロブログのみを取得することとしてもよい。
マイクロブログ記憶部12は、マイクロブログを記憶するデータベースである。ここで、マイクロブログ記憶部12が記憶するマイクロブログのテキスト部分を図3に示す。マイクロブログ記憶部12は、図3に示すテキスト部分以外に、当該テキストを投稿したユーザを示すユーザIDと、投稿した時刻とを対応付けた情報を記憶している。
ユーザ特定部13は、ユーザによって投稿された検索キーワードを含む投稿文の数である投稿数に基づいて大量投稿ユーザを特定する部分である。ここで、検索キーワードとは、商品の名称、サービス名等のマイクロブログを検索するためのキーワードである。ユーザ特定部13は、新たに特徴語を抽出するタイミング(例えば、予め設定されているタイミングであり、1週間で1回)で、大量投稿ユーザを特定する処理を行なう。ユーザ特定部13は、マイクロブログ記憶部12に記憶されているマイクロブログのテキストを参照して、ユーザ毎に、予め設定されている基準時刻(上記タイミングより前の時刻)から処理対象時間幅(Window幅)内における検索キーワードを含むマイクロブログの数を算出する。上記処理対象時間幅は、例えば1時間である。ユーザ特定部13は、算出した数が予め設定している投稿数閾値を超えるユーザ(所定の条件を満たしたユーザ)を大量投稿ユーザとして特定し、特定したユーザID及び当該ユーザの投稿数を期間特定部14へ送出する。
期間特定部14は、ユーザ特定部13により特定されたユーザの投稿数に基づいて、特徴語を新たに抽出する期間(抽出期間)を特定する部分である。期間特定部14は、ユーザ特定部13からユーザID及び投稿数を取得すると、当該投稿数に基づいて抽出期間を特定する。期間特定部14は、投稿数が少ない場合、抽出期間を長くし、投稿数が多い場合、抽出期間を短く設定する。期間特定部14は、抽出期間を特定すると、ユーザID、投稿数、及び抽出期間を対応付けた情報をユーザ特定結果記憶部15へ記憶する。また、期間特定部14は、当該情報をユーザ特定結果記憶部15へ記憶した後に、抽出部17へその旨を通知する。
ユーザ特定結果記憶部15は、ユーザ特定部13により特定されたユーザと、当該ユーザの投稿数と、期間特定部14により特定された抽出期間とを対応付けた情報を記憶する部分である。ユーザ特定結果記憶部15が記憶する情報の例を図4に示す。図4に示すように、ユーザIDを示す「ユーザID」と、投稿数を示す「投稿数」と、抽出期間を示す「抽出期間」とを対応付けて記憶している。例えば、ユーザIDが「3389921590」であるユーザの投稿数が355件であり、抽出期間が40分であることを示している。また、ユーザIDが「4908481970」であるユーザの投稿数が290件であり、抽出期間が45分であることを示している。このように、投稿数が少ない場合の方が、抽出期間が長く設定されている。
特徴語記憶部16は、大量投稿ユーザの投稿文の特徴を示す特徴語を検索キーワードに対応付けて記憶する部分である。特徴語記憶部16が記憶する情報の例を図5に示す。図5に示すように、特徴語記憶部16は、検索キーワードと特徴語とスコアとを対応付けて記憶している。ここでスコアは、特徴語の出現度を示す値である。図5に示す情報は、「ABC」という検索キーワードを含むマイクロブログには、「Bot」又は「ニュースサイト」という特徴語が含まれる傾向が高いことを示している。なお、特徴語記憶部16に記憶される特徴語とスコアは、抽出部17による新たな特徴語が抽出される前に、ユーザの入力操作等により予め入力されているものとする。
抽出部17は、抽出期間中に、ユーザ特定部13により特定されたユーザにより投稿され、検索キーワード及び特徴語記憶部16に記憶された特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する部分である。抽出部17は、期間特定部14からユーザ特定結果記憶部15へ情報を記憶した旨の通知を受け取ると、ユーザ特定結果記憶部15を参照し、ユーザID及び期間を取得する。また、抽出部17は、特徴語記憶部16を参照し、検索キーワードに対応する特徴語を取得する。続いて、抽出部17は、ユーザ毎に、基準となる抽出タイミングから各ユーザの抽出期間内に投稿されたマイクロブログの内、検索キーワード及び特徴語を含むマイクロブログをマイクロブログ記憶部12から取得する。なお、抽出部17は、検索キーワード及び特徴語を含むマイクロブログであって、文字列長が140文字以上であるマイクロブログを取得するようにしてもよい。文字列長が140文字以上であるマイクロブログを取得する方法として、マイクロブログのテキスト部分の末尾が「...」であるマイクロブログを取得する方法がある。ここで、特徴語を含むとは、特徴語記憶部16に記憶されている、上記検索キーワードに対応する特徴語の何れか一つを含むことを意味する。
抽出部17は、取得したマイクロブログの形態素解析をして、それぞれの形態素(用語)のスコアを算出する。例えば、抽出部17は、同一の形態素毎にTF値をスコアとして算出する。TF値とは、取得したマイクロブログにおける形態素の出現回数に、取得したマイクロブログに出現する単語数を割ることにより算出される値であり、文書中の単語出現頻度である。抽出部17は、算出したスコアが予め定めたスコア閾値(例えば、0.5)以上である場合、当該形態素を特徴語として抽出し、検索キーワードと共に、当該特徴語及び当該特徴語のスコアを編集部18へ送出する。なお、抽出部17は、検索キーワードと合致する形態素を抽出対象から除去する。また、抽出部17は、スコア算出対象の形態素の品詞を絞るようにしてもよい。例えば、抽出部17は、スコア算出対象の形態素の品詞を設定しておくことにより、当該品詞に絞って形態素のスコアを算出してもよい。
例えば、図6に説明するように、特徴語候補を抽出して、当該特徴語候補のtf値を算出した場合、スコアがスコア閾値以上である「http」、「夢」、「おやすみ」、及び「素数」を特徴語として抽出する。
編集部18は、抽出部17によって新たに抽出された特徴語を特徴語記憶部16へ追加する部分である。編集部18は、抽出部17から検索キーワードと共に特徴語及びスコアを取得すると、当該特徴語の追加処理を行なう。編集部18は、特徴語記憶部16を参照し、検索キーワードに対応する特徴語が予め定められている記憶上限数(閾値)に達しているか否かを判断する。編集部18は、記憶上限数に達していない場合、新たな特徴語を特徴語記憶部16へ追加登録する。また、編集部18は、既に登録されている特徴語を抽出部17によって抽出されている場合、当該特徴語のスコアを抽出部17から取得したスコアに変更する。
一方、抽出部17によって新たに抽出された特徴語を特徴語記憶部16へ追加すると、記憶上限数に達してしまう場合、特徴語記憶部16に記憶されている特徴語に代えて、抽出部17によって新たに抽出された特徴語及び当該特徴語のスコアを検索キーワード共に特徴語記憶部16へ追加する。
ここで、図7に示す図を用いて、特徴語記憶部16で記憶されている情報(特徴語及びスコア)が更新される例を示す。なお、記憶上限数を20件とする。まず、図7(A)に示すように、最初に「http」という特徴語があるものとする。この後、抽出部17によって、図7(B)に示すように、「http」、「夢」、「おやすみ」、及び「素数」が特徴語として抽出される。なお、「やすみ」は、スコアがスコア閾値未満であるため、特徴語として抽出されない。編集部18は、上記抽出部17によって抽出された特徴語及びスコアを取得すると、記憶上限数に達しているか否かを判断する。編集部18は、当該判断した結果、記憶上限数に達していないため、図7(C)に示すように、抽出された全ての特徴語を特徴語記憶部16へ登録し、「http」のスコアを最新のスコアに変更する。
上記のように、編集部18が、抽出部17によって抽出された特徴語を特徴語記憶部16へ繰り返して追加登録した結果、図7(D)に示すように、記憶上限数に達したものとする。ここで、抽出部17によって、図7(E)に示す特徴語が抽出され、閾値以上である「うん」と「おはよ」が編集部18に送出される。
この場合、編集部18は、図7(F)に示すように、既に登録されている特徴語及び当該特徴語のスコアを削除して、抽出部17から取得した特徴語及び当該特徴語のスコアを追加する。
このように、編集部18は、特徴語記憶部16に記憶されている特徴語に代えて、抽出部17によって新たに抽出された特徴語及び当該特徴語のスコアを特徴語記憶部16へ追加する。この結果、新たに抽出された特徴語が特徴語記憶部16に記憶される。なお、抽出部17によって新たに抽出された特徴語を特徴語記憶部16へ追加すると、記憶上限数に達してしまうか否かに関わらず、特徴語記憶部16に記憶されている特徴語に代えて、抽出部17によって新たに抽出された特徴語及び当該特徴語のスコアを検索キーワード共に特徴語記憶部16へ追加するようにしてもよい。サーバ10が、検索キーワードを含み、且つ特徴語記憶部16に記憶された特徴語の何れも含まないマイクロブログを検索すれば、大量投稿ユーザによって投稿されたマイクロブログを検索することを回避することができる。この結果、当該検索キーワードを含む、一般ユーザ(大量投稿ユーザ以外のユーザ)によるマイクロブログを検索することができる。
続いて、図8及び図9のフローチャートを用いて、サーバ10が実行する処理手順の説明をする。図8に示すフローチャートは、大量投稿ユーザを特定する処理を示すフローチャートである。まず、ユーザ特定部13は、各ユーザにおける一定期間内のマイクロブログの投稿数から大量投稿ユーザを抽出する(ステップS1)。期間特定部14は、投稿数に基づいて抽出期間を特定する(ステップS2)。期間特定部14は、ユーザID、投稿数、及び抽出期間をユーザ特定結果記憶部15へ登録する(ステップS3)。
続いて、図9に示すフローチャートの説明をする。図9に示すフローチャートは、特徴語を追加登録する処理を示すフローチャートである。まず、抽出部17は、大量投稿ユーザにより一定期間内に投稿されたマイクロブログの内、予め記憶されている特徴語及び検索キーワードを含むマイクロブログを取得する(ステップS11)。続いて、抽出部17は、取得したマイクロブログを形態素解析して、それぞれの形態素のスコアを算出する(ステップS12)。抽出部17は、スコアが閾値以上である形態素を特徴語として特定する(ステップS13)。編集部18は、記憶上限数を超える場合(ステップS14;YES)、登録済の特徴語の内、スコアが低い特徴語を削除して(ステップS15)、抽出した特徴語を登録する(ステップS16)。一方、記憶上限数を超えていない場合(ステップS14;NO)、抽出された全ての特徴語を登録する(ステップS16)。
上述の実施形態では、ユーザ特定部13が投稿数に基づいて不正投稿ユーザを特定する場合について述べたが、ユーザ特定部13は、ユーザ毎における、検索キーワードを含む投稿文の文字列長に基づいて不正投稿ユーザを特定してもよい。例えば、140文字以上の投稿が多いユーザを不正投稿ユーザとしてもよい。
ここで、図10を用いて、投稿文の文字列長に基づいて不正投稿ユーザを特定する処理手順を示す。まず、ユーザ特定部13は、マイクロブログ記憶部12を参照して、140文字以上のマイクロブログを投稿するユーザを特定する(ステップS21)。続いて、ユーザ特定部13は、抽出対象の期間に抽出ユーザによって投稿されているマイクロブログX件のうち、140文字列長以上の投稿がY%(予めユーザ特定部13で設定されている閾値であって、例えば、50%)以上であるユーザを不正投稿ユーザとして抽出する(ステップS22)。
抽出した後の処理は、ステップS2以降の処理と同様である。このように、不正投稿するユーザ(例えば、広告ユーザ、アフィリエイト目的のユーザ)による投稿文の文字列が長いという傾向に即してユーザを特定することができるので、不正投稿ユーザを正確に特定することができる。なお、ステップS1で抽出したユーザによって、抽出対象期間中に投稿されているマイクロブログX件のうち、140文字列長以上の投稿がY%以上であるユーザを不正投稿ユーザとして抽出してもよい。
上述の実施形態では、データ取得部11が、取得したマイクロブログをそのままマイクロブログ記憶部12へ登録する場合について記載したが、取得したマイクロブログのテキストの内、ハッシュタグ、URL、及び各種記号を除いたマイクロブログを登録するようにしてもよい。
続いて、作用効果について説明する。ユーザ特定部13が、大量投稿ユーザを特定する。期間特定部14が、ユーザの投稿数に基づいて抽出期間を特定する。続いて、抽出部17が、当該期間中に上記ユーザによる投稿度合により特定された抽出期間に応じて抽出対象の投稿文を決定して、新たな特徴語を抽出する。編集部18が、新たな特徴語を特徴語記憶部16へ追加する。このように、不要な投稿文(例えば、広告、ニュース等の投稿文)を特定するための特徴語を新たに追加することができる。検索キーワードを含むマイクロブログの内、当該特徴語を含まないマイクロブログを検索すれば、大量投稿ユーザによって投稿されたマイクロブログを検索してしまうことを回避することができる。
また、編集部18は、ユーザ特定結果記憶部15に記憶されている特徴語の数が、予め設定されている特徴語の記憶上限数に達している場合、ユーザ特定結果記憶部15に記憶されている特徴語に代えて、抽出部17によって抽出された特徴語を特徴語記憶部16へ追加する。この場合、投稿状況に応じた特徴語を優先して追加することができる。すなわち、特徴語を常に最新化することができる。
また、ユーザ特定部13は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて大量投稿ユーザを特定するので、投稿数に基づいて、大量投稿ユーザを正確に特定することができる。
また、抽出部17は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出してもよい。この場合、大量投稿するユーザによる投稿文の文字列が長いという傾向があるので、当該傾向に即した投稿文から新たな特徴語を抽出することにより、大量投稿ユーザによる投稿を特定することができる特徴語を抽出することができる。
10…サーバ、11…データ取得部、12…マイクロブログ記憶部、13…ユーザ特定部、14…期間特定部、15…ユーザ特定結果記憶部、16…特徴語記憶部、17…抽出部、18…編集部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。

Claims (5)

  1. 検索キーワードを含む投稿文を投稿したユーザのうち、所定の条件を満たした不正投稿ユーザを特定するユーザ特定手段と、
    前記条件を満たす不正投稿ユーザによる投稿文の特徴を示す特徴語を前記検索キーワードに対応付けて記憶する記憶手段と、
    前記ユーザ特定手段により特定された不正投稿ユーザの投稿数に基づいて、前記特徴語を新たに抽出する期間を特定する期間特定手段と、
    前記期間特定手段により特定された期間中に、前記ユーザ特定手段により特定された不正投稿ユーザにより投稿され、前記検索キーワード及び当該検索キーワードに対応付けられた特徴語を含む投稿文における用語の出現度に基づいて新たな特徴語を抽出する抽出手段と、
    前記抽出手段によって新たに抽出された特徴語を前記記憶手段へ追加する編集手段と、
    を備える、特徴語抽出装置。
  2. 前記編集手段は、前記記憶手段に記憶されている特徴語の数が、閾値に達している場合、前記記憶手段に記憶されている特徴語に代えて、前記抽出手段によって抽出された特徴語を前記記憶手段へ追加する、請求項1に記載の特徴語抽出装置。
  3. 前記ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の投稿数に基づいて不正投稿ユーザを特定する、請求項1又は2に記載の特徴語抽出装置。
  4. 前記ユーザ特定手段は、ユーザ毎における、検索キーワードを含む投稿文の文字列長に基づいて不正投稿ユーザを特定する、請求項1〜3の何れか一項に記載の特徴語抽出装置。
  5. 前記抽出手段は、投稿文の文字列長が閾値以上である投稿文から新たな特徴語を抽出する、請求項1〜4の何れか一項に記載の特徴語抽出装置。
JP2016109357A 2016-05-31 2016-05-31 特徴語抽出装置 Pending JP2017215803A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016109357A JP2017215803A (ja) 2016-05-31 2016-05-31 特徴語抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016109357A JP2017215803A (ja) 2016-05-31 2016-05-31 特徴語抽出装置

Publications (1)

Publication Number Publication Date
JP2017215803A true JP2017215803A (ja) 2017-12-07

Family

ID=60577004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016109357A Pending JP2017215803A (ja) 2016-05-31 2016-05-31 特徴語抽出装置

Country Status (1)

Country Link
JP (1) JP2017215803A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7189390B1 (ja) * 2022-08-23 2022-12-13 PayPay株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム
JP7189390B1 (ja) * 2022-08-23 2022-12-13 PayPay株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
WO2019085355A1 (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
US9172666B2 (en) Locating a user based on aggregated tweet content associated with a location
US9779388B1 (en) Disambiguating organization names
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
WO2019037258A1 (zh) 信息推荐的装置、方法、系统及计算机可读存储介质
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
US9779363B1 (en) Disambiguating personal names
Schmidt et al. Extraction of address data from unstructured text using free knowledge resources
WO2019187842A1 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP5731940B2 (ja) テキスト位置判定装置及びテキスト位置判定方法
JP2017215803A (ja) 特徴語抽出装置
JP2011085994A (ja) 広告配信装置、広告配信方法および広告配信プログラム
JP2017091436A (ja) 特徴語選択装置
JP2020129239A (ja) 投稿分析システム、投稿分析装置および投稿分析方法
JP2019174925A (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
WO2019187843A1 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6530002B2 (ja) コンテンツ探索装置、コンテンツ探索方法、プログラム
JP7459961B2 (ja) 判定装置、判定方法および判定プログラム
JP7459962B2 (ja) 検知装置、検知方法および検知プログラム
US20230385344A1 (en) Collection device, collection method, and collection program
JP7459963B2 (ja) 抽出装置、抽出方法および抽出プログラム