JP4429356B2

JP4429356B2 - 属性抽出処理方法及び装置

Info

Publication number: JP4429356B2
Application number: JP2007333704A
Authority: JP
Inventors: 真一郎多湖
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-12-26
Filing date: 2007-12-26
Publication date: 2010-03-10
Anticipated expiration: 2027-12-26
Also published as: JP2009157553A; US8041721B2; US20090216751A1

Description

本発明は、文書抽出技術に関し、より詳しくはスパムブログ抽出技術に関する。

近年ブログの利用が急速に広がってきている。そのため、例えばブログで商品などの紹介をすると共に、当該商品などの販売元のアフィリエイト・プログラムに参加して、収入を得るといった活動を行う者もいる。このため、より多くのアクセスを集め、商品などの販売に繋げることを目的として、スパムブログが頻出するようになっている。スパムブログは、あるブログ記事を全てコピーしたものや、一部を修正したものだけではなく、図１に示すように、注目されている固有名詞のリストである固有名詞リストとフレーズリストから、自動生成ツールを用いて生成されるブログ記事の場合もある。このようなブログ記事は、アクセスを集めることが主眼であるので、注目されている固有名詞がちりばめられている文法的には正しい意味不明なブログ記事のことが多い。

一方、別の角度からマーケティングのために、ブログ記事の内容を解析し、消費者の傾向などを抽出する技術も開発されてきている。この技術では、収集したブログ記事が通常のブログ記事であれば、正しいデータを抽出することができるため有用であるが、スパムブログが混入している場合には、偏ったデータが抽出されてしまう可能性がある。従って、スパムブログを排除するような仕組みが必要となる。

現在の技術では、単純にコピーしただけのものや一部のみを修正したものであれば、例えばバイグラムの技術を用いれば抽出できるが、上で述べた固有名詞リストとフレーズリストから自動生成ツールを用いて生成されるようなスパムブログの場合には、単純なバイグラムの技術では抽出できない。従って、このようなスパムブログの抽出は、人が内容を確認し、判定しなければならない。

スパムブログの抽出を自動化しようとすると、例えば、スパムブログとして確認された基準となるブログＡの複数の記事から抽出される固有名詞が、判定対象ブログＢの複数の記事に含まれる度合いで類似度を決定することが考えられる。複数の記事を対象とするのは、記事単位では固有名詞にばらつきがあり類似度が適切に算出されないためである。

なお、このような技術に関連する技術として、特開２００１−２８２８３７号公報があり、この公報には、ある分野に対して関連性の深いサイトのみを、効率よく、高精度で収集するための技術が開示されている。具体的には、文書ネットワークは、種々の分野の文書が分散して存在する文書群のネットワークである。キーワードデータ格納部には、特定のサイトの文書に含まれるキーワードが格納されている。キーワード解析手段は、文書ネットワークの任意のサイトの文書に、キーワードデータ格納部に格納されているキーワードがどの程度含まれるかを解析する。分野判定手段は、キーワード解析手段の解析結果に基づき、任意のサイトが特定の分野のサイトであるかを判定する。

また、同様に関連する技術として、特開２００４−２８０５６９号公報があり、この公報には、調査目的に合致した情報を多く含むサイトを効率的に抽出するための技術が開示されている。具体的には、インターネット上の文書から、Ｗｅｂ文書を巡回収集し、収集された文書と文書ＵＲＬを出力するクローラ部と、上記クローラ部で収集された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第１の風評度算出部と、上記クローラ部で出力された文書ＵＲＬから、各文書の属するサイトＵＲＬを抽出する第１のサイト抽出部と、上記サイトＵＲＬで指定されるサイトの内容的特徴を表すサイト特徴を出力し、サイトＵＲＬとサイト特徴を対応付けてサイト管理テーブルに記憶する第１のサイト特徴算出部と、上記サイト管理テーブルから、システム利用者により指定されたサイトＵＲＬのサイト特徴Ｂを抽出するサイト選択部と、入力された検索条件を基にインターネット上の文書を検索し、検索結果として文書ＵＲＬおよび更新日時を含む文書情報を出力する文書検索部と、文書ＵＲＬ毎の文書情報を記憶するＵＲＬ管理テーブルを参照し、上記文書検索部により出力された文書ＵＲＬのうち、上記ＵＲＬ管理テーブルに登録されていない文書ＵＲＬおよび文書情報が更新されている文書ＵＲＬを新規ＵＲＬとして出力し、上記ＵＲＬ管理テーブルに該新規ＵＲＬの文書情報を登録する新規ＵＲＬ抽出部と、上記新規ＵＲＬの文書をインターネット上から取得するダウンロード部と、上記ダウンロード部で取得された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第２の風評度算出部と、上記新規ＵＲＬから、各文書の属する新規サイトＵＲＬを抽出する第２のサイト抽出部と、上記新規サイトＵＲＬで指定されるサイトの内容的特徴を表すサイト特徴Ａを出力する第２のサイト特徴算出部と、上記サイト特徴Ａと上記サイト特徴Ｂの類似度を算出し、類似度が一定値以上の新規サイトＵＲＬを出力すると共に、当該新規サイトＵＲＬの文書情報をサイト管理テーブルに記録する類似サイト抽出部とを備える。
特開２００１−２８２８３７号公報特開２００４−２８０５６９号公報

ところが、上で述べたような従来技術をそのまま適用しても、スパムブログを抽出することはできない。スパムブログは、旬なキーワード（例えば固有名詞）を一定期間毎に変更して用いているため、ブログ内の複数の記事を対象に類似度を算出するといっても、キーワードの変更時期を意識せずに比較しても正確な類似度は算出できない。上記従来技術では、このような期間によるキーワードの変化については考慮されていない。

さらに、スパムブログでは、旬なキーワードを用いて記事を自動生成するようになっているが、通常のブログでも旬なキーワードが用いられている可能性は高く、単に期間の概念を導入するだけでは、通常のブログまでがスパムブログとして特定されてしまうという問題もある。

従って、本発明の目的は、スパムブログを精度良く検出するための新規な技術を提供することである。

また、本発明の他の目的は、スパムブログの誤検出を防止して精度良くスパムブログを検出するための新規な技術を提供することである。

さらに、本発明の他の目的は、目的の属性を有する文書を精度良く検出するための新規な技術を提供することである。

本発明の第１の態様に係る属性抽出処理方法は、文書毎に当該文書と登録日と属性（例えばＵＲＬ（Uniform Resource Locator））とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される。そして本属性抽出処理方法は、コンテンツ格納部から、特定の単位期間内に登録日が含まれる複数の文書から上記属性の属性値毎に特徴語（例えば、固有名詞、動詞、形容詞など）を抽出し、上記属性の属性値と特定の単位期間と抽出された特徴語とを対応付けてワークコンテンツ格納部に登録するステップと、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ特定の期間に対応付けられている特徴語である第１の特徴語と、対応付けられた属性が第２の属性値であって且つ特定の期間に対応付けられている特徴語である第２の特徴語とを読み出し、第１の特徴語と第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、類似度が所定の条件を満たしている場合には、第２の属性値を出力するステップとを含む。

例えば、スパムブログのキーワード変更周期等をユーザが特定したり、又は何らかの方法で自動的に抽出したりして上記特定の期間として着目することによって、適切な期間における類似度を算出して適切なスパムブログを判別することができるようになる。

また、本発明の第１の態様において、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値である特徴語を単位期間毎に抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間を特定の期間として特定するステップをさらに含むようにしてもよい。このようにすれば、上記特定の期間を自動的に特定することができるようになる。

さらに、上で述べた特定の期間が、当該特定の期間の最初の単位期間と、最後の単位期間とを含むようにしてもよい。この場合、上記判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ最初の単位期間に対応付けられている特徴語である第３の特徴語と、対応付けられた属性が第２の属性値であって且つ最初の単位期間に対応付けられている特徴語である第４の特徴語とを読み出し、第３の特徴語と第４の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ最後の単位期間に対応付けられている特徴語である第５の特徴語と、対応付けられた属性が第２の属性値であって且つ最後の単位期間に対応付けられている特徴語である第６の特徴語とを読み出し、第５の特徴語と第６の特徴語との類似度を算出するステップと、第３の特徴語と第４の特徴語との類似度と第５の特徴語と第６の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。

計算量を減らすために、最初の単位期間と最後の単位期間で類似度を算出するようにしている。例えば最後の単位期間で類似度が閾値未満である場合には、旬なキーワードをたまたま用いていた通常のブログであって、スパムブログではないことがわかる。

さらに、本発明の第１の態様において、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値である特徴語を単位時間毎に抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間及び特徴語の類似度が所定の閾値以上となる隣接単位期間が存在しない場合には単独の単位期間を、特定の期間として特定するステップをさらに含むようにしてもよい。このように、特定の期間については、１つだけではなく複数であっても良い。

さらに、上で述べた判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ第１の特定の期間に対応付けられている特徴語である第７の特徴語と、対応付けられた属性が第２の属性値であって且つ第１の特定の期間に対応付けられている特徴語である第８の特徴語とを読み出し、第７の特徴語と第８の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ第２の特定の期間に対応付けられている特徴語である第９の特徴語と、対応付けられた属性が第２の属性値であって且つ第２の特定の期間に対応付けられている特徴語である第１０の特徴語とを読み出し、第９の特徴語と第１０の特徴語との類似度を算出するステップと、第７の特徴語と第８の特徴語との類似度と第９の特徴語と第１０の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。

例えば、複数の特定の期間のうち、所定割合以上の特定の区間について類似度が閾値以上であれば、属性値を出力するようにしても良い。このようにすれば、より検出精度を上げることができるようになる。

さらに、上で述べた判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ第１の特定の期間内の第１単位期間に対応付けられている特徴語である第１１の特徴語と、対応付けられた属性が第２の属性値であって且つ第１単位期間に対応付けられている特徴語である第１２の特徴語とを読み出し、第１１の特徴語と第１２の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第１の属性値であって且つ第２の特定の期間内の第２単位期間に対応付けられている特徴語である第１３の特徴語と、対応付けられた属性が第２の属性値であって且つ第２の単位期間に対応付けられている特徴語である第１４の特徴語とを読み出し、第１３の特徴語と第１４の特徴語との類似度を算出するステップと、第１１の特徴語と第１２の特徴語との類似度と第１３の特徴語と第１４の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。

最初の単位期間及び最後の単位期間ではなく、例えば特定の期間の中央部分の単位期間について類似度を算出するようにしても良い。例えば、元となるスパムブログの特徴期間と、他のスパムブログの特徴期間にずれがある場合には、特定の期間の中央部分の単位期間を採用する方が精度良く類似度を算出することができ、且つ計算量を削減することができるようになる。

本発明の第２の態様に係る属性抽出処理方法は、第１の文書のデータと、属性を有し且つ１又は複数の範囲に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される。そして、本属性抽出処理方法は、コンテンツ格納部から第１の文書のデータを読み出し、当該第１の文書のデータから特徴語を第１の特徴語として抽出し、比較データ格納部に格納する第１抽出ステップと、コンテンツ格納部から第２の文書のデータを読み出し、特定の範囲に含まれる２以上の範囲における特徴語を第２の特徴語として抽出し、ワークデータ格納部に格納するステップと、比較データ格納部に格納されている第１の特徴語と、ワークデータ格納部に格納されている第２の特徴語との類似度を各範囲について算出するステップと、各範囲について算出された類似度が所定の条件を満たしている場合には、第２の文書の属性を出力するステップとを含む。

このような構成を採用することによって、複数の範囲について類似度が算出され、例えば所定割合以上で類似度が閾値以上といった条件で第２の文書の属性の出力可否を判断することができるため、検出精度が高くなる。

なお、上で述べた第１の文書のデータは、単位期間毎に分割されている場合があり、さらに、上で述べた第２の文書のデータの範囲が、当該単位時間である場合がある。その場合、本発明の第２の態様は、第１の文書のデータから、単位期間毎に特徴語を抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間を特定の範囲として特定するステップをさらに含むようにしてもよい。さらに、上で述べた第１抽出ステップが、上記特定の範囲について実施されるようにしてもよい。このようにすれば、自動的に処理すべき適切な範囲が特定さるようになる。

また、本発明の第２の態様が、第１の文書のデータから、単位時間毎に特徴語を抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間及び特徴語の類似度が所定の閾値以上となる隣接単位時間が存在しない場合には単独の単位期間を、特定の範囲として特定するステップをさらに含むようにしてもよい。このようにすれば、複数の適切な特定の範囲を自動抽出することができるようになる。

さらに、上で述べた特定の範囲に含まれる２以上の範囲が、特定の範囲のうち最初の単位期間と、特定の範囲のうち最後の単位時間とを含むようにしてもよい。計算量を削減するためである。

なお、本方法は、コンピュータと当該コンピュータによって実行されるプログラムとの組み合わせにて実行される場合があり、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

本発明によれば、スパムブログを精度良く検出することができるようになる。

また、本発明の他の側面によれば、スパムブログの誤検出を防止して精度良くスパムブログを検出することができるようになる。

さらに、本発明の他の側面によれば、目的の属性を有する文書を精度良く検出することができるようになる。

［実施の形態１］
本発明の第１の実施の形態に係るシステム概要図を図２に示す。例えばインターネットであるネットワーク１には、ブログ記事の配信を行う複数のブログサーバ５と、通常のブログ記事を作成してブログサーバ５に登録するための複数のブロガ端末７と、スパムブログ記事を作成してブログサーバ５に登録するための複数のスパムブロガ端末９と、本実施の形態における主要な処理を実施する解析サーバ３とが接続されている。また、解析サーバ３は、解析サーバ３を利用する企業などのＬＡＮ（Local Area Network）１３に接続されており、ＬＡＮ１３には、管理者が操作する管理者端末１１が接続されている。

なお、ブロガ端末７によってブログサーバ５にブログ記事を登録する処理、スパムブロガ端末９によってスパムブログ記事を生成してブログサーバ５にスパムブログ記事を登録する処理、ブログサーバ５がブログ記事のデータを配信する処理については、周知であるからここではこれ以上述べない。

また、解析サーバ３は、ブログ記事を収集する処理を実施するブログ収集部３１と、ブログ記事から固有名詞（場合によっては動詞や形容詞などの場合もある）を抽出する処理を実施する固有名詞抽出部３２と、固有名詞の出現状況の遷移を分析する固有名詞遷移分析部３３と、スパムと認定されているスパムブログと分析対象とを比較する期間を決定するための処理を実施する比較期間決定部３４と、類似スパムＵＲＬを特定するための処理を実施する類似スパムＵＲＬ特定部３５と、ブログ収集部３１によって収集されたブログ記事を蓄積するブログＤＢ３６と、ブログＤＢ３６に蓄積されたブログ記事に対して固有名詞抽出部３２が処理を行った結果を格納するワークＤＢ４０と、ワークＤＢ４０等のデータを用いて固有名詞遷移分析部３３が処理を行った結果を格納する固有名詞リスト３７と、固有名詞リスト３７等を用いて比較期間決定部３４が処理を行った結果を格納する比較設定リスト３８と、比較設定リスト３８等を用いて類似スパムＵＲＬ特定部３５が処理を行った結果を格納するスパム認定ＵＲＬリスト３９と、処理途中のデータを格納するワークメモリ４１と、処理において用いられる閾値データを格納する閾値データ格納部４２とを含む。

次に、図２に示したシステムの、第１の実施の形態に係る処理について図３乃至図１９を用いて説明する。最初に、解析サーバ３のブログ収集部３１は、複数のブログサーバ５からブログ記事を収集して、ブログＤＢ３６に蓄積する（ステップＳ１）。蓄積する際には、ＵＲＬ、記事本文、ブログサーバ５への登録日時（又は公開日時）を登録する。なお、この本処理については、周知であるからこれ以上述べない。そして、固有名詞抽出部３２は、ブログＤＢ３６に蓄積されているブログ記事の記事本文から固有名詞を抽出する固有名詞抽出処理を実施し、単位期間（例えば１月）でまとめて、ＵＲＬ、該当単位期間、固有名詞を、ワークＤＢ４０に登録する（ステップＳ３）。例えば、図４に示すようなデータが、ワークＤＢ４０に登録される。図４の例では、ＵＲＬ、期間（すなわち該当単位期間）、固有名詞群とが、ＵＲＬ及び期間の組み合わせ毎に格納されている。単位期間は、月の例を示しているが、週や日であってもよい。

その後、類似スパムＵＲＬ検出処理が実施される（ステップＳ５）。この類似スパムＵＲＬ検出処理については、図５乃至図１９を用いて詳細に説明する。

まず、管理者は管理者端末１１を操作して、予めスパムブログとして判明しているブログのＵＲＬを入力して、処理の開始を指示する。管理者端末１１は、スパムＵＲＬの入力を受け付け、当該スパムＵＲＬを含む処理開始指示を、解析サーバ３に送信する。解析サーバ３は、管理者端末１１からスパムＵＲＬを含む処理開始指示を受信し、スパムＵＲＬをワークメモリ４１に格納する（ステップＳ１１）。そうすると、解析サーバ３は、固有名詞遷移分析部３３を起動させ、固有名詞遷移分析部３３は、固有名詞遷移分析処理を実施する（ステップＳ１３）。この処理については、以下で詳細に説明する。上でも述べたように、処理結果は、固有名詞リスト３７に格納される。

その後、比較期間決定部３４が起動され、比較期間決定部３４は、固有名詞リスト３７のデータを用いて比較期間決定処理を実施する（ステップＳ１５）。この処理についても、以下で詳細に説明する。上でも述べたように、処理結果は、比較設定リスト３８に格納される。

そして、類似スパムＵＲＬ特定部３５が起動され、類似スパムＵＲＬ特定部３５は、比較設定リスト３８のデータを用いて類似スパムＵＲＬ特定処理を実施する（ステップＳ１７）。この処理についても、以下で詳細に説明する。上でも述べたように、処理結果は、スパム認定ＵＲＬリスト３９に格納される。類似スパムＵＲＬ特定部３５は、スパム認定ＵＲＬリスト３９に格納されているＵＲＬから、管理者端末１１から受信したスパムＵＲＬを除外したＵＲＬのリストを、管理者端末１１に送信する（ステップＳ１９）。管理者端末１１は、解析サーバ３からＵＲＬのリストを受信し、表示装置に表示する。

これによって、管理者は、スパムブログとみなされるブログのＵＲＬを特定することができ、さらに解析サーバ３に、スパム認定ＵＲＬリスト３９に登録されているブログを除外してマーケティングデータ抽出処理を実施させることによって、精度の良いデータを取得することも可能となる。マーケティングデータ抽出処理は、様々なものがあり、本発明の主旨ではないので、これ以上述べない。

次に、固有名詞遷移分析処理（ステップＳ１３）について図６乃至図１０を用いて説明する。まず、固有名詞遷移分析部３３は、ワークメモリ４１から受信スパムＵＲＬを読み出し、当該受信スパムＵＲＬに該当するデータをワークＤＢ４０から抽出する（ステップＳ２１）。例えば、図７に示すようなhttp://xxxが受信スパムＵＲＬであれば、図４に示したワークＤＢ４０からhttp://xxxがＵＲＬとして登録されているレコードを読み出す。例えば図８に示すようなデータが抽出される。すなわち、Ａｕｇ２００７、Ｓｅｐ２００７、Ｏｃｔ２００７、Ｎｏｖ２００７を該当単位期間とするレコードが抽出され、例えばワークメモリ４１に格納する。

次に、固有名詞遷移分析部３３は、該当単位期間をキーに抽出データをソートし、ワークメモリ４１に格納する（ステップＳ２３）。図８の例では既にソート済みとなっている。そして、最初のデータ（第１行目のレコード）をベースデータとして保持する（ステップＳ２５）。さらに、次の期間のデータがワークメモリ４１に格納されているか判断する（ステップＳ２７）。Ａｕｇ２００７のデータがベースデータに設定されているとすると、Ｓｅｐ２００７のデータが存在するので、ステップＳ２９に移行する。

次の期間のデータが存在する場合には、固有名詞遷移分析部３３は、次の期間のデータを読み出して現在データとして設定し、ベースデータと現在データの固有名詞についての類似度を算出する（ステップＳ２９）。例えば、Ａｕｇ２００７の固有名詞と、Ｓｅｐ２００７の固有名詞とを比較すると、一致する固有名詞は０と判断され、類似度０と算出される。

そうすると、固有名詞遷移分析部３３は、閾値データ格納部４２から類似度閾値を読み出し、算出された類似度が当該類似度閾値以上であるか判断する（ステップＳ３１）。閾値データ格納部４２には、例えば図９に示されているようなデータが格納されている。すなわち、類似度閾値と期間数閾値とが格納されるようになっており、ここでは期間数閾値はまだ決定されていない。上で述べた例では、Ａｕｇ２００７についての類似度は０であって、類似度閾値が３であるとすると、類似度は閾値未満と判断される。

類似度が類似度閾値未満である場合には、固有名詞遷移分析部３３は、固有名詞リスト３７にデータが登録済みであるか判断する（ステップＳ３３）。データが登録済みであれば、既に連続する２以上の単位期間についてのデータが固有名詞リスト３７に登録されていることになるので、このように連続する２以上の単位期間についてのデータを比較元のデータとして用いるものとする。従って、端子Ｂを介して元の処理に戻る。本実施の形態における固有名詞遷移分析処理では、このように連続する２以上の単位期間で構成される１の期間を特定することが特徴である。

一方、固有名詞リスト３７にデータが登録済みではない場合には、固有名詞遷移分析部３３は、現在データをベースデータに設定する（ステップＳ３５）。上で述べた例では、Ａｕｇ２００７のデータの代わりにＳｅｐ２００７のデータがベースデータに設定される。そしてステップＳ２７に戻る。

Ｓｅｐ２００７のデータがベースデータとすると、Ｏｃｔ２００７のデータが現在データと設定され、Ｓｅｐ２００７の固有名詞と、Ｏｃｔ２００７の固有名詞とを比較すると、図８からわかるように、類似度３となる。これで類似度は、類似度閾値３以上となる。

ステップＳ３１で、類似度が類似度閾値以上であると判断されると、固有名詞遷移分析部３３は、一致した名詞と両期間を固有名詞リスト３７に登録する（ステップＳ３７）。上で述べた例では、Ｓｅｐ２００７及びＯｃｔ２００７と、一致した固有名詞（Ｂ，Ｄ，Ｅ）を固有名詞リスト３７に登録する。そして、処理は端子Ａを介してステップＳ２７に戻る。

上で述べた例では、Ｎｏｖ２００７のデータが現在データに設定され、固有名詞遷移分析部３３がＳｅｐ２００７の固有名詞とＮｏｖ２００７の固有名詞との類似度を算出すると、「４」が得られる。従って、ステップＳ３７に遷移して、Ｎｏｖ２００７及び固有名詞（Ａ，Ｃ）が登録される。なお、重複登録は行わないので、Ｓｅｐ２００７及び固有名詞（Ｂ，Ｄ，Ｅ）についてはこの段階では登録されない。このように処理すると図８に示したデータをすべて処理したことになる。この段階で、固有名詞リスト３７には、図１０に示すようなデータが登録されている。

よって、ステップＳ２７で次の期間のデータが存在しないと判断されると、固有名詞遷移分析部３３は、固有名詞リスト３７にデータが登録済みであるか判断する（ステップＳ３９）。固有名詞リスト３７にデータが登録済みであれば、元の処理に戻る。

一方、固有名詞リスト３７にデータが登録済みでなければ、固有名詞遷移分析部３３は、異常終了を管理者端末１１に送信する（ステップＳ４１）。以降の処理を実施しない。

本実施の形態では、異常終了するような例を示したが、例えばステップＳ２３でソートされた結果における最初のデータを固有名詞リスト３７に登録するようにして以下の処理を実施するようにしてもよい。また、以下の処理では、最初の月と最後の月とを抽出するような処理が行われるので、単位期間を変更して、最初の日又は週と、最後の日又は週を選択して、それに該当する固有名詞を固有名詞リスト３７に登録するようにしてもよい。さらに、異常終了せずに、単位期間を変更した上で、上記処理をやり直すようにしてもよい。

次に、図１１及び図１２を用いて、比較期間決定処理について説明する。まず、比較期間決定部３４は、固有名詞リスト３７から固有名詞を読み出し、比較設定リスト３８に登録する（ステップＳ５１）。また、固有名詞リスト３７に登録された期間をソートする（ステップＳ５３）。図６の処理で既にソートされて順番に並べられているが、念のためソートする。図１０の例では、Ｓｅｐ２００７、Ｏｃｔ２００７、Ｎｏｖ２００７の順番に並べられる。そして、ソート後の期間のうち最初と最後の単位期間を比較設定リスト３８に登録する（ステップＳ５５）。上の例では、Ｓｅｐ２００７及びＮｏｖ２００７が登録される。従って、比較設定リスト３８には、例えば図１２に示すようなデータが登録される。

このように、比較期間決定処理では、最初の単位期間と最後の単位期間とを選択して、以下の処理で比較を行うので、期間全体を比較するよりも計算量を削減することができる。

なお、本実施の形態では、比較すべき期間を自動的に抽出するような処理を行っているが、例えば管理者端末１１から管理者が特定の期間を比較すべき期間として指定するようにしてもよい。

次に、図１３乃至図１９を用いて類似スパムＵＲＬ特定処理について説明する。まず、類似スパムＵＲＬ特定部３５は、比較設定リスト３８を読み出す（ステップＳ６１）。そして、比較設定リスト３８における期間数に応じて期間数閾値を閾値データ格納部４２に設定する（ステップＳ６３）。例えば、比較設定リスト３８に図１２に示すように２つの期間（Ｓｅｐ２００７及びＮｏｖ２００７）が格納されている場合には、図１４に示すように、「２」を期間数閾値として設定する。但し、期間数をそのまま期間数閾値に設定するのではなく、多少の調整（調整係数倍するなど）を行うようにしてもよい。

さらに、類似スパムＵＲＬ特定部３５は、比較設定リスト３８における評価対象期間のいずれかと一致しかつ固有名詞のいずれかが含まれるデータを、ワークＤＢ４０から抽出し、ワークメモリ４１の抽出リストに格納する（ステップＳ６５）。例えば、Ｓｅｐ２００７と固有名詞Ａ乃至Ｅのいずれかが含まれるレコードのうち、ＵＲＬとＳｅｐ２００７と該当する固有名詞とを、ワークメモリ４１に格納する。同様に、Ｎｏｖ２００７と固有名詞Ａ乃至Ｅのいずれかが含まれるレコードのうち、ＵＲＬとＮｏｖ２００７と該当する固有名詞とを、ワークメモリ４１に格納する。そうすると、図１５に示すようなデータがワークメモリ４１の抽出リストに格納される。なお、本ステップでは、受信スパムＵＲＬ（上の例ではhttp://xxx）については、処理対象から除外するようにしてもよい。

次に、類似スパムＵＲＬ特定部３５は、ワークメモリ４１の抽出リストにおいてＵＲＬ及び期間が同一のレコードをカウントし、ＵＲＬ、期間及びカウント数をワークメモリ４１内の類似度リストに登録する（ステップＳ６７）。例えば、http://xxx及びＳｅｐ２００７の組み合わせは、５レコード存在する。http://yyy及びＳｅｐ２００７の組み合わせは、３レコード存在する。このようにカウントしてゆくと、図１６に示すような類似度リストが生成される。すなわち、ＵＲＬと、期間と、カウント数とが格納されている。

その後、類似スパムＵＲＬ特定部３５は、類似度リストの中で類似度閾値以上のカウント数を有するレコードを抽出し、ワークメモリ４１内の類似リストに登録する（ステップＳ６９）。類似度閾値については、図１４に示したとおりであって、本例では「３」である。従って、図１６の類似度リストにおいては、５行目だけが閾値未満となり、類似リストに登録されない。類似リストは、例えば図１７のようなデータを格納するようになる。図１７の例では、ＵＲＬと期間のみが登録される。

そして、類似スパムＵＲＬ特定部３５は、類似リストにおいてＵＲＬが同一のレコード数をカウントしてワークメモリ４１内のスコアリストに登録する（ステップＳ７１）。図１７のような類似リストが得られている場合には、http://xxx、http://yyy、http://xyz毎にカウントを行うと、図１８に示すようなスコアリストが得られる。すなわち、http://xxx及びhttp://xyzについてはスコアが２で、http://yyyについてはスコアが１である。これは、http://yyyについては、たまたまＳｅｐ２００７では同じような固有名詞を用いた記事があったが、Ｎｏｖ２００７では使用している固有名詞が異なっていることを示している。すなわち、旬な固有名詞をたまたま使っていたに過ぎない普通のブログである。

最後に、類似スパムＵＲＬ特定部３５は、ワークメモリ４１内のスコアリストにおいて期間数閾値以上のスコアを有するＵＲＬを抽出し、スパム認定ＵＲＬリスト３９に登録する（ステップＳ７３）。ステップＳ６３で決定されたように、期間数閾値は「２」であり、これによって、図１９に示すように、http://xxx及びhttp://xyzがスパム認定ＵＲＬリスト３９に登録される。なお、http://xxxについては、管理者によって指定されたスパムＵＲＬであるから、http://xyzのみが新たに判明したスパムＵＲＬということになる。

以上説明したように、本実施の形態では、入力されたスパムＵＲＬについて、固有名詞の出現がある程度同じである２以上の連続する単位期間を、比較対象期間として１つだけ抽出している。そして、計算量削減のため、比較対象期間の最初の単位期間と最後の単位期間について、類似度を算出して、比較対象期間中に同じように類似度が高い状態が維持されるか確認する。これによって、たまたま類似度が高くなってしまったブログをスパムブログとして抽出することなく、入力されたスパムＵＲＬと同様に、比較対象期間において類似する固有名詞を使用しているスパムブログを特定することができるようになる。

上で述べたように、比較対象期間については、わかっていれば管理者によって指定するようにしてもよい。そのような場合には、入力されたスパムＵＲＬについて、単純に比較対象期間に使用されている固有名詞を抽出して比較設定リスト３８に登録するようにしてもよい。また、比較対象期間に含まれる１つの単位期間（例えば比較対象期間の中央の単位期間）に使用されている固有名詞を抽出して比較設定リスト３８に登録するようにしてもよい。さらに、比較対象期間に含まれる各単位期間に共通する固有名詞を抽出して比較設定リスト３８に登録するようにしてもよい。

［実施の形態２］
第１の実施の形態では、固有名詞遷移分析処理において１つの比較対象期間のみを特定するようになっているが、本実施の形態では、固有名詞遷移分析処理において、類似度を基準として比較対象期間を、出現する毎に特定するものとする。

なお、図２のシステム概要は本実施の形態でも同じであり、第１の実施の形態とは固有名詞遷移分析処理及び比較期間決定処理が異なる。以下、図２０乃至図２７を用いてこれらの処理について説明し、最後に図２８乃至図３３で、比較期間決定処理で生成された比較設定リストがどのように類似スパムＵＲＬ特定処理（図１３）で処理されるかを説明する。

まず、第２の実施の形態における固有名詞遷移分析処理を図２０乃至図２５を用いて説明する。まず、固有名詞遷移分析部３３は、ワークＤＢ４０から受信スパムＵＲＬのデータを抽出し、ワークメモリ４１に格納する（ステップＳ８１）。そして、抽出データを期間でソートし、ワークメモリ４１内の入力ＵＲＬ抽出リストに登録する（ステップＳ８３）。例えば、図４に示したようなデータがワークＤＢ４０に格納されている場合には、入力ＵＲＬ抽出リストは、図２１に示すようなデータとなる。次に、入力ＵＲＬ抽出リストから最初のレコードを読み出し、ベースデータに設定するとともに、含まれる固有名詞をスタックする（ステップＳ８５）。例えば、この段階でベースデータは、図２２（ａ）に示すように、入力ＵＲＬ抽出リストの第１行目と同じになる。また、固有名詞Ｈ乃至Ｍがスタックされる。

そして、固有名詞遷移分析部３３は、入力ＵＲＬ抽出リストにおいて次の期間のレコードが存在しているか判断する（ステップＳ８７）。上で述べた例では、Ａｕｇ２００７がベースデータであるので、次の期間Ｓｅｐ２００７のレコードが存在している。入力ＵＲＬ抽出リストにおいて次の期間のレコードが存在していれば、入力ＵＲＬ抽出リストにおいて次の期間のデータを読み出して現在データに設定するとともに、現在データの固有名詞とベースデータの固有名詞の類似度を算出する（ステップＳ８９）。上で述べた例において、Ａｕｇ２００７の固有名詞とＳｅｐ２００７の固有名詞とでは一致する固有名詞がないので、類似度は０となる。ここで、算出された類似度が閾値データ格納部４２に格納されている類似度閾値以上であるか判断する（ステップＳ９１）。閾値データ格納部４２には、例えば図２３に示されるように、類似度閾値が「３」と設定されており、期間数閾値がｎｕｌｌ（未設定）と設定されている。従って、上で述べた例では、類似度閾値未満と判断される。

算出された類似度が類似度閾値未満である場合には、固有名詞遷移分析部３３は、ベースデータの期間、現在データの１つ前の期間、スタック内の固有名詞を、固有名詞リスト３７に登録する（ステップＳ９３）。上で述べた例では、Ａｕｇ２００７、Ａｕｇ２００７、固有名詞Ｈ乃至Ｍを固有名詞リスト３７に登録する。この段階で、固有名詞リスト３７には、図２４に示すようなデータが登録される。なお、スタック内の固有名詞はポップされるので、ステップＳ９３では空になる。そして、現在データをベースデータに設定し（ステップＳ９５）、現在データの固有名詞を、スタックする（ステップＳ９７）。ここでは、固有名詞Ａ乃至Ｅがスタックされる。その後ステップＳ８７に戻る。ステップＳ９５で、ベースデータは図２２（ｂ）に示すような状態になる。

ステップＳ８７に戻って、Ｓｅｐ２００７の次の期間のＯｃｔ２００７のレコードが存在しているので、ステップＳ８９に移行して、Ｏｃｔ２００７のレコードが現在データに設定され、ベースデータと現在データの類似度が算出される。図２２（ｂ）と図２１の３行目とを比較すると、３つの固有名詞が一致するので類似度は「３」となる。上で述べたように、類似度閾値は３であるから、算出された類似度は類似度閾値以上であると判断される。

ステップＳ９１で、算出された類似度が類似度閾値以上であると判断されると、固有名詞遷移分析部３３は、現在データの固有名詞をスタックする（ステップＳ９７）。但し、重複する固有名詞はスタックしない。上で述べた例では、この段階で、固有名詞Ｆ及びＧがスタックされる。そしてステップＳ８７に戻る。

ステップＳ８７に戻って、Ｏｃｔ２００７の次の期間のＮｏｖ２００７のレコードが存在しているので、ステップＳ８９に移行して、Ｎｏｖ２００７のレコードが現在データに設定され、ベースデータと現在データの類似度が算出される。図２２（ｂ）と図２１の４行目とを比較すると、４つの固有名詞が一致するので類似度は「４」となる。上で述べたように、類似度閾値は３であるから、算出された類似度は類似度閾値以上であると判断される。この後、現在データの固有名詞をスタックすることになるが、現在データの固有名詞は既にすべてスタックされているので、ステップＳ８７に移行する。ステップＳ８７に戻って、Ｎｏｖ２００７の次の期間のレコードは存在していないことがわかる。

ステップＳ８７で、入力ＵＲＬ抽出リストにおいて次の期間のレコードが存在していないと判断された場合には、固有名詞遷移分析部３３は、ベースデータの期間、最後のデータの期間、スタック内の固有名詞を、固有名詞リスト３７に登録する（ステップＳ９９）。そして元の処理に戻る。

このような処理を実施すれば、図２５に示すようなデータが、固有名詞リスト３７に登録されるようになる。

すなわち、上でも述べたように、管理者に指定されたスパムＵＲＬについて、類似度が閾値以上となっている期間をすべて抽出して関係する固有名詞と共に固有名詞リスト３７に登録することができる。

次に、図２６及び図２７を用いて第２の実施の形態における比較期間決定処理について説明する。比較期間決定部３４は、固有名詞リスト３７から最初のデータを読み出す（ステップＳ１０１）。そして、開始期間及び終了期間が一致しているか判断する（ステップＳ１０３）。図２５に示した例においてＡｕｇ２００７のレコードについては、開始期間及び終了期間が一致している。

開始期間及び終了期間が一致している場合には、比較期間決定部３４は、開始期間を、読み出した固有名詞と共に比較設定リスト３８に登録する（ステップＳ１０７）。そして、固有名詞リスト３７において次のデータが存在するか判断する（ステップＳ１０９）。次のデータが存在する場合には、次のデータを固有名詞リスト３７から読み出し（ステップＳ１１１）、ステップＳ１０３に戻る。図２５に示した例では次のデータが存在するので、次のデータを読み出す。

そして、次のデータにおいて開始期間と終了期間が一致しているか判断すると、Ｓｅｐ２００７とＮｏｖ２００７とで不一致である。

ステップＳ１０３で開始期間と終了期間が不一致であると判断された場合には、終了期間と、読み出した固有名詞とを比較設定リスト３８に登録する（ステップＳ１０５）。そして、ステップＳ１０７に移行する。

このように、固有名詞リスト３７において開始期間と終了期間とが不一致の場合には、２レコードに分割して比較設定リスト３８に登録する。

ここまで処理すると、上で述べた例では、図２７に示すようなデータが比較設定リスト３８に登録されるようになる。このように、比較対象期間が３単位期間分特定されており、その各単位期間について関係する固有名詞が列挙される。

この後に実施される類似スパムＵＲＬ特定処理については、第１の実施の形態とほぼ同じである。但し、図１２と図２７とでは比較設定リスト３８の形式及びレコード数が異なるので、多少処理が異なっている。

図１３のステップＳ６３では、図２７に示すように期間の数が３なので、図２８に示したように、期間数閾値が「３」にセットされる。ステップＳ６５では、図２７に示すようにＡｕｇ２００７のデータも含まれるので抽出されるデータの量も増加して、図２９に示すようなデータがワークＤＢ４０から抽出されて、ワークメモリ４１内の抽出リストに登録される。さらに、ステップＳ６７では、ＵＲＬと期間との組み合わせでレコード数をカウントして、ワークメモリ４１内の類似リストに登録するが、Ａｕｇ２００７の分のレコードが追加されることになる。具体的には、図３０に示すようなデータが類似度リストに登録される。

図２８に示したように類似度閾値は「３」であるから、ステップＳ６９において、図３０に示した類似度リストにおいて類似度が３以上のレコードが、類似リストに登録される。具体的には、図３１に示すような類似リストがワークメモリ４１に登録される。そして、ステップＳ７１において、ＵＲＬ毎にレコード数をカウントすると、図３２に示すようなスコアリストがワークメモリ４１に格納されるようになる。図２８に示したように、この実施の形態では、期間数閾値は「３」であるので、ステップＳ７３では、スパム認定ＵＲＬリスト３９には、図３３に示すようなデータが格納されるようになる。以上のように、第１の実施の形態と同様の結果を得ることができる。

本実施の形態では、比較対象期間が、管理者によって指定されたスパムＵＲＬの内容がほぼ同じ期間をできる限り抽出して、その最初の単位期間及び最後の単位期間の両方で比較することによって、より精度良くスパムＵＲＬを特定することができるようになる。

［実施の形態３］
実施の形態１における比較期間決定処理においては、管理者によって指定されたスパムＵＲＬにおいて固有名詞の出現状況がほぼ一定の期間の最初の単位期間及び最後の単位期間を特定するものであったが、スパムＵＲＬの検出精度を上げるためには、例えば図３４に示すような処理を実施する。

具体的には、比較期間決定部３４は、固有名詞リスト３７を比較設定リスト３８にコピーする（ステップＳ１２１）。このようにすれば、図１０に示すようなデータが比較設定リスト３８に設定される。このようにすると、後続の類似スパムＵＲＬ特定処理において、Ｓｅｐ２００７、Ｏｃｔ２００７及びＮｏｖ２００７の単位期間ごとに類似度が判定され、各単位期間において類似度が高くないと、スパム認定ＵＲＬリスト３９に登録されない。なお、期間数閾値については、比較設定リスト３８内の期間数をそのまま期間数閾値に設定するのではなく、例えば期間数×０．９といったように、誤差を考慮して調整するようにしてもよい。

以上本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。例えば、図２に示した解析サーバ３の機能ブロック図は必ずしも実際のプログラムモジュール構成に対応しない場合もある。

さらに、処理フローについても、処理結果が変わらない限り変更することが可能である。

また、最後にスパム認定ＵＲＬリスト３９の内容を管理者端末１１に送信する例を示したが、出力せずに、解析サーバ３における他の処理の入力に用いるようにしてもよい。

なお、上で述べたブロガ端末７、スパムブロガ端末９、ブログサーバ５、解析サーバ３、管理者端末１１においては、図３５に示すように、メモリ２５０１（記憶部）とＣＰＵ２５０３（処理部）とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。ＯＳ及びＷｅｂブラウザを含むアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。このようなコンピュータは、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

（付記１）
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ特定の期間に対応付けられている特徴語である第１の特徴語と、対応付けられた前記属性が第２の属性値であって且つ前記特定の期間に対応付けられている特徴語である第２の特徴語とを読み出し、前記第１の特徴語と前記第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第２の属性値を出力するステップと、
を含む属性抽出処理方法。

（付記２）
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値である特徴語を単位期間毎に抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間を前記特定の期間として特定するステップ
をさらに含む付記１記載の属性抽出処理方法。

（付記３）
前記特定の期間が、当該特定の期間の最初の単位期間と、最後の単位期間とを含み、
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ前記最初の単位期間に対応付けられている特徴語である第３の特徴語と、対応付けられた前記属性が第２の属性値であって且つ前記最初の単位期間に対応付けられている特徴語である第４の特徴語とを読み出し、前記第３の特徴語と前記第４の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ前記最後の単位期間に対応付けられている特徴語である第５の特徴語と、対応付けられた前記属性が第２の属性値であって且つ前記最後の単位期間に対応付けられている特徴語である第６の特徴語とを読み出し、前記第５の特徴語と前記第６の特徴語との類似度を算出するステップと、
前記第３の特徴語と前記第４の特徴語との類似度と前記第５の特徴語と前記第６の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記１記載の属性抽出処理方法。

（付記４）
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値である特徴語を単位時間毎に抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間及び前記特徴語の類似度が所定の閾値以上となる隣接単位期間が存在しない場合には単独の単位期間を、前記特定の期間として特定するステップ
をさらに含む付記１記載の属性抽出処理方法。

（付記５）
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ第１の前記特定の期間に対応付けられている特徴語である第７の特徴語と、対応付けられた前記属性が第２の属性値であって且つ第１の前記特定の期間に対応付けられている特徴語である第８の特徴語とを読み出し、前記第７の特徴語と前記第８の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ第２の前記特定の期間に対応付けられている特徴語である第９の特徴語と、対応付けられた前記属性が第２の属性値であって且つ第２の前記特定の期間に対応付けられている特徴語である第１０の特徴語とを読み出し、前記第９の特徴語と前記第１０の特徴語との類似度を算出するステップと、
前記第７の特徴語と前記第８の特徴語との類似度と前記第９の特徴語と前記第１０の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記４記載の属性抽出処理方法。

（付記６）
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ第１の前記特定の期間内の第１単位期間に対応付けられている特徴語である第１１の特徴語と、対応付けられた前記属性が第２の属性値であって且つ前記第１単位期間に対応付けられている特徴語である第１２の特徴語とを読み出し、前記第１１の特徴語と前記第１２の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ第２の前記特定の期間内の第２単位期間に対応付けられている特徴語である第１３の特徴語と、対応付けられた前記属性が第２の属性値であって且つ前記第２の単位期間に対応付けられている特徴語である第１４の特徴語とを読み出し、前記第１３の特徴語と前記第１４の特徴語との類似度を算出するステップと、
前記第１１の特徴語と前記第１２の特徴語との類似度と前記第１３の特徴語と前記第１４の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記４記載の属性抽出処理方法。

（付記７）
第１の文書のデータと、属性を有し且つ１又は複数の範囲に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から前記第１の文書のデータを読み出し、当該第１の文書のデータから特徴語を第１の特徴語として抽出し、前記比較データ格納部に格納する第１抽出ステップと、
前記コンテンツ格納部から前記第２の文書のデータを読み出し、特定の範囲に含まれる２以上の範囲における特徴語を第２の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
前記比較データ格納部に格納されている前記第１の特徴語と、前記ワークデータ格納部に格納されている前記第２の特徴語との類似度を各前記範囲について算出するステップと、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第２の文書の属性を出力するステップと、
を含む属性抽出処理方法。

（付記８）
前記第１の文書のデータは、単位期間毎に分割されており、
前記第２の文書のデータの範囲が、前記単位時間であり、
前記第１の文書のデータから、前記単位期間毎に特徴語を抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間を前記特定の範囲として特定するステップ
をさらに含み、
前記第１抽出ステップが、前記特定の範囲について実施される
付記７記載の属性抽出処理方法。

（付記９）
前記第１の文書のデータは、単位期間毎に分割されており、
前記第２の文書のデータの範囲が、前記単位時間であり、
前記第１の文書のデータから、前記単位時間毎に特徴語を抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間及び前記特徴語の類似度が所定の閾値以上となる隣接単位時間が存在しない場合には単独の単位期間を、前記特定の範囲として特定するステップ
をさらに含み、
前記第１抽出ステップが、前記特定の範囲について実施される
付記７記載の属性抽出処理方法。

（付記１０）
前記特定の範囲に含まれる２以上の範囲が、前記特定の範囲のうち最初の単位期間と、前記特定の範囲のうち最後の単位時間とを含む
付記８記載の属性抽出処理方法。

（付記１１）
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータに、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ特定の期間に対応付けられている特徴語である第１の特徴語と、対応付けられた前記属性値が第２の属性値であって且つ前記特定の期間に対応付けられている特徴語である第２の特徴語とを読み出し、前記第１の特徴語と前記第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第２の属性値を出力するステップと、
を実行させるための属性抽出処理プログラム。

（付記１２）
第１の文書のデータと、属性を有し且つ１又は複数の範囲に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータに、
前記コンテンツ格納部から前記第１の文書のデータを読み出し、当該第１の文書のデータから特徴語を第１の特徴語として抽出し、前記比較データ格納部に格納する第１抽出ステップと、
前記コンテンツ格納部から前記第２の文書のデータを読み出し、特定の範囲に含まれる２以上の範囲における特徴語を第２の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
前記比較データ格納部に格納されている前記第１の特徴語と、前記ワークデータ格納部に格納されている前記第２の特徴語との類似度を各前記範囲について算出するステップと、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第２の文書の属性を出力するステップと、
を実行させるための属性抽出処理プログラム。

（付記１３）
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けてワークコンテンツ格納部に登録する手段と、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第１の属性値であって且つ特定の期間に対応付けられている特徴語である第１の特徴語と、対応付けられた前記属性値が第２の属性値であって且つ前記特定の期間に対応付けられている特徴語である第２の特徴語とを読み出し、前記第１の特徴語と前記第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断手段と、
前記類似度が所定の条件を満たしている場合には、前記第２の属性値を出力する手段と、
を有する属性抽出処理装置。

（付記１４）
第１の文書のデータと、属性を有し且つ１又は複数の範囲に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、
前記コンテンツ格納部から前記第１の文書のデータを読み出し、当該第１の文書のデータから特徴語を第１の特徴語として抽出し、比較データ格納部に格納する第１抽出手段と、
前記コンテンツ格納部から前記第２の文書のデータを読み出し、特定の範囲に含まれる２以上の範囲における特徴語を第２の特徴語として抽出し、ワークデータ格納部に格納する第２抽出手段と、
前記比較データ格納部に格納されている前記第１の特徴語と、前記ワークデータ格納部に格納されている前記第２の特徴語との類似度を各前記範囲について算出する手段と、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第２の文書の属性を出力する手段と、
を有する属性抽出処理装置。

スパムブログを生成する際の処理を示す模式図である。本発明の実施の形態におけるシステム概要図である。本発明の実施の形態におけるメインの処理フローを示す図である。ワークＤＢに格納されるデータの一例を示す図である。類似スパムＵＲＬ検出処理の処理フローを示す図である。本発明の第１の実施の形態にかかる固有名詞遷移分析処理の処理フローを示す図である。スパムブログＵＲＬの一例を示す図である。入力ＵＲＬ抽出リストの一例を示す図である。本発明の第１の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。本発明の第１の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。本発明の第１の実施の形態における比較期間決定処理の処理フローを示す図である。本発明の第１の実施の形態における比較設定リストに格納されるデータの一例を示す図である。類似スパムＵＲＬ特定処理の処理フローを示す図である。本発明の第１の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。本発明の第１の実施の形態における抽出リストに格納されるデータの一例を示す図である。本発明の第１の実施の形態における類似度リストに格納されるデータの一例を示す図である。本発明の第１の実施の形態における類似リストに格納されるデータの一例を示す図である。本発明の第１の実施の形態におけるスコアリストに格納されるデータの一例を示す図である。本発明の第１の実施の形態におけるスパム認定ＵＲＬリストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における固有名詞遷移分析処理の処理フローを示す図である。本発明の第２の実施の形態における入力ＵＲＬ抽出リストに格納されるデータの一例を示す図である。（ａ）及び（ｂ）は、本発明の第２の実施の形態におけるベースデータを示す図である。本発明の第２の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。本発明の第２の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における比較期間決定処理の処理フローを示す図である。本発明の第２の実施の形態における比較設定リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。本発明の第２の実施の形態における抽出リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における類似度リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態における類似リストに格納されるデータの一例を示す図である。本発明の第２の実施の形態におけるスコアリストに格納されるデータの一例を示す図である。本発明の第２の実施の形態におけるスパム認定ＵＲＬリストに格納されるデータの一例を示す図である。本発明の第３の実施の形態の比較期間決定処理の処理フローを示す図である。コンピュータの機能ブロック図である。

符号の説明

１ネットワーク３解析サーバ
５ブログサーバ７ブロガ端末
９スパムブロガ端末１１管理者端末
１３ＬＡＮ
３１ブログ収集部３２固有名詞抽出部
３３固有名詞遷移分析部３４比較期間決定部
３５類似スパムＵＲＬ特定部３６ブログＤＢ
３７固有名詞リスト３８比較設定リスト
３９スパム認定ＵＲＬリスト４０ワークＤＢ
４１ワークメモリ４２閾値データ格納部

Claims

文書毎に当該文書と登録日とＵＲＬとが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記ＵＲＬ毎に特徴語を抽出し、前記ＵＲＬと前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが第１のＵＲＬである特徴語を単位期間毎に抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが第２のＵＲＬであって且つ前記比較期間に対応付けられている特徴語である第２の特徴語を読み出し、対応付けられた前記ＵＲＬが前記第１のＵＲＬであって且つ前記比較期間に対応付けられている特徴語である第１の特徴語と前記第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第２のＵＲＬを出力するステップと、
を含む属性抽出処理方法。
前記比較期間が、当該比較期間の最初の単位期間と、最後の単位期間とを含み、
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが前記第１のＵＲＬであって且つ前記最初の単位期間に対応付けられている特徴語である第３の特徴語と、対応付けられた前記ＵＲＬが前記第２のＵＲＬであって且つ前記最初の単位期間に対応付けられている特徴語である第４の特徴語とを読み出し、前記第３の特徴語と前記第４の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが前記第１のＵＲＬであって且つ前記最後の単位期間に対応付けられている特徴語である第５の特徴語と、対応付けられた前記ＵＲＬが前記第２のＵＲＬであって且つ前記最後の単位期間に対応付けられている特徴語である第６の特徴語とを読み出し、前記第５の特徴語と前記第６の特徴語との類似度を算出するステップと、
前記第３の特徴語と前記第４の特徴語との類似度と前記第５の特徴語と前記第６の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む請求項１記載の属性抽出処理方法。
単位期間毎に分割された第１の文書のデータと、ＵＲＬを含み且つ１又は複数の単位期間に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記第１の文書のデータから、前記単位期間毎に特徴語を抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定すると共に、当該比較期間における特徴語を第１の特徴語として前記比較データ格納部に格納するステップと、
前記コンテンツ格納部から前記第２の文書のデータを読み出し、前記比較期間に含まれる２以上の単位期間における特徴語を第２の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
前記比較データ格納部に格納されている前記第１の特徴語と、前記ワークデータ格納部に格納されている前記第２の特徴語との類似度を各前記単位期間について算出するステップと、
各前記単位期間について算出された前記類似度が所定の条件を満たしている場合には、前記第２の文書のＵＲＬを出力するステップと、
を含む属性抽出処理方法。
前記比較期間に含まれる２以上の単位期間が、前記比較期間のうち最初の単位期間と、前記比較期間のうち最後の単位時間とを含む
請求項３記載の属性抽出処理方法。
文書毎に当該文書と登録日とＵＲＬとが格納されているコンテンツ格納部と、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記ＵＲＬ毎に特徴語を抽出し、前記ＵＲＬと前記特定の単位期間と抽出された前記特徴語とを対応付けてワークコンテンツ格納部に登録する手段と、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが第１のＵＲＬである特徴語を単位期間毎に抽出し、抽出された前記特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定する手段と、
前記ワークコンテンツ格納部から、対応付けられた前記ＵＲＬが第２のＵＲＬであって且つ前記比較期間に対応付けられている特徴語である第２の特徴語を読み出し、対応付けられた前記ＵＲＬが前記第１のＵＲＬであって且つ前記比較期間に対応付けられている特徴語である第１の特徴語と前記第２の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断手段と、
前記類似度が所定の条件を満たしている場合には、前記第２のＵＲＬを出力する手段と、
を有する属性抽出処理装置。
単位期間毎に分割された第１の文書のデータと、ＵＲＬを含み且つ１又は複数の単位期間に分割され得る第２の文書のデータとを格納するコンテンツ格納部と、
前記第１の文書のデータから、前記単位期間毎に特徴語を抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定すると共に、当該比較期間における特徴語を第１の特徴語として前記比較データ格納部に格納する手段と、
前記コンテンツ格納部から前記第２の文書のデータを読み出し、前記比較期間に含まれる２以上の単位期間における特徴語を第２の特徴語として抽出し、ワークデータ格納部に格納する第２抽出手段と、
前記比較データ格納部に格納されている前記第１の特徴語と、前記ワークデータ格納部に格納されている前記第２の特徴語との類似度を各前記単位期間について算出する手段と、
各前記単位期間について算出された前記類似度が所定の条件を満たしている場合には、前記第２の文書のＵＲＬを出力する手段と、
を有する属性抽出処理装置。