JP4429356B2 - 属性抽出処理方法及び装置 - Google Patents

属性抽出処理方法及び装置 Download PDF

Info

Publication number
JP4429356B2
JP4429356B2 JP2007333704A JP2007333704A JP4429356B2 JP 4429356 B2 JP4429356 B2 JP 4429356B2 JP 2007333704 A JP2007333704 A JP 2007333704A JP 2007333704 A JP2007333704 A JP 2007333704A JP 4429356 B2 JP4429356 B2 JP 4429356B2
Authority
JP
Japan
Prior art keywords
period
url
unit
feature word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007333704A
Other languages
English (en)
Other versions
JP2009157553A (ja
Inventor
真一郎 多湖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007333704A priority Critical patent/JP4429356B2/ja
Priority to US12/343,494 priority patent/US8041721B2/en
Publication of JP2009157553A publication Critical patent/JP2009157553A/ja
Application granted granted Critical
Publication of JP4429356B2 publication Critical patent/JP4429356B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Description

本発明は、文書抽出技術に関し、より詳しくはスパムブログ抽出技術に関する。
近年ブログの利用が急速に広がってきている。そのため、例えばブログで商品などの紹介をすると共に、当該商品などの販売元のアフィリエイト・プログラムに参加して、収入を得るといった活動を行う者もいる。このため、より多くのアクセスを集め、商品などの販売に繋げることを目的として、スパムブログが頻出するようになっている。スパムブログは、あるブログ記事を全てコピーしたものや、一部を修正したものだけではなく、図1に示すように、注目されている固有名詞のリストである固有名詞リストとフレーズリストから、自動生成ツールを用いて生成されるブログ記事の場合もある。このようなブログ記事は、アクセスを集めることが主眼であるので、注目されている固有名詞がちりばめられている文法的には正しい意味不明なブログ記事のことが多い。
一方、別の角度からマーケティングのために、ブログ記事の内容を解析し、消費者の傾向などを抽出する技術も開発されてきている。この技術では、収集したブログ記事が通常のブログ記事であれば、正しいデータを抽出することができるため有用であるが、スパムブログが混入している場合には、偏ったデータが抽出されてしまう可能性がある。従って、スパムブログを排除するような仕組みが必要となる。
現在の技術では、単純にコピーしただけのものや一部のみを修正したものであれば、例えばバイグラムの技術を用いれば抽出できるが、上で述べた固有名詞リストとフレーズリストから自動生成ツールを用いて生成されるようなスパムブログの場合には、単純なバイグラムの技術では抽出できない。従って、このようなスパムブログの抽出は、人が内容を確認し、判定しなければならない。
スパムブログの抽出を自動化しようとすると、例えば、スパムブログとして確認された基準となるブログAの複数の記事から抽出される固有名詞が、判定対象ブログBの複数の記事に含まれる度合いで類似度を決定することが考えられる。複数の記事を対象とするのは、記事単位では固有名詞にばらつきがあり類似度が適切に算出されないためである。
なお、このような技術に関連する技術として、特開2001−282837号公報があり、この公報には、ある分野に対して関連性の深いサイトのみを、効率よく、高精度で収集するための技術が開示されている。具体的には、文書ネットワークは、種々の分野の文書が分散して存在する文書群のネットワークである。キーワードデータ格納部には、特定のサイトの文書に含まれるキーワードが格納されている。キーワード解析手段は、文書ネットワークの任意のサイトの文書に、キーワードデータ格納部に格納されているキーワードがどの程度含まれるかを解析する。分野判定手段は、キーワード解析手段の解析結果に基づき、任意のサイトが特定の分野のサイトであるかを判定する。
また、同様に関連する技術として、特開2004−280569号公報があり、この公報には、調査目的に合致した情報を多く含むサイトを効率的に抽出するための技術が開示されている。具体的には、インターネット上の文書から、Web文書を巡回収集し、収集された文書と文書URLを出力するクローラ部と、上記クローラ部で収集された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第1の風評度算出部と、上記クローラ部で出力された文書URLから、各文書の属するサイトURLを抽出する第1のサイト抽出部と、上記サイトURLで指定されるサイトの内容的特徴を表すサイト特徴を出力し、サイトURLとサイト特徴を対応付けてサイト管理テーブルに記憶する第1のサイト特徴算出部と、上記サイト管理テーブルから、システム利用者により指定されたサイトURLのサイト特徴Bを抽出するサイト選択部と、入力された検索条件を基にインターネット上の文書を検索し、検索結果として文書URLおよび更新日時を含む文書情報を出力する文書検索部と、文書URL毎の文書情報を記憶するURL管理テーブルを参照し、上記文書検索部により出力された文書URLのうち、上記URL管理テーブルに登録されていない文書URLおよび文書情報が更新されている文書URLを新規URLとして出力し、上記URL管理テーブルに該新規URLの文書情報を登録する新規URL抽出部と、上記新規URLの文書をインターネット上から取得するダウンロード部と、上記ダウンロード部で取得された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第2の風評度算出部と、上記新規URLから、各文書の属する新規サイトURLを抽出する第2のサイト抽出部と、上記新規サイトURLで指定されるサイトの内容的特徴を表すサイト特徴Aを出力する第2のサイト特徴算出部と、上記サイト特徴Aと上記サイト特徴Bの類似度を算出し、類似度が一定値以上の新規サイトURLを出力すると共に、当該新規サイトURLの文書情報をサイト管理テーブルに記録する類似サイト抽出部とを備える。
特開2001−282837号公報 特開2004−280569号公報
ところが、上で述べたような従来技術をそのまま適用しても、スパムブログを抽出することはできない。スパムブログは、旬なキーワード(例えば固有名詞)を一定期間毎に変更して用いているため、ブログ内の複数の記事を対象に類似度を算出するといっても、キーワードの変更時期を意識せずに比較しても正確な類似度は算出できない。上記従来技術では、このような期間によるキーワードの変化については考慮されていない。
さらに、スパムブログでは、旬なキーワードを用いて記事を自動生成するようになっているが、通常のブログでも旬なキーワードが用いられている可能性は高く、単に期間の概念を導入するだけでは、通常のブログまでがスパムブログとして特定されてしまうという問題もある。
従って、本発明の目的は、スパムブログを精度良く検出するための新規な技術を提供することである。
また、本発明の他の目的は、スパムブログの誤検出を防止して精度良くスパムブログを検出するための新規な技術を提供することである。
さらに、本発明の他の目的は、目的の属性を有する文書を精度良く検出するための新規な技術を提供することである。
本発明の第1の態様に係る属性抽出処理方法は、文書毎に当該文書と登録日と属性(例えばURL(Uniform Resource Locator))とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される。そして本属性抽出処理方法は、コンテンツ格納部から、特定の単位期間内に登録日が含まれる複数の文書から上記属性の属性値毎に特徴語(例えば、固有名詞、動詞、形容詞など)を抽出し、上記属性の属性値と特定の単位期間と抽出された特徴語とを対応付けてワークコンテンツ格納部に登録するステップと、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた属性が第2の属性値であって且つ特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、第1の特徴語と第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、類似度が所定の条件を満たしている場合には、第2の属性値を出力するステップとを含む。
例えば、スパムブログのキーワード変更周期等をユーザが特定したり、又は何らかの方法で自動的に抽出したりして上記特定の期間として着目することによって、適切な期間における類似度を算出して適切なスパムブログを判別することができるようになる。
また、本発明の第1の態様において、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値である特徴語を単位期間毎に抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間を特定の期間として特定するステップをさらに含むようにしてもよい。このようにすれば、上記特定の期間を自動的に特定することができるようになる。
さらに、上で述べた特定の期間が、当該特定の期間の最初の単位期間と、最後の単位期間とを含むようにしてもよい。この場合、上記判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ最初の単位期間に対応付けられている特徴語である第3の特徴語と、対応付けられた属性が第2の属性値であって且つ最初の単位期間に対応付けられている特徴語である第4の特徴語とを読み出し、第3の特徴語と第4の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ最後の単位期間に対応付けられている特徴語である第5の特徴語と、対応付けられた属性が第2の属性値であって且つ最後の単位期間に対応付けられている特徴語である第6の特徴語とを読み出し、第5の特徴語と第6の特徴語との類似度を算出するステップと、第3の特徴語と第4の特徴語との類似度と第5の特徴語と第6の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。
計算量を減らすために、最初の単位期間と最後の単位期間で類似度を算出するようにしている。例えば最後の単位期間で類似度が閾値未満である場合には、旬なキーワードをたまたま用いていた通常のブログであって、スパムブログではないことがわかる。
さらに、本発明の第1の態様において、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値である特徴語を単位時間毎に抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間及び特徴語の類似度が所定の閾値以上となる隣接単位期間が存在しない場合には単独の単位期間を、特定の期間として特定するステップをさらに含むようにしてもよい。このように、特定の期間については、1つだけではなく複数であっても良い。
さらに、上で述べた判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ第1の特定の期間に対応付けられている特徴語である第7の特徴語と、対応付けられた属性が第2の属性値であって且つ第1の特定の期間に対応付けられている特徴語である第8の特徴語とを読み出し、第7の特徴語と第8の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ第2の特定の期間に対応付けられている特徴語である第9の特徴語と、対応付けられた属性が第2の属性値であって且つ第2の特定の期間に対応付けられている特徴語である第10の特徴語とを読み出し、第9の特徴語と第10の特徴語との類似度を算出するステップと、第7の特徴語と第8の特徴語との類似度と第9の特徴語と第10の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。
例えば、複数の特定の期間のうち、所定割合以上の特定の区間について類似度が閾値以上であれば、属性値を出力するようにしても良い。このようにすれば、より検出精度を上げることができるようになる。
さらに、上で述べた判断ステップが、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ第1の特定の期間内の第1単位期間に対応付けられている特徴語である第11の特徴語と、対応付けられた属性が第2の属性値であって且つ第1単位期間に対応付けられている特徴語である第12の特徴語とを読み出し、第11の特徴語と第12の特徴語との類似度を算出するステップと、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ第2の特定の期間内の第2単位期間に対応付けられている特徴語である第13の特徴語と、対応付けられた属性が第2の属性値であって且つ第2の単位期間に対応付けられている特徴語である第14の特徴語とを読み出し、第13の特徴語と第14の特徴語との類似度を算出するステップと、第11の特徴語と第12の特徴語との類似度と第13の特徴語と第14の特徴語との類似度とが閾値以上であるか判断するステップとを含むようにしてもよい。
最初の単位期間及び最後の単位期間ではなく、例えば特定の期間の中央部分の単位期間について類似度を算出するようにしても良い。例えば、元となるスパムブログの特徴期間と、他のスパムブログの特徴期間にずれがある場合には、特定の期間の中央部分の単位期間を採用する方が精度良く類似度を算出することができ、且つ計算量を削減することができるようになる。
本発明の第2の態様に係る属性抽出処理方法は、第1の文書のデータと、属性を有し且つ1又は複数の範囲に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される。そして、本属性抽出処理方法は、コンテンツ格納部から第1の文書のデータを読み出し、当該第1の文書のデータから特徴語を第1の特徴語として抽出し、比較データ格納部に格納する第1抽出ステップと、コンテンツ格納部から第2の文書のデータを読み出し、特定の範囲に含まれる2以上の範囲における特徴語を第2の特徴語として抽出し、ワークデータ格納部に格納するステップと、比較データ格納部に格納されている第1の特徴語と、ワークデータ格納部に格納されている第2の特徴語との類似度を各範囲について算出するステップと、各範囲について算出された類似度が所定の条件を満たしている場合には、第2の文書の属性を出力するステップとを含む。
このような構成を採用することによって、複数の範囲について類似度が算出され、例えば所定割合以上で類似度が閾値以上といった条件で第2の文書の属性の出力可否を判断することができるため、検出精度が高くなる。
なお、上で述べた第1の文書のデータは、単位期間毎に分割されている場合があり、さらに、上で述べた第2の文書のデータの範囲が、当該単位時間である場合がある。その場合、本発明の第2の態様は、第1の文書のデータから、単位期間毎に特徴語を抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間を特定の範囲として特定するステップをさらに含むようにしてもよい。さらに、上で述べた第1抽出ステップが、上記特定の範囲について実施されるようにしてもよい。このようにすれば、自動的に処理すべき適切な範囲が特定さるようになる。
また、本発明の第2の態様が、第1の文書のデータから、単位時間毎に特徴語を抽出し、特徴語の類似度が所定の閾値以上となる連続単位期間及び特徴語の類似度が所定の閾値以上となる隣接単位時間が存在しない場合には単独の単位期間を、特定の範囲として特定するステップをさらに含むようにしてもよい。このようにすれば、複数の適切な特定の範囲を自動抽出することができるようになる。
さらに、上で述べた特定の範囲に含まれる2以上の範囲が、特定の範囲のうち最初の単位期間と、特定の範囲のうち最後の単位時間とを含むようにしてもよい。計算量を削減するためである。
なお、本方法は、コンピュータと当該コンピュータによって実行されるプログラムとの組み合わせにて実行される場合があり、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
本発明によれば、スパムブログを精度良く検出することができるようになる。
また、本発明の他の側面によれば、スパムブログの誤検出を防止して精度良くスパムブログを検出することができるようになる。
さらに、本発明の他の側面によれば、目的の属性を有する文書を精度良く検出することができるようになる。
[実施の形態1]
本発明の第1の実施の形態に係るシステム概要図を図2に示す。例えばインターネットであるネットワーク1には、ブログ記事の配信を行う複数のブログサーバ5と、通常のブログ記事を作成してブログサーバ5に登録するための複数のブロガ端末7と、スパムブログ記事を作成してブログサーバ5に登録するための複数のスパムブロガ端末9と、本実施の形態における主要な処理を実施する解析サーバ3とが接続されている。また、解析サーバ3は、解析サーバ3を利用する企業などのLAN(Local Area Network)13に接続されており、LAN13には、管理者が操作する管理者端末11が接続されている。
なお、ブロガ端末7によってブログサーバ5にブログ記事を登録する処理、スパムブロガ端末9によってスパムブログ記事を生成してブログサーバ5にスパムブログ記事を登録する処理、ブログサーバ5がブログ記事のデータを配信する処理については、周知であるからここではこれ以上述べない。
また、解析サーバ3は、ブログ記事を収集する処理を実施するブログ収集部31と、ブログ記事から固有名詞(場合によっては動詞や形容詞などの場合もある)を抽出する処理を実施する固有名詞抽出部32と、固有名詞の出現状況の遷移を分析する固有名詞遷移分析部33と、スパムと認定されているスパムブログと分析対象とを比較する期間を決定するための処理を実施する比較期間決定部34と、類似スパムURLを特定するための処理を実施する類似スパムURL特定部35と、ブログ収集部31によって収集されたブログ記事を蓄積するブログDB36と、ブログDB36に蓄積されたブログ記事に対して固有名詞抽出部32が処理を行った結果を格納するワークDB40と、ワークDB40等のデータを用いて固有名詞遷移分析部33が処理を行った結果を格納する固有名詞リスト37と、固有名詞リスト37等を用いて比較期間決定部34が処理を行った結果を格納する比較設定リスト38と、比較設定リスト38等を用いて類似スパムURL特定部35が処理を行った結果を格納するスパム認定URLリスト39と、処理途中のデータを格納するワークメモリ41と、処理において用いられる閾値データを格納する閾値データ格納部42とを含む。
次に、図2に示したシステムの、第1の実施の形態に係る処理について図3乃至図19を用いて説明する。最初に、解析サーバ3のブログ収集部31は、複数のブログサーバ5からブログ記事を収集して、ブログDB36に蓄積する(ステップS1)。蓄積する際には、URL、記事本文、ブログサーバ5への登録日時(又は公開日時)を登録する。なお、この本処理については、周知であるからこれ以上述べない。そして、固有名詞抽出部32は、ブログDB36に蓄積されているブログ記事の記事本文から固有名詞を抽出する固有名詞抽出処理を実施し、単位期間(例えば1月)でまとめて、URL、該当単位期間、固有名詞を、ワークDB40に登録する(ステップS3)。例えば、図4に示すようなデータが、ワークDB40に登録される。図4の例では、URL、期間(すなわち該当単位期間)、固有名詞群とが、URL及び期間の組み合わせ毎に格納されている。単位期間は、月の例を示しているが、週や日であってもよい。
その後、類似スパムURL検出処理が実施される(ステップS5)。この類似スパムURL検出処理については、図5乃至図19を用いて詳細に説明する。
まず、管理者は管理者端末11を操作して、予めスパムブログとして判明しているブログのURLを入力して、処理の開始を指示する。管理者端末11は、スパムURLの入力を受け付け、当該スパムURLを含む処理開始指示を、解析サーバ3に送信する。解析サーバ3は、管理者端末11からスパムURLを含む処理開始指示を受信し、スパムURLをワークメモリ41に格納する(ステップS11)。そうすると、解析サーバ3は、固有名詞遷移分析部33を起動させ、固有名詞遷移分析部33は、固有名詞遷移分析処理を実施する(ステップS13)。この処理については、以下で詳細に説明する。上でも述べたように、処理結果は、固有名詞リスト37に格納される。
その後、比較期間決定部34が起動され、比較期間決定部34は、固有名詞リスト37のデータを用いて比較期間決定処理を実施する(ステップS15)。この処理についても、以下で詳細に説明する。上でも述べたように、処理結果は、比較設定リスト38に格納される。
そして、類似スパムURL特定部35が起動され、類似スパムURL特定部35は、比較設定リスト38のデータを用いて類似スパムURL特定処理を実施する(ステップS17)。この処理についても、以下で詳細に説明する。上でも述べたように、処理結果は、スパム認定URLリスト39に格納される。類似スパムURL特定部35は、スパム認定URLリスト39に格納されているURLから、管理者端末11から受信したスパムURLを除外したURLのリストを、管理者端末11に送信する(ステップS19)。管理者端末11は、解析サーバ3からURLのリストを受信し、表示装置に表示する。
これによって、管理者は、スパムブログとみなされるブログのURLを特定することができ、さらに解析サーバ3に、スパム認定URLリスト39に登録されているブログを除外してマーケティングデータ抽出処理を実施させることによって、精度の良いデータを取得することも可能となる。マーケティングデータ抽出処理は、様々なものがあり、本発明の主旨ではないので、これ以上述べない。
次に、固有名詞遷移分析処理(ステップS13)について図6乃至図10を用いて説明する。まず、固有名詞遷移分析部33は、ワークメモリ41から受信スパムURLを読み出し、当該受信スパムURLに該当するデータをワークDB40から抽出する(ステップS21)。例えば、図7に示すようなhttp://xxxが受信スパムURLであれば、図4に示したワークDB40からhttp://xxxがURLとして登録されているレコードを読み出す。例えば図8に示すようなデータが抽出される。すなわち、Aug2007、Sep2007、Oct2007、Nov2007を該当単位期間とするレコードが抽出され、例えばワークメモリ41に格納する。
次に、固有名詞遷移分析部33は、該当単位期間をキーに抽出データをソートし、ワークメモリ41に格納する(ステップS23)。図8の例では既にソート済みとなっている。そして、最初のデータ(第1行目のレコード)をベースデータとして保持する(ステップS25)。さらに、次の期間のデータがワークメモリ41に格納されているか判断する(ステップS27)。Aug2007のデータがベースデータに設定されているとすると、Sep2007のデータが存在するので、ステップS29に移行する。
次の期間のデータが存在する場合には、固有名詞遷移分析部33は、次の期間のデータを読み出して現在データとして設定し、ベースデータと現在データの固有名詞についての類似度を算出する(ステップS29)。例えば、Aug2007の固有名詞と、Sep2007の固有名詞とを比較すると、一致する固有名詞は0と判断され、類似度0と算出される。
そうすると、固有名詞遷移分析部33は、閾値データ格納部42から類似度閾値を読み出し、算出された類似度が当該類似度閾値以上であるか判断する(ステップS31)。閾値データ格納部42には、例えば図9に示されているようなデータが格納されている。すなわち、類似度閾値と期間数閾値とが格納されるようになっており、ここでは期間数閾値はまだ決定されていない。上で述べた例では、Aug2007についての類似度は0であって、類似度閾値が3であるとすると、類似度は閾値未満と判断される。
類似度が類似度閾値未満である場合には、固有名詞遷移分析部33は、固有名詞リスト37にデータが登録済みであるか判断する(ステップS33)。データが登録済みであれば、既に連続する2以上の単位期間についてのデータが固有名詞リスト37に登録されていることになるので、このように連続する2以上の単位期間についてのデータを比較元のデータとして用いるものとする。従って、端子Bを介して元の処理に戻る。本実施の形態における固有名詞遷移分析処理では、このように連続する2以上の単位期間で構成される1の期間を特定することが特徴である。
一方、固有名詞リスト37にデータが登録済みではない場合には、固有名詞遷移分析部33は、現在データをベースデータに設定する(ステップS35)。上で述べた例では、Aug2007のデータの代わりにSep2007のデータがベースデータに設定される。そしてステップS27に戻る。
Sep2007のデータがベースデータとすると、Oct2007のデータが現在データと設定され、Sep2007の固有名詞と、Oct2007の固有名詞とを比較すると、図8からわかるように、類似度3となる。これで類似度は、類似度閾値3以上となる。
ステップS31で、類似度が類似度閾値以上であると判断されると、固有名詞遷移分析部33は、一致した名詞と両期間を固有名詞リスト37に登録する(ステップS37)。上で述べた例では、Sep2007及びOct2007と、一致した固有名詞(B,D,E)を固有名詞リスト37に登録する。そして、処理は端子Aを介してステップS27に戻る。
上で述べた例では、Nov2007のデータが現在データに設定され、固有名詞遷移分析部33がSep2007の固有名詞とNov2007の固有名詞との類似度を算出すると、「4」が得られる。従って、ステップS37に遷移して、Nov2007及び固有名詞(A,C)が登録される。なお、重複登録は行わないので、Sep2007及び固有名詞(B,D,E)についてはこの段階では登録されない。このように処理すると図8に示したデータをすべて処理したことになる。この段階で、固有名詞リスト37には、図10に示すようなデータが登録されている。
よって、ステップS27で次の期間のデータが存在しないと判断されると、固有名詞遷移分析部33は、固有名詞リスト37にデータが登録済みであるか判断する(ステップS39)。固有名詞リスト37にデータが登録済みであれば、元の処理に戻る。
一方、固有名詞リスト37にデータが登録済みでなければ、固有名詞遷移分析部33は、異常終了を管理者端末11に送信する(ステップS41)。以降の処理を実施しない。
本実施の形態では、異常終了するような例を示したが、例えばステップS23でソートされた結果における最初のデータを固有名詞リスト37に登録するようにして以下の処理を実施するようにしてもよい。また、以下の処理では、最初の月と最後の月とを抽出するような処理が行われるので、単位期間を変更して、最初の日又は週と、最後の日又は週を選択して、それに該当する固有名詞を固有名詞リスト37に登録するようにしてもよい。さらに、異常終了せずに、単位期間を変更した上で、上記処理をやり直すようにしてもよい。
次に、図11及び図12を用いて、比較期間決定処理について説明する。まず、比較期間決定部34は、固有名詞リスト37から固有名詞を読み出し、比較設定リスト38に登録する(ステップS51)。また、固有名詞リスト37に登録された期間をソートする(ステップS53)。図6の処理で既にソートされて順番に並べられているが、念のためソートする。図10の例では、Sep2007、Oct2007、Nov2007の順番に並べられる。そして、ソート後の期間のうち最初と最後の単位期間を比較設定リスト38に登録する(ステップS55)。上の例では、Sep2007及びNov2007が登録される。従って、比較設定リスト38には、例えば図12に示すようなデータが登録される。
このように、比較期間決定処理では、最初の単位期間と最後の単位期間とを選択して、以下の処理で比較を行うので、期間全体を比較するよりも計算量を削減することができる。
なお、本実施の形態では、比較すべき期間を自動的に抽出するような処理を行っているが、例えば管理者端末11から管理者が特定の期間を比較すべき期間として指定するようにしてもよい。
次に、図13乃至図19を用いて類似スパムURL特定処理について説明する。まず、類似スパムURL特定部35は、比較設定リスト38を読み出す(ステップS61)。そして、比較設定リスト38における期間数に応じて期間数閾値を閾値データ格納部42に設定する(ステップS63)。例えば、比較設定リスト38に図12に示すように2つの期間(Sep2007及びNov2007)が格納されている場合には、図14に示すように、「2」を期間数閾値として設定する。但し、期間数をそのまま期間数閾値に設定するのではなく、多少の調整(調整係数倍するなど)を行うようにしてもよい。
さらに、類似スパムURL特定部35は、比較設定リスト38における評価対象期間のいずれかと一致しかつ固有名詞のいずれかが含まれるデータを、ワークDB40から抽出し、ワークメモリ41の抽出リストに格納する(ステップS65)。例えば、Sep2007と固有名詞A乃至Eのいずれかが含まれるレコードのうち、URLとSep2007と該当する固有名詞とを、ワークメモリ41に格納する。同様に、Nov2007と固有名詞A乃至Eのいずれかが含まれるレコードのうち、URLとNov2007と該当する固有名詞とを、ワークメモリ41に格納する。そうすると、図15に示すようなデータがワークメモリ41の抽出リストに格納される。なお、本ステップでは、受信スパムURL(上の例ではhttp://xxx)については、処理対象から除外するようにしてもよい。
次に、類似スパムURL特定部35は、ワークメモリ41の抽出リストにおいてURL及び期間が同一のレコードをカウントし、URL、期間及びカウント数をワークメモリ41内の類似度リストに登録する(ステップS67)。例えば、http://xxx及びSep2007の組み合わせは、5レコード存在する。http://yyy及びSep2007の組み合わせは、3レコード存在する。このようにカウントしてゆくと、図16に示すような類似度リストが生成される。すなわち、URLと、期間と、カウント数とが格納されている。
その後、類似スパムURL特定部35は、類似度リストの中で類似度閾値以上のカウント数を有するレコードを抽出し、ワークメモリ41内の類似リストに登録する(ステップS69)。類似度閾値については、図14に示したとおりであって、本例では「3」である。従って、図16の類似度リストにおいては、5行目だけが閾値未満となり、類似リストに登録されない。類似リストは、例えば図17のようなデータを格納するようになる。図17の例では、URLと期間のみが登録される。
そして、類似スパムURL特定部35は、類似リストにおいてURLが同一のレコード数をカウントしてワークメモリ41内のスコアリストに登録する(ステップS71)。図17のような類似リストが得られている場合には、http://xxx、http://yyy、http://xyz毎にカウントを行うと、図18に示すようなスコアリストが得られる。すなわち、http://xxx及びhttp://xyzについてはスコアが2で、http://yyyについてはスコアが1である。これは、http://yyyについては、たまたまSep2007では同じような固有名詞を用いた記事があったが、Nov2007では使用している固有名詞が異なっていることを示している。すなわち、旬な固有名詞をたまたま使っていたに過ぎない普通のブログである。
最後に、類似スパムURL特定部35は、ワークメモリ41内のスコアリストにおいて期間数閾値以上のスコアを有するURLを抽出し、スパム認定URLリスト39に登録する(ステップS73)。ステップS63で決定されたように、期間数閾値は「2」であり、これによって、図19に示すように、http://xxx及びhttp://xyzがスパム認定URLリスト39に登録される。なお、http://xxxについては、管理者によって指定されたスパムURLであるから、http://xyzのみが新たに判明したスパムURLということになる。
以上説明したように、本実施の形態では、入力されたスパムURLについて、固有名詞の出現がある程度同じである2以上の連続する単位期間を、比較対象期間として1つだけ抽出している。そして、計算量削減のため、比較対象期間の最初の単位期間と最後の単位期間について、類似度を算出して、比較対象期間中に同じように類似度が高い状態が維持されるか確認する。これによって、たまたま類似度が高くなってしまったブログをスパムブログとして抽出することなく、入力されたスパムURLと同様に、比較対象期間において類似する固有名詞を使用しているスパムブログを特定することができるようになる。
上で述べたように、比較対象期間については、わかっていれば管理者によって指定するようにしてもよい。そのような場合には、入力されたスパムURLについて、単純に比較対象期間に使用されている固有名詞を抽出して比較設定リスト38に登録するようにしてもよい。また、比較対象期間に含まれる1つの単位期間(例えば比較対象期間の中央の単位期間)に使用されている固有名詞を抽出して比較設定リスト38に登録するようにしてもよい。さらに、比較対象期間に含まれる各単位期間に共通する固有名詞を抽出して比較設定リスト38に登録するようにしてもよい。
[実施の形態2]
第1の実施の形態では、固有名詞遷移分析処理において1つの比較対象期間のみを特定するようになっているが、本実施の形態では、固有名詞遷移分析処理において、類似度を基準として比較対象期間を、出現する毎に特定するものとする。
なお、図2のシステム概要は本実施の形態でも同じであり、第1の実施の形態とは固有名詞遷移分析処理及び比較期間決定処理が異なる。以下、図20乃至図27を用いてこれらの処理について説明し、最後に図28乃至図33で、比較期間決定処理で生成された比較設定リストがどのように類似スパムURL特定処理(図13)で処理されるかを説明する。
まず、第2の実施の形態における固有名詞遷移分析処理を図20乃至図25を用いて説明する。まず、固有名詞遷移分析部33は、ワークDB40から受信スパムURLのデータを抽出し、ワークメモリ41に格納する(ステップS81)。そして、抽出データを期間でソートし、ワークメモリ41内の入力URL抽出リストに登録する(ステップS83)。例えば、図4に示したようなデータがワークDB40に格納されている場合には、入力URL抽出リストは、図21に示すようなデータとなる。次に、入力URL抽出リストから最初のレコードを読み出し、ベースデータに設定するとともに、含まれる固有名詞をスタックする(ステップS85)。例えば、この段階でベースデータは、図22(a)に示すように、入力URL抽出リストの第1行目と同じになる。また、固有名詞H乃至Mがスタックされる。
そして、固有名詞遷移分析部33は、入力URL抽出リストにおいて次の期間のレコードが存在しているか判断する(ステップS87)。上で述べた例では、Aug2007がベースデータであるので、次の期間Sep2007のレコードが存在している。入力URL抽出リストにおいて次の期間のレコードが存在していれば、入力URL抽出リストにおいて次の期間のデータを読み出して現在データに設定するとともに、現在データの固有名詞とベースデータの固有名詞の類似度を算出する(ステップS89)。上で述べた例において、Aug2007の固有名詞とSep2007の固有名詞とでは一致する固有名詞がないので、類似度は0となる。ここで、算出された類似度が閾値データ格納部42に格納されている類似度閾値以上であるか判断する(ステップS91)。閾値データ格納部42には、例えば図23に示されるように、類似度閾値が「3」と設定されており、期間数閾値がnull(未設定)と設定されている。従って、上で述べた例では、類似度閾値未満と判断される。
算出された類似度が類似度閾値未満である場合には、固有名詞遷移分析部33は、ベースデータの期間、現在データの1つ前の期間、スタック内の固有名詞を、固有名詞リスト37に登録する(ステップS93)。上で述べた例では、Aug2007、Aug2007、固有名詞H乃至Mを固有名詞リスト37に登録する。この段階で、固有名詞リスト37には、図24に示すようなデータが登録される。なお、スタック内の固有名詞はポップされるので、ステップS93では空になる。そして、現在データをベースデータに設定し(ステップS95)、現在データの固有名詞を、スタックする(ステップS97)。ここでは、固有名詞A乃至Eがスタックされる。その後ステップS87に戻る。ステップS95で、ベースデータは図22(b)に示すような状態になる。
ステップS87に戻って、Sep2007の次の期間のOct2007のレコードが存在しているので、ステップS89に移行して、Oct2007のレコードが現在データに設定され、ベースデータと現在データの類似度が算出される。図22(b)と図21の3行目とを比較すると、3つの固有名詞が一致するので類似度は「3」となる。上で述べたように、類似度閾値は3であるから、算出された類似度は類似度閾値以上であると判断される。
ステップS91で、算出された類似度が類似度閾値以上であると判断されると、固有名詞遷移分析部33は、現在データの固有名詞をスタックする(ステップS97)。但し、重複する固有名詞はスタックしない。上で述べた例では、この段階で、固有名詞F及びGがスタックされる。そしてステップS87に戻る。
ステップS87に戻って、Oct2007の次の期間のNov2007のレコードが存在しているので、ステップS89に移行して、Nov2007のレコードが現在データに設定され、ベースデータと現在データの類似度が算出される。図22(b)と図21の4行目とを比較すると、4つの固有名詞が一致するので類似度は「4」となる。上で述べたように、類似度閾値は3であるから、算出された類似度は類似度閾値以上であると判断される。この後、現在データの固有名詞をスタックすることになるが、現在データの固有名詞は既にすべてスタックされているので、ステップS87に移行する。ステップS87に戻って、Nov2007の次の期間のレコードは存在していないことがわかる。
ステップS87で、入力URL抽出リストにおいて次の期間のレコードが存在していないと判断された場合には、固有名詞遷移分析部33は、ベースデータの期間、最後のデータの期間、スタック内の固有名詞を、固有名詞リスト37に登録する(ステップS99)。そして元の処理に戻る。
このような処理を実施すれば、図25に示すようなデータが、固有名詞リスト37に登録されるようになる。
すなわち、上でも述べたように、管理者に指定されたスパムURLについて、類似度が閾値以上となっている期間をすべて抽出して関係する固有名詞と共に固有名詞リスト37に登録することができる。
次に、図26及び図27を用いて第2の実施の形態における比較期間決定処理について説明する。比較期間決定部34は、固有名詞リスト37から最初のデータを読み出す(ステップS101)。そして、開始期間及び終了期間が一致しているか判断する(ステップS103)。図25に示した例においてAug2007のレコードについては、開始期間及び終了期間が一致している。
開始期間及び終了期間が一致している場合には、比較期間決定部34は、開始期間を、読み出した固有名詞と共に比較設定リスト38に登録する(ステップS107)。そして、固有名詞リスト37において次のデータが存在するか判断する(ステップS109)。次のデータが存在する場合には、次のデータを固有名詞リスト37から読み出し(ステップS111)、ステップS103に戻る。図25に示した例では次のデータが存在するので、次のデータを読み出す。
そして、次のデータにおいて開始期間と終了期間が一致しているか判断すると、Sep2007とNov2007とで不一致である。
ステップS103で開始期間と終了期間が不一致であると判断された場合には、終了期間と、読み出した固有名詞とを比較設定リスト38に登録する(ステップS105)。そして、ステップS107に移行する。
このように、固有名詞リスト37において開始期間と終了期間とが不一致の場合には、2レコードに分割して比較設定リスト38に登録する。
ここまで処理すると、上で述べた例では、図27に示すようなデータが比較設定リスト38に登録されるようになる。このように、比較対象期間が3単位期間分特定されており、その各単位期間について関係する固有名詞が列挙される。
この後に実施される類似スパムURL特定処理については、第1の実施の形態とほぼ同じである。但し、図12と図27とでは比較設定リスト38の形式及びレコード数が異なるので、多少処理が異なっている。
図13のステップS63では、図27に示すように期間の数が3なので、図28に示したように、期間数閾値が「3」にセットされる。ステップS65では、図27に示すようにAug2007のデータも含まれるので抽出されるデータの量も増加して、図29に示すようなデータがワークDB40から抽出されて、ワークメモリ41内の抽出リストに登録される。さらに、ステップS67では、URLと期間との組み合わせでレコード数をカウントして、ワークメモリ41内の類似リストに登録するが、Aug2007の分のレコードが追加されることになる。具体的には、図30に示すようなデータが類似度リストに登録される。
図28に示したように類似度閾値は「3」であるから、ステップS69において、図30に示した類似度リストにおいて類似度が3以上のレコードが、類似リストに登録される。具体的には、図31に示すような類似リストがワークメモリ41に登録される。そして、ステップS71において、URL毎にレコード数をカウントすると、図32に示すようなスコアリストがワークメモリ41に格納されるようになる。図28に示したように、この実施の形態では、期間数閾値は「3」であるので、ステップS73では、スパム認定URLリスト39には、図33に示すようなデータが格納されるようになる。以上のように、第1の実施の形態と同様の結果を得ることができる。
本実施の形態では、比較対象期間が、管理者によって指定されたスパムURLの内容がほぼ同じ期間をできる限り抽出して、その最初の単位期間及び最後の単位期間の両方で比較することによって、より精度良くスパムURLを特定することができるようになる。
[実施の形態3]
実施の形態1における比較期間決定処理においては、管理者によって指定されたスパムURLにおいて固有名詞の出現状況がほぼ一定の期間の最初の単位期間及び最後の単位期間を特定するものであったが、スパムURLの検出精度を上げるためには、例えば図34に示すような処理を実施する。
具体的には、比較期間決定部34は、固有名詞リスト37を比較設定リスト38にコピーする(ステップS121)。このようにすれば、図10に示すようなデータが比較設定リスト38に設定される。このようにすると、後続の類似スパムURL特定処理において、Sep2007、Oct2007及びNov2007の単位期間ごとに類似度が判定され、各単位期間において類似度が高くないと、スパム認定URLリスト39に登録されない。なお、期間数閾値については、比較設定リスト38内の期間数をそのまま期間数閾値に設定するのではなく、例えば期間数×0.9といったように、誤差を考慮して調整するようにしてもよい。
以上本発明の実施の形態について説明したが、本発明はこれに限定されるものではない。例えば、図2に示した解析サーバ3の機能ブロック図は必ずしも実際のプログラムモジュール構成に対応しない場合もある。
さらに、処理フローについても、処理結果が変わらない限り変更することが可能である。
また、最後にスパム認定URLリスト39の内容を管理者端末11に送信する例を示したが、出力せずに、解析サーバ3における他の処理の入力に用いるようにしてもよい。
なお、上で述べたブロガ端末7、スパムブロガ端末9、ブログサーバ5、解析サーバ3、管理者端末11においては、図35に示すように、メモリ2501(記憶部)とCPU2503(処理部)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。OS及びWebブラウザを含むアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。このようなコンピュータは、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
(付記1)
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、前記第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第2の属性値を出力するステップと、
を含む属性抽出処理方法。
(付記2)
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値である特徴語を単位期間毎に抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間を前記特定の期間として特定するステップ
をさらに含む付記1記載の属性抽出処理方法。
(付記3)
前記特定の期間が、当該特定の期間の最初の単位期間と、最後の単位期間とを含み、
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ前記最初の単位期間に対応付けられている特徴語である第3の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記最初の単位期間に対応付けられている特徴語である第4の特徴語とを読み出し、前記第3の特徴語と前記第4の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ前記最後の単位期間に対応付けられている特徴語である第5の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記最後の単位期間に対応付けられている特徴語である第6の特徴語とを読み出し、前記第5の特徴語と前記第6の特徴語との類似度を算出するステップと、
前記第3の特徴語と前記第4の特徴語との類似度と前記第5の特徴語と前記第6の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記1記載の属性抽出処理方法。
(付記4)
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値である特徴語を単位時間毎に抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間及び前記特徴語の類似度が所定の閾値以上となる隣接単位期間が存在しない場合には単独の単位期間を、前記特定の期間として特定するステップ
をさらに含む付記1記載の属性抽出処理方法。
(付記5)
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ第1の前記特定の期間に対応付けられている特徴語である第7の特徴語と、対応付けられた前記属性が第2の属性値であって且つ第1の前記特定の期間に対応付けられている特徴語である第8の特徴語とを読み出し、前記第7の特徴語と前記第8の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ第2の前記特定の期間に対応付けられている特徴語である第9の特徴語と、対応付けられた前記属性が第2の属性値であって且つ第2の前記特定の期間に対応付けられている特徴語である第10の特徴語とを読み出し、前記第9の特徴語と前記第10の特徴語との類似度を算出するステップと、
前記第7の特徴語と前記第8の特徴語との類似度と前記第9の特徴語と前記第10の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記4記載の属性抽出処理方法。
(付記6)
前記判断ステップが、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ第1の前記特定の期間内の第1単位期間に対応付けられている特徴語である第11の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記第1単位期間に対応付けられている特徴語である第12の特徴語とを読み出し、前記第11の特徴語と前記第12の特徴語との類似度を算出するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ第2の前記特定の期間内の第2単位期間に対応付けられている特徴語である第13の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記第2の単位期間に対応付けられている特徴語である第14の特徴語とを読み出し、前記第13の特徴語と前記第14の特徴語との類似度を算出するステップと、
前記第11の特徴語と前記第12の特徴語との類似度と前記第13の特徴語と前記第14の特徴語との類似度とが閾値以上であるか判断するステップと、
を含む付記4記載の属性抽出処理方法。
(付記7)
第1の文書のデータと、属性を有し且つ1又は複数の範囲に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から前記第1の文書のデータを読み出し、当該第1の文書のデータから特徴語を第1の特徴語として抽出し、前記比較データ格納部に格納する第1抽出ステップと、
前記コンテンツ格納部から前記第2の文書のデータを読み出し、特定の範囲に含まれる2以上の範囲における特徴語を第2の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
前記比較データ格納部に格納されている前記第1の特徴語と、前記ワークデータ格納部に格納されている前記第2の特徴語との類似度を各前記範囲について算出するステップと、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第2の文書の属性を出力するステップと、
を含む属性抽出処理方法。
(付記8)
前記第1の文書のデータは、単位期間毎に分割されており、
前記第2の文書のデータの範囲が、前記単位時間であり、
前記第1の文書のデータから、前記単位期間毎に特徴語を抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間を前記特定の範囲として特定するステップ
をさらに含み、
前記第1抽出ステップが、前記特定の範囲について実施される
付記7記載の属性抽出処理方法。
(付記9)
前記第1の文書のデータは、単位期間毎に分割されており、
前記第2の文書のデータの範囲が、前記単位時間であり、
前記第1の文書のデータから、前記単位時間毎に特徴語を抽出し、前記特徴語の類似度が所定の閾値以上となる連続単位期間及び前記特徴語の類似度が所定の閾値以上となる隣接単位時間が存在しない場合には単独の単位期間を、前記特定の範囲として特定するステップ
をさらに含み、
前記第1抽出ステップが、前記特定の範囲について実施される
付記7記載の属性抽出処理方法。
(付記10)
前記特定の範囲に含まれる2以上の範囲が、前記特定の範囲のうち最初の単位期間と、前記特定の範囲のうち最後の単位時間とを含む
付記8記載の属性抽出処理方法。
(付記11)
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータに、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた前記属性値が第2の属性値であって且つ前記特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、前記第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第2の属性値を出力するステップと、
を実行させるための属性抽出処理プログラム。
(付記12)
第1の文書のデータと、属性を有し且つ1又は複数の範囲に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータに、
前記コンテンツ格納部から前記第1の文書のデータを読み出し、当該第1の文書のデータから特徴語を第1の特徴語として抽出し、前記比較データ格納部に格納する第1抽出ステップと、
前記コンテンツ格納部から前記第2の文書のデータを読み出し、特定の範囲に含まれる2以上の範囲における特徴語を第2の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
前記比較データ格納部に格納されている前記第1の特徴語と、前記ワークデータ格納部に格納されている前記第2の特徴語との類似度を各前記範囲について算出するステップと、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第2の文書の属性を出力するステップと、
を実行させるための属性抽出処理プログラム。
(付記13)
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けてワークコンテンツ格納部に登録する手段と、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた前記属性値が第2の属性値であって且つ前記特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、前記第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断手段と、
前記類似度が所定の条件を満たしている場合には、前記第2の属性値を出力する手段と、
を有する属性抽出処理装置。
(付記14)
第1の文書のデータと、属性を有し且つ1又は複数の範囲に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、
前記コンテンツ格納部から前記第1の文書のデータを読み出し、当該第1の文書のデータから特徴語を第1の特徴語として抽出し、比較データ格納部に格納する第1抽出手段と、
前記コンテンツ格納部から前記第2の文書のデータを読み出し、特定の範囲に含まれる2以上の範囲における特徴語を第2の特徴語として抽出し、ワークデータ格納部に格納する第2抽出手段と、
前記比較データ格納部に格納されている前記第1の特徴語と、前記ワークデータ格納部に格納されている前記第2の特徴語との類似度を各前記範囲について算出する手段と、
各前記範囲について算出された前記類似度が所定の条件を満たしている場合には、前記第2の文書の属性を出力する手段と、
を有する属性抽出処理装置。
スパムブログを生成する際の処理を示す模式図である。 本発明の実施の形態におけるシステム概要図である。 本発明の実施の形態におけるメインの処理フローを示す図である。 ワークDBに格納されるデータの一例を示す図である。 類似スパムURL検出処理の処理フローを示す図である。 本発明の第1の実施の形態にかかる固有名詞遷移分析処理の処理フローを示す図である。 スパムブログURLの一例を示す図である。 入力URL抽出リストの一例を示す図である。 本発明の第1の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。 本発明の第1の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。 本発明の第1の実施の形態における比較期間決定処理の処理フローを示す図である。 本発明の第1の実施の形態における比較設定リストに格納されるデータの一例を示す図である。 類似スパムURL特定処理の処理フローを示す図である。 本発明の第1の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。 本発明の第1の実施の形態における抽出リストに格納されるデータの一例を示す図である。 本発明の第1の実施の形態における類似度リストに格納されるデータの一例を示す図である。 本発明の第1の実施の形態における類似リストに格納されるデータの一例を示す図である。 本発明の第1の実施の形態におけるスコアリストに格納されるデータの一例を示す図である。 本発明の第1の実施の形態におけるスパム認定URLリストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における固有名詞遷移分析処理の処理フローを示す図である。 本発明の第2の実施の形態における入力URL抽出リストに格納されるデータの一例を示す図である。 (a)及び(b)は、本発明の第2の実施の形態におけるベースデータを示す図である。 本発明の第2の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。 本発明の第2の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における固有名詞リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における比較期間決定処理の処理フローを示す図である。 本発明の第2の実施の形態における比較設定リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における閾値データ格納部に格納されるデータの一例を示す図である。 本発明の第2の実施の形態における抽出リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における類似度リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態における類似リストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態におけるスコアリストに格納されるデータの一例を示す図である。 本発明の第2の実施の形態におけるスパム認定URLリストに格納されるデータの一例を示す図である。 本発明の第3の実施の形態の比較期間決定処理の処理フローを示す図である。 コンピュータの機能ブロック図である。
符号の説明
1 ネットワーク 3 解析サーバ
5 ブログサーバ 7 ブロガ端末
9 スパムブロガ端末 11 管理者端末
13 LAN
31 ブログ収集部 32 固有名詞抽出部
33 固有名詞遷移分析部 34 比較期間決定部
35 類似スパムURL特定部 36 ブログDB
37 固有名詞リスト 38 比較設定リスト
39 スパム認定URLリスト 40 ワークDB
41 ワークメモリ 42 閾値データ格納部

Claims (6)

  1. 文書毎に当該文書と登録日とURLとが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
    前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記URL毎に特徴語を抽出し、前記URLと前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
    前記ワークコンテンツ格納部から、対応付けられた前記URLが第1のURLである特徴語を単位期間毎に抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定するステップと、
    前記ワークコンテンツ格納部から、応付けられた前記URLが第2のURLであって且つ前記比較期間に対応付けられている特徴語である第2の特徴語読み出し、対応付けられた前記URLが前記第1のURLであって且つ前記比較期間に対応付けられている特徴語である第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
    前記類似度が所定の条件を満たしている場合には、前記第2のURLを出力するステップと、
    を含む属性抽出処理方法。
  2. 前記比較期間が、当該比較期間の最初の単位期間と、最後の単位期間とを含み、
    前記判断ステップが、
    前記ワークコンテンツ格納部から、対応付けられた前記URL前記第1のURLであって且つ前記最初の単位期間に対応付けられている特徴語である第3の特徴語と、対応付けられた前記URL前記第2のURLであって且つ前記最初の単位期間に対応付けられている特徴語である第4の特徴語とを読み出し、前記第3の特徴語と前記第4の特徴語との類似度を算出するステップと、
    前記ワークコンテンツ格納部から、対応付けられた前記URL前記第1のURLであって且つ前記最後の単位期間に対応付けられている特徴語である第5の特徴語と、対応付けられた前記URL前記第2のURLであって且つ前記最後の単位期間に対応付けられている特徴語である第6の特徴語とを読み出し、前記第5の特徴語と前記第6の特徴語との類似度を算出するステップと、
    前記第3の特徴語と前記第4の特徴語との類似度と前記第5の特徴語と前記第6の特徴語との類似度とが閾値以上であるか判断するステップと、
    を含む請求項1記載の属性抽出処理方法。
  3. 単位期間毎に分割された第1の文書のデータと、URLを含み且つ1又は複数の単位期間に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、比較データ格納部と、ワークデータ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
    前記第1の文書のデータから、前記単位期間毎に特徴語を抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定すると共に、当該比較期間における特徴語を第1の特徴語として前記比較データ格納部に格納するステップと、
    前記コンテンツ格納部から前記第2の文書のデータを読み出し、前記比較期間に含まれる2以上の単位期間における特徴語を第2の特徴語として抽出し、前記ワークデータ格納部に格納するステップと、
    前記比較データ格納部に格納されている前記第1の特徴語と、前記ワークデータ格納部に格納されている前記第2の特徴語との類似度を各前記単位期間について算出するステップと、
    各前記単位期間について算出された前記類似度が所定の条件を満たしている場合には、前記第2の文書のURLを出力するステップと、
    を含む属性抽出処理方法。
  4. 前記比較期間に含まれる2以上の単位期間が、前記比較期間のうち最初の単位期間と、前記比較期間のうち最後の単位時間とを含む
    請求項記載の属性抽出処理方法。
  5. 文書毎に当該文書と登録日とURLとが格納されているコンテンツ格納部と、
    前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記URL毎に特徴語を抽出し、前記URLと前記特定の単位期間と抽出された前記特徴語とを対応付けてワークコンテンツ格納部に登録する手段と、
    前記ワークコンテンツ格納部から、対応付けられた前記URLが第1のURLである特徴語を単位期間毎に抽出し、抽出された前記特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定する手段と、
    前記ワークコンテンツ格納部から、応付けられた前記URLが第2のURLであって且つ前記比較期間に対応付けられている特徴語である第2の特徴語読み出し、対応付けられた前記URLが前記第1のURLであって且つ前記比較期間に対応付けられている特徴語である第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断手段と、
    前記類似度が所定の条件を満たしている場合には、前記第2のURLを出力する手段と、
    を有する属性抽出処理装置。
  6. 単位期間毎に分割された第1の文書のデータと、URLを含み且つ1又は複数の単位期間に分割され得る第2の文書のデータとを格納するコンテンツ格納部と、
    前記第1の文書のデータから、前記単位期間毎に特徴語を抽出し、抽出された当該特徴語の類似度を、連続する単位期間の間で算出し、当該類似度が所定の閾値以上となる連続単位期間を比較期間として特定すると共に、当該比較期間における特徴語を第1の特徴語として前記比較データ格納部に格納する手段と、
    前記コンテンツ格納部から前記第2の文書のデータを読み出し、前記比較期間に含まれる2以上の単位期間における特徴語を第2の特徴語として抽出し、ワークデータ格納部に格納する第2抽出手段と、
    前記比較データ格納部に格納されている前記第1の特徴語と、前記ワークデータ格納部に格納されている前記第2の特徴語との類似度を各前記単位期間について算出する手段と、
    各前記単位期間について算出された前記類似度が所定の条件を満たしている場合には、前記第2の文書のURLを出力する手段と、
    を有する属性抽出処理装置。
JP2007333704A 2007-12-26 2007-12-26 属性抽出処理方法及び装置 Expired - Fee Related JP4429356B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007333704A JP4429356B2 (ja) 2007-12-26 2007-12-26 属性抽出処理方法及び装置
US12/343,494 US8041721B2 (en) 2007-12-26 2008-12-24 Attribute extraction processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007333704A JP4429356B2 (ja) 2007-12-26 2007-12-26 属性抽出処理方法及び装置

Publications (2)

Publication Number Publication Date
JP2009157553A JP2009157553A (ja) 2009-07-16
JP4429356B2 true JP4429356B2 (ja) 2010-03-10

Family

ID=40961532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007333704A Expired - Fee Related JP4429356B2 (ja) 2007-12-26 2007-12-26 属性抽出処理方法及び装置

Country Status (2)

Country Link
US (1) US8041721B2 (ja)
JP (1) JP4429356B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4636473B2 (ja) * 2008-08-21 2011-02-23 Necビッグローブ株式会社 リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP2010066980A (ja) * 2008-09-10 2010-03-25 Kddi Corp スパムブログ検知装置、スパムブログ検知方法及びプログラム
JP5165720B2 (ja) * 2010-03-31 2013-03-21 ヤフー株式会社 スパムブログ抽出装置及び方法
JP5225369B2 (ja) * 2010-12-21 2013-07-03 ヤフー株式会社 Webページ評価装置及びWebページ評価方法
JP6020031B2 (ja) 2012-10-19 2016-11-02 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6003561B2 (ja) 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5962471B2 (ja) * 2012-11-30 2016-08-03 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6562276B2 (ja) * 2014-12-15 2019-08-21 大学共同利用機関法人情報・システム研究機構 情報抽出装置、情報抽出方法、及び情報抽出プログラム
US11010768B2 (en) 2015-04-30 2021-05-18 Oracle International Corporation Character-based attribute value extraction system
JP6784157B2 (ja) * 2016-11-29 2020-11-11 富士通株式会社 特徴抽出方法、特徴抽出プログラム及び特徴抽出装置
CN111611786B (zh) * 2017-04-07 2023-03-21 创新先进技术有限公司 文本相似度的计算方法及装置
CN109325117B (zh) * 2018-08-24 2022-10-11 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282837A (ja) 2000-03-31 2001-10-12 Oki Electric Ind Co Ltd 情報収集装置
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP2004280569A (ja) 2003-03-17 2004-10-07 Mitsubishi Electric Corp 情報監視装置
JP3842768B2 (ja) * 2003-08-26 2006-11-08 株式会社東芝 サービス検索装置およびサービス検索方法
JP4661159B2 (ja) 2004-10-18 2011-03-30 ソニー株式会社 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム
US7818332B2 (en) * 2006-08-16 2010-10-19 Microsoft Corporation Query speller

Also Published As

Publication number Publication date
JP2009157553A (ja) 2009-07-16
US8041721B2 (en) 2011-10-18
US20090216751A1 (en) 2009-08-27

Similar Documents

Publication Publication Date Title
JP4429356B2 (ja) 属性抽出処理方法及び装置
US10452662B2 (en) Determining search result rankings based on trust level values associated with sellers
US9535911B2 (en) Processing a content item with regard to an event
US7363214B2 (en) System and method for determining quality of written product reviews in an automated manner
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
JP4470069B2 (ja) 入力補助装置、入力補助システム、入力補助方法、及び、入力補助プログラム
US8355997B2 (en) Method and system for developing a classification tool
WO2016101777A1 (zh) 用户兴趣数据分析和收集系统及其方法
US20080065633A1 (en) Job Search Engine and Methods of Use
US9639622B2 (en) Image processing system, image processing method, program, and non-transitory information storage medium
US8316026B2 (en) Method and system for keyword management
TW200300532A (en) Information analyzing method and system and recording medium
KR20080068825A (ko) 디스플레이를 위한 고품질 리뷰 선택
US11328034B2 (en) Authority based content filtering
WO2007148817A1 (ja) コンテンツ推薦システム、コンテンツ推薦方法及びコンテンツ推薦用プログラム
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
JP2008243007A (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
TWI709905B (zh) 資料分析方法及資料分析系統
TWI610189B (zh) 資訊推薦方法及其系統
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR102238662B1 (ko) 빅데이터를 이용한 리셀 상품의 미래 가치 평가 시스템 및 방법
CN112035738A (zh) 一种电子书单推荐方法及装置、电子设备
JP5774535B2 (ja) コンテンツ推薦プログラム、コンテンツ推薦装置及びコンテンツ推薦方法
JP2017182746A (ja) 情報提供サーバ装置、プログラム及び情報提供方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4429356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees