JP2008071040A

JP2008071040A - 企業名抽出方法およびプログラム

Info

Publication number: JP2008071040A
Application number: JP2006247991A
Authority: JP
Inventors: Kensuke Shibata; 賢介柴田; Kazutoshi Sano; 和利佐野; Yosuke Arakane; 陽助荒金; Osamu Shionoiri; 理塩野入
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-13
Filing date: 2006-09-13
Publication date: 2008-03-27
Anticipated expiration: 2026-09-13
Also published as: JP4714117B2

Abstract

【課題】Ｗｅｂページ中に含まれる企業名の中から、Ｗｅｂページを騙る企業名として適切であるものを候補として利用者に提示する。
【解決手段】まず、企業名抽出部２は、Ｗｅｂページ表示部１に表示されているＷｅｂページのＨＴＭＬソースに対して企業名の抽出処理を行なう。次に、企業名抽出部２は、Ｗｅｂページ表示部１に表示されているＷｅｂページのテキスト部分について、企業名の抽出処理を行なう。これらの処理結果をもとに、得点算出処理を行い、最終的に利用者に対して提示する企業名を絞り込むための処理を行なう。
【選択図】図１

Description

本発明は、フィッシング詐欺の防止を目的とし、Ｗｅｂページ中に含まれるハイパーリンクのリンク先の正当性を確認する方法に関する。

昨今、フィッシング詐欺による被害が多発している。フィッシング詐欺とは、電子メールや、チャット、ブログ等の電子的な文書に含まれるハイパーリンクを利用者にクリックさせることによって利用者を不正なＷｅｂサイト（フィッシングサイト）へ誘導し、当該サイトにおいて個人情報やクレジットカード番号などを入力させ、詐取するものである。

フィッシングサイトへの誘導を目的とする電子的な文書およびフィッシングサイトの特徴として、正当な金融機関やＥＣサイトといった企業を騙ることにより、電子的文書およびフィッシングサイトが正当な企業からのものであると利用者に思い込ませて信用させるという点が挙げられる。電子的文書およびフィッシングサイトには、偽装のターゲットとなる企業名がテキストやロゴファイルの形式で数多く出現する。
柴田賢介、荒金陽助、塩野入理、金井敦、"電子メールからの接続先企業検出によるフィッシング詐欺対策の提案"、情報処理学会研究報告、２００６、３月１６日公開、Ｎｏ．２６，ｐｐ７−１２

非特許文献１は、電子メールからフィッシングサイトへの誘導を阻止することを目的とした技術を提案している。まず、電子メールの本文・ヘッダに記述されている文章を形態素に分けた上で企業名の検索を行ない、企業名が検出された場合には当該企業名の本文中での位置を考慮し、メール中のリンク先となる企業を推測する。具体的には、複数のルールに従って各企業名に得点を付与し、閾値を超えた企業名を得点順に抽出する。利用者は閾値を超えた企業名群の中からリンク先となる企業を選択し、当該企業に対応するホワイトリストと、利用者がアクセスしようとしているメール中のハイパーリンクとを比較して正当性検証を行なう。非特許文献１においては、企業名の抽出方法について記述されているが、企業名の抽出対象となっている文書は電子メールに限られており、テキストベースの情報で、ヘッダ・本文という構成を持つ電子メールの形式に特化した抽出方法の提案にとどまっている。

本発明は、Ｗｅｂページが騙っている企業名を抽出する方法に関するものであるが、フィッシングサイトの中には、以下のような手口によってＷｅｂページが騙っている企業名を隠蔽しようとする攻撃が存在する。
（１）企業名を表す文字列をページ中に使用せず、企業のロゴ画像を多用することにより、テキストマッチングによる企業名の検索を不可能にする。
（２）Ｊａｖａｓｃｒｉｐｔを用いてエンコードした文字列をＨＴＭＬのソースとして記述することにより、ＨＴＭＬのソース中に現れる企業名を隠蔽する。
（３）背景と同系のフォントカラーを用いた文字や、極めて小さいフォントサイズの文字を使ってＷｅｂサイトの内容と無関係の文字列を利用者に見えにくい状態でサイト内に含めることにより、テキストマッチングによる企業名の検索を攪乱する。
（４）企業名を表す文字列の文字と文字の間に空白文字を挿入することにより、文字列単位での企業名の検索を不可能にする。
（５）利用者に個人情報を入力させるフォームを含むフィッシングサイトを正当な企業のＷｅｂサイト上にポップアップとして表示し、ポップアップ画面自体には企業名を含まない。

本発明の目的は、Ｗｅｂページ中に含まれる企業名の中から、Ｗｅｂページを騙る企業名として適切であるものを候補として利用者に提示することが可能な企業名抽出方法を提供することにある。

本発明は、電子情報としてＷｅｂブラウザで閲覧するＷｅｂページを対象とし、Ｗｅｂページが騙る企業名の抽出に関するものである。まず、Ｗｅｂページ内において検出された企業名に対し、「当該Ｗｅｂページを騙る企業名となる度合い」を複数のルールに則って推測し、数値として算出する（以降この数値を得点と呼ぶ）。高得点を獲得した企業名は当該ページを騙る企業名である可能性が高いと判断することが可能となる。利用者に対して企業名の候補を選択させる際には、得点が閾値を超えた企業名を得点の降順に提示する。つまり、得点が最も高い企業名が、選択肢の中で最上位に表示されることとなる。

企業名を推測するにあたっては、利用者が最終的に企業名を選択する際にストレスを感じることがないよう、以下の観点に着目する。
［１］得点が閾値を超えて利用者に提示される企業名を可能な限り絞り込み、利用者が選択する際の選択肢の数を減らす。ただし、Ｗｅｂページを騙る企業名が選択肢から漏れないこととする。
［２］Ｗｅｂページを騙る企業が最も高い得点を獲得し、利用者に対して最上位に表示されることとする。

本発明では、上記の目的を達成するために、以下の方法によってＷｅｂページから企業名を抽出する。
Ａ）企業の呼称をリスト化したものを事前に用意しておき、ＷｅｂページのＨＴＭＬソースと該リストに含まれる企業名とを比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
Ｂ）上記の企業名リストに含まれる企業名と、Ｗｅｂブラウザに表示されているテキスト情報を比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
Ｃ）企業において利用されているロゴ画像、企業名を表す画像等を事前に用意しておき、Ｗｅｂページ中の画像と上記の画像の類似度を計算し、類似度が高い画像を使用しているＷｅｂページに対し、得点を付与する。フィッシングサイトには正当な企業のロゴを流用するという特徴があるため、画像の類似度検索によって企業名の抽出が可能となる。また、手口（１）において示した攻撃手法への対策が可能となる。
Ｄ）ＷｅｂページのＨＴＭＬソースに対し、Ｊａｖａｓｃｒｉｐｔによってエンコードされている文字列をデコードし、可読な形式に復元した後にＡ）の処理を行なう。これにより、手口（２）において示した攻撃手法への対策が可能となる。
Ｅ）ＷｅｂページのＨＴＭＬソースに対し、ＨＴＭＬのタグ情報を考慮し、強調されていると推測される企業名に得点を付与する。考慮するタグ情報の例としては、以下が挙げられる
○ 他と異なるフォントカラーを使用している
○ 他より大きいフォントサイズを使用している
○ 他と異なるフォントを使用している
○ ｔｉｔｌｅタグ等の強調を目的とするタグによって囲まれている
逆に、以下の条件に該当する企業名については、得点を付与しない
○ 背景色と同系のフォントカラーを使用している
○ 他より極めて小さいフォントサイズを使用している
上記の処理は、ＨＴＭＬにおいてレイアウト情報を記述するために使用されるスタイルシートについても考慮する。上記の処理により、手口（３）において示した攻撃手法への対策が可能となる。
Ｆ）Ｗｅｂブラウザに表示されているテキスト情報の中の改行、スペース等の空白文字を削除した文字列に対し、Ｂ）の処理を行う。これにより、手口（４）において示した攻撃手法への対策が可能となる。
Ｇ）Ｗｅｂブラウザに表示されているテキスト情報の中に含まれる企業名が特定の位置にある場合に、得点を付与する。特定の位置とは、例えばテキスト情報の先頭、末尾部分、事前に用意されたキーワード（例：Ｃｏｐｙｒｉｇｈｔ、編集、Ｓｕｂｊｅｃｔ、Ｆｒｏｍ）の前後等が挙げられる。
Ｈ）過去に利用者が閲覧したＷｅｂページにおいて既に抽出されている企業名に得点を付与する。これにより、手口（５）において、利用者が現在アクセスしているＷｅｂページに企業名が含まれない場合に、過去の閲覧履歴数ページ分において抽出した企業名を利用して企業名を抽出することが可能となる。
Ｉ）上記Ａ）〜Ｈ）のルールによって抽出された企業名に対し、ルール毎に重みを付与した上で、企業名毎に総得点を計算し、閾値と比較して利用者に提示する企業名を絞り込む。

Ａ）、Ｂ）については、企業名抽出の対象となるＷｅｂページが正当である場合もしくはフィッシングサイトである場合の両者共に、ＨＴＭＬソース中もしくはＷｅｂブラウザに表示されているテキスト中に当該Ｗｅｂページを騙る企業名が数多く含まれることが多いため、これをカウントして得点を付与している。Ｂ）のＷｅｂブラウザにおいて表示されているテキストをＨＴＭＬソースとは別に利用している理由は、手口（２）において示したＪａｖａｓｃｒｉｐｔによるエンコードに類する手口が現れた場合に、最終的に利用者が閲覧しているＷｅｂブラウザ上からのテキストを取得し、企業名を抽出することにより、企業名抽出の精度向上が見込めるためである。

Ｇ）において事前に用意されるキーワードについては、多くのＷｅｂページにおいて、著作権表示や文責を示す表記がページ中の下部に記述される傾向があるため、表記を行なう際に企業名とともに用いられる「Ｃｏｐｙｒｉｇｈｔ」や「編集」等といったキーワードを含めておく。また、多くの場合Ｗｅｂブラウザにて閲覧するＷｅｂメールシステムにおいては、メールの表示をＷｅｂページにて行なうため、本発明の対象となり得る。Ｗｅｂメールシステムでは、メールの題名や送信者は、例えば「Ｓｕｂｊｅｃｔ：○○」、「題名：○○」、「Ｆｒｏｍ：△△」、「送信者：△△」といった表記によって示される。メールの題名や送信者には当該メールを騙る企業名が含まれていることが多いため、「Ｓｕｂｊｅｃｔ」、「題名」、「Ｆｒｏｍ」、「送信者」等のキーワードとともに用いられる企業名に注目することにより、利用者が意図する企業名の抽出が可能となる。

Ｉ）によって各企業名の総得点が算出され、閾値と総得点とを比較し、閾値を超えている企業名を絞り込み、さらに総得点の降順にソートした結果を利用者に提示することにより、［１］、［２］を満たす企業名抽出を行なうことが可能となる。

本発明によれば、Ｗｅｂページ中に含まれる企業名の中から、Ｗｅｂページを騙る企業名として適切であるものを候補として利用者に提示することが可能となる。提示の際には、
（１）最終的に利用者が選択する企業名（Ｗｅｂページを騙る企業名）が抜けることなく候補として抽出されていること
（２）利用者が選択を行なう際に多くの選択肢が表示されることによって混乱を招くことがないように、確からしい候補のみで選択肢を構成すること
（３）利用者が選択を行なう際に容易に選択することができるように、最終的に利用者が選択すると推測される企業名を順位付けによって先頭に表示すること
といった点が守られるように、複数のルールを用いて企業名に得点付けを行ない、閾値との比較とソートによって選択肢の絞込みと順位付けを行なう。これにより、利用者がアクセスするフィッシングサイトが騙る企業名を抽出することが可能となり、当該サイトがどの企業を騙っているのかを特定した上で、当該企業に対応するホワイトリストを用いたＵＲＬの正当性検証が可能となる。検証に失敗した場合には、「検証対象のＵＲＬは当該企業の正当なＵＲＬとして適切ではなく、フィッシングサイトである」と判定することが可能となり、利用者に対して適切な警告を行なうことができる。

次に、本発明の実施の形態について図面を参照して説明する。

図１は本発明の一実施形態の企業名抽出装置のブロック図である。本企業名抽出装置はＷｅｂページ表示部１と企業名抽出部２と企業データ格納部３とキーワード格納部４と閲覧履歴格納部５と得点格納部６からなる。

Ｗｅｂページ表示部１は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）を介して公開されているＷｅｂページを受信し、利用者に対して表示するものであり、一般的にはＷｅｂブラウザと呼ばれるソフトウェアが利用される。

企業名抽出部２は、企業名抽出装置の核となる部分であり、Ｗｅｂページ表示部１から獲得したＨＴＭＬソースとＷｅｂブラウザに表示されたテキストを解析して、企業名の抽出を行なう。

企業データ格納部３は、企業名抽出部２において企業名のテキストマッチングを行なう際に利用する企業名のリストが格納される企業名格納部３１と、ＨＴＭＬに貼付される画像ファイルの類似度検索を行なう際に利用する企業ロゴが格納される企業ロゴ格納部３２からなる。

キーワード格納部４は、Ｗｅｂブラウザに表示されたテキスト中に含まれる企業名の位置を解析する際に必要となるキーワードを格納している。

閲覧履歴格納部５は、利用者が過去に閲覧したＷｅｂページにおいて抽出された企業名を保存しておく部分である。

得点格納部６は、企業名抽出に用いる様々なルールに対する重みを数値として格納している。

企業名抽出部２はＨＴＭＬソース取得部２１とデコード処理部２２とＨＴＭＬ解析部２３と表示テキスト取得部２４と空白文字処理部２５と企業名カウント処理部２６と表示テキスト解析部２７と得点処理部２８とからなり、ＨＴＭＬ解析部２３はタグ情報解析部２３Ａとスタイルシート解析部２３Ｂとフォント解析部２３Ｃと画像解析部２３Ｄからなる。

図２は、図１の企業名抽出装置において行なわれる企業名抽出処理全体のフローチャートを示したものである。以下、図２を参照して抽出処理の処理手順を説明する。まず、企業名抽出部２は、Ｗｅｂページ表示部１に表示されているＷｅｂページのＨＴＭＬソースに対して企業名の抽出処理を行なう（ステップ１０１）。次に、企業名抽出部２は、Ｗｅｂページ表示部１に表示されているＷｅｂページのテキスト部分について、企業名の抽出処理を行なう（ステップ１０２）。ステップ１０１、１０２の結果をもとに、得点算出処理を行い、最終的に利用者に対して提示する企業名を絞り込むための処理を行なう（ステップ１０３）。

図３は、企業名抽出部２において行なわれるＨＴＭＬソースに対する企業名抽出処理のフローチャートを示したものである。以下、図３を参照して抽出処理の処理手順を説明する。まず、ＨＴＭＬソース取得部２１は、Ｗｅｂページ表示部１から現在表示しているＷｅｂページのＨＴＭＬソースを獲得する（ステップ２０１）。次に、企業名格納部３１を確認し、企業名リストにリストアップされている企業名に対して順番に以降の抽出処理を行なう。企業名リストのすべての企業名に対して抽出処理が終了すれば（２０２のＮｏ）、処理を終了する。まず、デコード処理部２２が、ステップ２０１において取得したＨＴＭＬソースに対し、Ｊａｖａｓｃｒｉｐｔのｅｓｃａｐｅ関数を使用している部分がある場合にはエンコードされた文字列に対してｕｎｅｓｃａｐｅ関数を適用し、デコードされた結果に置換したものを新たなＨＴＭＬソースとする（ステップ２０４）。次に、Ｗｅｂページのレイアウトを定義するスタイルシートを使用しているＷｅｂページの場合には、スタイルシート解析部２３Ｂでスタイルシートを解析することにより、特にフォントに関する情報を取得しておく（ステップ２０５）。フォント解析部２３Ｃでステップ２０５において獲得した情報を用い、ＨＴＭＬソース中のフォントに関する解析を行なう。これは、企業名抽出手法Ｅ）において記述されている部分であり、他と異なるフォントカラー、フォントサイズを使用している企業名等を抽出する（ステップ２０６）。次に、タグ情報解析部２３Ａでフォント関連以外のＨＴＭＬタグの解析を行なう。例えば＜ｔｉｔｌｅ＞タグに囲まれている文字列はＷｅｂページのタイトルとなる部分であり、本文字列中に企業名が含まれる場合には当該Ｗｅｂページを示す企業名である可能性が高い。このような企業名を、タグ情報をもとに抽出する（ステップ２０７）。Ｗｅｂページには画像ファイルを含めることが可能であるため、画像解析部２３Ｄによって、ＨＴＭＬソースに貼付されている画像ファイルと、企業ロゴ格納部３２に格納されている画像ファイルについて、類似度検索を実行し、類似度の高い画像がある場合には当該画像に紐付けられる企業名を抽出する（ステップ２０８）。最後に、企業名カウント処理部２６によって、ＨＴＭＬソースと企業名格納部３１に含まれる企業名のテキストマッチングを行ない、ＨＴＭＬソース内に含まれる企業名をその出現回数とともに取得する（ステップ２０９）。ステップ２０９における企業名の出現回数と、ステップ２０６〜２０９において抽出された企業名が存在する場合にはこれを保存しておき、当該企業名に対する処理を終了する（ステップ２１０）。

図４は、企業名抽出部２において行なわれるＷｅｂページの表示テキストに対する企業名抽出処理のフローチャートを示したものである。以下、図４を参照して抽出処理の処理手順を説明する。まず、表示テキスト取得部２４は、Ｗｅｂページ表示部１から現在表示しているＷｅｂページの表示テキスト（利用者がＷｅｂページを閲覧する際にテキストとして認識できる部分）を獲得する（ステップ３０１）。次に、企業名格納部３１を確認し、企業名リストにリストアップされている企業名に対して順番に以降の抽出処理を行なう。企業名リストのすべての企業名に対して抽出処理が終了すれば（３０２のＮｏ）、処理を終了する。まず、表示テキスト解析部２７は、ステップ３０１において取得したテキストに対し、テキスト中の冒頭、末尾に存在する企業名を抽出する。また、キーワード格納部４に格納されているキーワードの前後に位置する企業名を同様に抽出する。これは、企業名抽出手法Ｇ）において記述されている部分であり、テキスト中の企業名の位置を考慮し、Ｗｅｂページ中の先頭や末尾に出現する企業名、もしくは「Ｃｏｐｙｒｉｇｈｔ」や「編集」、「Ｓｕｂｊｅｃｔ」、「Ｆｒｏｍ」といったキーワードとともに出現する企業名が当該ページを騙る企業名となる可能性が高いため、これらのルールに則って抽出を行なう（ステップ３０４）。次に、空白文字処理部２５で、ステップ３０１において取得したテキスト中の空白文字を削除し（ステップ３０５）、表示テキスト解析部２７で、空白文字を削除する前後のテキスト両方に対して、企業名格納部３１に含まれる企業名とのテキストマッチングを行ない、テキスト内に含まれる企業名をその出現回数とともに取得する（ステップ３０６）。企業名カウント処理部２６によって、ステップ３０６における企業名の出現回数と、ステップ３０４、３０６において抽出された企業名が存在する場合にはこれを保存しておき、当該企業名に対する処理を終了する（ステップ３０７）。

図５は、得点処理部２８において行なわれる企業名毎の得点算出処理のフローチャートを示したものである。以下、図５を参照して得点算出処理の処理手順を示す。まず、ステップ２１０とステップ３０７において保存されている企業名と出現回数に関する情報を取得し（ステップ４０１）、さらに、閲覧履歴格納部５に格納されている過去のＷｅｂページにおいて抽出された企業名を取得する（ステップ４０２）。次に、取得した企業名に対して順番に以降の得点算出処理を行なう。取得したすべての企業名に対して算出処理が終了すれば（ステップ４０３のＹｅｓ）、ステップ４０７へと移行する。取得した中で未処理の企業名に対し、得点格納部６からルール毎の重みを獲得し、抽出結果に対して適用する。例えば、ステップ２０７においてｔｉｔｌｅタグに囲まれている企業名にはｘ点、ステップ３０４において冒頭に出現した企業名にはｙ点を与える、といった情報が格納されている。ある企業名ｚがステップ２０７のｔｉｔｌｅタグに関するルールと、ステップ３０４の冒頭部分の位置する場合のルールに合致するとすれば、ｚの総得点はｘ＋ｙとなる。また、ステップ２０９、ステップ３０６において実行したテキストマッチングの結果については、企業名の出現回数に応じて得点が付与されることとし、例えば１〜１０回出現すればα点、１１回〜２０回出現すればβ点といったルールが得点格納部６に記述されていることとしてもよい（ステップ４０５）。以上の方式により、企業名に対する総得点を算出し、この総得点が得点格納部６に格納されている閾値を超えた場合には、これを保存する（ステップ４０６）。すべての企業名に対して算出処理を終了すると、まず閾値を超えた企業名を閲覧履歴格納部５へ保存し、保存された企業名は利用者がＷｅｂページ中のリンクをクリックし、次のページへ移行した場合に再利用する（ステップ４０７）。次に、閾値を超えた企業名に対し、総得点の降順でソートを行ない（ステップ４０８）、最後に利用者に対してソートされた結果を、Ｗｅｂページを騙る企業名候補として提示する（ステップ４０９）。

なお、本企業名抽出装置の機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。

本発明の一実施形態による企業名抽出装置全体を示すブロック図である。企業名抽出処理を示すフローチャートである。ＨＴＭＬソースに対する企業名抽出処理を示すフローチャートである。ブラウザ表示テキストに対する企業名抽出処理を示すフローチャートである。得点算出処理を示すフローチャートである。

符号の説明

１Ｗｅｂページ表示部
２企業名抽出部
３企業データ格納部
４キーワード格納部
５閲覧履歴格納部
６得点格納部
２１ＨＴＭＬソース取得部
２２デコード処理部
２３ＨＴＭＬ解析部
２３Ａタグ情報解析部
２３Ｂスタイルシート解析部
２３Ｃフォント解析部
２３Ｄ画像解析部
２４表示テキスト取得部
２５空白文字処理部
２６企業名カウント処理部
２７表示テキスト解析部
２８得点処理部
３１企業名格納部
３２企業ロゴ格納部
１０１〜１０３、２０１〜２１０、３０１〜３０７、４０１〜４０９ステップ

Claims

企業名抽出装置において行われる企業名抽出方法であって、
企業名カウンント処理手段が、ＷｅｂページのＨＴＭＬソースと、企業名格納部に格納されている企業名とを比較することにより、該Ｗｅｂページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Ｗｅｂページを騙る企業名の候補として抽出する、企業名抽出方法。
企業名抽出装置において行われる企業名抽出方法であって、
企業名カウンント処理手段が、Ｗｅｂページの中で利用者が実際に目にするテキスト情報と、企業名格納部に格納されている企業名とを比較することにより、該Ｗｅｂページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Ｗｅｂページを騙る企業名の候補として抽出する、企業名抽出方法。
企業名抽出装置において行われる企業名抽出方法であって、
画像比較処理手段が、Ｗｅｂページに含まれる画像と、企業ロゴ格納部に格納されている企業を特徴付ける画像とを比較することにより、該Ｗｅｂページと当該企業の正当なＷｅｂページとの類似度を算出し、企業名候補抽出処理手段が、その類似度に応じて当該Ｗｅｂページを騙る企業名の候補として、当該画像に紐付く企業を抽出する、企業名抽出方法。
企業名抽出装置において行われる企業名抽出方法であって、
タグ情報解析手段が、ＷｅｂページのＨＴＭＬソース中に含まれるタグ情報を解析し、企業名候補抽出処理手段が、該解析結果により、Ｗｅｂページの作成者による企業名の強調もしくは隠蔽の意図を加味した上で、強調されている企業名を、当該Ｗｅｂページを騙る企業名の候補として抽出し、また、隠蔽されている企業名を候補から除外する、企業名抽出方法。
前記企業名候補抽出処理手段は、ＷｅｂページのＨＴＭＬソース中にエンコードされた文字列がある場合に、これをデコードした上で企業名抽出を行なう、請求項１、３、４のいずれかに記載の企業名抽出方法。
企業名抽出装置において行われる企業名抽出方法であって、
表示テキスト解析手段が、Ｗｅｂページの中で利用者が実際に目にするテキスト情報を解析し、企業名候補抽出処理手段が、企業名が出現する位置に応じて、当該企業名が強調される位置に存在する場合には、これを当該Ｗｅｂページを騙る企業名の候補として抽出する、企業名抽出方法。
前記企業名候補抽出処理手段は、Ｗｅｂページの中で利用者が実際に目にするテキスト情報に対し、空白文字処理手段が、テキスト中に含まれる空白文字をすべて削除した文字列に対して企業名抽出を行なう、請求項２または６に記載の企業名抽出方法。
前記企業名候補抽出処理手段は、利用者が過去に閲覧したＷｅｂページにおいて企業名抽出を行ない、抽出された企業名を保存しておき、利用者が現在閲覧しているＷｅｂページに対する企業名抽出を行なう際に、保存された企業名を利用する、請求項１から７のいずれかに記載の企業名抽出方法。
得点処理手段が、利用者が閲覧しているＷｅｂページについて、抽出された企業名に対し、個々の抽出方法毎に事前に与えられた重みを付与した上で、当該Ｗｅｂページを騙る企業名となる度合いを算出し、その度合いに応じて利用者に対して企業名候補として提示する、請求項１から８のいずれかに記載の企業名抽出方法。
請求項１から９のいずれかに記載の企業名抽出方法をコンピュータに実行させるためのプログラム。