JP2008071040A - 企業名抽出方法およびプログラム - Google Patents

企業名抽出方法およびプログラム Download PDF

Info

Publication number
JP2008071040A
JP2008071040A JP2006247991A JP2006247991A JP2008071040A JP 2008071040 A JP2008071040 A JP 2008071040A JP 2006247991 A JP2006247991 A JP 2006247991A JP 2006247991 A JP2006247991 A JP 2006247991A JP 2008071040 A JP2008071040 A JP 2008071040A
Authority
JP
Japan
Prior art keywords
company name
web page
company
extraction method
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006247991A
Other languages
English (en)
Other versions
JP4714117B2 (ja
Inventor
Kensuke Shibata
賢介 柴田
Kazutoshi Sano
和利 佐野
Yosuke Arakane
陽助 荒金
Osamu Shionoiri
理 塩野入
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006247991A priority Critical patent/JP4714117B2/ja
Publication of JP2008071040A publication Critical patent/JP2008071040A/ja
Application granted granted Critical
Publication of JP4714117B2 publication Critical patent/JP4714117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】Webページ中に含まれる企業名の中から、Webページを騙る企業名として適切であるものを候補として利用者に提示する。
【解決手段】まず、企業名抽出部2は、Webページ表示部1に表示されているWebページのHTMLソースに対して企業名の抽出処理を行なう。次に、企業名抽出部2は、Webページ表示部1に表示されているWebページのテキスト部分について、企業名の抽出処理を行なう。これらの処理結果をもとに、得点算出処理を行い、最終的に利用者に対して提示する企業名を絞り込むための処理を行なう。
【選択図】図1

Description

本発明は、フィッシング詐欺の防止を目的とし、Webページ中に含まれるハイパーリンクのリンク先の正当性を確認する方法に関する。
昨今、フィッシング詐欺による被害が多発している。フィッシング詐欺とは、電子メールや、チャット、ブログ等の電子的な文書に含まれるハイパーリンクを利用者にクリックさせることによって利用者を不正なWebサイト(フィッシングサイト)へ誘導し、当該サイトにおいて個人情報やクレジットカード番号などを入力させ、詐取するものである。
フィッシングサイトへの誘導を目的とする電子的な文書およびフィッシングサイトの特徴として、正当な金融機関やECサイトといった企業を騙ることにより、電子的文書およびフィッシングサイトが正当な企業からのものであると利用者に思い込ませて信用させるという点が挙げられる。電子的文書およびフィッシングサイトには、偽装のターゲットとなる企業名がテキストやロゴファイルの形式で数多く出現する。
柴田賢介、荒金陽助、塩野入理、金井敦、"電子メールからの接続先企業検出によるフィッシング詐欺対策の提案"、情報処理学会研究報告、2006、3月16日公開、No.26,pp7−12
非特許文献1は、電子メールからフィッシングサイトへの誘導を阻止することを目的とした技術を提案している。まず、電子メールの本文・ヘッダに記述されている文章を形態素に分けた上で企業名の検索を行ない、企業名が検出された場合には当該企業名の本文中での位置を考慮し、メール中のリンク先となる企業を推測する。具体的には、複数のルールに従って各企業名に得点を付与し、閾値を超えた企業名を得点順に抽出する。利用者は閾値を超えた企業名群の中からリンク先となる企業を選択し、当該企業に対応するホワイトリストと、利用者がアクセスしようとしているメール中のハイパーリンクとを比較して正当性検証を行なう。非特許文献1においては、企業名の抽出方法について記述されているが、企業名の抽出対象となっている文書は電子メールに限られており、テキストベースの情報で、ヘッダ・本文という構成を持つ電子メールの形式に特化した抽出方法の提案にとどまっている。
本発明は、Webページが騙っている企業名を抽出する方法に関するものであるが、フィッシングサイトの中には、以下のような手口によってWebページが騙っている企業名を隠蔽しようとする攻撃が存在する。
(1)企業名を表す文字列をページ中に使用せず、企業のロゴ画像を多用することにより、テキストマッチングによる企業名の検索を不可能にする。
(2)Javascriptを用いてエンコードした文字列をHTMLのソースとして記述することにより、HTMLのソース中に現れる企業名を隠蔽する。
(3)背景と同系のフォントカラーを用いた文字や、極めて小さいフォントサイズの文字を使ってWebサイトの内容と無関係の文字列を利用者に見えにくい状態でサイト内に含めることにより、テキストマッチングによる企業名の検索を攪乱する。
(4)企業名を表す文字列の文字と文字の間に空白文字を挿入することにより、文字列単位での企業名の検索を不可能にする。
(5)利用者に個人情報を入力させるフォームを含むフィッシングサイトを正当な企業のWebサイト上にポップアップとして表示し、ポップアップ画面自体には企業名を含まない。
本発明の目的は、Webページ中に含まれる企業名の中から、Webページを騙る企業名として適切であるものを候補として利用者に提示することが可能な企業名抽出方法を提供することにある。
本発明は、電子情報としてWebブラウザで閲覧するWebページを対象とし、Webページが騙る企業名の抽出に関するものである。まず、Webページ内において検出された企業名に対し、「当該Webページを騙る企業名となる度合い」を複数のルールに則って推測し、数値として算出する(以降この数値を得点と呼ぶ)。高得点を獲得した企業名は当該ページを騙る企業名である可能性が高いと判断することが可能となる。利用者に対して企業名の候補を選択させる際には、得点が閾値を超えた企業名を得点の降順に提示する。つまり、得点が最も高い企業名が、選択肢の中で最上位に表示されることとなる。
企業名を推測するにあたっては、利用者が最終的に企業名を選択する際にストレスを感じることがないよう、以下の観点に着目する。
[1]得点が閾値を超えて利用者に提示される企業名を可能な限り絞り込み、利用者が選択する際の選択肢の数を減らす。ただし、Webページを騙る企業名が選択肢から漏れないこととする。
[2]Webページを騙る企業が最も高い得点を獲得し、利用者に対して最上位に表示されることとする。
本発明では、上記の目的を達成するために、以下の方法によってWebページから企業名を抽出する。
A)企業の呼称をリスト化したものを事前に用意しておき、WebページのHTMLソースと該リストに含まれる企業名とを比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
B)上記の企業名リストに含まれる企業名と、Webブラウザに表示されているテキスト情報を比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
C)企業において利用されているロゴ画像、企業名を表す画像等を事前に用意しておき、Webページ中の画像と上記の画像の類似度を計算し、類似度が高い画像を使用しているWebページに対し、得点を付与する。フィッシングサイトには正当な企業のロゴを流用するという特徴があるため、画像の類似度検索によって企業名の抽出が可能となる。また、手口(1)において示した攻撃手法への対策が可能となる。
D)WebページのHTMLソースに対し、Javascriptによってエンコードされている文字列をデコードし、可読な形式に復元した後にA)の処理を行なう。これにより、手口(2)において示した攻撃手法への対策が可能となる。
E)WebページのHTMLソースに対し、HTMLのタグ情報を考慮し、強調されていると推測される企業名に得点を付与する。考慮するタグ情報の例としては、以下が挙げられる
○ 他と異なるフォントカラーを使用している
○ 他より大きいフォントサイズを使用している
○ 他と異なるフォントを使用している
○ titleタグ等の強調を目的とするタグによって囲まれている
逆に、以下の条件に該当する企業名については、得点を付与しない
○ 背景色と同系のフォントカラーを使用している
○ 他より極めて小さいフォントサイズを使用している
上記の処理は、HTMLにおいてレイアウト情報を記述するために使用されるスタイルシートについても考慮する。上記の処理により、手口(3)において示した攻撃手法への対策が可能となる。
F)Webブラウザに表示されているテキスト情報の中の改行、スペース等の空白文字を削除した文字列に対し、B)の処理を行う。これにより、手口(4)において示した攻撃手法への対策が可能となる。
G)Webブラウザに表示されているテキスト情報の中に含まれる企業名が特定の位置にある場合に、得点を付与する。特定の位置とは、例えばテキスト情報の先頭、末尾部分、事前に用意されたキーワード(例:Copyright、編集、Subject、From)の前後等が挙げられる。
H)過去に利用者が閲覧したWebページにおいて既に抽出されている企業名に得点を付与する。これにより、手口(5)において、利用者が現在アクセスしているWebページに企業名が含まれない場合に、過去の閲覧履歴数ページ分において抽出した企業名を利用して企業名を抽出することが可能となる。
I)上記A)〜H)のルールによって抽出された企業名に対し、ルール毎に重みを付与した上で、企業名毎に総得点を計算し、閾値と比較して利用者に提示する企業名を絞り込む。
A)、B)については、企業名抽出の対象となるWebページが正当である場合もしくはフィッシングサイトである場合の両者共に、HTMLソース中もしくはWebブラウザに表示されているテキスト中に当該Webページを騙る企業名が数多く含まれることが多いため、これをカウントして得点を付与している。B)のWebブラウザにおいて表示されているテキストをHTMLソースとは別に利用している理由は、手口(2)において示したJavascriptによるエンコードに類する手口が現れた場合に、最終的に利用者が閲覧しているWebブラウザ上からのテキストを取得し、企業名を抽出することにより、企業名抽出の精度向上が見込めるためである。
G)において事前に用意されるキーワードについては、多くのWebページにおいて、著作権表示や文責を示す表記がページ中の下部に記述される傾向があるため、表記を行なう際に企業名とともに用いられる「Copyright」や「編集」等といったキーワードを含めておく。また、多くの場合Webブラウザにて閲覧するWebメールシステムにおいては、メールの表示をWebページにて行なうため、本発明の対象となり得る。Webメールシステムでは、メールの題名や送信者は、例えば「Subject:○○」、「題名:○○」、「From:△△」、「送信者:△△」といった表記によって示される。メールの題名や送信者には当該メールを騙る企業名が含まれていることが多いため、「Subject」、「題名」、「From」、「送信者」等のキーワードとともに用いられる企業名に注目することにより、利用者が意図する企業名の抽出が可能となる。
I)によって各企業名の総得点が算出され、閾値と総得点とを比較し、閾値を超えている企業名を絞り込み、さらに総得点の降順にソートした結果を利用者に提示することにより、[1]、[2]を満たす企業名抽出を行なうことが可能となる。
本発明によれば、Webページ中に含まれる企業名の中から、Webページを騙る企業名として適切であるものを候補として利用者に提示することが可能となる。提示の際には、
(1)最終的に利用者が選択する企業名(Webページを騙る企業名)が抜けることなく候補として抽出されていること
(2)利用者が選択を行なう際に多くの選択肢が表示されることによって混乱を招くことがないように、確からしい候補のみで選択肢を構成すること
(3)利用者が選択を行なう際に容易に選択することができるように、最終的に利用者が選択すると推測される企業名を順位付けによって先頭に表示すること
といった点が守られるように、複数のルールを用いて企業名に得点付けを行ない、閾値との比較とソートによって選択肢の絞込みと順位付けを行なう。これにより、利用者がアクセスするフィッシングサイトが騙る企業名を抽出することが可能となり、当該サイトがどの企業を騙っているのかを特定した上で、当該企業に対応するホワイトリストを用いたURLの正当性検証が可能となる。検証に失敗した場合には、「検証対象のURLは当該企業の正当なURLとして適切ではなく、フィッシングサイトである」と判定することが可能となり、利用者に対して適切な警告を行なうことができる。
次に、本発明の実施の形態について図面を参照して説明する。
図1は本発明の一実施形態の企業名抽出装置のブロック図である。本企業名抽出装置はWebページ表示部1と企業名抽出部2と企業データ格納部3とキーワード格納部4と閲覧履歴格納部5と得点格納部6からなる。
Webページ表示部1は、WWW(World Wide Web)を介して公開されているWebページを受信し、利用者に対して表示するものであり、一般的にはWebブラウザと呼ばれるソフトウェアが利用される。
企業名抽出部2は、企業名抽出装置の核となる部分であり、Webページ表示部1から獲得したHTMLソースとWebブラウザに表示されたテキストを解析して、企業名の抽出を行なう。
企業データ格納部3は、企業名抽出部2において企業名のテキストマッチングを行なう際に利用する企業名のリストが格納される企業名格納部31と、HTMLに貼付される画像ファイルの類似度検索を行なう際に利用する企業ロゴが格納される企業ロゴ格納部32からなる。
キーワード格納部4は、Webブラウザに表示されたテキスト中に含まれる企業名の位置を解析する際に必要となるキーワードを格納している。
閲覧履歴格納部5は、利用者が過去に閲覧したWebページにおいて抽出された企業名を保存しておく部分である。
得点格納部6は、企業名抽出に用いる様々なルールに対する重みを数値として格納している。
企業名抽出部2はHTMLソース取得部21とデコード処理部22とHTML解析部23と表示テキスト取得部24と空白文字処理部25と企業名カウント処理部26と表示テキスト解析部27と得点処理部28とからなり、HTML解析部23はタグ情報解析部23Aとスタイルシート解析部23Bとフォント解析部23Cと画像解析部23Dからなる。
図2は、図1の企業名抽出装置において行なわれる企業名抽出処理全体のフローチャートを示したものである。以下、図2を参照して抽出処理の処理手順を説明する。まず、企業名抽出部2は、Webページ表示部1に表示されているWebページのHTMLソースに対して企業名の抽出処理を行なう(ステップ101)。次に、企業名抽出部2は、Webページ表示部1に表示されているWebページのテキスト部分について、企業名の抽出処理を行なう(ステップ102)。ステップ101、102の結果をもとに、得点算出処理を行い、最終的に利用者に対して提示する企業名を絞り込むための処理を行なう(ステップ103)。
図3は、企業名抽出部2において行なわれるHTMLソースに対する企業名抽出処理のフローチャートを示したものである。以下、図3を参照して抽出処理の処理手順を説明する。まず、HTMLソース取得部21は、Webページ表示部1から現在表示しているWebページのHTMLソースを獲得する(ステップ201)。次に、企業名格納部31を確認し、企業名リストにリストアップされている企業名に対して順番に以降の抽出処理を行なう。企業名リストのすべての企業名に対して抽出処理が終了すれば(202のNo)、処理を終了する。まず、デコード処理部22が、ステップ201において取得したHTMLソースに対し、Javascriptのescape関数を使用している部分がある場合にはエンコードされた文字列に対してunescape関数を適用し、デコードされた結果に置換したものを新たなHTMLソースとする(ステップ204)。次に、Webページのレイアウトを定義するスタイルシートを使用しているWebページの場合には、スタイルシート解析部23Bでスタイルシートを解析することにより、特にフォントに関する情報を取得しておく(ステップ205)。フォント解析部23Cでステップ205において獲得した情報を用い、HTMLソース中のフォントに関する解析を行なう。これは、企業名抽出手法E)において記述されている部分であり、他と異なるフォントカラー、フォントサイズを使用している企業名等を抽出する(ステップ206)。次に、タグ情報解析部23Aでフォント関連以外のHTMLタグの解析を行なう。例えば<title>タグに囲まれている文字列はWebページのタイトルとなる部分であり、本文字列中に企業名が含まれる場合には当該Webページを示す企業名である可能性が高い。このような企業名を、タグ情報をもとに抽出する(ステップ207)。Webページには画像ファイルを含めることが可能であるため、画像解析部23Dによって、HTMLソースに貼付されている画像ファイルと、企業ロゴ格納部32に格納されている画像ファイルについて、類似度検索を実行し、類似度の高い画像がある場合には当該画像に紐付けられる企業名を抽出する(ステップ208)。最後に、企業名カウント処理部26によって、HTMLソースと企業名格納部31に含まれる企業名のテキストマッチングを行ない、HTMLソース内に含まれる企業名をその出現回数とともに取得する(ステップ209)。ステップ209における企業名の出現回数と、ステップ206〜209において抽出された企業名が存在する場合にはこれを保存しておき、当該企業名に対する処理を終了する(ステップ210)。
図4は、企業名抽出部2において行なわれるWebページの表示テキストに対する企業名抽出処理のフローチャートを示したものである。以下、図4を参照して抽出処理の処理手順を説明する。まず、表示テキスト取得部24は、Webページ表示部1から現在表示しているWebページの表示テキスト(利用者がWebページを閲覧する際にテキストとして認識できる部分)を獲得する(ステップ301)。次に、企業名格納部31を確認し、企業名リストにリストアップされている企業名に対して順番に以降の抽出処理を行なう。企業名リストのすべての企業名に対して抽出処理が終了すれば(302のNo)、処理を終了する。まず、表示テキスト解析部27は、ステップ301において取得したテキストに対し、テキスト中の冒頭、末尾に存在する企業名を抽出する。また、キーワード格納部4に格納されているキーワードの前後に位置する企業名を同様に抽出する。これは、企業名抽出手法G)において記述されている部分であり、テキスト中の企業名の位置を考慮し、Webページ中の先頭や末尾に出現する企業名、もしくは「Copyright」や「編集」、「Subject」、「From」といったキーワードとともに出現する企業名が当該ページを騙る企業名となる可能性が高いため、これらのルールに則って抽出を行なう(ステップ304)。次に、空白文字処理部25で、ステップ301において取得したテキスト中の空白文字を削除し(ステップ305)、表示テキスト解析部27で、空白文字を削除する前後のテキスト両方に対して、企業名格納部31に含まれる企業名とのテキストマッチングを行ない、テキスト内に含まれる企業名をその出現回数とともに取得する(ステップ306)。企業名カウント処理部26によって、ステップ306における企業名の出現回数と、ステップ304、306において抽出された企業名が存在する場合にはこれを保存しておき、当該企業名に対する処理を終了する(ステップ307)。
図5は、得点処理部28において行なわれる企業名毎の得点算出処理のフローチャートを示したものである。以下、図5を参照して得点算出処理の処理手順を示す。まず、ステップ210とステップ307において保存されている企業名と出現回数に関する情報を取得し(ステップ401)、さらに、閲覧履歴格納部5に格納されている過去のWebページにおいて抽出された企業名を取得する(ステップ402)。次に、取得した企業名に対して順番に以降の得点算出処理を行なう。取得したすべての企業名に対して算出処理が終了すれば(ステップ403のYes)、ステップ407へと移行する。取得した中で未処理の企業名に対し、得点格納部6からルール毎の重みを獲得し、抽出結果に対して適用する。例えば、ステップ207においてtitleタグに囲まれている企業名にはx点、ステップ304において冒頭に出現した企業名にはy点を与える、といった情報が格納されている。ある企業名zがステップ207のtitleタグに関するルールと、ステップ304の冒頭部分の位置する場合のルールに合致するとすれば、zの総得点はx+yとなる。また、ステップ209、ステップ306において実行したテキストマッチングの結果については、企業名の出現回数に応じて得点が付与されることとし、例えば1〜10回出現すればα点、11回〜20回出現すればβ点といったルールが得点格納部6に記述されていることとしてもよい(ステップ405)。以上の方式により、企業名に対する総得点を算出し、この総得点が得点格納部6に格納されている閾値を超えた場合には、これを保存する(ステップ406)。すべての企業名に対して算出処理を終了すると、まず閾値を超えた企業名を閲覧履歴格納部5へ保存し、保存された企業名は利用者がWebページ中のリンクをクリックし、次のページへ移行した場合に再利用する(ステップ407)。次に、閾値を超えた企業名に対し、総得点の降順でソートを行ない(ステップ408)、最後に利用者に対してソートされた結果を、Webページを騙る企業名候補として提示する(ステップ409)。
なお、本企業名抽出装置の機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。
本発明の一実施形態による企業名抽出装置全体を示すブロック図である。 企業名抽出処理を示すフローチャートである。 HTMLソースに対する企業名抽出処理を示すフローチャートである。 ブラウザ表示テキストに対する企業名抽出処理を示すフローチャートである。 得点算出処理を示すフローチャートである。
符号の説明
1 Webページ表示部
2 企業名抽出部
3 企業データ格納部
4 キーワード格納部
5 閲覧履歴格納部
6 得点格納部
21 HTMLソース取得部
22 デコード処理部
23 HTML解析部
23A タグ情報解析部
23B スタイルシート解析部
23C フォント解析部
23D 画像解析部
24 表示テキスト取得部
25 空白文字処理部
26 企業名カウント処理部
27 表示テキスト解析部
28 得点処理部
31 企業名格納部
32 企業ロゴ格納部
101〜103、201〜210、301〜307、401〜409 ステップ

Claims (10)

  1. 企業名抽出装置において行われる企業名抽出方法であって、
    企業名カウンント処理手段が、WebページのHTMLソースと、企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。
  2. 企業名抽出装置において行われる企業名抽出方法であって、
    企業名カウンント処理手段が、Webページの中で利用者が実際に目にするテキスト情報と、企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。
  3. 企業名抽出装置において行われる企業名抽出方法であって、
    画像比較処理手段が、Webページに含まれる画像と、企業ロゴ格納部に格納されている企業を特徴付ける画像とを比較することにより、該Webページと当該企業の正当なWebページとの類似度を算出し、企業名候補抽出処理手段が、その類似度に応じて当該Webページを騙る企業名の候補として、当該画像に紐付く企業を抽出する、企業名抽出方法。
  4. 企業名抽出装置において行われる企業名抽出方法であって、
    タグ情報解析手段が、WebページのHTMLソース中に含まれるタグ情報を解析し、企業名候補抽出処理手段が、該解析結果により、Webページの作成者による企業名の強調もしくは隠蔽の意図を加味した上で、強調されている企業名を、当該Webページを騙る企業名の候補として抽出し、また、隠蔽されている企業名を候補から除外する、企業名抽出方法。
  5. 前記企業名候補抽出処理手段は、WebページのHTMLソース中にエンコードされた文字列がある場合に、これをデコードした上で企業名抽出を行なう、請求項1、3、4のいずれかに記載の企業名抽出方法。
  6. 企業名抽出装置において行われる企業名抽出方法であって、
    表示テキスト解析手段が、Webページの中で利用者が実際に目にするテキスト情報を解析し、企業名候補抽出処理手段が、企業名が出現する位置に応じて、当該企業名が強調される位置に存在する場合には、これを当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。
  7. 前記企業名候補抽出処理手段は、Webページの中で利用者が実際に目にするテキスト情報に対し、空白文字処理手段が、テキスト中に含まれる空白文字をすべて削除した文字列に対して企業名抽出を行なう、請求項2または6に記載の企業名抽出方法。
  8. 前記企業名候補抽出処理手段は、利用者が過去に閲覧したWebページにおいて企業名抽出を行ない、抽出された企業名を保存しておき、利用者が現在閲覧しているWebページに対する企業名抽出を行なう際に、保存された企業名を利用する、請求項1から7のいずれかに記載の企業名抽出方法。
  9. 得点処理手段が、利用者が閲覧しているWebページについて、抽出された企業名に対し、個々の抽出方法毎に事前に与えられた重みを付与した上で、当該Webページを騙る企業名となる度合いを算出し、その度合いに応じて利用者に対して企業名候補として提示する、請求項1から8のいずれかに記載の企業名抽出方法。
  10. 請求項1から9のいずれかに記載の企業名抽出方法をコンピュータに実行させるためのプログラム。
JP2006247991A 2006-09-13 2006-09-13 企業名抽出方法およびプログラム Expired - Fee Related JP4714117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006247991A JP4714117B2 (ja) 2006-09-13 2006-09-13 企業名抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006247991A JP4714117B2 (ja) 2006-09-13 2006-09-13 企業名抽出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008071040A true JP2008071040A (ja) 2008-03-27
JP4714117B2 JP4714117B2 (ja) 2011-06-29

Family

ID=39292579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006247991A Expired - Fee Related JP4714117B2 (ja) 2006-09-13 2006-09-13 企業名抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4714117B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013251705A (ja) * 2012-05-31 2013-12-12 Kyocera Document Solutions Inc 画像形成装置及びロゴ画像取得システム
JP2015128330A (ja) * 2015-04-08 2015-07-09 京セラドキュメントソリューションズ株式会社 画像形成装置
JP5753302B1 (ja) * 2014-08-25 2015-07-22 株式会社 ディー・エヌ・エー ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200600719002, 柴田賢介(外3名), "電子メールからの接続先企業検出によるフィッシング詐欺対策の提案", 情報処理学会研究報告, 20060316, Vol.2006,No.26, p.7−p.12, JP, 社団法人情報処理学会 *
JPN6010073241, 柴田賢介(外3名), "電子メールからの接続先企業検出によるフィッシング詐欺対策の提案", 情報処理学会研究報告, 20060316, Vol.2006,No.26, p.7−p.12, JP, 社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013251705A (ja) * 2012-05-31 2013-12-12 Kyocera Document Solutions Inc 画像形成装置及びロゴ画像取得システム
JP5753302B1 (ja) * 2014-08-25 2015-07-22 株式会社 ディー・エヌ・エー ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム
JP2016045754A (ja) * 2014-08-25 2016-04-04 株式会社 ディー・エヌ・エー ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム
JP2015128330A (ja) * 2015-04-08 2015-07-09 京セラドキュメントソリューションズ株式会社 画像形成装置

Also Published As

Publication number Publication date
JP4714117B2 (ja) 2011-06-29

Similar Documents

Publication Publication Date Title
Dunlop et al. Goldphish: Using images for content-based phishing analysis
US8355997B2 (en) Method and system for developing a classification tool
JP5387124B2 (ja) コンテンツタイプ検索を行う方法及びシステム
JP5600160B2 (ja) フィッシング疑惑ウェブサイトを識別するための方法及びシステム
US8433704B2 (en) Local item extraction
US8886661B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
US20080131006A1 (en) Pure adversarial approach for identifying text content in images
US20090043767A1 (en) Approach For Application-Specific Duplicate Detection
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
JP5989170B2 (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
KR101507637B1 (ko) 오역의 검출을 지원하는 장치 및 방법
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
KR20080078930A (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
CN114357335A (zh) 信息获取方法、介质、装置和计算设备
US20150339786A1 (en) Forensic system, forensic method, and forensic program
JP4714117B2 (ja) 企業名抽出方法およびプログラム
JP4617243B2 (ja) 情報発信元検証方法および装置
CN103729354B (zh) 网页信息处理方法及装置
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
RU2762241C2 (ru) Система и способ выявления мошеннических активностей при взаимодействии пользователя с банковскими сервисами
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
CN112257408A (zh) 一种文本对比的方法及相关装置
TWI397833B (zh) 偵測網路釣魚網頁的方法及系統

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110325

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees