JP2008071040A - 企業名抽出方法およびプログラム - Google Patents
企業名抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2008071040A JP2008071040A JP2006247991A JP2006247991A JP2008071040A JP 2008071040 A JP2008071040 A JP 2008071040A JP 2006247991 A JP2006247991 A JP 2006247991A JP 2006247991 A JP2006247991 A JP 2006247991A JP 2008071040 A JP2008071040 A JP 2008071040A
- Authority
- JP
- Japan
- Prior art keywords
- company name
- web page
- company
- extraction method
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】まず、企業名抽出部2は、Webページ表示部1に表示されているWebページのHTMLソースに対して企業名の抽出処理を行なう。次に、企業名抽出部2は、Webページ表示部1に表示されているWebページのテキスト部分について、企業名の抽出処理を行なう。これらの処理結果をもとに、得点算出処理を行い、最終的に利用者に対して提示する企業名を絞り込むための処理を行なう。
【選択図】図1
Description
柴田賢介、荒金陽助、塩野入理、金井敦、"電子メールからの接続先企業検出によるフィッシング詐欺対策の提案"、情報処理学会研究報告、2006、3月16日公開、No.26,pp7−12
(1)企業名を表す文字列をページ中に使用せず、企業のロゴ画像を多用することにより、テキストマッチングによる企業名の検索を不可能にする。
(2)Javascriptを用いてエンコードした文字列をHTMLのソースとして記述することにより、HTMLのソース中に現れる企業名を隠蔽する。
(3)背景と同系のフォントカラーを用いた文字や、極めて小さいフォントサイズの文字を使ってWebサイトの内容と無関係の文字列を利用者に見えにくい状態でサイト内に含めることにより、テキストマッチングによる企業名の検索を攪乱する。
(4)企業名を表す文字列の文字と文字の間に空白文字を挿入することにより、文字列単位での企業名の検索を不可能にする。
(5)利用者に個人情報を入力させるフォームを含むフィッシングサイトを正当な企業のWebサイト上にポップアップとして表示し、ポップアップ画面自体には企業名を含まない。
[1]得点が閾値を超えて利用者に提示される企業名を可能な限り絞り込み、利用者が選択する際の選択肢の数を減らす。ただし、Webページを騙る企業名が選択肢から漏れないこととする。
[2]Webページを騙る企業が最も高い得点を獲得し、利用者に対して最上位に表示されることとする。
A)企業の呼称をリスト化したものを事前に用意しておき、WebページのHTMLソースと該リストに含まれる企業名とを比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
B)上記の企業名リストに含まれる企業名と、Webブラウザに表示されているテキスト情報を比較することにより、企業名の出現回数をカウントする。出現回数が多い企業名に高い得点を付与する。
C)企業において利用されているロゴ画像、企業名を表す画像等を事前に用意しておき、Webページ中の画像と上記の画像の類似度を計算し、類似度が高い画像を使用しているWebページに対し、得点を付与する。フィッシングサイトには正当な企業のロゴを流用するという特徴があるため、画像の類似度検索によって企業名の抽出が可能となる。また、手口(1)において示した攻撃手法への対策が可能となる。
D)WebページのHTMLソースに対し、Javascriptによってエンコードされている文字列をデコードし、可読な形式に復元した後にA)の処理を行なう。これにより、手口(2)において示した攻撃手法への対策が可能となる。
E)WebページのHTMLソースに対し、HTMLのタグ情報を考慮し、強調されていると推測される企業名に得点を付与する。考慮するタグ情報の例としては、以下が挙げられる
○ 他と異なるフォントカラーを使用している
○ 他より大きいフォントサイズを使用している
○ 他と異なるフォントを使用している
○ titleタグ等の強調を目的とするタグによって囲まれている
逆に、以下の条件に該当する企業名については、得点を付与しない
○ 背景色と同系のフォントカラーを使用している
○ 他より極めて小さいフォントサイズを使用している
上記の処理は、HTMLにおいてレイアウト情報を記述するために使用されるスタイルシートについても考慮する。上記の処理により、手口(3)において示した攻撃手法への対策が可能となる。
F)Webブラウザに表示されているテキスト情報の中の改行、スペース等の空白文字を削除した文字列に対し、B)の処理を行う。これにより、手口(4)において示した攻撃手法への対策が可能となる。
G)Webブラウザに表示されているテキスト情報の中に含まれる企業名が特定の位置にある場合に、得点を付与する。特定の位置とは、例えばテキスト情報の先頭、末尾部分、事前に用意されたキーワード(例:Copyright、編集、Subject、From)の前後等が挙げられる。
H)過去に利用者が閲覧したWebページにおいて既に抽出されている企業名に得点を付与する。これにより、手口(5)において、利用者が現在アクセスしているWebページに企業名が含まれない場合に、過去の閲覧履歴数ページ分において抽出した企業名を利用して企業名を抽出することが可能となる。
I)上記A)〜H)のルールによって抽出された企業名に対し、ルール毎に重みを付与した上で、企業名毎に総得点を計算し、閾値と比較して利用者に提示する企業名を絞り込む。
(1)最終的に利用者が選択する企業名(Webページを騙る企業名)が抜けることなく候補として抽出されていること
(2)利用者が選択を行なう際に多くの選択肢が表示されることによって混乱を招くことがないように、確からしい候補のみで選択肢を構成すること
(3)利用者が選択を行なう際に容易に選択することができるように、最終的に利用者が選択すると推測される企業名を順位付けによって先頭に表示すること
といった点が守られるように、複数のルールを用いて企業名に得点付けを行ない、閾値との比較とソートによって選択肢の絞込みと順位付けを行なう。これにより、利用者がアクセスするフィッシングサイトが騙る企業名を抽出することが可能となり、当該サイトがどの企業を騙っているのかを特定した上で、当該企業に対応するホワイトリストを用いたURLの正当性検証が可能となる。検証に失敗した場合には、「検証対象のURLは当該企業の正当なURLとして適切ではなく、フィッシングサイトである」と判定することが可能となり、利用者に対して適切な警告を行なうことができる。
2 企業名抽出部
3 企業データ格納部
4 キーワード格納部
5 閲覧履歴格納部
6 得点格納部
21 HTMLソース取得部
22 デコード処理部
23 HTML解析部
23A タグ情報解析部
23B スタイルシート解析部
23C フォント解析部
23D 画像解析部
24 表示テキスト取得部
25 空白文字処理部
26 企業名カウント処理部
27 表示テキスト解析部
28 得点処理部
31 企業名格納部
32 企業ロゴ格納部
101〜103、201〜210、301〜307、401〜409 ステップ
Claims (10)
- 企業名抽出装置において行われる企業名抽出方法であって、
企業名カウンント処理手段が、WebページのHTMLソースと、企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。 - 企業名抽出装置において行われる企業名抽出方法であって、
企業名カウンント処理手段が、Webページの中で利用者が実際に目にするテキスト情報と、企業名格納部に格納されている企業名とを比較することにより、該Webページにおける当該企業名の出現回数をカウントし、企業名候補抽出処理手段が、その出現回数に応じて当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。 - 企業名抽出装置において行われる企業名抽出方法であって、
画像比較処理手段が、Webページに含まれる画像と、企業ロゴ格納部に格納されている企業を特徴付ける画像とを比較することにより、該Webページと当該企業の正当なWebページとの類似度を算出し、企業名候補抽出処理手段が、その類似度に応じて当該Webページを騙る企業名の候補として、当該画像に紐付く企業を抽出する、企業名抽出方法。 - 企業名抽出装置において行われる企業名抽出方法であって、
タグ情報解析手段が、WebページのHTMLソース中に含まれるタグ情報を解析し、企業名候補抽出処理手段が、該解析結果により、Webページの作成者による企業名の強調もしくは隠蔽の意図を加味した上で、強調されている企業名を、当該Webページを騙る企業名の候補として抽出し、また、隠蔽されている企業名を候補から除外する、企業名抽出方法。 - 前記企業名候補抽出処理手段は、WebページのHTMLソース中にエンコードされた文字列がある場合に、これをデコードした上で企業名抽出を行なう、請求項1、3、4のいずれかに記載の企業名抽出方法。
- 企業名抽出装置において行われる企業名抽出方法であって、
表示テキスト解析手段が、Webページの中で利用者が実際に目にするテキスト情報を解析し、企業名候補抽出処理手段が、企業名が出現する位置に応じて、当該企業名が強調される位置に存在する場合には、これを当該Webページを騙る企業名の候補として抽出する、企業名抽出方法。 - 前記企業名候補抽出処理手段は、Webページの中で利用者が実際に目にするテキスト情報に対し、空白文字処理手段が、テキスト中に含まれる空白文字をすべて削除した文字列に対して企業名抽出を行なう、請求項2または6に記載の企業名抽出方法。
- 前記企業名候補抽出処理手段は、利用者が過去に閲覧したWebページにおいて企業名抽出を行ない、抽出された企業名を保存しておき、利用者が現在閲覧しているWebページに対する企業名抽出を行なう際に、保存された企業名を利用する、請求項1から7のいずれかに記載の企業名抽出方法。
- 得点処理手段が、利用者が閲覧しているWebページについて、抽出された企業名に対し、個々の抽出方法毎に事前に与えられた重みを付与した上で、当該Webページを騙る企業名となる度合いを算出し、その度合いに応じて利用者に対して企業名候補として提示する、請求項1から8のいずれかに記載の企業名抽出方法。
- 請求項1から9のいずれかに記載の企業名抽出方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247991A JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247991A JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008071040A true JP2008071040A (ja) | 2008-03-27 |
JP4714117B2 JP4714117B2 (ja) | 2011-06-29 |
Family
ID=39292579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006247991A Expired - Fee Related JP4714117B2 (ja) | 2006-09-13 | 2006-09-13 | 企業名抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4714117B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013251705A (ja) * | 2012-05-31 | 2013-12-12 | Kyocera Document Solutions Inc | 画像形成装置及びロゴ画像取得システム |
JP2015128330A (ja) * | 2015-04-08 | 2015-07-09 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
JP5753302B1 (ja) * | 2014-08-25 | 2015-07-22 | 株式会社 ディー・エヌ・エー | ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム |
-
2006
- 2006-09-13 JP JP2006247991A patent/JP4714117B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
CSNG200600719002, 柴田賢介(外3名), "電子メールからの接続先企業検出によるフィッシング詐欺対策の提案", 情報処理学会研究報告, 20060316, Vol.2006,No.26, p.7−p.12, JP, 社団法人情報処理学会 * |
JPN6010073241, 柴田賢介(外3名), "電子メールからの接続先企業検出によるフィッシング詐欺対策の提案", 情報処理学会研究報告, 20060316, Vol.2006,No.26, p.7−p.12, JP, 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013251705A (ja) * | 2012-05-31 | 2013-12-12 | Kyocera Document Solutions Inc | 画像形成装置及びロゴ画像取得システム |
JP5753302B1 (ja) * | 2014-08-25 | 2015-07-22 | 株式会社 ディー・エヌ・エー | ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム |
JP2016045754A (ja) * | 2014-08-25 | 2016-04-04 | 株式会社 ディー・エヌ・エー | ウェブページへのアクセスを警告するためのプログラム、方法、及びシステム |
JP2015128330A (ja) * | 2015-04-08 | 2015-07-09 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4714117B2 (ja) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dunlop et al. | Goldphish: Using images for content-based phishing analysis | |
US8355997B2 (en) | Method and system for developing a classification tool | |
JP5387124B2 (ja) | コンテンツタイプ検索を行う方法及びシステム | |
JP5600160B2 (ja) | フィッシング疑惑ウェブサイトを識別するための方法及びシステム | |
US8433704B2 (en) | Local item extraction | |
US8886661B2 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
US20080131006A1 (en) | Pure adversarial approach for identifying text content in images | |
US20090043767A1 (en) | Approach For Application-Specific Duplicate Detection | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
KR101507637B1 (ko) | 오역의 검출을 지원하는 장치 및 방법 | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
JP2012088803A (ja) | 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム | |
KR20080078930A (ko) | 관심사를 반영하여 추출한 정보 제공 방법 및 시스템 | |
CN114357335A (zh) | 信息获取方法、介质、装置和计算设备 | |
US20150339786A1 (en) | Forensic system, forensic method, and forensic program | |
JP4714117B2 (ja) | 企業名抽出方法およびプログラム | |
JP4617243B2 (ja) | 情報発信元検証方法および装置 | |
CN103729354B (zh) | 网页信息处理方法及装置 | |
CN113742785A (zh) | 一种网页分类方法、装置、电子设备及存储介质 | |
RU2762241C2 (ru) | Система и способ выявления мошеннических активностей при взаимодействии пользователя с банковскими сервисами | |
CN113992390A (zh) | 一种钓鱼网站的检测方法及装置、存储介质 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
TWI397833B (zh) | 偵測網路釣魚網頁的方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110325 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |